Dansk OCR i C#og .NET

Andre versioner af dette dokument:

IronOCR ist eine C#-Softwarekomponente, die viele Möglichkeiten für .NET-Kunden bietet, um Rechnungen und PDF-Dokumente zu erstellen på 126 sprog, inklusive dansk.

Dies ist eine Weiterentwicklung von Tesseract, die sich an .NET-Audvikler wendet und regelmäßig neue Kunden anspricht Tesseract-motorer for både hastighed og nøjagtighed.

Indhold i IronOcr.Languages.Danish

Denne pakke indeholder 61 OCR-sprog til .NET:

  • dansk
  • DänischBest
  • DanishFast
  • DänischeFraktur

Hent

Dansk sprogpakke [dansk]
* Herunterladen als Lynlås
* Installieren Sie mit
https://www.nuget.org/packages/IronOcr.Languages.Danish/'> NuGet

Einrichtung

Den ersten Schritt, den Sie tun können, ist die Installation von vores danske OCR-Paket für dieses .NET-Projekt.

PM> Install-Package IronOCR.Languages.Danish

Kodeeksempel

Dette C #-kodeeksempel læser dansk tekst fra et billede- eller PDF-dokument.

//PM> Install-Package IronOcr.Languages.Danish
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;
using (var Input = new OcrInput(@"images\Danish.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Danish
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;
using (var Input = new OcrInput(@"images\Danish.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Danish
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Danish
Using Input = New OcrInput("images\Danish.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

Woher kommt IronOCR?

IronOCR er et let at installere, komplet og veldokumenteret .NET softwarebibliotek.

Vælg IronOCR for at opnå 99,8% + OCR-nøjagtighed uden at bruge eksterne webtjenester, løbende gebyrer eller sende fortrolige dokumenter over internettet.

Für C#-Anwender ist IronOCR ein Fremdprodukt für Vanilla Tesseract:

  • Installer som en enkelt DLL eller NuGet
  • Inkluderer til Tesseract 5, 4 og 3 motorer ud af kassen.
  • Nøjagtighed 99,8% overgår signifikant Tesseract.
  • Flammende hastighed og multitrådning
  • MVC, WebApp, Desktop, Konsole & Server Anwendung kompatibel
  • Ingen Exes eller C ++ kode at arbejde med
  • Fuld PDF OCR-unterstøttelse
  • Bei der OCR-Erkennung werden Billedfilme oder PDF-Dateien verbessert
  • Unterstützung von .NET Core, Standard und FrameWork
  • Implementierung unter Windows, Mac, Linux, Azure, Docker, Lambda, AWS
  • Læs stregkoder og QR-koder
  • Eksporter OCR som til XHTML
  • Eksporter OCR til søgbare PDF-dokumenter
  • Unterstützung von Multithreading
  • 126 internationale Sprog styres alle über NuGet- oder OcrData-Filer
  • Uddrag billeder, koordinater, statistikker og skrifttyper. Ikke kun tekst.
  • Sie können Tesseract OCR inden für kommerzielle und eigene Anwendungen einsetzen.

IronOCR skinner, når du arbejder med billeder fra den virkelige verden og ufuldkomne dokumenter såsom fotografier eller scanninger med lav opløsning, der kan have digital støj eller ufuldkommenheder.

Andre kostenlose OCR- biblioteker til .NET-platformen, som andre .net tesseract API'er og webtjenester, klarer sig ikke så godt på disse sager i den virkelige verden.

OCR med Tesseract 5 - Start kodning i C #

Kodeprøven nedenfor viser, hvor let det er at læse tekst fra et billede ved hjælp af C#eller VB .NET.

OneLiner

string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
VB   C#

Konfigurerbar Hallo Welt

// PM> Install-Package IronOCR.Languages.Danish
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... du kan tilføje et vilkårligt antal billeder
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Danish
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... du kan tilføje et vilkårligt antal billeder
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Danish
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Danish
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

C#PDF OCR

Der gleiche Weg kann bis zur Erstellung eines PDF-Dokuments zurückgelegt werden.

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Vi kan også vælge specifikke PDF-sidenumre til OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 side for hver side i PDF-filen
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Vi kan også vælge specifikke PDF-sidenumre til OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 side for hver side i PDF-filen
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Danish
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' Vi kan også vælge specifikke PDF-sidenumre til OCR

Dim Result = Ocr.Read(input)

Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' 1 side for hver side i PDF-filen
End Using
VB   C#

OCR bis Mehrseiten-TIFF'er

OCR-læsning af TIFF-filformat inklusive dokumenter på flere sider. TIFF kann auch direkt in eine PDF-Datei umgewandelt werden med søgbar tekst.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Danish

Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Stregkoder und QR

IronOCR ist ein einzigartiges Hilfsmittel, mit dem der Scanner nach dem Scannen von Dokumenten auch QR-Kodes auslesen kann tekst. Forekomster af OcrResult.OcrBarcode klassen giver udvikleren detaljerede oplysninger om hver scannet stregkode.

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// type og placeringsegenskaber også eksponeret
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// type og placeringsegenskaber også eksponeret
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True

Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' type og placeringsegenskaber også eksponeret
Next Barcode
End Using
VB   C#

OCR om bestemte områder af billeder

Alle IronOCR' s scannings- og læsemetoder giver mulighed for at specificere nøjagtigt hvilken del af en eller flere sider, vi ønsker at læse tekst fra. Dette er meget nyttigt, når vi ser på standardiserede formularer og kan spare meget tid og forbedre effektiviteten.

Für die Herstellung von Nachteilen können Sie einen Systembezug zu folgenden Punkten herstellen System.Zeichnung så vi kan bruge objekt System.Drawing.Rectangle .

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Dimensionerne er i px

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Dimensionerne er i px

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Danish

Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
	.X = 215,
	.Y = 1250,
	.Height = 280,
	.Width = 1335
}
' Dimensionerne er i px

Input.Add("document.png", ContentArea)

Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR til scanninger af lav kvalitet

IronOCR OcrInput klassen kan rette scanninger, som normal Tesseract ikke kan læse.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // løser digital støj og dårlig scanning
Input.Deskew(); // løser rotation og perspektiv
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // løser digital støj og dårlig scanning
Input.Deskew(); // løser rotation og perspektiv
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Danish

Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' løser digital støj og dårlig scanning
Input.Deskew() ' løser rotation og perspektiv
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Eksporter OCR-resultater som en søgbar PDF

Billede til PDF med kopierbare tekststrenge. Kan indekseres af søgemaskiner og databaser.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Danish

Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")

Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

TIFF bis zur PDF-Konvertierung (søgbar)

C Konverter und TIFF-Dokumente (eller en hvilken som helst gruppe billedfiler) direkt zu einem søgbar PDF, der kann indekseres af intranet, websted og google-søgemaskiner.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Danish

Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

Eksporter OCR-resultater som HTML

OCR-Konvertierung von Bilanzen nach XHTML.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Danish
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
VB   C#

OCR-Filtre til billedforbedring

IronOCR hebt unikke filtre til OcrInput objekter for at forbedre OCR-ydeevne.

Eksempel på billedforbedringskode

Gør OCR-inputbilleder af højere kvalitet for at give bedre, hurtigere OCR-resultater.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // løser digital støj og dårlig scanning
Input.Deskew(); // løser rotation og perspektiv
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // løser digital støj og dårlig scanning
Input.Deskew(); // løser rotation og perspektiv
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Danish

Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' løser digital støj og dårlig scanning
Input.Deskew() ' løser rotation og perspektiv
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Liste über OCR-Billigfiltre

Inputfiltre til forbedring af OCR-ydeevne, som er indbygget i IronOCR, inkluderer:

  • OcrInput.Rotate (dobbelsortierer) - Roterer billeder med et antal grader med uret. Brug negative tal mod uret.
  • OcrInput.Binarize () - Dette billedfilter gør hver pixel sort eller hvid uden mellemgrund. Kan forbedre OCR-ydeevne med meget lav kontrast mellem tekst og baggrund.
  • OcrInput.ToGrayScale () - Dette billedfilter forvandler hver pixel til en gråtoneskygge. Det forbedrer sandsynligvis ikke OCR-nøjagtigheden, men forbedrer muligvis hastigheden
  • OcrInput.Contrast () - Øger kontrasten automatisk. Dette filter forbedrer ofte OCR-hastighed og nøjagtighed i scanninger med lav kontrast.
  • OcrInput.DeNoise () - Fjerner digital støj. Dette filter bør kun bruges, hvor der forventes støj.
  • OcrInput.Invertieren () - Inverterer hver farve. F.eks. Bliver hvid sort: sort bliver hvid.
  • OcrInput.Dilate () - Avanceret morfologi. Udvidelse tilføjer pixel til grænserne for objekter i et billede. Modsat af Erode
  • OcrInput.Erode () - Avanceret morfologi. Erosion fjerner pixel på objektgrænserOpposite of Dilate
  • OcrInput.Deskew () - Roterer et billede, så det er den rigtige vej op og vinkelret. Dette er meget nyttigt for OCR, fordi Tesseract-tolerance for skævede scanninger kan være så lave som 5 grader.
  • OcrInput.DeepCleanBackgroundNoise () - Fjernelse af kraftig baggrundsstøj. Brug kun dette filter, hvis ekstrem dokumentbaggrundsstøj er kendt, fordi dette filter også risikerer at reducere OCR-nøjagtigheden af rene dokumenter og er meget CPU-dyrt.
  • OcrInput.EnhanceResolution - Forbedrer opløsningen af billeder i lav kvalitet. Dette filter er ikke ofte nødvendigt, fordi OcrInput.MinimumDPI og OcrInput.TargetDPI automatischer Fänger und løser input med lav opløsning.

Ren baggrund Støj. Dette er en indstilling, der er noget tidskrævende; det tillader imidlertid biblioteket automatisk at rense digital støj, papirkrøller og andre ufuldkommenheder i et digitalt billede, som ellers ville gøre det ude af stand til at blive læst af andre OCR-biblioteker.

EnhanceContrast er en indstilling, der IronOCR dazu veranlasst, automatisch den Kontrast der Grafik zu ändern baggrund af et billede, hvilket øger nøjagtigheden af OCR og generelt øger ydeevnen og OCR-hastigheden.

EnhanceResolution er en indstilling, der automatisk registrerer billeder i lav opløsning (som er unter 275 dpi) og automatisk opskalerer billedet og derefter skærper al teksten, så den kan læses perfekt af et OCR-bibliotek. Wenn der Vorgang selbst nicht abgeschlossen ist, wird die gleiche Zeitspanne auf eine andere Zeitspanne verkürzt OCR-operation på et billede.

Sprache IronOCR unterhält 22 internationale Sprogpakker, und Sprogindstillingen kann bis zu at vælge et eller flere flere sprog, der skal anvendes til en OCR-handling.

Strategi IronOCR versteht sich als Stratege. Vi kan vælge enten at gå til en hurtig og mindre nøjagtig scanning af et dokument eller bruge en avanceret strategi, der bruger nogle kunstige intelligensmodeller til automatisk at forbedre nøjagtigheden af OCR-tekst ved at se på det statistiske forhold af ord til hinanden i en sætning .

Farbraum er en indstilling, hvorved vi kan vælge at OCR i gråtoner eller farve. Generelt er gråtoner den bedste løsning. Auch wenn es sich um ein technisches Gerät oder um eine Tasche mit einer bestimmten Nuance handelt, gibt es viele Möglichkeiten forskellige farver, vil et farverum i fuld farve give bedre resultater.

DetectWhiteTextOnDarkBackgrounds. Generelt forventer alle OCR-biblioteker at se sort tekst på hvid baggrund. Diese Einstellung ermöglicht es IronOCR, automatisch negative oder negative Kommentare zu registrieren hvid tekst og læse dem.

EingabeBildTyp. Denne indstilling giver udvikleren mulighed for at guide OCR-biblioteket om, hvorvidt den ser på et komplet dokument eller et uddrag, f.eks. Et skærmbillede.

RotateAndStraighten er en avanceret indstilling, der IronOCR den unikke evne til at læse gibt dokumenter, der ikke kun roteres, men måske indeholder perspektiv, såsom fotografier af tekstdokumenter.

ReadBarcodes er en nyttig funktion, der gør det muligt for IronOCR automatisk at læse stregkoder og QR-koder på sider, da det også læser tekst uden at tilføje en stor ekstra tidsbyrde.

Farvedybde. Denne indstilling bestemmer, hvor mange bits pr. Pixel OCR-biblioteket skal bruge til at bestemme dybden af en farve. En højere farvedybde kan øge OCR-kvaliteten, men vil også øge den tid, der kræves for OCR-operationen at fuldføre.

126 Froschperspektive

IronOCR Unterstøtter 126 internationaler Frosch über sprogpakker, der som DLL'er vertreibt, som kan downloads aus dieser Website eller også fra NuGet-Paketmanager .

Sprog inkluderer tysk, fransk, engelsk, kinesisk, japansk og mange flere. Der findes specialsprogspakker til pas-MRZ, MICR-Kontrolle, Finanzdaten, Nummernvergabe und viele andere Dinge. Sie können auch eine Verbesserung von Tesseract vornehmen ".traineddata" -fil - inklusive dem, du selv opretter.

Sprogeksempel

Brug af andre OCR-sprog.

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Tilføj om nødvendigt billedfiltre
// I dette tilfælde er selv tænkt input meget lav kvalitet
// IronTesseract kan læse, hvad konventionel Tesseract ikke kan.

var Result = Ocr.Read(input);

// Konsollen kan ikke udskrive arabisk på Windows let.
// Lad os gemme på disk i stedet.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Tilføj om nødvendigt billedfiltre
// I dette tilfælde er selv tænkt input meget lav kvalitet
// IronTesseract kan læse, hvad konventionel Tesseract ikke kan.

var Result = Ocr.Read(input);

// Konsollen kan ikke udskrive arabisk på Windows let.
// Lad os gemme på disk i stedet.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' Tilføj om nødvendigt billedfiltre
' I dette tilfælde er selv tænkt input meget lav kvalitet
' IronTesseract kan læse, hvad konventionel Tesseract ikke kan.

Dim Result = Ocr.Read(input)

' Konsollen kan ikke udskrive arabisk på Windows let.
' Lad os gemme på disk i stedet.
Result.SaveAsTextFile("arabic.txt")
End Using
VB   C#

Eksempel på flere sprog

Es gibt viele Möglichkeiten, OCR mit Hilfe eines anderen Ausdrucks zu verwenden. Dette kan virkelig hjælpe med at få engelsksprogede metadata og webadresser i Unicode-dokumenter.

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Danish);

// Vi kan tilføje et hvilket som helst antal sprog

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Danish);

// Vi kan tilføje et hvilket som helst antal sprog

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Danish)

' Vi kan tilføje et hvilket som helst antal sprog

Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
VB   C#

Detaillierte OCR-Resultatobjekter

IronOCR liefert ein OCR-Resultatobjekt für eine OCR-Operation. Generelt bruger udviklere kun dette objekts tekstegenskab for at få teksten scannet fra billedet. OCR-Resultaterne DOM er dog meget mere avancerede end dette.

using IronOcr;
using System.Drawing; //Tilføj monteringsreference

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!Vigtig

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Udforsk her for at finde en massiv, detaljeret API:
// - Sider, blokke, parafafer, linjer, ord, tegn
// - Billedeksport, skrifttypekoordinater, statistiske data
}
using IronOcr;
using System.Drawing; //Tilføj monteringsreference

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!Vigtig

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Udforsk her for at finde en massiv, detaljeret API:
// - Sider, blokke, parafafer, linjer, ord, tegn
// - Billedeksport, skrifttypekoordinater, statistiske data
}
Imports IronOcr
Imports System.Drawing 'Tilføj monteringsreference

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Danish
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '!Vigtig

Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages (0).Words
Dim Barcodes = Result.Barcodes
' Udforsk her for at finde en massiv, detaljeret API:
' - Sider, blokke, parafafer, linjer, ord, tegn
' - Billedeksport, skrifttypekoordinater, statistiske data
End Using
VB   C#

Ydeevne

IronOCR fungiert als Ansprechpartner, wenn es darum geht, die eigene Leistung zu verbessern.

Die Geschwindigkeit ist gigantisch: IronOCR.2020 + ist bis zu 10 Mal schneller und bietet mehr als 250 % mehr Leistung bei allen Builds.

Lær mere

Um OCR in C#, VB, F# oder einem anderen .NET-Spross zu erkennen, müssen Sie læse vores community-tutorials , der gibt Beispiele für die verschiedenen Bereiche, in denen IronOCR sich ausbreiten kann und in denen es neue Möglichkeiten bietet, wenn Sie sich für einen bestimmten Bereich entscheiden det bedste ud af dette bibliotek.

Vollständig objektreferenz für .NET-udviklere er også tilgængelig.