Dansk OCR i C#og .NET

Andre versioner af dette dokument:

IronOCR er en C#softwarekomponent, der gør det muligt for .NET-kodere at læse tekst fra billeder og PDF-dokumenter på 126 sprog, inklusive dansk.

Det er en avanceret gaffel af Tesseract, bygget udelukkende til .NET-udviklerne og overgår regelmæssigt andre Tesseract-motorer for både hastighed og nøjagtighed.

Indhold i IronOcr.Languages.Danish

Denne pakke indeholder 61 OCR-sprog til .NET:

  • dansk
  • DanishBest
  • DanishFast
  • DanishFraktur

Hent

Dansk sprogpakke [dansk]
* Download as Lynlås
* Install with
https://www.nuget.org/packages/IronOcr.Languages.Danish/'> NuGet

Installation

Den første ting, vi skal gøre, er at installere vores danske OCR-pakke til dit .NET-projekt.

PM> Install-Package IronOCR.Languages.Danish

Kodeeksempel

Dette C #-kodeeksempel læser dansk tekst fra et billede- eller PDF-dokument.

//PM> Install-Package IronOcr.Languages.Danish
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;
using (var Input = new OcrInput(@"images\Danish.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Danish
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;
using (var Input = new OcrInput(@"images\Danish.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Danish
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Danish
Using Input = New OcrInput("images\Danish.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

Hvorfor vælge IronOCR?

IronOCR er et let at installere, komplet og veldokumenteret .NET softwarebibliotek.

Vælg IronOCR for at opnå 99,8% + OCR-nøjagtighed uden at bruge eksterne webtjenester, løbende gebyrer eller sende fortrolige dokumenter over internettet.

Hvorfor C#-udviklere vælger IronOCR frem for Vanilla Tesseract:

  • Installer som en enkelt DLL eller NuGet
  • Inkluderer til Tesseract 5, 4 og 3 motorer ud af kassen.
  • Nøjagtighed 99,8% overgår signifikant Tesseract.
  • Flammende hastighed og multitrådning
  • MVC, WebApp, Desktop, Console & Server Application kompatibel
  • Ingen Exes eller C ++ kode at arbejde med
  • Fuld PDF OCR-understøttelse
  • At udføre OCR næsten enhver billedfil eller PDF
  • Fuld.NET Core, Standard og FrameWork support
  • Implementere på Windows, Mac, Linux, Azure, Docker, Lambda, AWS
  • Læs stregkoder og QR-koder
  • Eksporter OCR som til XHTML
  • Eksporter OCR til søgbare PDF-dokumenter
  • Multithreading support
  • 126 internationale sprog styres alle via NuGet- eller OcrData-filer
  • Uddrag billeder, koordinater, statistikker og skrifttyper. Ikke kun tekst.
  • Kan bruges til at omfordele Tesseract OCR inden for kommercielle og proprietære applikationer.

IronOCR skinner, når du arbejder med billeder fra den virkelige verden og ufuldkomne dokumenter såsom fotografier eller scanninger med lav opløsning, der kan have digital støj eller ufuldkommenheder.

Andre gratis OCR- biblioteker til .NET-platformen, som andre .net tesseract API'er og webtjenester, klarer sig ikke så godt på disse sager i den virkelige verden.

OCR med Tesseract 5 - Start kodning i C #

Kodeprøven nedenfor viser, hvor let det er at læse tekst fra et billede ved hjælp af C#eller VB .NET.

OneLiner

string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
VB   C#

Konfigurerbar Hello World

// PM> Install-Package IronOCR.Languages.Danish
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... du kan tilføje et vilkårligt antal billeder
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Danish
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... du kan tilføje et vilkårligt antal billeder
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Danish
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Danish
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

C#PDF OCR

Den samme tilgang kan ligeledes bruges til at udtrække tekst fra ethvert PDF-dokument.

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Vi kan også vælge specifikke PDF-sidenumre til OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 side for hver side i PDF-filen
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Vi kan også vælge specifikke PDF-sidenumre til OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 side for hver side i PDF-filen
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Danish
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' Vi kan også vælge specifikke PDF-sidenumre til OCR

Dim Result = Ocr.Read(input)

Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' 1 side for hver side i PDF-filen
End Using
VB   C#

OCR til MultiPage TIFF'er

OCR-læsning af TIFF-filformat inklusive dokumenter på flere sider. TIFF kan også konverteres direkte til en PDF-fil med søgbar tekst.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Danish

Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Stregkoder og QR

En unik egenskab ved IronOCR er, at den kan læse stregkoder og QR-koder fra dokumenter, mens den scanner efter tekst. Forekomster af OcrResult.OcrBarcode klassen giver udvikleren detaljerede oplysninger om hver scannet stregkode.

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// type og placeringsegenskaber også eksponeret
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// type og placeringsegenskaber også eksponeret
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True

Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' type og placeringsegenskaber også eksponeret
Next Barcode
End Using
VB   C#

OCR om bestemte områder af billeder

Alle IronOCR's scannings- og læsemetoder giver mulighed for at specificere nøjagtigt hvilken del af en eller flere sider, vi ønsker at læse tekst fra. Dette er meget nyttigt, når vi ser på standardiserede formularer og kan spare meget tid og forbedre effektiviteten.

For at bruge afgrødeområder skal vi tilføje en systemreference til System.Drawing så vi kan bruge objektet System.Drawing.Rectangle .

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Dimensionerne er i px

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Dimensionerne er i px

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Danish

Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
	.X = 215,
	.Y = 1250,
	.Height = 280,
	.Width = 1335
}
' Dimensionerne er i px

Input.Add("document.png", ContentArea)

Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR til scanninger af lav kvalitet

IronOCR OcrInput klassen kan rette scanninger, som normal Tesseract ikke kan læse.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // løser digital støj og dårlig scanning
Input.Deskew(); // løser rotation og perspektiv
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // løser digital støj og dårlig scanning
Input.Deskew(); // løser rotation og perspektiv
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Danish

Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' løser digital støj og dårlig scanning
Input.Deskew() ' løser rotation og perspektiv
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Eksporter OCR-resultater som en søgbar PDF

Billede til PDF med kopierbare tekststrenge. Kan indekseres af søgemaskiner og databaser.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Danish

Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")

Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

TIFF til søgbar PDF-konvertering

C Konverter et TIFF-dokument (eller en hvilken som helst gruppe billedfiler) direkte til en søgbar PDF, der kan indekseres af intranet, websted og google-søgemaskiner.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Danish

Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

Eksporter OCR-resultater som HTML

OCR-konvertering af billede til XHTML.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Danish
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
VB   C#

OCR-filtre til billedforbedring

IronOCR leverer unikke filtre til OcrInput objekter for at forbedre OCR-ydeevne.

Eksempel på billedforbedringskode

Gør OCR-inputbilleder af højere kvalitet for at give bedre, hurtigere OCR-resultater.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // løser digital støj og dårlig scanning
Input.Deskew(); // løser rotation og perspektiv
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // løser digital støj og dårlig scanning
Input.Deskew(); // løser rotation og perspektiv
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Danish

Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' løser digital støj og dårlig scanning
Input.Deskew() ' løser rotation og perspektiv
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Liste over OCR-billedfiltre

Inputfiltre til forbedring af OCR-ydeevne, som er indbygget i IronOCR, inkluderer:

  • OcrInput.Rotate (dobbelt grader) - Roterer billeder med et antal grader med uret. Brug negative tal mod uret.
  • OcrInput.Binarize () - Dette billedfilter gør hver pixel sort eller hvid uden mellemgrund. Kan forbedre OCR-ydeevne med meget lav kontrast mellem tekst og baggrund.
  • OcrInput.ToGrayScale () - Dette billedfilter forvandler hver pixel til en gråtoneskygge. Det forbedrer sandsynligvis ikke OCR-nøjagtigheden, men forbedrer muligvis hastigheden
  • OcrInput.Contrast () - Øger kontrasten automatisk. Dette filter forbedrer ofte OCR-hastighed og nøjagtighed i scanninger med lav kontrast.
  • OcrInput.DeNoise () - Fjerner digital støj. Dette filter bør kun bruges, hvor der forventes støj.
  • OcrInput.Invert () - Inverterer hver farve. F.eks. Bliver hvid sort: sort bliver hvid.
  • OcrInput.Dilate () - Avanceret morfologi. Udvidelse tilføjer pixels til grænserne for objekter i et billede. Modsat af Erode
  • OcrInput.Erode () - Avanceret morfologi. Erosion fjerner pixels på objektgrænserOpposite of Dilate
  • OcrInput.Deskew () - Roterer et billede, så det er den rigtige vej op og vinkelret. Dette er meget nyttigt for OCR, fordi Tesseract-tolerance for skævede scanninger kan være så lave som 5 grader.
  • OcrInput.DeepCleanBackgroundNoise () - Fjernelse af kraftig baggrundsstøj. Brug kun dette filter, hvis ekstrem dokumentbaggrundsstøj er kendt, fordi dette filter også risikerer at reducere OCR-nøjagtigheden af rene dokumenter og er meget CPU-dyrt.
  • OcrInput.EnhanceResolution - Forbedrer opløsningen af billeder i lav kvalitet. Dette filter er ikke ofte nødvendigt, fordi OcrInput.MinimumDPI og OcrInput.TargetDPI automatisk fanger og løser input med lav opløsning.

Ren baggrund Støj. Dette er en indstilling, der er noget tidskrævende; det tillader imidlertid biblioteket automatisk at rense digital støj, papirkrøller og andre ufuldkommenheder i et digitalt billede, som ellers ville gøre det ude af stand til at blive læst af andre OCR-biblioteker.

EnhanceContrast er en indstilling, der får IronOCR til automatisk at øge kontrasten af tekst på baggrund af et billede, hvilket øger nøjagtigheden af OCR og generelt øger ydeevnen og OCR-hastigheden.

EnhanceResolution er en indstilling, der automatisk registrerer billeder i lav opløsning (som er under 275 dpi) og automatisk opskalerer billedet og derefter skærper al teksten, så den kan læses perfekt af et OCR-bibliotek. Selvom denne operation i sig selv er tidskrævende, reducerer den generelt den samlede tid til en OCR-operation på et billede.

Language IronOCR understøtter 22 internationale sprogpakker, og sprogindstillingen kan bruges til at vælge et eller flere flere sprog, der skal anvendes til en OCR-handling.

Strategi IronOCR understøtter to strategier. Vi kan vælge enten at gå til en hurtig og mindre nøjagtig scanning af et dokument eller bruge en avanceret strategi, der bruger nogle kunstige intelligensmodeller til automatisk at forbedre nøjagtigheden af OCR-tekst ved at se på det statistiske forhold af ord til hinanden i en sætning .

ColorSpace er en indstilling, hvorved vi kan vælge at OCR i gråtoner eller farve. Generelt er gråtoner den bedste løsning. Men nogle gange, når der er tekster eller baggrunde med lignende nuance, men meget forskellige farver, vil et farverum i fuld farve give bedre resultater.

DetectWhiteTextOnDarkBackgrounds. Generelt forventer alle OCR-biblioteker at se sort tekst på hvid baggrund. Denne indstilling gør det muligt for IronOCR automatisk at registrere negativer eller mørke sider med hvid tekst og læse dem.

InputImageType. Denne indstilling giver udvikleren mulighed for at guide OCR-biblioteket om, hvorvidt den ser på et komplet dokument eller et uddrag, f.eks. Et skærmbillede.

RotateAndStraighten er en avanceret indstilling, der giver IronOCR den unikke evne til at læse dokumenter, der ikke kun roteres, men måske indeholder perspektiv, såsom fotografier af tekstdokumenter.

ReadBarcodes er en nyttig funktion, der gør det muligt for IronOCR automatisk at læse stregkoder og QR-koder på sider, da det også læser tekst uden at tilføje en stor ekstra tidsbyrde.

Farvedybde. Denne indstilling bestemmer, hvor mange bits pr. Pixel OCR-biblioteket skal bruge til at bestemme dybden af en farve. En højere farvedybde kan øge OCR-kvaliteten, men vil også øge den tid, der kræves for OCR-operationen at fuldføre.

126 sprogpakker

IronOCR understøtter 126 internationale sprog via sprogpakker, der distribueres som DLL'er, som kan downloades fra dette websted eller også fra NuGet Package Manager .

Sprog inkluderer tysk, fransk, engelsk, kinesisk, japansk og mange flere. Der findes specialsprogspakker til pas-MRZ, MICR-kontrol, finansielle data, nummerplader og mange flere. Du kan også bruge enhver tesseract ".traineddata" -fil - inklusive dem, du selv opretter.

Sprogeksempel

Brug af andre OCR-sprog.

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Tilføj om nødvendigt billedfiltre
// I dette tilfælde er selv tænkt input meget lav kvalitet
// IronTesseract kan læse, hvad konventionel Tesseract ikke kan.

var Result = Ocr.Read(input);

// Konsollen kan ikke udskrive arabisk på Windows let.
// Lad os gemme på disk i stedet.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Tilføj om nødvendigt billedfiltre
// I dette tilfælde er selv tænkt input meget lav kvalitet
// IronTesseract kan læse, hvad konventionel Tesseract ikke kan.

var Result = Ocr.Read(input);

// Konsollen kan ikke udskrive arabisk på Windows let.
// Lad os gemme på disk i stedet.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' Tilføj om nødvendigt billedfiltre
' I dette tilfælde er selv tænkt input meget lav kvalitet
' IronTesseract kan læse, hvad konventionel Tesseract ikke kan.

Dim Result = Ocr.Read(input)

' Konsollen kan ikke udskrive arabisk på Windows let.
' Lad os gemme på disk i stedet.
Result.SaveAsTextFile("arabic.txt")
End Using
VB   C#

Eksempel på flere sprog

Det er også muligt at OCR ved hjælp af flere sprog på samme tid. Dette kan virkelig hjælpe med at få engelsksprogede metadata og webadresser i Unicode-dokumenter.

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Danish);

// Vi kan tilføje et hvilket som helst antal sprog

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Danish);

// Vi kan tilføje et hvilket som helst antal sprog

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Danish)

' Vi kan tilføje et hvilket som helst antal sprog

Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
VB   C#

Detaljerede OCR-resultatobjekter

IronOCR returnerer et OCR-resultatobjekt for hver OCR-operation. Generelt bruger udviklere kun dette objekts tekstegenskab for at få teksten scannet fra billedet. OCR-resultaterne DOM er dog meget mere avancerede end dette.

using IronOcr;
using System.Drawing; //Tilføj monteringsreference

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!Vigtig

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// Udforsk her for at finde en massiv, detaljeret API:
// - Sider, blokke, parafafer, linjer, ord, tegn
// - Billedeksport, skrifttypekoordinater, statistiske data
}
using IronOcr;
using System.Drawing; //Tilføj monteringsreference

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Danish;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!Vigtig

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// Udforsk her for at finde en massiv, detaljeret API:
// - Sider, blokke, parafafer, linjer, ord, tegn
// - Billedeksport, skrifttypekoordinater, statistiske data
}
Imports IronOcr
Imports System.Drawing 'Tilføj monteringsreference

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Danish
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '!Vigtig

Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages(0).Words
Dim Barcodes = Result.Barcodes
' Udforsk her for at finde en massiv, detaljeret API:
' - Sider, blokke, parafafer, linjer, ord, tegn
' - Billedeksport, skrifttypekoordinater, statistiske data
End Using
VB   C#

Ydeevne

IronOCR fungerer uden for æsken uden behov for at tune eller ændre indgangsbilleder kraftigt.

Speed is Blazing: IronOcr.2020 + er op til 10 gange hurtigere og gør over 250% færre fejl end tidligere builds.

Lær mere

For at lære mere om OCR i C #, VB, F # eller ethvert andet .NET-sprog, bedes du læse vores community-tutorials , der giver eksempler på den virkelige verden af, hvordan IronOCR kan bruges og kan vise nuancerne i, hvordan du får det bedste ud af dette bibliotek.

En komplet objektreference for .NET-udviklere er også tilgængelig.