OCR català a C#i .NET

Andere Versionen dieses Dokuments:

IronOCR ist eine C#-Programmierkomponente, mit der Codierer in .NET Bildtexte und PDF-Dokumente in die Datenbank einlesen können 126 idiomes, inclòs el català.

Es handelt sich um eine moderne Tesseract-Forschung, die ausschließlich für Entwickler von .NET entwickelt wurde und die die folgenden Anforderungen übertrifft regularment altres motors Tesseract tant per velocitat com per precisió.

Contingut d'IronOcr.Languages.Catalan

Dieses Paket enthält 46 OCR-Idiome für .NET:

  • Català
  • CatalàMillor
  • KatalanischSchnell

descarregar

Paquet de llengua catalana [català]
* Herunterladen als Cremallera
* Installieren mit
https://www.nuget.org/packages/IronOcr.Languages.Catalan/'> NuGet

Instal-lació

Das Wichtigste ist, dass Sie unser OCR-Paket auf Ihrem Computer installieren català al vostre projecte .NET.

PM> Install-Package IronOCR.Languages.Catalan

Beispiel für eine Kodierung

Dieses Beispiel eines C#-Codes löst den katalanischen Text eines Bild- oder PDF-Dokuments.

//PM> Install-Package IronOcr.Languages.Catalan
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Catalan;
using (var Input = new OcrInput(@"images\Catalan.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Catalan
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Catalan;
using (var Input = new OcrInput(@"images\Catalan.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Catalan
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Catalan
Using Input = New OcrInput("images\Catalan.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

Wozu IronOCR?

IronOCR ist eine einfach zu installierende, vollständige und gut dokumentierte Programmbibliothek für .NET.

Trieu IronOCR per aconseguir una genauigkeit von 99,8% + OCR sense utilitzar cap servei web extern, tarifes en curs ni enviar documents confidencials per Internet.

Warum sollten C#-Entwickler IronOCR sobre Vanilla Tesseract verwenden?

  • Installieren Sie die NuGet-DLL mit einer einzigen DLL
  • Dazu gehören die Motoren Tesseract 5, 4 und 3 vor der Wand.
  • La precisió del 99,8% supera significativament el Tesseract normal.
  • Höhere Geschwindigkeit und MultiThreading
  • Kompatibel mit MVC-Anwendungen, WebApps, Skripten, Konsolen und Servern
  • No hi ha codi Exes ni C ++ per treballar
  • Vollständige OCR-Unterstützung im PDF-Format
  • Per realitzar OCR gairebé qualsevol fitxer d'imatge o PDF
  • Komplette Unterstützung für .NET Core, Standard i FrameWork
  • Implementierung von Windows, Mac, Linux, Azure, Docker, Lambda, AWS
  • Llegiu codis de barres i codis QR
  • OCR und XHTML exportieren
  • Exporteu OCR a documents PDF que es poden cercar
  • Unterstützung von Multithreading
  • 126 internationale Sprachen, die mit NuGet oder OcrData kompatibel sind
  • Extreu imatges, coordenades, estadístiques i tipus de lletra. No només text.
  • Sie können Tesseract OCR in kommerziellen und eigenen Anwendungen weiterverteilen.

L'OCR de ferro brilla quan es treballa amb imatges del món real i documents imperfectes com ara fotografies o escaneigs de baixa resolució que poden tenir sorolls o imperfeccions digitals.

Andere Biblioteken OCR-Gratis per la plataforma .NET, com ara altres API i serveis web de tesseract .net, no funcionen tan bé en aquests casos d’ús del món real.

OCR amb Tesseract 5: inicia la codificació en C #

L'exemple de codi següent mostra la facilitat de llegir text d'una imatge amb C#o VB .NET.

OneLiner

string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
VB   C#

Konfigurierbare Hallo-Welt

// PM> Install-Package IronOCR.Languages.Catalan
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Catalan;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... podeu afegir qualsevol nombre d'imatges
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Catalan
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Catalan;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... podeu afegir qualsevol nombre d'imatges
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Catalan
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Catalan
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

C#PDF OCR

Das Hauptaugenmerk liegt auf der Möglichkeit, den Text eines bestimmten PDF-Dokuments auf ähnliche Weise zu verwenden.

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Catalan;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// També podem seleccionar números de pàgines PDF específics per a OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 pàgina per a cada pàgina del PDF
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Catalan;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// També podem seleccionar números de pàgines PDF específics per a OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 pàgina per a cada pàgina del PDF
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Catalan
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' També podem seleccionar números de pàgines PDF específics per a OCR

Dim Result = Ocr.Read(input)

Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' 1 pàgina per a cada pàgina del PDF
End Using
VB   C#

OCR per TIFF-MultiPage

Lectura OCR en format de fitxer TIFF que inclou documents de diverses pàgines. TIFF kann auch konvertiert werden directament en un fitxer PDF amb text de cerca.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Catalan;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Catalan;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Catalan

Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Codis de barres i QR

Eine Besonderheit von IronOCR besteht darin, dass Barcodes und QR-Codes von Dokumenten auch während des laufenden Prozesses übertragen werden können text. Les instàncies de la classe OcrResult.OcrBarcode dem Entwickler Informationen zur Verfügung stellen detallada sobre cada codi de barres escanejat.

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// també s’exposen propietats de tipus i ubicació
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// també s’exposen propietats de tipus i ubicació
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True

Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' també s'exposen propietats de tipus i ubicació
Next Barcode
End Using
VB   C#

OCR sobre àrees específiques d'imatges

Alle Lektüre- und Begleitfunktionen von IronOCR bieten die Möglichkeit, die genaue Art der Anwendung zu spezifizieren welcher Teil des Textes von einer oder mehreren Personen gelesen werden soll. Això és molt útil quan estem buscant formularis estandarditzats i pot estalviar molt de temps i millorar l’eficiència.

Um die Anbauregionen nutzen zu können, müssen Sie einen Bezug zum System herstellen System.Zeichnung per l'objecte nutzen können System.Drawing.Rectangle .

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Catalan;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Les dimensions són en px

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Catalan;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Les dimensions són en px

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Catalan

Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
	.X = 215,
	.Y = 1250,
	.Height = 280,
	.Width = 1335
}
' Les dimensions són en px

Input.Add("document.png", ContentArea)

Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR für qualitativ minderwertige Broschüren

Die Klasse OcrInput IronOCR pot corregir les exploracions que Tesseract no sap llegir.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Catalan;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // corregeix el soroll digital i el mal escaneig
Input.Deskew(); // fixa la rotació i la perspectiva
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Catalan;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // corregeix el soroll digital i el mal escaneig
Input.Deskew(); // fixa la rotació i la perspectiva
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Catalan

Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' corregeix el soroll digital i el mal escaneig
Input.Deskew() ' fixa la rotació i la perspectiva
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Exportieren Sie die Ergebnisse der OCR in eine PDF-Datei

Imatge en PDF amb cadenes de text copiables. Pot ser indexat pels motors de cerca i les bases de dades.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Catalan;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Catalan;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Catalan

Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")

Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

Konvertierung von PDF TIFF in Papierform

Konvertieren Sie ein TIFF-Dokument (o qualsevol grup de fitxers d'imatges) directament a un PDF que es pot cercar i que pot ser indexat per la intranet, el lloc web i els motors de cerca de Google.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Catalan;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Catalan;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Catalan

Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

Exportieren Sie die Ergebnisse der OCR in HTML

Konvertierung von OCR-Bildern in XHTML.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Catalan;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Catalan;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Catalan
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
VB   C#

Filtres de millora de la imatge OCR

IronOCR bietet spezielle Filter für ein Objekt an OcrInput per millorar el rendiment de l'OCR.

Beispiel für den Millimetercode eines Bildes

Verbessert die Qualität von OCR-Eingabebildern, um bessere und schnellere OCR-Ergebnisse zu erzielen.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Catalan;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // corregeix el soroll digital i el mal escaneig
Input.Deskew(); // fixa la rotació i la perspectiva
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Catalan;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // corregeix el soroll digital i el mal escaneig
Input.Deskew(); // fixa la rotació i la perspectiva
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Catalan

Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' corregeix el soroll digital i el mal escaneig
Input.Deskew() ' fixa la rotació i la perspectiva
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Liste der OCR-Bildfiltermaterialien

Zu den in IronOCR integrierten Filtern zur Verbesserung der OCR-Leistung gehören auch die Filter für die Eingabe:

  • OcrInput.Rotate (doppelgrau) : gira les imatges un nombre de graus en sentit horari. Per a les agulles del rellotge, utilitzeu números negatius.
  • OcrInput.Binarize () : aquest filtre d’imatges converteix cada píxel en blanc o negre sense un punt mig. Pot millorar els casos de rendiment de l'OCR amb un contrast molt baix del text amb el fons.
  • OcrInput.ToGrayScale () : aquest filtre d’imatges converteix cada píxel en un to d’escala de grisos. És poc probable que millori la precisió de l’OCR, però pot millorar la velocitat
  • OcrInput.Contrast () : augmenta el contrast automàticament. Aquest filtre sovint millora la velocitat i la precisió de l’OCR en els escaneigs de baix contrast.
  • OcrInput.DeNoise () : elimina el soroll digital. Dieses Filter muss überall eingesetzt werden s’espera un soroll.
  • OcrInput.Invert () : inverteix tots els colors. Per exemple, el blanc es torna negre: el negre es torna blanc.
  • OcrInput.Dilate () - Morfologia avançada. Die Dilatation afegeix píxels als límits dels objectes d'una imatge. Contrari a Erode
  • OcrInput.Erode () - Morfologia avançada. L'erosió elimina els píxels als límits de l’objecte Oposite of Dilate
  • OcrInput.Deskew () : fa girar una imatge perquè sigui correcta cap amunt i ortogonal. Això és molt útil per a OCR perquè la tolerància de Tesseract per a exploracions esbiaixades pot arribar a ser de fins a 5 graus.
  • OcrInput.DeepCleanBackgroundNoise () - Eliminació de soroll de fons intens. Utilitzeu aquest ein Filter für den Fall, dass es sich um ein extremes Dokument handelt, ja, dass dieser Filter auch einen Fehler enthält reduir la precisió OCR dels documents nets i és molt car per a la CPU.
  • OcrInput.EnhanceResolution : millora la resolució d'imatges de baixa qualitat. Aquest filtre no és necessari sovint perquè OcrInput.MinimumDPI i OcrInput.TargetDPI capturaran i resoldran automàticament les entrades de baixa resolució.

CleanBackgroundNoise. Dies ist ein Parameter, der eine gewisse Zeit in Anspruch nimmt; tanmateix, permet a la biblioteca netejar automàticament sorolls digitals, arrugats de paper i altres imperfeccions dins d'una imatge digital que, en cas contrari, la impossibilitarien de ser llegida per altres biblioteques OCR.

EnhanceContrast és un paràmetre que fa que IronOCR augmenti automàticament el contrast del text sobre el fons d'un imatge, augmentant la precisió de l'OCR i generalment augmentant el rendiment i la velocitat de l’OCR.

EnhanceResolution ist ein Messgerät, das automatisch Bilder mit hoher Auflösung erkennt (que són inferior a 275 dpi) i augmenta automàticament la imatge i, a continuació, afina tot el text perquè una biblioteca OCR pugui llegir-la perfectament. Tot i que aquesta operació consumeix molt de temps, en general redueix el temps global per a una operació OCR en una imatge.

Sprache IronOCR bietet 22 internationale Sprachkombinationen und die Konfiguration der Sprache ist pot utilitzar per seleccionar un o més idiomes múltiples que s'aplicaran per a una operació OCR.

Strategie IronOCR erfüllt seine Aufgaben. Sie können sich dafür entscheiden, ein Dokument schnell zu durchsuchen menys precisa o utilitzar una estratègia avançada que utilitzi alguns models d'intel-ligència artificial per millorar automàticament la precisió del text d'OCR mirant la relació estadística de les paraules entre si en una frase. .

Farbraum és un paràmetre mitjançant el qual podem optar per OCR en escala de grisos o color. En im Allgemeinen ist die Grautonskala die beste Wahl. No obstant això, de vegades, quan hi ha textos o fons de tonalitat similar però de color molt diferent, un espai de color a tot color proporcionarà millors resultats.

DetectWhiteTextOnDarkBackgrounds. Generell gilt für alle OCR-Bibliotheken, dass sie den Text in schwarzer Farbe anzeigen sobre fons blancs. Dieser Parameter ermöglicht es dem IronOCR, automatisch negative oder fehlerhafte Texte zu erkennen blanc i llegir-los.

EingabeBildTyp. Dieser Parameter ermöglicht es dem Entwickler, die OCR-Bibliotek zu steuern, wenn er eine Datei sucht document complet o un fragment, com ara una captura de pantalla.

RotateAndStraighten es handelt sich um ein modernes Messgerät, das IronOCR die einzigartige Fähigkeit verleiht, sich in den Markt zu begeben documents que no només es giren, sinó que potser contenen perspectiva, com ara fotografies de documents de text.

ReadBarcodes ist eine nützliche Eigenschaft, die es dem IronOCR ermöglicht, automatisch Barren-Codes einzulesen i codis QR a les pàgines, ja que també llegeix text, sense afegir una càrrega de temps addicional.

FarbeTiefe. Dieser Parameter bestimmt die Anzahl der Bits pro Seite, die die OCR-Bibliotek für die Tiefe einer Farbe zu ermitteln. Eine hohe Farbtiefe kann die Qualität der OCR verbessern, però també augmentarà el temps necessari per completar l'operació de l'OCR.

126 Paquets d'idiomes

IronOCR admet 126 internationale Sprachen (idiomes internacionales) mitjançant paquets d'idiomes que es distribueixen en format DLL, das es ermöglicht descarregar des d'aquest lloc web o també des del gestor de paquets NuGet .

Els idiomes inclouen alemany, francès, anglès, xinès, japonès i molts més. Hallo ha paquets d'idiomes spezialisiert auf Passierscheine MRZ, MICR, Finanztransaktionen und viele andere Dinge. Außerdem kann ich Folgendes verwenden qualsevol fitxer tesseract ".traineddata", inclosos els que creeu vosaltres mateixos.

Exemple d'idioma

Utilització d'altres idiomes OCR.

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Afegiu filtres d’imatges si cal
// En aquest cas, fins i tot l’entrada pensada és de molt baixa qualitat
// IronTesseract pot llegir allò que no pot fer el Tesseract convencional.

var Result = Ocr.Read(input);

// La consola no pot imprimir àrabment a Windows fàcilment.
// Guardem al disc.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Afegiu filtres d’imatges si cal
// En aquest cas, fins i tot l’entrada pensada és de molt baixa qualitat
// IronTesseract pot llegir allò que no pot fer el Tesseract convencional.

var Result = Ocr.Read(input);

// La consola no pot imprimir àrabment a Windows fàcilment.
// Guardem al disc.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' Afegiu filtres d'imatges si cal
' En aquest cas, fins i tot l'entrada pensada és de molt baixa qualitat
' IronTesseract pot llegir allò que no pot fer el Tesseract convencional.

Dim Result = Ocr.Read(input)

' La consola no pot imprimir àrabment a Windows fàcilment.
' Guardem al disc.
Result.SaveAsTextFile("arabic.txt")
End Using
VB   C#

Beispiel für verschiedene Idiome

Es ist auch möglich, OCR in verschiedenen Sprachen zu verwenden. Això pot ajudar a obtenir metadades i URL en anglès als documents Unicode.

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Catalan);

// Podem afegir qualsevol nombre d’idiomes

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Catalan);

// Podem afegir qualsevol nombre d’idiomes

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Catalan)

' Podem afegir qualsevol nombre d'idiomes

Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
VB   C#

Detaillierte OCR-Ergebnisobjekte

IronOCR gibt für jede OCR-Operation ein OCR-Ergebnisobjekt zurück. Generalment, els desenvolupadors només sie können den Text dieses Objekts nutzen, um den Text des Bildes zu erhalten. Tanmateix, els resultats OCR DOM són molt més avançats que aquest.

using IronOcr;
using System.Drawing; //Afegiu referència de muntatge

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Catalan;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //Important

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Exploreu aquí per trobar una API massiva i detallada:
// - Pàgines, blocs, parafàfics, línies, paraules, caràcters
// - Exportació d'imatges, coordenades de tipus de lletra, dades estadístiques
}
using IronOcr;
using System.Drawing; //Afegiu referència de muntatge

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Catalan;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //Important

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Exploreu aquí per trobar una API massiva i detallada:
// - Pàgines, blocs, parafàfics, línies, paraules, caràcters
// - Exportació d'imatges, coordenades de tipus de lletra, dades estadístiques
}
Imports IronOcr
Imports System.Drawing 'Afegiu referència de muntatge

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Catalan
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True 'Important

Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages (0).Words
Dim Barcodes = Result.Barcodes
' Exploreu aquí per trobar una API massiva i detallada:
' - Pàgines, blocs, parafàfics, línies, paraules, caràcters
' - Exportació d'imatges, coordenades de tipus de lletra, dades estadístiques
End Using
VB   C#

Rendement

IronOCR funktioniert auch vor dem Rechner, so dass es nicht notwendig ist, die Daten zu löschen oder zu ändern.

Speed is Blazing: IronOcr.2020 + hat 10 schnellere Videos und enthält 250% weniger Fehler als die Versionen anteriors.

Aprèn més

Per obtenir més informació sobre OCR en C #, VB, F # o qualsevol altre idioma .NET, llegiu els nostres tutorials de la comunitat , que ofereixen exemples reals de com es pot utilitzar IronOCR i poden mostrar els matisos de com treure el màxim partit aquesta biblioteca.

Ebenfalls verfügbar ist eine referència d'objecte vollständig per a desenvolupadors de .NET .