OCR galego in C#e .NET

Andere Versionen dieses Dokuments:

IronOCR é un compoñente de software C#que permite aos codificadores .NET ler texto de imaxes e documentos PDF en 126 idiomas, incluído o galego.

É un garfo avanzado de Tesseract, construído exclusivamente para os desenvolvedores .NET e supera regularmente a outros motores Tesseract tanto por velocidade como por precisión.

Inhalt von IronOcr.Languages.Galician

Este paquete contén 49 idiomas OCR para .NET:

  • Galego
  • GalegoMellor
  • GalicienSchnell

Descargar

Paket Lingua Galega [galego]
* Herunterladen als Zippen
* Installieren mit
https://www.nuget.org/packages/IronOcr.Languages.Galician/'> NuGet

Instalación

Das erste, was wir beachten müssen, ist die Installation des neuen OCR-Pakets galego no seu proxecto .NET.

PM> Install-Package IronOCR.Languages.Galician

Exemplo de código

Dieses C#-Beispiel zeigt den Text in einem Bild- oder PDF-Dokument.

//PM> Install-Package IronOcr.Languages.Galician
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Galician;
using (var Input = new OcrInput(@"images\Galician.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Galician
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Galician;
using (var Input = new OcrInput(@"images\Galician.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Galician
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Galician
Using Input = New OcrInput("images\Galician.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

Por que escoller IronOCR?

IronOCR ist eine einfach zu installierende, vollständige und gut dokumentierte Softwarebibliothek für .NET.

IronOCR zum Erlernen von 99,8% OCR-Genauigkeit sen ningún servizo web externo, taxas continuas nin enviar documentos confidenciais a través de internet.

Denn die Entwickler von C# haben IronOCR sobre Vanilla Tesseract:

  • Installieren als eine einzige DLL oder NuGet
  • Enthält die Tesseract-Motoren 5, 4 und 3 für das Gehäuse.
  • A precisión O 99,8% supera significativamente a Tesseract normal.
  • Höchste Geschwindigkeit und MultiThreading
  • Kompatibel mit MVC-, WebApp-, Datenbank-, Konsolen- und Serveranwendungen
  • Non hai código Exes nin C ++ co que traballar
  • Komplette OCR-Software im PDF-Format
  • Zur Durchführung der OCR wird eine Bild- oder PDF-Datei benötigt
  • Vollständige Kompatibilität von .NET Core, Standard und FrameWork
  • Implementieren unter Windows, Mac, Linux, Azure, Docker, Lambda, AWS
  • Le códigos de barras e códigos QR
  • OCR als XHTML exportieren
  • Exportieren von OCR in PDF-Dokumente, die gesucht werden können
  • Soporte Multithreading
  • 126 internationale Sprachen, die alle über NuGet- oder OcrData-Dateien abrufbar sind
  • Extraer imaxes, coordenadas, estatísticas e tipos de letra. Non só texto.
  • Benutzen Sie diese Option, um Tesseract OCR in kommerziellen und privaten Anwendungen weiterzugeben.

O OCR de ferro brilla cando se traballa con imaxes do mundo real e documentos imperfectos como fotografías ou escaneos de baixa resolución que poden ter ruído ou imperfeccións dixitais.

Outras bibliotecas OCR-Gratis für eine .NET-Plattform, wie zum Beispiel outras API e servizos web .net tesseract, non funcionan tan ben nestes casos de uso do mundo real.

OCR mit Tesseract 5: Beginn der Codierung in C #

Das folgende Beispiel zeigt, wie einfach es ist, mit C# oder VB .NET einen Text in einer anderen Sprache zu schreiben.

OneLiner

string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
VB   C#

Konfigurierbare Hallo-Welt

// PM> Install-Package IronOCR.Languages.Galician
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Galician;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... podes engadir calquera número de imaxes
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Galician
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Galician;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... podes engadir calquera número de imaxes
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Galician
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Galician
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

C#PDF OCR

Das gleiche Verfahren kann in ähnlicher Weise für die Extraktion von Text aus einem PDF-Dokument verwendet werden.

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Galician;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Tamén podemos seleccionar números de páxinas PDF específicos para OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 páxina por cada páxina do PDF
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Galician;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Tamén podemos seleccionar números de páxinas PDF específicos para OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 páxina por cada páxina do PDF
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Galician
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' Tamén podemos seleccionar números de páxinas PDF específicos para OCR

Dim Result = Ocr.Read(input)

Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' 1 páxina por cada páxina do PDF
End Using
VB   C#

OCR für TIFF MultiPage

OCR Lectura do formato de ficheiro TIFF que inclúe documentos de varias páxinas. TIFF kann auch konvertiert werden directamente nun ficheiro PDF con texto que se pode buscar.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Galician;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Galician;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Galician

Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Barcodes und QR-Codes

Eine Besonderheit von IronOCR ist die Möglichkeit, Barcodes und QR-Codes von Dokumenten mit dem Bus zu laden texto. Instanzen der Klassenstufe OcrResult.OcrBarcode proporcionan ao programador información detallada sobre cada código de barras dixitalizado.

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// tamén se expoñen as propiedades de tipo e localización
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// tamén se expoñen as propiedades de tipo e localización
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True

Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' tamén se expoñen as propiedades de tipo e localización
Next Barcode
End Using
VB   C#

OCR sobre áreas específicas de imaxes

Alle Dixitalisierungs- und Lektoratsmethoden von IronOCR bieten die Möglichkeit, genau zu bestimmen, welche parte ou páxinas desexamos ler o texto. Das ist für mich sehr nützlich, denn wir suchen nach Standardformularen und können aforrar moito tempo e mellorar a eficiencia.

Für die Verwendung von Kultivierungsreferenzen müssen wir einen Bezug zum System herstellen System.Zeichnung para poder usar o obxecto System.Drawing.Rectangle .

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Galician;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// As dimensións están en px

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Galician;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// As dimensións están en px

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Galician

Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
	.X = 215,
	.Y = 1250,
	.Height = 280,
	.Width = 1335
}
' As dimensións están en px

Input.Add("document.png", ContentArea)

Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR für Schränke von geringer Größe

Eine Klasse OcrInput IronOCR kann Erkundungen durchführen, die Tesseract normal nicht durchführen kann.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Galician;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // corrixe o ruído dixital e a dixitalización deficiente
Input.Deskew(); // fixa a rotación e a perspectiva
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Galician;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // corrixe o ruído dixital e a dixitalización deficiente
Input.Deskew(); // fixa a rotación e a perspectiva
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Galician

Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' corrixe o ruído dixital e a dixitalización deficiente
Input.Deskew() ' fixa a rotación e a perspectiva
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Exportieren Sie OCR-Ergebnisse als abrufbare PDF-Datei

Imaxe en PDF con cadeas de texto copiables. Kann mit Suchmotoren und Datenbanken indexiert werden.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Galician;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Galician;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Galician

Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")

Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

Konvertierung von PDF TIFF in Busse

Konvertierung eines TIFF-Dokuments (ou calquera grupo de ficheiros de imaxe) directamente nun PDF que se pode buscar e que pode ser indexado pola intranet, o sitio web e os buscadores de Google.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Galician;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Galician;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Galician

Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

OCR-Ergebnisse im HTML-Format exportieren

Konvertierung von imaxe OCR in XHTML.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Galician;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Galician;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Galician
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
VB   C#

Filtros de mellora da imaxe OCR

IronOCR bietet exklusive Filtermaterialien für die Herstellung von Gegenständen an OcrInput para mellorar o rendemento do OCR.

Beispiel für einen Mellora-Datensatz von Imaxe

Fai, dass die OCR-Eingabemodule eine höhere Kalibrierung aufweisen, um bessere und schnellere OCR-Ergebnisse zu erzielen.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Galician;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // corrixe o ruído dixital e a dixitalización deficiente
Input.Deskew(); // fixa a rotación e a perspectiva
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Galician;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // corrixe o ruído dixital e a dixitalización deficiente
Input.Deskew(); // fixa a rotación e a perspectiva
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Galician

Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' corrixe o ruído dixital e a dixitalización deficiente
Input.Deskew() ' fixa a rotación e a perspectiva
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Liste der Filtermaterialien für Imaxe OCR

Zu den in IronOCR integrierten Eingangsfiltern zur Verbesserung der OCR-Wiedergabe gehören:

  • OcrInput.Rotate (dobre grao) : xira as imaxes un número de graos no sentido horario. En sentido antihorario, use números negativos.
  • OcrInput.Binarize () : este filtro de imaxe converte todos os píxeles en branco ou negro sen terreo medio. Pode mellorar os casos de rendemento de OCR cun contraste moi baixo de texto e fondo.
  • OcrInput.ToGrayScale () : este filtro de imaxe converte cada píxel nunha sombra de escala de grises. É improbable que mellore a precisión do OCR pero pode mellorar a velocidade
  • OcrInput.Contrast () : aumenta o contraste automaticamente. Dieses Filtriergerät ist nicht geeignet für velocidade e a precisión do OCR nas exploracións de baixo contraste.
  • OcrInput.DeNoise () : elimina o ruído dixital. Dieses Filter sollte nur dort eingesetzt werden, wo es erwartet wird ruído.
  • OcrInput.Invert () : inverte todas as cores. Por exemplo, o branco vólvese negro: o negro vólvese branco.
  • OcrInput.Dilate () - Morfoloxía avanzada. Eine Dilatation engade píxeles aos límites dos obxectos dunha imaxe. Fronte a Erode
  • OcrInput.Erode () - Morfoloxía avanzada. A erosión elimina os píxeles nos límites dos obxectos
  • OcrInput.Deskew () : xira unha imaxe para que sexa correcta cara arriba e ortogonal. Isto é für OCR nützlich, da die Toleranz von Tesseract für schräge Erkundungen bis zu 5 Graden betragen kann.
  • OcrInput.DeepCleanBackgroundNoise () - Eliminación de ruído de fondo intensa. Verwenden Sie dieses Filter só no caso de que se coñeza o ruído de fondo do documento, porque este filtro tamén corre o risco de reducir a precisión do OCR dos documentos limpos e é moi caro na CPU.
  • OcrInput.EnhanceResolution : mellora a resolución de imaxes de baixa calidade. Dieses Filter darf nicht das ist auch nötig, denn OcrInput.MinimumDPI e OcrInput.TargetDPI capturarán e resolverán automaticamente as entradas de baixa resolución.

CleanBackgroundNoise. Das ist eine Konfiguration, die wenig Zeit in Anspruch nimmt; non obstante, permite á biblioteca limpar automaticamente o ruído dixital, o papel que se arruga e outras imperfeccións dentro dunha imaxe dixital que doutro xeito faríaa incapaz de ser lida por outras bibliotecas OCR.

EnhanceContrast é unha configuración que fai que IronOCR aumente automáticamente o contraste do text auf dem Bildschirm, was die OCR-Präzision erhöht und generell die Wiedergabe und Geschwindigkeit verbessert do OCR.

EnhanceResolution é unha configuración que detectará automaticamente imaxes de baixa resolución (die weniger als 275 dpi aufweisen) e aumentará automaticamente a imaxe e, a continuación, afinará todo o texto para que kann perfekt von einer OCR-Biblioteca gelesen werden. Aínda que esta operación leva consigo moito tempo, normalmente reduce o tempo global para unha operación de OCR nunha imaxe.

Sprache IronOCR unterstützt 22 internationale Sprachpakete und kann für die Konfiguration der Sprache verwendet werden usarse para seleccionar un ou varios idiomas que se aplicarán a unha operación de OCR.

OCR-Eisen Strategie soporta dúas estratexias. Wir können uns für eine schnellere und weniger umfangreiche Digitalisierung entscheiden es ist notwendig, ein Dokument zu erstellen oder eine moderne Software zu verwenden, die einige Modelle der künstlichen Intelligenz zur automatische Verbesserung der OCR-Textgenauigkeit unter Berücksichtigung der statistischen Beziehung zwischen den einzelnen Wörtern frase. .

Farbraum é unha configuración coa que podemos optar por OCR en escala de grises ou en cor. Generell ist die Graustufentabelle die beste Wahl. Non obstante, ás veces cando hai textos ou fondos de tonalidade semellante pero de cor moi diferente, un espazo a toda cor dará mellores resultados.

DetectWhiteTextOnDarkBackgrounds. Generell erwarten alle OCR-Bibliotheken die Verfolgung von Neutraltexten sobre fondos brancos. Diese Konfiguration ermöglicht es IronOCR, automatisch negative oder fehlerhafte Einträge zu erkennen escuras con texto branco e lelas.

EingabeBildTyp. Diese Konfiguration ermöglicht es dem Benutzer, die OCR-Biblioteca so zu steuern, dass sie sich in einem ver un documento completo ou un fragmento, como unha captura de pantalla.

RotateAndStraighten ist eine moderne Konfiguration, die dem IronOCR die einzigartige Fähigkeit verleiht, zu lesen documentos que non só se xiran, senón que posúen perspectiva, como fotografías de documentos de texto.

ReadBarcodes é unha característica útil que permite a IronOCR ler automaticamente códigos de barras e códigos QR nas páxinas xa que tamén le texto, sen engadir unha carga de tempo adicional.

Profundidade de cor. Diese Konfiguration bestimmt die Anzahl der Bits, die von der OCR-Biblioteca erfasst werden zur Bestimmung der Tiefe des Herzens. Eine größere Kerntiefe kann die OCR-Kalibrierung verbessern, aber auch die aumentará o tempo necesario para completar a operación do OCR.

126 Pakete mit Sprachen

IronOCR zugeben 126 idiomas internacionais a través de paquetes de idiomas que se distribúen como DLL, que se poden descargar von dieser Website ou tamén desde o NuGet-Paketmanager .

Os idiomas inclúen alemán, francés, inglés, chinés, xaponés e moitos máis. Existen paquetes de idiomas spezialisiert auf Pasaportes MRZ, MICR-Schecks, Finanzdaten, Rechnungen und viele andere Dinge. Tamén podes usar calquera ficheiro ".traineddata" de tesseract, incluídos os que creas ti mesmo.

Exemplo de idioma

OCR in anderen Sprachen verwenden.

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Engade filtros de imaxe se é necesario
// Neste caso, incluso a entrada pensada é de moi baixa calidade
// IronTesseract pode ler o que o Tesseract convencional non pode.

var Result = Ocr.Read(input);

// A consola non pode imprimir árabe en Windows facilmente.
// Gardemos no disco no seu lugar.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Engade filtros de imaxe se é necesario
// Neste caso, incluso a entrada pensada é de moi baixa calidade
// IronTesseract pode ler o que o Tesseract convencional non pode.

var Result = Ocr.Read(input);

// A consola non pode imprimir árabe en Windows facilmente.
// Gardemos no disco no seu lugar.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' Engade filtros de imaxe se é necesario
' Neste caso, incluso a entrada pensada é de moi baixa calidade
' IronTesseract pode ler o que o Tesseract convencional non pode.

Dim Result = Ocr.Read(input)

' A consola non pode imprimir árabe en Windows facilmente.
' Gardemos no disco no seu lugar.
Result.SaveAsTextFile("arabic.txt")
End Using
VB   C#

Beispiel für verschiedene Sprachen

Es ist auch möglich, OCR mit mehreren Sprachen gleichzeitig durchzuführen. Das kann die Abfrage von Metadaten und URL wirklich erleichtern en inglés en documentos Unicode.

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Galician);

// Podemos engadir calquera número de idiomas

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Galician);

// Podemos engadir calquera número de idiomas

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Galician)

' Podemos engadir calquera número de idiomas

Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
VB   C#

Detaillierte Überprüfungen der OCR-Ergebnisse

OCR de ferro entwickelt ein OCR-Ergebnis für jede OCR-Operation. Generell gilt, dass os desenvolvedores só verwenden die Textsorte dieses Objekts, um den Text in der Bildschirmmaske zu erhalten. Nichtsdestotrotz, os resultados do OCR DOM son moito máis avanzados que este.

using IronOcr;
using System.Drawing; //Engadir referencia de montaxe

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Galician;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! Importante

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Explore aquí para atopar unha API masiva e detallada:
// - Páxinas, bloques, parafáficos, liñas, palabras, letras
// - Exportación de imaxes, coordenadas de fontes, datos estatísticos
}
using IronOcr;
using System.Drawing; //Engadir referencia de montaxe

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Galician;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! Importante

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Explore aquí para atopar unha API masiva e detallada:
// - Páxinas, bloques, parafáficos, liñas, palabras, letras
// - Exportación de imaxes, coordenadas de fontes, datos estatísticos
}
Imports IronOcr
Imports System.Drawing 'Engadir referencia de montaxe

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Galician
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '! Importante

Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages (0).Words
Dim Barcodes = Result.Barcodes
' Explore aquí para atopar unha API masiva e detallada:
' - Páxinas, bloques, parafáficos, liñas, palabras, letras
' - Exportación de imaxes, coordenadas de fontes, datos estatísticos
End Using
VB   C#

Actuación

IronOCR funktioniert direkt auf dem Rechner, ohne dass Sie die Leistung oder die Eingangsdaten ändern müssen.

Die Geschwindigkeit ist beeindruckend: IronOCR.2020 + ist 10-mal schneller und hat 250 % weniger Fehler als andere Programme versións anteriores.

Mehr lernen

Weitere Informationen zu OCR in C#, VB, F# oder einer anderen .NET-Sprache erhalten Sie hier, lea os nosos titoriais da comunidade , que dan exemplos do mundo real de como se pode usar IronOCR e poden amosar os matices de como sacar o mellor proveito de esta biblioteca.

Tamén hai dispoñible unha referenzcia komplett de obxectos para desenvolvedores .NET .