Detaillierte Tesseract-Konfiguration

VB C#

using IronOcr;
using System;

var ocrTesseract = new IronTesseract()
{
    Language = OcrLanguage.EnglishBest,
    Configuration = new TesseractConfiguration()
    {
        ReadBarCodes = false,
        RenderHocr = true,
        BlackListCharacters = "`ë|^",
        PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd,
    }
};

using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"images\image.png");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract() With {
	.Language = OcrLanguage.EnglishBest,
	.Configuration = New TesseractConfiguration() With {
		.ReadBarCodes = False,
		.RenderHocr = True,
		.BlackListCharacters = "`ë|^",
		.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
	}
}

Private ocrInput = New OcrInput()
ocrInput.LoadImage("images\image.png")
Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)

Install-Package IronOcr

Detaillierte Tesseract-Konfiguration

Wenn es um OCR geht, sind Optionen und Flexibilität bei der Herangehensweise und der Textextraktion aus Dokumenten entscheidend. Da die Durchführung von OCR kostspielig ist, muss die Leistung und die Methoden zur Bearbeitung bestimmter Dokumente kontrolliert werden, um sicherzustellen, dass die Anwendung, die OCR nutzt, skalierbar und effizient ist.

IronTesseract bietet Entwicklern verschiedene Eigenschaften und Optionen, mit denen sie experimentieren können. Zum Beispiel, wenn Sie bestimmte Zeichen auf die schwarze Liste setzen oder auch Barcodes innerhalb der Dokumente lesen oder sogar diktieren möchten, wie die OCR-Engine die Seite liest, um potenzielle Textblöcke zu scannen, all das und mehr mit der IronTesseract-Klasse.

Schritt-für-Schritt-Anleitung zur Verwendung von IronOCR mit `Tesseract` 5

var ocrTesseract = new IronTesseract();
ocrTesseract.Language = OcrLanguage.EnglishBest;
ocrTesseract.Configuration.ReadBarCodes = false;
ocrTesseract.Configuration.BlackListCharacters = "`ë|^";
ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"] = false;

Nach der Initialisierung der IronTesseract-Klasse gibt es einige wichtige Optionen, die sofort verfügbar sind und die wir ändern möchten. Die erste Eigenschaft, die konfiguriert werden muss, ist die Language. Standardmäßig ist die Sprache Englisch; Jedoch unterstützt IronTesseract bis zu 125 Sprachen und erlaubt sogar mehrere Sprachen mit der UseMultipleLanguages-Methode. Für weitere Details, siehe hier.

Die zweite Eigenschaft, die wir konfigurieren möchten, ist die TesseractConfiguration-Klasse. Mit dieser Klasse können wir ändern, wie die Tesseract-Engine das Dokument nach potenziellen Textblöcken scannt.

Zuerst ändern wir die Sprache der Tesseract-Engine, indem wir die Sprache OcrLanguage.EnglishBest zuweisen. Diese Variation kombiniert ein LSTM und ein OEM, die Formanerkennungsstrategien mit OCR sind. die Kombination dieser beiden Strategien ermöglicht es, dass OCR genauere Ergebnisse liefert.
Danach setzen wir die ReadBarCodes auf false, um das Lesen von Barcodes während des OCR-Prozesses zu vermeiden.

Wir passen auch weiter an und geben die Zeichen an, die wir extrahieren möchten, indem wir bestimmte Zeichen im Dokument auf die schwarze Liste setzen; in diesem Beispiel setzen wir Zeichen auf die schwarze Liste, um zu vermeiden, dass Text mit Backticks, Akzenten oder Zirkumflexen extrahiert wird. Schließlich setzen wir die TesseractVariables["tessedit_parallelize"] auf false, um die parallele Verarbeitung vorerst zu deaktivieren. Diese letzte ist eine wirklich mächtige Funktion, da sie direkt mit der Tesseract-Engine kommuniziert. Hier ist eine vollständige Liste der TesseractVariables, die es Entwicklern erlauben, das Verhalten der Tesseract-Engine bei der Durchführung von OCR weiter anzupassen.

Weitere IronTesseract-Konfigurationsoptionen erkunden

Bereit anzufangen?

Nuget Downloads 6,151,372 | Version: 2026.7 gerade veröffentlicht

Lizenzen anzeigen

Scrollst du immer noch?

Sie brauchen schnell einen Beweis? PM > Install-Package IronOcr
Führen Sie ein Beispiel aus und beobachten Sie, wie Ihr Bild zu durchsuchbarem Text wird.