OCR-WERKZEUGE

Tesseract Ocr in Windows (Codebeispiel-Tutorial)

Regan Pun
Regan Pun
7. April 2022
Teilen Sie:

Was ist Tesseract OCR?

Tesseract ist ein optisches Zeichenerkennungssystem, das auf einer Vielzahl von Betriebssystemen eingesetzt werden kann. Es handelt sich um eine freie Software, die unter der Apache-Lizenz veröffentlicht wurde. In dieser Anleitung führe ich Sie durch die Schritte, die ich befolgt habe, um Tesseract auf meinem Windows 10 Rechner zu installieren. Die Hauptversion 5 ist die aktuelle stabile Version und begann mit dem Release 5.0. 0 am 30. November 2021.


Schritt 1: Installieren Sie Tesseract OCR in Windows 10 mit einer .exe-Datei:

Um Sprachdaten zu installieren: sudo port install tesseract -<langcode> Eine Liste der Sprachcodes finden Sie auf der MacPorts Tesseract-Seite von Homebrew. Der erste Schritt zur Installation von Tesseract OCR für Windows ist der Download des .exe-Installationsprogramms, das dem Betriebssystem Ihres Computers entspricht

Schritt 2: Installation konfigurieren

Als nächstes müssen wir die Tesseract-Installation konfigurieren. Wenn Sie sich sicher fühlen und Tesseract OCR für Windows nur mit der Standardsprache Englisch ausführen möchten, sollten Sie die Installationsbildschirme mit allen ausgewählten Standardoptionen durchlaufen.

Sprache des Installateurs

Dies ist nur die Sprache für die Dialogfelder und Hilfeinformationen. Wenn wir wollen, können wir Tesseract OCR für Windows in mehreren Sprachen ausführen:

Tesseract Ocr Windows 1 related to Sprache des Installateurs

Sprache des Installationsprogramms für Tesseract OCR für Windows

Tesseract OCR-Einrichtung

Auf dem Installationsbildschirm wird empfohlen, alle anderen Anwendungen zu schließen, bevor Sie mit der Installation fortfahren.

Tesseract Ocr Windows 2 related to Tesseract OCR-Einrichtung

Der Installationsbildschirm von Tesseract OCR für Windows.

Installationsort wählen

Als nächstes wählen wir den Installationsort. Bevor Sie mit dem nächsten Schritt fortfahren, sollten Sie den Installationsort in eine .txt-Datei kopieren. Sobald die Installation abgeschlossen ist, müssen wir den Installationsort zu den Umgebungsvariablen unseres Computers hinzufügen.

Tesseract Ocr Windows 3 related to Installationsort wählen

Wählen Sie den Installationsort.

Komponenten auswählen

Standardmäßig sind die Funktionen ScrollView, Training Tools, Shortcuts erstellen und Sprachdaten ausgewählt. Wenn Sie keinen besonderen Grund haben, diese nicht zu installieren, sollten Sie alle diese Einstellungen beibehalten.

Tesseract Ocr Windows 4 related to Komponenten auswählen

Standardinstallationskomponenten von Tesseract OCR für Windows.

Wenn wir nach unten scrollen und den Bereich "Zusätzliche Skriptdaten" erweitern, sehen wir, dass wir die Möglichkeit haben, zusätzliche Skriptdaten herunterzuladen und zu installieren. Dies kann bei der Verbesserung der Genauigkeit der Textextraktion aus bestimmten Schriftsprachen hilfreich sein. Es liegt an Ihnen, ob Sie diese installieren möchten.

Tesseract Ocr Windows 5 related to Komponenten auswählen

Optionale Skript-Installationskomponenten.

Wählen Sie den Startmenü-Ordner

Im letzten Schritt der Installation werden wir aufgefordert, den Startmenü-Ordner für Tesseract OCR für Windows-Verknüpfungen auszuwählen. Ich habe meinen Namen auf den Standardnamen 'Tesseract-OCR' gesetzt.

Tesseract Ocr Windows 6 related to Wählen Sie den Startmenü-Ordner

Wählen Sie den Startmenü-Ordner für die Verknüpfungen von Tesseract OCR für Windows.

Nachdem wir auf Installieren geklickt haben, beginnt die Installation von Tesseract OCR für Windows. Im nächsten Schritt fügen wir den Installationspfad zu den Umgebungsvariablen unseres Rechners hinzu.

Schritt 3: Installationspfad zu Umgebungsvariablen hinzufügen

Bedienfeld

Um den Installationsort zu unseren Umgebungsvariablen hinzuzufügen, gehen Sie ins Startmenü und suchen Sie nach "Umgebungsvariablen". Sie sollten ein Ergebnis zur Bearbeitung der Systemumgebungsvariablen sehen. Wenn nicht, können Sie immer die folgenden Schritte verwenden: Startmenü > Systemsteuerung > Systemumgebungsvariablen bearbeiten.

Tesseract Ocr Windows 7 related to Bedienfeld

Suche nach 'Umgebungsvariablen'

System-Eigenschaften

Wenn das Dialogfeld "Systemeigenschaften" angezeigt wird, stellen Sie sicher, dass die Registerkarte "Erweitert" angeklickt ist, und klicken Sie dann auf die Schaltfläche "Umgebungsvariablen" unten rechts auf dem Bildschirm.

Tesseract Ocr Windows 8 related to System-Eigenschaften

Umgebungsvariablen

Unter Systemvariablen klicken wir auf die Bearbeiten-Schaltfläche.

Tesseract Ocr Windows 9 related to Umgebungsvariablen

Wenn der Bildschirm "Umgebungsvariable bearbeiten" angezeigt wird, klicken Sie auf die Schaltfläche Neu, und fügen Sie den Tesseract OCR-Installationspfad ein, den wir zuvor in Schritt 2 kopiert haben. Nachdem Sie dies getan haben, klicken Sie auf die Schaltfläche ‘OK‘.

Installationsverzeichnis von Tesseract OCR für Windows zu den Umgebungsvariablen hinzufügen

Tesseract Ocr Windows 10 related to Installationsverzeichnis von Tesseract OCR für Windows zu den Umgebungsvariablen hi...

Das war's! Nachdem wir nun das .exe-Installationsprogramm ausgeführt und den Installationsort von Tesseract OCR für Windows zu unseren Umgebungsvariablen hinzugefügt haben, können wir testen, ob unsere Installation funktioniert, indem wir Tesseract mit einem Testbild ausführen.

Schritt 4: Tesseract OCR für Windows auf einem Testbild ausführen

Um zu testen, ob Tesseract OCR für Windows erfolgreich installiert wurde, öffnen Sie die Eingabeaufforderung auf Ihrem Computer und führen Sie den Tesseract-Befehl aus. Sie sollten eine Ausgabe mit einer kurzen Erklärung der Nutzungsmöglichkeiten von Tesseract sehen.

Tesseract Ocr Windows 11 related to Schritt 4: Tesseract OCR für Windows auf einem Testbild ausführen

Überprüfung der erfolgreichen Installation von Tesseract OCR für Windows

Herzlichen Glückwunsch! Sie haben Tesseract OCR für Windows erfolgreich auf Ihrem Rechner installiert.


Vorteile der Verwendung von IronOCR für die OCR-Arbeit:

IronOCR bietet Tesseract OCR auf Mac, Windows, Linux, Azure und Docker für:

  • .NET-Framework 4.0 +
  • .NET-Standard 2.0 +
  • .NET Core 2.0 +
  • .NET 5
  • Mono für macOS und Linux
  • Xamarin für macOS

    IronOCR liest Text, Barcodes und QR-Codes aus allen gängigen Bild- und PDF-Formaten unter Verwendung der neuesten Tesseract 5-Engine. Diese Bibliothek fügt Desktop-, Konsolen- und Webanwendungen in wenigen Minuten OCR-Funktionen hinzu. Es unterstützt mehr als 127 internationale Sprachen. Lizenzen beginnen bei $749.

Schritt 1: Installieren Sie die neueste Version von IronOCR

DLL installieren

Laden Sie die IronOcr DLL direkt auf Ihren Computer herunter.

NuGet installieren

Alternativ können Sie es auch über NuGet installieren.

Install-Package IronOcr

Schritt 2: Lizenzschlüssel anwenden

Stellen Sie Ihren IronOCR-Lizenzschlüssel mit dem Code ein

Fügen Sie diesen Code in den Start Ihrer Anwendung ein, bevor IronOCR verwendet wird.

IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01"
$vbLabelText   $csharpLabel

Schritt 3: Testen Sie Ihren Schlüssel

Prüfen Sie, ob Ihr Schlüssel korrekt installiert wurde.

BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0");
BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0");
BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0")
$vbLabelText   $csharpLabel

Mit dem Projekt beginnen

// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Hundreds of languages available
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   // Input.DeNoise();  optional 
   // Input.Deskew();   optional 

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   // Explore the OcrResult using IntelliSense
}
// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Hundreds of languages available
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   // Input.DeNoise();  optional 
   // Input.Deskew();   optional 

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   // Explore the OcrResult using IntelliSense
}
' PM > Install-Package IronOcr
' using IronOcr;

Dim Ocr = New IronTesseract()

' Hundreds of languages available
Ocr.Language = OcrLanguage.English

Using Input = New OcrInput()
   OcrInput.Add("img\example.tiff") IronOcr.OcrResult Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

' ' Explore the OcrResult using IntelliSense
End Using
$vbLabelText   $csharpLabel

Wie verwendet man Tesseract OCR in C#; für .NET?

  • Installieren Sie Google Tesseract und IronOCR for .NET in Visual Studio
  • Prüfen Sie die neuesten Builds in C#
  • Überprüfung von Genauigkeit und Bildkompatibilität
  • Leistung und API-Funktion testen
  • Mehrsprachige Unterstützung in Betracht ziehen

Codebeispiel für .NET OCR Usage - Extrahieren von Text aus Bildern in C#

Verwenden Sie den NuGet Package Manager, um das IronOCR NuGet Package in Ihre Visual Studio Lösung zu installieren.

// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Hundreds of languages available
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   // Input.DeNoise();  optional 
   // Input.Deskew();   optional 

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   // Explore the OcrResult using IntelliSense
}
// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Hundreds of languages available
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   // Input.DeNoise();  optional 
   // Input.Deskew();   optional 

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   // Explore the OcrResult using IntelliSense
}
' PM > Install-Package IronOcr
' using IronOcr;

Dim Ocr = New IronTesseract()

' Hundreds of languages available
Ocr.Language = OcrLanguage.English

Using Input = New OcrInput()
   OcrInput.Add("img\example.tiff") IronOcr.OcrResult Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

' ' Explore the OcrResult using IntelliSense
End Using
$vbLabelText   $csharpLabel

IronOCR Tesseract für C#

Mit IronOCR erfolgt die gesamte Tesseract-Installation über den NuGet Package Manager.

Install-Package IronOcr

Tesseract 5 API in IronOCR Tesseract

Bis heute ist IronTesseract die einzige bekannte Implementierung von Tesseract 5 für .NET-Framework oder Core.

// using IronOcr;

var Ocr = new IronTesseract(); // nothing to configure

using (var Input = new OcrInput(@"images\image.png"))
{
   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}
// using IronOcr;

var Ocr = new IronTesseract(); // nothing to configure

using (var Input = new OcrInput(@"images\image.png"))
{
   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}
' using IronOcr;

Dim Ocr = New IronTesseract() ' nothing to configure

Using Input = New OcrInput("images\image.png")
Dim Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

End Using
$vbLabelText   $csharpLabel

Tesseract 4 API in IronOCR Tesseract

// using IronOcr;

var Ocr = new IronTesseract();

Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;

using (var Input = new OcrInput(@"images\image.png"))

{

   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}
// using IronOcr;

var Ocr = new IronTesseract();

Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;

using (var Input = new OcrInput(@"images\image.png"))

{

   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}
' using IronOcr;

Dim Ocr = New IronTesseract()

Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4

Using Input = New OcrInput("images\image.png")


Dim Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

End Using
$vbLabelText   $csharpLabel

Warum IronOCR besser ist als Tesseract:

ACCURACY

TESSERACT:

Wenn Tesseract auf ein Bild stößt, das gedreht oder schief ist, einen niedrigen DPI-Wert hat, gescannt wurde oder Hintergrundrauschen aufweist, wird es für Tesseract fast unmöglich, Daten aus diesem Bild zu erhalten. Außerdem braucht Tesseract sehr lange, um das Dokument zu verarbeiten, bevor es Ihnen unsinnige Informationen liefert.

IRONOCR:

IronOCR nimmt diese Kopfschmerzen weg. Die Benutzer erreichen oft eine Genauigkeit von 99,8-100 % bei minimaler Konfiguration.

BILDKOMPATIBILITÄT

TESSERACT:

Akzeptiert nur das Leptonica PIX Bildformat, das in C# ein IntPtr C++ Objekt ist. PIX-Objekte sind kein verwalteter Speicher - und wenn man sie in C# nicht sorgfältig behandelt, führt das zu Speicherlecks.

IRONOCR:

Bilder werden im Speicher verwaltet. PDF und Tiff werden unterstützt. System. Drawing, Stream und Byte Array sind für jedes Dateiformat enthalten.

Umfassende Bildunterstützung:

  • PDF-Dokumente
  • PDF-Seiten
  • MultiFrame TIFF-Dateien
  • JPEG UND JPEG2000
  • GIF
  • PNG
  • System.Drawing.Image
  • Binäre Bilddaten (byte[])
  • Und viele mehr...

PERFORMANCE

TESSERACT:

Google Tesseract kann schnelle und genaue Ergebnisse liefern, wenn es richtig eingestellt ist und die Eingabebilder mit Photoshop oder ImageMagick vorverarbeitet wurden.

IRONOCR:

Die IronOCR .NET Tesseract DLL funktioniert genau und schnell für die meisten Bilder, direkt nach der Installation. Wir haben Multithreading implementiert, um die Multicore-Prozessoren zu nutzen, die die meisten Rechner heute verwenden. Selbst Bilder mit geringer Auflösung lassen sich in der Regel mit hoher Genauigkeit in Ihrem Programm bearbeiten. Kein PhotoShop erforderlich.

API

TESSERACT:

Wir haben zwei freie Wahlmöglichkeiten:

  • Arbeit mit Interop-Schichten - viele, die auf GitHub zu finden sind, sind veraltet, haben ungelöste Tickets, Speicherlecks und Konsolenwarnungen. Unterstützt möglicherweise nicht .NET Core oder Standard.
  • Arbeit mit der Befehlszeilen-EXE - schwierig zu implementieren und ständig von Virenscannern und Sicherheitsrichtlinien unterbrochen.

IRONOCR:

Eine verwaltete und getestete .NET-Bibliothek für Tesseract namens IronTesseract.

Vollständig dokumentiert mit IntelliSense-Unterstützung.

SPRACHE

TESSERACT:

Unterstützt nur 100 Sprachen.

IRONOCR:

Unterstützt über 127 Sprachen.


Schlussfolgerung

Tesseract ist eine hervorragende Ressource für C++-Entwickler, aber es ist keine vollständige OCR-Bibliothek für .NET. Gescannte oder fotografierte Bilder müssen so bearbeitet werden, dass sie orthogonal, standardisiert, hochauflösend und frei von digitalem Rauschen sind, bevor Tesseract mit ihnen arbeiten kann.

Im Gegensatz dazu kann IronOCR dies und mehr mit nur einer einzigen Codezeile erledigen. Es stimmt, dass IronOCR Tesseract für seine interne OCR-Engine verwendet, ein sehr fein abgestimmtes Tesseract, das für C# entwickelt wurde und viele Leistungsverbesserungen sowie zusätzliche Funktionen als Standard enthält.

Regan Pun
Software-Ingenieur
Regan schloss sein Studium an der University of Reading mit einem BA in Elektrotechnik ab. Bevor er zu Iron Software kam, konzentrierte er sich in seinen früheren Jobs auf einzelne Aufgaben. Was ihm bei Iron Software am meisten Spaß macht, ist das Spektrum der Aufgaben, die er übernehmen kann, sei es im Vertrieb, im technischen Support, in der Produktentwicklung oder im Marketing. Es macht ihm Spaß, die Art und Weise zu verstehen, wie Entwickler die Bibliothek von Iron Software nutzen, und dieses Wissen zu nutzen, um die Dokumentation und die Produkte kontinuierlich zu verbessern.
< PREVIOUS
Online OCR-Konverter - Kostenlose Online-Tools
NÄCHSTES >
OCR in Windows 11 (kostenlose Online-Tools)