Zum Fußzeileninhalt springen
OCR-WERKZEUGE
So installieren Sie Tesseract OCR unter Windows in C#

Tesseract installieren (Schritt-für-Schritt-Tutorial mit Bildern)

Was ist Tesseract OCR?

Tesseract ist eine Open-Source-Softwarebibliothek, die unter der Apache-Lizenzvereinbarung veröffentlicht wurde. Es wurde ursprünglich in den 1980er Jahren von Hewlett Packard entwickelt. Es ist ein Texterkennungswerkzeug, das hauptsächlich zur Erkennung und Extraktion von Texten aus Bildern verwendet wird. Tesseract OCR bietet eine Kommandozeilenoberfläche für die Durchführung dieser Funktionalität.

Wie man Tesseract OCR unter Windows herunterlädt

  1. Laden Sie den Tesseract-Installer für Windows herunter
  2. Installieren Sie Tesseract OCR
  3. Fügen Sie den Installationspfad zu den Umgebungsvariablen hinzu
  4. Starten Sie Tesseract OCR

1. Laden Sie den Tesseract-Installer für Windows herunter

Um den Tesseract-Befehl unter Windows zu verwenden, müssen wir zunächst die Tesseract OCR-Binärdateien .exe Windows-Installer herunterladen.

Es gibt viele Orte, an denen Sie die neueste Version von Tesseract OCR herunterladen können. One such place is from UB Mannheim, which is forked from tesseract-ocr/tesseract (Main Repository).

Install Tesseract, Figure 1: Tesseract-Wiki

Tesseract-Wiki

Download the tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 bit) Windows Installer.

Für macOS-Benutzer kann Tesseract im Terminal mit einem der folgenden Befehle installiert werden:

brew install tesseract
brew install tesseract
SHELL
sudo port install tesseract
sudo port install tesseract
SHELL

2. Tesseract OCR installieren

Als nächstes installieren wir Tesseract mit der .exe-Datei, die wir im vorherigen Schritt heruntergeladen haben. Starten Sie den .exe-Installer, um die Tesseract-Installation zu starten.

Installersprache

Sobald das Entpacken des Setups abgeschlossen ist, erscheint der Dialog zur Auswahl der Installersprache. Sie können Tesseract so installieren, dass es mehrere Sprachen verwendet, indem Sie zusätzliche Sprachpakete auswählen, aber hier installieren wir nur die Sprachdaten für Englisch.

Install Tesseract, Figure 2: Tesseract-Installationsprogramm

Tesseract-Installationsprogramm

Klicken Sie auf OK, und die Installersprache für Tesseract OCR ist festgelegt.

Tesseract OCR Einrichten

Als nächstes erscheint der Setup-Assistent. Dieser Setup-Assistent führt die Tesseract-Installation für Windows durch.

Install Tesseract, Figure 3: Tesseract OCR

Tesseract OCR-Einrichtungsassistent

Klicken Sie auf Weiter, um die Installation fortzusetzen.

Lizenzvereinbarung akzeptieren

Tesseract OCR ist unter der Apache License Version 2.0 lizenziert. Da es Open Source und kostenlos zu verwenden ist, können Sie Versionen von Tesseract ohne Bedenken bezüglich Lizenzgebühren weiterverteilen und modifizieren.

Install Tesseract, Figure 4: Tesseract License

Tesseract OCR ist lizenziert unter der Apache License v2.0. Bitte akzeptieren Sie diese Lizenz, um mit der Installation fortzufahren.

Klicken Sie auf Ich stimme zu, um mit der Installation fortzufahren.

Benutzer wählen

Sie können wählen, ob Sie Tesseract für mehrere Benutzer oder für einen einzelnen Benutzer installieren möchten.

Install Tesseract, Figure 5: Tesseract Choose Users

Wählen Sie, ob Sie Tesseract OCR für den aktuellen Benutzer (Sie) oder für alle Benutzerkonten installieren möchten

Klicken Sie auf Weiter, um die zu installierenden Komponenten mit Tesseract auszuwählen.

Komponenten auswählen

Aus der Komponentenliste zum Installieren sind ScrollView, Training Tools, Shortcut-Erstellung und Sprachdaten standardmäßig ausgewählt. Wir behalten alle standardmäßig ausgewählten Optionen bei. Sie können jede Komponente auswählen oder überspringen, je nach Bedarf. Normalerweise sind alle zur Installation notwendig.

Install Tesseract, Figure 6: Tesseract Components

Hier können Sie wählen, ob Sie die Tesseract OCR-Komponenten ein- oder ausschließen möchten. Die besten Ergebnisse erzielen Sie, wenn Sie die Installation mit den ausgewählten Standardkomponenten fortsetzen.

Klicken Sie auf Weiter, um den Installationsort zu wählen.

Installationsort wählen

Als nächstes wählen wir den Ort, um Tesseract zu installieren. Stellen Sie sicher, dass Sie den Pfad des Zielordners kopieren. Wir benötigen dies später, um den Installationsort zur Maschinenweg-Umgebungsvariablen hinzuzufügen.

Install Tesseract, Figure 7: Tesseract Install Location

Wählen Sie einen Installationsort für die Tesseract OCR-Bibliothek, und merken Sie sich diesen Ort für später.

Klicken Sie auf Weiter, um die Installation von Tesseract weiter einzurichten.

Ordner im Startmenü auswählen

Dies ist der letzte Schritt, in dem wir Verknüpfungen im Startmenü erstellen. Sie können den Ordner beliebig benennen, aber ich habe ihn auf den gleichen Namen wie den Standardname belassen.

Install Tesseract, Figure 8: Tesseract Start Menu

Wählen Sie den Namen des Startmenü-Ordners von Tesseract OCR

Klicken Sie jetzt auf Installieren und warten Sie, bis die Installation abgeschlossen ist. Sobald die Installation abgeschlossen ist, erscheint der folgende Bildschirm. Klicken Sie auf Fertig stellen, und wir haben Tesseract OCR in Windows erfolgreich installiert.

Install Tesseract, Figure 9: Tesseract-Installationsprogramm

Die Installation von Tesseract OCR ist nun abgeschlossen.

3. Installationspfad zu den Systemumgebungsvariablen hinzufügen

Jetzt fügen wir den Tesseract-Installationspfad zu den Umgebungsvariablen von Windows hinzu.

Geben Sie im Startmenü "Umgebungsvariablen" oder "erweiterte Systemeinstellungen" ein

Install Tesseract, Figure 10: System Path Variables

Das Dialogfeld "Windows-Systemeigenschaften

Systemeigenschaften

Sobald das Dialogfeld mit den Systemeigenschaften geöffnet ist, klicken Sie auf den Reiter Erweitert und dann unten rechts auf die Schaltfläche Umgebungsvariablen.

Das Dialogfeld Umgebungsvariablen wird Ihnen angezeigt.

Umgebungsvariablen

Unter Systemvariablen klicken Sie auf die Variable Pfad.

Install Tesseract, Figure 11: Environment Variables

Zugriff auf die Systemumgebungsvariablen von Windows

Jetzt auf Bearbeiten klicken.

Hinzufügen des Tesseract OCR-Installationsverzeichnisses für Windows zu den Umgebungsvariablen

Im Dialogfeld Umgebungsvariablen bearbeiten klicken Sie auf Neu. Fügen Sie den Installationsort ein, der im zweiten Schritt kopiert wurde, und klicken Sie auf OK.

Install Tesseract, Figure 12: Edit Environment Variable

Bearbeiten Sie die Systemumgebungsvariable Path von Windows, indem Sie einen Eintrag hinzufügen, der den absoluten Pfad zur Tesseract OCR-Installation enthält

Das war's! Wir haben erfolgreich die Installation, die Einrichtung der Umgebungsvariablen und die Installation von Tesseract OCR auf einem Windows-Rechner abgeschlossen.

4. Tesseract OCR ausführen

Um zu überprüfen, ob Tesseract OCR für Windows erfolgreich installiert und zu den Umgebungsvariablen hinzugefügt wurde, öffnen Sie die Eingabeaufforderung (cmd) auf Ihrem Windows-Rechner und führen den Befehl "tesseract" aus. Wenn alles in Ordnung ist, wird ein schneller Benutzerleitfaden mit OCR und anderen Einzeloptionen wie der Tesseract-Version angezeigt.

Install Tesseract, Figure 13: Edit Environment Variable

Führen Sie den tesseract-Befehl in der Windows-Befehlszeile (oder Windows Powershell) aus, um sicherzustellen, dass die oben genannten Installationsschritte korrekt ausgeführt wurden. Die Konsolenausgabe ist das erwartete Ergebnis einer erfolgreichen Windows-Installation.

Herzlichen Glückwunsch! Wir haben Tesseract OCR für Windows erfolgreich installiert.

IronOCR-Bibliothek

IronOCR ist eine auf Tesseract basierende C#-Bibliothek, die es .NET-Softwareentwicklern ermöglicht, Text aus Bildern und PDF-Dokumenten zu identifizieren und zu extrahieren. Es ist vollständig in .NET aufgebaut und verwendet die fortschrittlichste Tesseract-Engine, die es irgendwo gibt.

Installation mit NuGet Package Manager

Die Installation von IronOCR in Visual Studio oder über die Befehlszeile mit dem NuGet-Paketmanager ist unkompliziert. In Visual Studio navigieren Sie zu den Menüoptionen mit:

Extras > NuGet-Paket-Manager > Paket-Manager-Konsole

Geben Sie dann in der Befehlszeile den folgenden Befehl ein:

Install-Package IronOcr

Dies wird IronOCR problemlos installieren, und nun können Sie es verwenden, um sein volles Potenzial auszuschöpfen.

Sie können auch andere IronOCR-NuGet-Pakete für verschiedene Plattformen herunterladen:

IronOCR mit Tesseract 5

Das folgende Beispiel zeigt, wie einfach es ist, IronOCR Tesseract zu verwenden, um Text aus einem Bild zu lesen und OCR mit C# auszuführen.

// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;

// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;

// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
' Import the IronOCR library
Imports IronOcr

' Create an instance of IronTesseract
Private Ocr = New IronTesseract()

Private Text As String = Ocr.Read("test-files/redacted-employmentapp.png").Text

' Output the extracted text to the console
Console.WriteLine(Text) ' Printed text
$vbLabelText   $csharpLabel

Wenn Sie robusteren Code benötigen, sollte Ihnen das Folgende helfen, dasselbe Ziel zu erreichen:

// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
    // Add an image to the input collection
    Input.AddImage("test-files/redacted-employmentapp.png");
    // You can add any number of images

    // Read the OCR text from the input
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
    // Add an image to the input collection
    Input.AddImage("test-files/redacted-employmentapp.png");
    // You can add any number of images

    // Read the OCR text from the input
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
' Import the IronOCR library
Imports IronOcr

' Create an instance of IronTesseract
Private Ocr = New IronTesseract()

' Using the OcrInput class to handle multiple images
Using Input = New OcrInput()
	' Add an image to the input collection
	Input.AddImage("test-files/redacted-employmentapp.png")
	' You can add any number of images

	' Read the OCR text from the input
	Dim Result = Ocr.Read(Input)

	' Output the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

Eingabebild

Install Tesseract, Figure 14: Input Image

Beispiel eines Eingabebildes für die IronOCR-Verarbeitung

Ausgabebild

Die Ausgabe wird in der Konsole als:

Install Tesseract, Figure 15: Output Image

Die Konsole, die bei der Ausführung von IronOCR auf dem Beispielbild angezeigt wird.

Warum IronOCR wählen?

IronOCR ist sehr einfach zu installieren. Es bietet eine vollständige und gut dokumentierte .NET-Softwarebibliothek.

IronOCR erreicht eine 99,8%-Texterkennungsgenauigkeitsrate, ohne dass andere Drittanbieter-Bibliotheken oder Webdienste benötigt werden.

Es bietet auch Unterstützung für Multithreading. Am wichtigsten ist, dass IronOCR mit weit über 125 internationalen Sprachen arbeiten kann.

Abschluss

In diesem Tutorial haben wir gelernt, wie man Tesseract OCR für einen Windows-Rechner herunterlädt und installiert. Tesseract OCR ist eine ausgezeichnete Software für C++-Entwickler, aber es hat einige Grenzen. Es ist nicht vollständig für .NET entwickelt. Gescanntes Bildmaterial oder fotografierte Bilder müssen verarbeitet und standardisiert werden, um bei hoher Auflösung frei von digitalem Rauschen zu sein. Nur dann kann Tesseract genau daran arbeiten.

Im Gegensatz dazu kann IronOCR mit jedem bereitgestellten Bild arbeiten, egal ob gescannt oder fotografiert, mit nur einer einzigen Codezeile. IronOCR verwendet auch Tesseract als seine interne OCR-Engine, ist aber fein abgestimmt, um das Beste aus Tesseract herauszuholen, speziell für C# gebaut, mit hoher Leistung und verbesserten Funktionen.

Sie können das IronOCR-Softwareprodukt von diesem Link herunterladen.

Kannaopat Udonpant
Software Ingenieur
Bevor er Software-Ingenieur wurde, absolvierte Kannapat ein PhD in Umweltressourcen an der Hokkaido University in Japan. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Fakultät für Bioproduktionstechnik ist. Im Jahr 2022 nutzte er seine C#-Kenntnisse, um dem Engineering-Team von Iron Software ...
Weiterlesen