Tesseract installieren (Schritt-für-Schritt-Tutorial mit Bildern)
Was ist Tesseract OCR?
Tesseract ist eine Open-Source-Softwarebibliothek, die unter der Apache-Lizenzvereinbarung veröffentlicht wurde. Es wurde ursprünglich in den 1980er Jahren von Hewlett Packard entwickelt. Es ist ein Texterkennungswerkzeug, das hauptsächlich zur Erkennung und Extraktion von Texten aus Bildern verwendet wird. Tesseract OCR bietet eine Kommandozeilenoberfläche für die Durchführung dieser Funktionalität.
Erfahren Sie mehr über die Funktionen von IronOCR oder melden Sie sich noch heute für eine Testversion an!
Wie man Tesseract OCR unter Windows herunterlädt
- Laden Sie den Tesseract-Installer für Windows herunter
- Installieren Sie Tesseract OCR
- Fügen Sie den Installationspfad zu den Umgebungsvariablen hinzu
- Starten Sie Tesseract OCR
1. Laden Sie den Tesseract-Installer für Windows herunter
Um den Tesseract-Befehl unter Windows zu verwenden, müssen wir zunächst die Tesseract OCR-Binärdateien .exe Windows-Installer herunterladen.
Es gibt viele Orte, an denen Sie die neueste Version von Tesseract OCR herunterladen können. One such place is from UB Mannheim, which is forked from tesseract-ocr/tesseract (Main Repository).
Tesseract-Wiki
Download the tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 bit) Windows Installer.
Für macOS-Benutzer kann Tesseract im Terminal mit einem der folgenden Befehle installiert werden:
brew install tesseract
brew install tesseract
sudo port install tesseract
sudo port install tesseract
2. Tesseract OCR installieren
Als nächstes installieren wir Tesseract mit der .exe-Datei, die wir im vorherigen Schritt heruntergeladen haben. Starten Sie den .exe-Installer, um die Tesseract-Installation zu starten.
Installersprache
Sobald das Entpacken des Setups abgeschlossen ist, erscheint der Dialog zur Auswahl der Installersprache. Sie können Tesseract so installieren, dass es mehrere Sprachen verwendet, indem Sie zusätzliche Sprachpakete auswählen, aber hier installieren wir nur die Sprachdaten für Englisch.
Tesseract-Installationsprogramm
Klicken Sie auf OK, und die Installersprache für Tesseract OCR ist festgelegt.
Tesseract OCR Einrichten
Als nächstes erscheint der Setup-Assistent. Dieser Setup-Assistent führt die Tesseract-Installation für Windows durch.
Tesseract OCR-Einrichtungsassistent
Klicken Sie auf Weiter, um die Installation fortzusetzen.
Lizenzvereinbarung akzeptieren
Tesseract OCR ist unter der Apache License Version 2.0 lizenziert. Da es Open Source und kostenlos zu verwenden ist, können Sie Versionen von Tesseract ohne Bedenken bezüglich Lizenzgebühren weiterverteilen und modifizieren.
Tesseract OCR ist lizenziert unter der Apache License v2.0. Bitte akzeptieren Sie diese Lizenz, um mit der Installation fortzufahren.
Klicken Sie auf Ich stimme zu, um mit der Installation fortzufahren.
Benutzer wählen
Sie können wählen, ob Sie Tesseract für mehrere Benutzer oder für einen einzelnen Benutzer installieren möchten.
Wählen Sie, ob Sie Tesseract OCR für den aktuellen Benutzer (Sie) oder für alle Benutzerkonten installieren möchten
Klicken Sie auf Weiter, um die zu installierenden Komponenten mit Tesseract auszuwählen.
Komponenten auswählen
Aus der Komponentenliste zum Installieren sind ScrollView, Training Tools, Shortcut-Erstellung und Sprachdaten standardmäßig ausgewählt. Wir behalten alle standardmäßig ausgewählten Optionen bei. Sie können jede Komponente auswählen oder überspringen, je nach Bedarf. Normalerweise sind alle zur Installation notwendig.
Hier können Sie wählen, ob Sie die Tesseract OCR-Komponenten ein- oder ausschließen möchten. Die besten Ergebnisse erzielen Sie, wenn Sie die Installation mit den ausgewählten Standardkomponenten fortsetzen.
Klicken Sie auf Weiter, um den Installationsort zu wählen.
Installationsort wählen
Als nächstes wählen wir den Ort, um Tesseract zu installieren. Stellen Sie sicher, dass Sie den Pfad des Zielordners kopieren. Wir benötigen dies später, um den Installationsort zur Maschinenweg-Umgebungsvariablen hinzuzufügen.
Wählen Sie einen Installationsort für die Tesseract OCR-Bibliothek, und merken Sie sich diesen Ort für später.
Klicken Sie auf Weiter, um die Installation von Tesseract weiter einzurichten.
Ordner im Startmenü auswählen
Dies ist der letzte Schritt, in dem wir Verknüpfungen im Startmenü erstellen. Sie können den Ordner beliebig benennen, aber ich habe ihn auf den gleichen Namen wie den Standardname belassen.
Wählen Sie den Namen des Startmenü-Ordners von Tesseract OCR
Klicken Sie jetzt auf Installieren und warten Sie, bis die Installation abgeschlossen ist. Sobald die Installation abgeschlossen ist, erscheint der folgende Bildschirm. Klicken Sie auf Fertig stellen, und wir haben Tesseract OCR in Windows erfolgreich installiert.
Die Installation von Tesseract OCR ist nun abgeschlossen.
3. Installationspfad zu den Systemumgebungsvariablen hinzufügen
Jetzt fügen wir den Tesseract-Installationspfad zu den Umgebungsvariablen von Windows hinzu.
Geben Sie im Startmenü "Umgebungsvariablen" oder "erweiterte Systemeinstellungen" ein
Das Dialogfeld "Windows-Systemeigenschaften
Systemeigenschaften
Sobald das Dialogfeld mit den Systemeigenschaften geöffnet ist, klicken Sie auf den Reiter Erweitert und dann unten rechts auf die Schaltfläche Umgebungsvariablen.
Das Dialogfeld Umgebungsvariablen wird Ihnen angezeigt.
Umgebungsvariablen
Unter Systemvariablen klicken Sie auf die Variable Pfad.
Zugriff auf die Systemumgebungsvariablen von Windows
Jetzt auf Bearbeiten klicken.
Hinzufügen des Tesseract OCR-Installationsverzeichnisses für Windows zu den Umgebungsvariablen
Im Dialogfeld Umgebungsvariablen bearbeiten klicken Sie auf Neu. Fügen Sie den Installationsort ein, der im zweiten Schritt kopiert wurde, und klicken Sie auf OK.
Bearbeiten Sie die Systemumgebungsvariable Path von Windows, indem Sie einen Eintrag hinzufügen, der den absoluten Pfad zur Tesseract OCR-Installation enthält
Das war's! Wir haben erfolgreich die Installation, die Einrichtung der Umgebungsvariablen und die Installation von Tesseract OCR auf einem Windows-Rechner abgeschlossen.
4. Tesseract OCR ausführen
Um zu überprüfen, ob Tesseract OCR für Windows erfolgreich installiert und zu den Umgebungsvariablen hinzugefügt wurde, öffnen Sie die Eingabeaufforderung (cmd) auf Ihrem Windows-Rechner und führen den Befehl "tesseract" aus. Wenn alles in Ordnung ist, wird ein schneller Benutzerleitfaden mit OCR und anderen Einzeloptionen wie der Tesseract-Version angezeigt.
Führen Sie den `tesseract`-Befehl in der Windows-Befehlszeile (oder Windows Powershell) aus, um sicherzustellen, dass die oben genannten Installationsschritte korrekt ausgeführt wurden. Die Konsolenausgabe ist das erwartete Ergebnis einer erfolgreichen Windows-Installation.
Herzlichen Glückwunsch! Wir haben Tesseract OCR für Windows erfolgreich installiert.
IronOCR-Bibliothek
IronOCR ist eine auf Tesseract basierende C#-Bibliothek, die es .NET-Softwareentwicklern ermöglicht, Text aus Bildern und PDF-Dokumenten zu identifizieren und zu extrahieren. Es ist vollständig in .NET aufgebaut und verwendet die fortschrittlichste Tesseract-Engine, die es irgendwo gibt.
Installation mit NuGet Package Manager
Die Installation von IronOCR in Visual Studio oder über die Befehlszeile mit dem NuGet-Paketmanager ist unkompliziert. In Visual Studio navigieren Sie zu den Menüoptionen mit:
Extras > NuGet-Paket-Manager > Paket-Manager-Konsole
Geben Sie dann in der Befehlszeile den folgenden Befehl ein:
Install-Package IronOcr
Dies wird IronOCR problemlos installieren, und nun können Sie es verwenden, um sein volles Potenzial auszuschöpfen.
Sie können auch andere IronOCR-NuGet-Pakete für verschiedene Plattformen herunterladen:
IronOCR mit Tesseract 5
Das folgende Beispiel zeigt, wie einfach es ist, IronOCR Tesseract zu verwenden, um Text aus einem Bild zu lesen und OCR mit C# auszuführen.
// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;
// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;
// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
' Import the IronOCR library
Imports IronOcr
' Create an instance of IronTesseract
Private Ocr = New IronTesseract()
Private Text As String = Ocr.Read("test-files/redacted-employmentapp.png").Text
' Output the extracted text to the console
Console.WriteLine(Text) ' Printed text
Wenn Sie robusteren Code benötigen, sollte Ihnen das Folgende helfen, dasselbe Ziel zu erreichen:
// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
// Add an image to the input collection
Input.AddImage("test-files/redacted-employmentapp.png");
// You can add any number of images
// Read the OCR text from the input
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
}
// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
// Add an image to the input collection
Input.AddImage("test-files/redacted-employmentapp.png");
// You can add any number of images
// Read the OCR text from the input
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
}
' Import the IronOCR library
Imports IronOcr
' Create an instance of IronTesseract
Private Ocr = New IronTesseract()
' Using the OcrInput class to handle multiple images
Using Input = New OcrInput()
' Add an image to the input collection
Input.AddImage("test-files/redacted-employmentapp.png")
' You can add any number of images
' Read the OCR text from the input
Dim Result = Ocr.Read(Input)
' Output the extracted text to the console
Console.WriteLine(Result.Text)
End Using
Eingabebild
Beispiel eines Eingabebildes für die IronOCR-Verarbeitung
Ausgabebild
Die Ausgabe wird in der Konsole als:
Die Konsole, die bei der Ausführung von IronOCR auf dem Beispielbild angezeigt wird.
Warum IronOCR wählen?
IronOCR ist sehr einfach zu installieren. Es bietet eine vollständige und gut dokumentierte .NET-Softwarebibliothek.
IronOCR erreicht eine 99,8%-Texterkennungsgenauigkeitsrate, ohne dass andere Drittanbieter-Bibliotheken oder Webdienste benötigt werden.
Es bietet auch Unterstützung für Multithreading. Am wichtigsten ist, dass IronOCR mit weit über 125 internationalen Sprachen arbeiten kann.
Abschluss
In diesem Tutorial haben wir gelernt, wie man Tesseract OCR für einen Windows-Rechner herunterlädt und installiert. Tesseract OCR ist eine ausgezeichnete Software für C++-Entwickler, aber es hat einige Grenzen. Es ist nicht vollständig for .NET entwickelt. Gescanntes Bildmaterial oder fotografierte Bilder müssen verarbeitet und standardisiert werden, um bei hoher Auflösung frei von digitalem Rauschen zu sein. Nur dann kann Tesseract genau daran arbeiten.
Im Gegensatz dazu kann IronOCR mit jedem bereitgestellten Bild arbeiten, egal ob gescannt oder fotografiert, mit nur einer einzigen Codezeile. IronOCR verwendet auch Tesseract als seine interne OCR-Engine, ist aber fein abgestimmt, um das Beste aus Tesseract herauszuholen, speziell für C# gebaut, mit hoher Leistung und verbesserten Funktionen.
Sie können das IronOCR-Softwareprodukt von diesem Link herunterladen.




