Tesseract installieren (Schritt-für-Schritt-Anleitung mit Bildern)
Veröffentlicht 27. Januar 2023
Teilen Sie:
Was ist Tesseract OCR?
Tesseract ist eine Open-Source-Softwarebibliothek, die unter der Apache-Lizenzvereinbarung veröffentlicht wurde. Es wurde ursprünglich in den 1980er Jahren von Hewlett Packard entwickelt. Es handelt sich um ein Texterkennungsprogramm, das in erster Linie zur Identifizierung und Extraktion von Texten aus Bildern verwendet wird. Tesseract OCR bietet eine Befehlszeilenschnittstelle zur Ausführung dieser Funktion.
IronOCR baut auf Tesseract auf. Erfassen Sie Texte aus Bildern und PDFs mit 99,8% Genauigkeit mit nur wenigen Codezeilen.(ohne auf externe Webdienste zu vertrauen). IronOCR extrahiert auch Inhalte aus Bildern und Scans von geringer Qualität. Verabschieden Sie sich von umständlichem Leistungstuning und mühsamer Vorverarbeitungsarbeit. Vertrauen Sie IronOCR, wenn Geschwindigkeit, Genauigkeit und Benutzerfreundlichkeit wichtig sind, um die Aufgabe schnell zu erledigen.
Tesseract kann mit einem der beiden folgenden Befehle in der Python-Eingabeaufforderung unter macOS installiert werden:
brew install tesseract
sudo port install tesseract
2. Tesseract OCR installieren
Als Nächstes installieren wir Tesseract mithilfe der .exe-Datei, die wir im vorherigen Schritt heruntergeladen haben. Starten Sie das .exe-Installationsprogramm, um die Installation von Tesseract zu beginnen.
Sprache des Installateurs
Sobald das Entpacken des Setups abgeschlossen ist, erscheint der Sprachdialog des Installationsprogramms. Sie können Tesseract so installieren, dass Sie mehrere Sprachen verwenden können, indem Sie zusätzliche Sprachpakete auswählen, aber hier werden wir nur die Sprachdaten für die englische Sprache installieren.
Tesseract-Installationsprogramm
Klicken Sie auf OK und die Sprache des Installationsprogramms für Tesseract OCR ist eingestellt.
Tesseract OCR-Einrichtung
Als nächstes wird der Einrichtungsassistent angezeigt. Dieser Setup-Assistent führt Sie durch die Installation von Tesseract für Windows.
Tesseract OCR-Einrichtungsassistent
Klicken Sie auf Weiter, um die Installation fortzusetzen.
Lizenzvertrag akzeptieren
Tesseract OCR ist unter der Apache License Version 2.0 lizenziert. Da es quelloffen und frei verwendbar ist, können Sie Versionen von Tesseract ohne Loyalitätsbedenken weiterverteilen und verändern.
Tesseract OCR ist lizenziert unter der Apache License v2.0. Bitte akzeptieren Sie diese Lizenz, um mit der Installation fortzufahren.
Klicken Sie auf Ich stimme zu, um mit der Installation fortzufahren.
Benutzer auswählen
Sie können wählen, ob Sie Tesseract für mehrere Benutzer oder nur für einen Benutzer installieren möchten.
Wählen Sie, ob Tesseract OCR für den aktuellen Benutzer (Sie) oder für alle Benutzerkonten installiert werden soll
Klicken Sie auf Weiter, um die Komponenten auszuwählen, die mit Tesseract installiert werden sollen.
Komponenten auswählen
In der Liste der zu installierenden Komponenten sind ScrollView, Training Tools, Shortcuts Creation und Language data standardmäßig ausgewählt. Wir werden alle standardmäßig ausgewählten Optionen beibehalten. Sie können je nach Bedarf jede Komponente auswählen oder weglassen. In der Regel sind alle für die Installation erforderlich.
Hier können Sie wählen, ob Sie die Tesseract OCR-Komponenten ein- oder ausschließen möchten. Die besten Ergebnisse erzielen Sie, wenn Sie die Installation mit den ausgewählten Standardkomponenten fortsetzen.
Klicken Sie auf Weiter, um den Installationsort auszuwählen.
Installationsort wählen
Als nächstes wählen wir den Ort, an dem wir Tesseract installieren wollen. Stellen Sie sicher, dass Sie den Pfad des Zielordners kopieren. Diese Angabe wird später benötigt, um den Installationsort in die Umgebungsvariable Pfad des Rechners aufzunehmen.
Wählen Sie einen Installationsort für die Tesseract OCR-Bibliothek, und merken Sie sich diesen Ort für später.
Klicken Sie auf Weiter, um die Installation von Tesseract weiter einzurichten.
Wählen Sie den Startmenü-Ordner
Dies ist der letzte Schritt, in dem wir Verknüpfungen im Startmenü erstellen werden. Sie können den Ordner beliebig benennen, aber ich habe ihn so belassen, wie er vorgegeben ist.
Wählen Sie den Namen des Startmenü-Ordners von Tesseract OCR
Klicken Sie nun auf Installieren und warten Sie, bis die Installation abgeschlossen ist. Sobald die Installation abgeschlossen ist, wird der folgende Bildschirm angezeigt. Klicken Sie auf Fertigstellen und die Installation von Tesseract OCR unter Windows ist erfolgreich abgeschlossen.
Die Installation von Tesseract OCR ist nun abgeschlossen.
3. Installationspfad zu den Systemumgebungsvariablen hinzufügen
Nun fügen wir den Tesseract-Installationspfad zu den Umgebungsvariablen von Windows hinzu.
Geben Sie im Startmenü "Umgebungsvariablen" oder "erweiterte Systemeinstellungen" ein
Das Dialogfeld Windows-Systemeigenschaften
System-Eigenschaften
Sobald sich das Dialogfeld Systemeigenschaften öffnet, klicken Sie auf Erweitert und dann auf die Schaltfläche Umgebungsvariablen unten rechts auf dem Bildschirm.
Das Dialogfeld Umgebungsvariablen wird angezeigt.
Umgebungsvariablen
Klicken Sie unter Systemvariablen auf die Variable Pfad.
Zugriff auf die Systemumgebungsvariablen von Windows
Klicken Sie nun auf Bearbeiten.
Installationsverzeichnis von Tesseract OCR für Windows zu den Umgebungsvariablen hinzufügen
Klicken Sie im Dialogfeld Umgebungsvariable bearbeiten auf Neu. Fügen Sie den Installationspfad ein, der im zweiten Schritt kopiert wurde, und klicken Sie auf OK.
Bearbeiten Sie die Systemumgebungsvariable Path von Windows, indem Sie einen Eintrag hinzufügen, der den absoluten Pfad zur Tesseract OCR-Installation enthält
Das war's! Wir haben die Umgebungsvariable für Tesseract OCR erfolgreich heruntergeladen, installiert und auf dem Windows-Rechner gesetzt.
4. Tesseract OCR ausführen
Um zu überprüfen, ob Tesseract OCR für Windows erfolgreich installiert und zu den Umgebungsvariablen hinzugefügt wurde, öffnen Sie die Eingabeaufforderung(cmd) auf Ihrem Windows-Rechner und führen Sie dann den Befehl "tesseract " aus. Wenn alles geklappt hat, muss eine Kurzanleitung mit OCR und einzelnen Optionen wie der Tesseract-Version angezeigt werden.
Führen Sie die tesserakt befehl in der Windows-Befehlszeile (oder Windows Powershell), um sicherzustellen, dass die oben genannten Installationsschritte korrekt ausgeführt wurden. Die Konsolenausgabe ist das erwartete Ergebnis einer erfolgreichen Windows-Installation.
Herzlichen Glückwunsch! Wir haben Tesseract OCR für Windows erfolgreich installiert.
IronOCR-Bibliothek
IronOCR ist eine auf Tesseract basierende C#-Bibliothek, die es .NET-Softwareentwicklern ermöglicht, Text aus Bildern und PDF-Dokumenten zu identifizieren und zu extrahieren. Es wurde ausschließlich in .NET entwickelt und verwendet die fortschrittlichste Tesseract-Engine, die es gibt.
Installation mit NuGet-Paketmanager
Die Installation von IronOCR in Visual Studio oder über die Kommandozeile mit dem NuGet Package Manager ist sehr einfach. Navigieren Sie in Visual Studio mit zu den Menüoptionen:
Das folgende Codebeispiel zeigt, wie einfach es ist, IronOCR Tesseract zu verwenden, um Text aus einem Bild zu lesen und OCR mit C# durchzuführen.
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
Dim Text As String = (New IronTesseract()).Read("test-files/redacted-employmentapp.png").Text
Console.WriteLine(Text) ' Printed text
$vbLabelText $csharpLabel
Wenn Sie einen robusteren Code wünschen, sollte Ihnen das Folgende dabei helfen, die gleiche Aufgabe zu erfüllen:
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/redacted-employmentapp.png");
// you can add any number of images
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/redacted-employmentapp.png");
// you can add any number of images
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddImage("test-files/redacted-employmentapp.png")
' you can add any number of images
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
$vbLabelText $csharpLabel
Eingabe Bild
Beispieleingabebild für die IronOCR-Verarbeitung
Ausgangsbild
Die Ausgabe wird auf der Konsole wie folgt dargestellt:
Die Konsole, die bei der Ausführung von IronOCR auf dem Beispielbild zurückgegeben wird.
Warum IronOCR wählen?
IronOCR ist sehr einfach zu installieren. Es bietet eine vollständige und gut dokumentierte .NET-Softwarebibliothek.
IronOCR erreicht eine Texterkennungsgenauigkeit von 99,8 %, ohne dass andere Bibliotheken oder Webservices von Drittanbietern erforderlich sind.
Außerdem bietet es Multithreading-Unterstützung. Vor allem aber kann IronOCR mit weit über 125 internationalen Sprachen arbeiten.
Installieren Sie IronOCR von NuGet für Ihre nächsten OCR-Projekte, um die vollständigen Fähigkeiten selbst zu sehen. A testlizenz bietet 30 Tage lang kostenlosen, uneingeschränkten Zugang zu den vollständigen Funktionen von IronOCR.
Schlussfolgerung
In diesem Lernprogramm haben wir gelernt, wie man Tesseract OCR für Windows herunterlädt und installiert. Tesseract OCR ist eine hervorragende Software für C++-Entwickler, die jedoch einige Einschränkungen aufweist. Es ist nicht vollständig für .NET entwickelt. Gescannte Bilddateien oder fotografierte Bilder müssen in hoher Auflösung verarbeitet und standardisiert werden, damit sie frei von digitalem Rauschen sind. Erst dann kann Tesseract sie präzise bearbeiten.
Im Gegensatz dazu kann IronOCR mit nur einer einzigen Codezeile mit jedem beliebigen Bild arbeiten, egal ob es gescannt oder fotografiert wurde. IronOCR verwendet ebenfalls Tesseract als interne OCR-Engine, ist aber sehr fein abgestimmt, um das Beste aus Tesseract herauszuholen, speziell für C# entwickelt, mit einer hohen Leistung und verbesserten Funktionen.
Sie können das IronOCR-Softwareprodukt von dieser Website herunterladenlink.
Jordi beherrscht vor allem Python, C# und C++. Wenn er seine Fähigkeiten bei Iron Software nicht einsetzt, programmiert er Spiele. Durch seine Mitverantwortung für Produkttests, Produktentwicklung und Forschung trägt Jordi wesentlich zur kontinuierlichen Produktverbesserung bei. Die vielseitigen Erfahrungen, die er sammelt, bieten ihm immer wieder neue Herausforderungen, und er sagt, dass dies einer seiner Lieblingsaspekte bei Iron Software ist. Jordi wuchs in Miami, Florida, auf und studierte Informatik und Statistik an der University of Florida.
< PREVIOUS Microsoft OCR-Tools (Alternativen in C#)