OCR-WERKZEUGE

Tesseract installieren (Schritt-für-Schritt-Anleitung mit Bildern)

Veröffentlicht 27. Januar 2023
Teilen Sie:

Was ist Tesseract OCR?

Tesseract ist eine Open-Source-Softwarelibrawry, die unter der Apache-Lizenzvereinbarung veröffentlicht wurde. Es wurde ursprünglich in den 1980er Jahren von Hewlett Packard entwickelt. Es handelt sich um ein Texterkennungsprogramm, das in erster Linie zur Identifizierung und Extraktion von Texten aus Bildern verwendet wird. Tesseract OCR bietet eine Befehlszeilenschnittstelle zur Ausführung dieser Funktion.

So laden Sie Tesseract OCR unter Windows herunter

  1. Tesseract-Installationsprogramm für Windows herunterladen

  2. Tesseract OCR installieren

  3. Installationspfad zu den Umgebungsvariablen hinzufügen

  4. Tesseract OCR ausführen

1. Tesseract-Installationsprogramm für Windows herunterladen

Um den Tesseract-Befehl unter Windows zu verwenden, müssen wir zunächst die Tesseract OCR-Binärdateien .exe Windows Installer herunterladen.

Es gibt viele Stellen, an denen die neueste Version von Tesseract OCR heruntergeladen werden kann. Ein solcher Ort ist von UB Mannheim, die sich von tesseract-ocr/tesseract (Haupt-Repository).

Tesseract installieren, Abbildung 1: Tesserakt-Wiki

Tesserakt-Wiki

Herunterladen der tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 Bit) Windows-Installationsprogramm.

Tesseract kann mit einem der beiden folgenden Befehle in der Python-Eingabeaufforderung unter macOS installiert werden:

brew install tesseract
sudo port install tesseract

2. Tesseract OCR installieren

Als Nächstes installieren wir Tesseract mithilfe der .exe-Datei, die wir im vorherigen Schritt heruntergeladen haben. Starten Sie das .exe-Installationsprogramm, um die Installation von Tesseract zu beginnen.

Sprache des Installateurs

Sobald das Entpacken des Setups abgeschlossen ist, erscheint der Sprachdialog des Installationsprogramms. Sie können Tesseract so installieren, dass Sie mehrere Sprachen verwenden können, indem Sie zusätzliche Sprachpakete auswählen, aber hier werden wir nur die Sprachdaten für die englische Sprache installieren.

Tesseract installieren, Abbildung 2: Tesseract-Installationsprogramm

Tesseract-Installationsprogramm

Klicken Sie auf OK und die Sprache des Installationsprogramms für Tesseract OCR ist eingestellt.

Tesseract OCR-Einrichtung

Als nächstes wird der Einrichtungsassistent angezeigt. Dieser Setup-Assistent führt Sie durch die Installation von Tesseract für Windows.

Tesseract installieren, Abbildung 3: Tesseract OCR

Tesseract OCR-Einrichtungsassistent

Klicken Sie auf Weiter, um die Installation fortzusetzen.

Lizenzvertrag akzeptieren

Tesseract OCR ist unter der Apache License Version 2.0 lizenziert. Da es quelloffen und frei verwendbar ist, können Sie Versionen von Tesseract ohne Loyalitätsbedenken weiterverteilen und verändern.

Tesseract installieren, Abbildung 4: Tesseract-Lizenz

Tesseract OCR ist lizenziert unter der Apache License v2.0. Bitte akzeptieren Sie diese Lizenz, um mit der Installation fortzufahren.

Klicken Sie auf Ich stimme zu, um mit der Installation fortzufahren.

Benutzer auswählen

Sie können wählen, ob Sie Tesseract für mehrere Benutzer oder nur für einen Benutzer installieren möchten.

Tesseract installieren, Abbildung 5: Tesseract Benutzer auswählen

Wählen Sie, ob Tesseract OCR für den aktuellen Benutzer (Sie) oder für alle Benutzerkonten installiert werden soll

Klicken Sie auf Weiter, um die Komponenten auszuwählen, die mit Tesseract installiert werden sollen.

Komponenten auswählen

In der Liste der zu installierenden Komponenten sind ScrollView, Training Tools, Shortcuts Creation und Language data standardmäßig ausgewählt. Wir werden alle standardmäßig ausgewählten Optionen beibehalten. Sie können je nach Bedarf jede Komponente auswählen oder weglassen. In der Regel sind alle für die Installation erforderlich.

Tesseract installieren, Abbildung 6: Tesseract-Komponenten

Hier können Sie wählen, ob Sie die Tesseract OCR-Komponenten ein- oder ausschließen möchten. Die besten Ergebnisse erzielen Sie, wenn Sie die Installation mit den ausgewählten Standardkomponenten fortsetzen.

Klicken Sie auf Weiter, um den Installationsort auszuwählen.

Installationsort wählen

Als nächstes wählen wir den Ort, an dem wir Tesseract installieren wollen. Stellen Sie sicher, dass Sie den Pfad des Zielordners kopieren. Diese Angabe wird später benötigt, um den Installationsort in die Umgebungsvariable Pfad des Rechners aufzunehmen.

Tesseract installieren, Abbildung 7: Tesseract-Installationsort

Wählen Sie einen Installationsort für die Tesseract OCR-Bibliothek, und merken Sie sich diesen Ort für später.

Klicken Sie auf Weiter, um die Installation von Tesseract weiter einzurichten.

Wählen Sie den Startmenü-Ordner

Dies ist der letzte Schritt, in dem wir Verknüpfungen im Startmenü erstellen werden. Sie können den Ordner beliebig benennen, aber ich habe ihn so belassen, wie er vorgegeben ist.

Tesseract installieren, Abbildung 8: Tesseract-Startmenü

Wählen Sie den Namen des Startmenü-Ordners von Tesseract OCR

Klicken Sie nun auf Installieren und warten Sie, bis die Installation abgeschlossen ist. Sobald die Installation abgeschlossen ist, wird der folgende Bildschirm angezeigt. Klicken Sie auf Fertigstellen und die Installation von Tesseract OCR unter Windows ist erfolgreich abgeschlossen.

Tesseract installieren, Abbildung 9: Tesseract-Installationsprogramm

Die Installation von Tesseract OCR ist nun abgeschlossen.

3. Installationspfad zu den Systemumgebungsvariablen hinzufügen

Nun fügen wir den Tesseract-Installationspfad zu den Umgebungsvariablen von Windows hinzu.

Geben Sie im Startmenü "Umgebungsvariablen" oder "erweiterte Systemeinstellungen" ein

Tesseract installieren, Abbildung 10: Systempfad-Variablen

Das Dialogfeld Windows-Systemeigenschaften

System-Eigenschaften

Sobald sich das Dialogfeld Systemeigenschaften öffnet, klicken Sie auf Erweitert und dann auf die Schaltfläche Umgebungsvariablen unten rechts auf dem Bildschirm.

Das Dialogfeld Umgebungsvariablen wird angezeigt.

Umgebungsvariablen

Klicken Sie unter Systemvariablen auf die Variable Pfad.

Tesseract installieren, Abbildung 11: Umgebungsvariablen

Zugriff auf die Systemumgebungsvariablen von Windows

Klicken Sie nun auf Bearbeiten.

Installationsverzeichnis von Tesseract OCR für Windows zu den Umgebungsvariablen hinzufügen

Klicken Sie im Dialogfeld Umgebungsvariable bearbeiten auf Neu. Fügen Sie den Installationspfad ein, der im zweiten Schritt kopiert wurde, und klicken Sie auf OK.

Tesseract installieren, Abbildung 12: Umgebungsvariable bearbeiten

Bearbeiten Sie die Systemumgebungsvariable Path von Windows, indem Sie einen Eintrag hinzufügen, der den absoluten Pfad zur Tesseract OCR-Installation enthält

Das war's! Wir haben die Umgebungsvariable für Tesseract OCR erfolgreich heruntergeladen, installiert und auf dem Windows-Rechner gesetzt.

4. Tesseract OCR ausführen

Um zu überprüfen, ob Tesseract OCR für Windows erfolgreich installiert und zu den Umgebungsvariablen hinzugefügt wurde, öffnen Sie die Eingabeaufforderung (cmd) auf Ihrem Windows-Rechner und führen Sie dann den Befehl "tesseract " aus. Wenn alles geklappt hat, muss eine Kurzanleitung mit OCR und einzelnen Optionen wie der Tesseract-Version angezeigt werden.

Tesseract installieren, Abbildung 13: Umgebungsvariable bearbeiten

Führen Sie die tesserakt befehl in der Windows-Befehlszeile (oder Windows Powershell), um sicherzustellen, dass die oben genannten Installationsschritte korrekt ausgeführt wurden. Die Konsolenausgabe ist das erwartete Ergebnis einer erfolgreichen Windows-Installation.

Herzlichen Glückwunsch! Wir haben Tesseract OCR für Windows erfolgreich installiert.

IronOCR-Bibliothek

IronOCR ist eine auf Tesseract basierende C#-Bibliothek, die es .NET-Softwareentwicklern ermöglicht, Text aus Bildern und PDF-Dokumenten zu identifizieren und zu extrahieren. Es wurde ausschließlich in .NET entwickelt und verwendet die fortschrittlichste Tesseract-Engine, die es gibt.

Installation mit NuGet-Paketmanager

Die Installation von IronOCR in Visual Studio oder über die Kommandozeile mit dem NuGet Package Manager ist sehr einfach. Navigieren Sie in Visual Studio mit zu den Menüoptionen:

Werkzeuge > NuGet-Paketmanager > Paketmanager-Konsole

Geben Sie dann in der Befehlszeile den folgenden Befehl ein:

Install-Package IronOcr

Dadurch lässt sich IronOCR problemlos installieren, und Sie können das volle Potenzial des Programms ausschöpfen.

Sie können auch andere IronOCR NuGet-Pakete für verschiedene Plattformen herunterladen:

IronOCR mit Tesseract 5

Das folgende Codebeispiel zeigt, wie einfach es ist, IronOCR Tesseract zu verwenden, um Text aus einem Bild zu lesen und OCR mit C# durchzuführen.

string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
Dim Text As String = (New IronTesseract()).Read("test-files/redacted-employmentapp.png").Text
Console.WriteLine(Text) ' Printed text
VB   C#

Wenn Sie einen robusteren Code wünschen, sollte Ihnen das Folgende dabei helfen, die gleiche Aufgabe zu erfüllen:

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddImage("test-files/redacted-employmentapp.png")
	' you can add any number of images
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

Eingabe Bild

Tesseract installieren, Abbildung 14: Eingabebild

Beispieleingabebild für die IronOCR-Verarbeitung

Ausgangsbild

Die Ausgabe wird auf der Konsole wie folgt dargestellt:

Tesseract installieren, Abbildung 15: Ausgabebild

Die Konsole, die bei der Ausführung von IronOCR auf dem Beispielbild zurückgegeben wird.

Warum IronOCR wählen?

IronOCR ist sehr einfach zu installieren. Es bietet eine vollständige und gut dokumentierte .NET-Softwarebibliothek.

IronOCR erreicht eine Texterkennungsgenauigkeit von 99,8 %, ohne dass andere Bibliotheken oder Webservices von Drittanbietern erforderlich sind.

Außerdem bietet es Multithreading-Unterstützung. Vor allem aber kann IronOCR mit weit über 125 internationalen Sprachen arbeiten.

Schlussfolgerung

In diesem Lernprogramm haben wir gelernt, wie man Tesseract OCR für Windows herunterlädt und installiert. Tesseract OCR ist eine hervorragende Software für C++-Entwickler, die jedoch einige Einschränkungen aufweist. Es ist nicht vollständig für .NET entwickelt. Gescannte Bilddateien oder fotografierte Bilder müssen in hoher Auflösung verarbeitet und standardisiert werden, damit sie frei von digitalem Rauschen sind. Erst dann kann Tesseract sie präzise bearbeiten.

Im Gegensatz dazu kann IronOCR mit nur einer einzigen Codezeile mit jedem beliebigen Bild arbeiten, egal ob es gescannt oder fotografiert wurde. IronOCR verwendet ebenfalls Tesseract als interne OCR-Engine, ist aber sehr fein abgestimmt, um das Beste aus Tesseract herauszuholen, speziell für C# entwickelt, mit einer hohen Leistung und verbesserten Funktionen.

Sie können das IronOCR-Softwareprodukt von dieser Website herunterladenlink.

< PREVIOUS
Microsoft OCR-Tools (Alternativen in C#)
NÄCHSTES >
OCR aus PDF (kostenlose Online-Tools)

Sind Sie bereit, loszulegen? Version: 2024.10 gerade veröffentlicht

Gratis NuGet-Download Downloads insgesamt: 2,561,036 Lizenzen anzeigen >