Zum Fußzeileninhalt springen
OCR-WERKZEUGE
So installieren Sie Tesseract OCR unter Windows in C#

Tesseract installieren (Schritt-für-Schritt-Tutorial mit Bildern)

Was ist Tesseract OCR?

Tesseract ist eine Open-Source-Softwarebibliothek, die unter der Apache-Lizenzvereinbarung veröffentlicht wurde. Es wurde ursprünglich in den 1980er Jahren von Hewlett Packard entwickelt. Es ist ein Texterkennungswerkzeug, das hauptsächlich zur Erkennung und Extraktion von Texten aus Bildern verwendet wird. Tesseract OCR bietet eine Kommandozeilenoberfläche für die Durchführung dieser Funktionalität.

role="alert"> IronOCR basiert auf Tesseract. Lesen Sie Texte aus Bildern und PDFs mit 99,8% Genauigkeit mit nur wenigen Codezeilen (ohne auf externe Webdienste angewiesen zu sein). IronOCR extrahiert auch Inhalte aus qualitativ minderwertigen Bildern und Scans. Verabschieden Sie sich von umständlichem Leistungstuning und mühsamer Vorverarbeitung. Verlassen Sie sich auf IronOCR, um die Arbeit schnell zu erledigen, wenn es auf Geschwindigkeit, Genauigkeit und Benutzerfreundlichkeit ankommt.

Erfahren Sie mehr über die Funktionen von IronOCR oder melden Sie sich noch heute für eine Testversion an!

Wie man Tesseract OCR unter Windows herunterlädt

  1. Laden Sie den Tesseract-Installer für Windows herunter
  2. Installieren Sie Tesseract OCR
  3. Fügen Sie den Installationspfad zu den Umgebungsvariablen hinzu
  4. Starten Sie Tesseract OCR

1. Laden Sie den Tesseract-Installer für Windows herunter

Um den Tesseract-Befehl unter Windows zu verwenden, müssen wir zunächst die Tesseract OCR-Binärdateien .exe Windows-Installer herunterladen.

Es gibt viele Orte, an denen Sie die neueste Version von Tesseract OCR herunterladen können. One such place is from UB Mannheim, which is forked from tesseract-ocr/tesseract (Main Repository).

class="content-img-align-center">
class="center-image-wrapper"> Installieren Tesseract, Abbildung 1: Tesseract Wiki

class="content__image-caption">Tesseract Wiki

Download the tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 bit) Windows Installer.

Für macOS-Benutzer kann Tesseract im Terminal mit einem der folgenden Befehle installiert werden:

brew install tesseract
brew install tesseract
SHELL
sudo port install tesseract
sudo port install tesseract
SHELL

2. Installieren Sie Tesseract OCR

Als nächstes installieren wir Tesseract mit der .exe-Datei, die wir im vorherigen Schritt heruntergeladen haben. Starten Sie den .exe-Installer, um die Tesseract-Installation zu starten.

Installersprache

Sobald das Entpacken des Setups abgeschlossen ist, erscheint der Dialog zur Auswahl der Installersprache. Sie können Tesseract so installieren, dass es mehrere Sprachen verwendet, indem Sie zusätzliche Sprachpakete auswählen, aber hier installieren wir nur die Sprachdaten für Englisch.

class="content-img-align-center">
class="center-image-wrapper"> Installieren Tesseract, Abbildung 2: Tesseract Installer

class="content__image-caption">Tesseract Installer

Klicken Sie auf OK, und die Installersprache für Tesseract OCR ist festgelegt.

Tesseract OCR Einrichten

Als nächstes erscheint der Setup-Assistent. Dieser Setup-Assistent führt die Tesseract-Installation für Windows durch.

class="content-img-align-center">
class="center-image-wrapper"> Installieren Tesseract, Abbildung 3: Tesseract OCR

class="content__image-caption">Tesseract OCR Setup-Assistent

Klicken Sie auf Weiter, um mit der Installation fortzufahren.

Lizenzvereinbarung akzeptieren

Tesseract OCR ist unter der Apache License Version 2.0 lizenziert. Da es Open Source und kostenlos zu verwenden ist, können Sie Versionen von Tesseract ohne Bedenken bezüglich Lizenzgebühren weiterverteilen und modifizieren.

class="content-img-align-center">
class="center-image-wrapper"> Installieren Tesseract, Abbildung 4: Tesseract Lizenz

class="content__image-caption">Tesseract OCR ist unter Apache License v2.0 lizenziert. Bitte akzeptieren Sie diese Lizenz, um mit der Installation fortzufahren.

Klicken Sie auf Ich stimme zu, um mit der Installation fortzufahren.

Benutzer wählen

Sie können wählen, ob Sie Tesseract für mehrere Benutzer oder für einen einzelnen Benutzer installieren möchten.

class="content-img-align-center">
class="center-image-wrapper"> Installieren Tesseract, Abbildung 5: Tesseract Benutzer wählen

class="content__image-caption">Wählen Sie, ob Tesseract OCR für den aktuellen Benutzer (Sie) oder für alle Benutzerkonten installiert werden soll

Klicken Sie auf Weiter, um die zu installierenden Komponenten mit Tesseract auszuwählen.

Komponenten auswählen

Aus der Komponentenliste zum Installieren sind ScrollView, Training Tools, Shortcut-Erstellung und Sprachdaten standardmäßig ausgewählt. Wir behalten alle standardmäßig ausgewählten Optionen bei. Sie können jede Komponente auswählen oder überspringen, je nach Bedarf. Normalerweise sind alle notwendig, um sie zu installieren.

class="content-img-align-center">
class="center-image-wrapper"> Installieren Tesseract, Abbildung 6: Tesseract Komponenten

class="content__image-caption">Hier können Sie wählen, ob Sie Tesseract OCR-Komponenten einschließen oder ausschließen möchten. Für die besten Ergebnisse installieren Sie mit den standardmäßig ausgewählten Komponenten weiter.

Klicken Sie auf Weiter, um den Installationsort zu wählen.

Installationsort wählen

Als nächstes wählen wir den Ort, um Tesseract zu installieren. Stellen Sie sicher, dass Sie den Pfad des Zielordners kopieren. Wir benötigen dies später, um den Installationsort zur Maschinenweg-Umgebungsvariablen hinzuzufügen.

class="content-img-align-center">
class="center-image-wrapper"> Installieren Tesseract, Abbildung 7: Tesseract Installationsort

class="content__image-caption">Wählen Sie einen Installationsort für die Tesseract OCR-Bibliothek und merken Sie sich diesen Ort für später.

Klicken Sie auf Weiter, um die Installation von Tesseract weiter einzurichten.

Ordner im Startmenü auswählen

Dies ist der letzte Schritt, in dem wir Verknüpfungen im Startmenü erstellen. Sie können den Ordner beliebig benennen, aber ich habe ihn auf den gleichen Namen wie den Standardname belassen.

class="content-img-align-center">
class="center-image-wrapper"> Installieren Tesseract, Abbildung 8: Tesseract Startmenü

class="content__image-caption">Wählen Sie den Namen des Tesseract OCR Startmenü-Ordners

Klicken Sie jetzt auf Installieren und warten Sie, bis die Installation abgeschlossen ist. Sobald die Installation abgeschlossen ist, erscheint der folgende Bildschirm. Klicken Sie auf Fertig stellen, und wir haben Tesseract OCR in Windows erfolgreich installiert.

class="content-img-align-center">
class="center-image-wrapper"> Installieren Tesseract, Abbildung 9: Tesseract Installer

class="content__image-caption">Tesseract OCR-Installation ist nun abgeschlossen.

3. Installationspfad zu den Systemumgebungsvariablen hinzufügen

Jetzt fügen wir den Tesseract-Installationspfad zu den Umgebungsvariablen von Windows hinzu.

Geben Sie im Startmenü „Umgebungsvariablen“ oder „erweiterte Systemeinstellungen“ ein

class="content-img-align-center">
class="center-image-wrapper"> Installieren Tesseract, Abbildung 10: Systempfad-Variablen

class="content__image-caption">Das Windows-Systemeigenschaften-Dialogfeld

Systemeigenschaften

Sobald das Dialogfeld mit den Systemeigenschaften geöffnet ist, klicken Sie auf den Reiter Erweitert und dann unten rechts auf die Schaltfläche Umgebungsvariablen.

Das Dialogfeld Umgebungsvariablen wird Ihnen angezeigt.

Umgebungsvariablen

Unter Systemvariablen klicken Sie auf die Variable Pfad.

class="content-img-align-center">
class="center-image-wrapper"> Installieren Tesseract, Abbildung 11: Umgebungsvariablen

class="content__image-caption">Zugriff auf die Systemumgebungsvariablen von Windows

Klicken Sie nun auf Bearbeiten.

Hinzufügen des Tesseract OCR-Installationsverzeichnisses für Windows zu den Umgebungsvariablen

Im Dialogfeld Umgebungsvariablen bearbeiten klicken Sie auf Neu. Fügen Sie den Installationsort ein, der im zweiten Schritt kopiert wurde, und klicken Sie auf OK.

class="content-img-align-center">
class="center-image-wrapper"> Installieren Tesseract, Abbildung 12: Umgebungsvariable bearbeiten

class="content__image-caption">Bearbeiten Sie die Windows-Pfad-Systemumgebungsvariable, indem Sie einen Eintrag hinzufügen, der den absoluten Pfad zur Tesseract OCR-Installation enthält

Das war's! Wir haben erfolgreich die Installation, die Einrichtung der Umgebungsvariablen und die Installation von Tesseract OCR auf einem Windows-Rechner abgeschlossen.

4. Starten Sie Tesseract OCR

Um zu überprüfen, ob Tesseract OCR für Windows erfolgreich installiert und zu den Umgebungsvariablen hinzugefügt wurde, öffnen Sie die Eingabeaufforderung (cmd) auf Ihrem Windows-Rechner und führen den Befehl „tesseract“ aus. Wenn alles in Ordnung ist, wird ein schneller Benutzerleitfaden mit OCR und anderen Einzeloptionen wie der Tesseract-Version angezeigt.

class="content-img-align-center">
class="center-image-wrapper"> Installieren Tesseract, Abbildung 13: Umgebungsvariable bearbeiten

class="content__image-caption">Führen Sie den tesseract-Befehl in der Windows-Befehlszeile (oder Windows Powershell) aus, um sicherzustellen, dass die obigen Installationsschritte korrekt durchgeführt wurden. Die Konsolenausgabe ist das erwartete Ergebnis einer erfolgreichen Windows-Installation.

Herzlichen Glückwunsch! Wir haben Tesseract OCR für Windows erfolgreich installiert.

IronOCR-Bibliothek

IronOCR ist eine auf Tesseract basierende C#-Bibliothek, die es .NET-Softwareentwicklern ermöglicht, Text aus Bildern und PDF-Dokumenten zu identifizieren und zu extrahieren. Es ist vollständig in .NET aufgebaut und verwendet die fortschrittlichste Tesseract-Engine, die es irgendwo gibt.

Installation mit NuGet Package Manager

Die Installation von IronOCR in Visual Studio oder über die Befehlszeile mit dem NuGet-Paketmanager ist unkompliziert. In Visual Studio navigieren Sie zu den Menüoptionen mit:

Extras > NuGet-Paket-Manager > Paket-Manager-Konsole

Geben Sie dann in der Befehlszeile den folgenden Befehl ein:

Install-Package IronOcr

Dies wird IronOCR problemlos installieren, und nun können Sie es verwenden, um sein volles Potenzial auszuschöpfen.

Sie können auch andere IronOCR-NuGet-Pakete für verschiedene Plattformen herunterladen:

IronOCR mit Tesseract 5

Das folgende Beispiel zeigt, wie einfach es ist, IronOCR Tesseract zu verwenden, um Text aus einem Bild zu lesen und OCR mit C# auszuführen.

// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;

// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;

// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
' Import the IronOCR library
Imports IronOcr

' Create an instance of IronTesseract
Private Ocr = New IronTesseract()

Private Text As String = Ocr.Read("test-files/redacted-employmentapp.png").Text

' Output the extracted text to the console
Console.WriteLine(Text) ' Printed text
$vbLabelText   $csharpLabel

Wenn Sie robusteren Code benötigen, sollte Ihnen das Folgende helfen, dasselbe Ziel zu erreichen:

// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
    // Add an image to the input collection
    Input.AddImage("test-files/redacted-employmentapp.png");
    // You can add any number of images

    // Read the OCR text from the input
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
    // Add an image to the input collection
    Input.AddImage("test-files/redacted-employmentapp.png");
    // You can add any number of images

    // Read the OCR text from the input
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
' Import the IronOCR library
Imports IronOcr

' Create an instance of IronTesseract
Private Ocr = New IronTesseract()

' Using the OcrInput class to handle multiple images
Using Input = New OcrInput()
	' Add an image to the input collection
	Input.AddImage("test-files/redacted-employmentapp.png")
	' You can add any number of images

	' Read the OCR text from the input
	Dim Result = Ocr.Read(Input)

	' Output the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

Eingabebild

class="content-img-align-center">
class="center-image-wrapper"> Installieren Tesseract, Abbildung 14: Eingabebild

class="content__image-caption">Beispiel-Eingabebild für IronOCR-Verarbeitung

.NET Regex Tester (Wie es für Entwickler funktioniert): Abbildung 3 - Konsolenausgabe des obenstehenden Codes

Die Ausgabe wird in der Konsole als:

class="content-img-align-center">
class="center-image-wrapper"> Installieren Tesseract, Abbildung 15: Ausgabebild

class="content__image-caption">Die Konsole gab das Ergebnis der Ausführung von IronOCR auf dem Beispielbild zurück.

Warum IronOCR wählen?

IronOCR ist sehr einfach zu installieren. Es bietet eine vollständige und gut dokumentierte .NET-Softwarebibliothek.

IronOCR erreicht eine 99,8%-Texterkennungsgenauigkeitsrate, ohne dass andere Drittanbieter-Bibliotheken oder Webdienste benötigt werden.

Es bietet auch Unterstützung für Multithreading. Am wichtigsten ist, dass IronOCR mit weit über 125 internationalen Sprachen arbeiten kann.

role="alert"> Installieren Sie IronOCR von NuGet für Ihre nächsten OCR-Projekte, um seine vollständigen Fähigkeiten selbst zu sehen. Eine Testlizenz bietet 30 Tage lang kostenlosen, uneingeschränkten Zugang zu den vollständigen Fähigkeiten von IronOCR.

Abschluss

In diesem Tutorial haben wir gelernt, wie man Tesseract OCR für einen Windows-Rechner herunterlädt und installiert. Tesseract OCR ist eine ausgezeichnete Software für C++-Entwickler, aber es hat einige Grenzen. Es ist nicht vollständig für .NET entwickelt. Gescanntes Bildmaterial oder fotografierte Bilder müssen verarbeitet und standardisiert werden, um bei hoher Auflösung frei von digitalem Rauschen zu sein. Nur dann kann Tesseract genau daran arbeiten.

Im Gegensatz dazu kann IronOCR mit jedem bereitgestellten Bild arbeiten, egal ob gescannt oder fotografiert, mit nur einer einzigen Codezeile. IronOCR verwendet auch Tesseract als seine interne OCR-Engine, ist aber fein abgestimmt, um das Beste aus Tesseract herauszuholen, speziell für C# gebaut, mit hoher Leistung und verbesserten Funktionen.

Sie können das IronOCR-Softwareprodukt von diesem Link herunterladen.

Kannaopat Udonpant
Software Ingenieur
Bevor er Software-Ingenieur wurde, absolvierte Kannapat ein PhD in Umweltressourcen an der Hokkaido University in Japan. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Fakultät für Bioproduktionstechnik ist. Im Jahr 2022 nutzte er seine C#-Kenntnisse, um dem Engineering-Team von Iron Software ...
Weiterlesen