Test in einer Live-Umgebung
Test in der Produktion ohne Wasserzeichen.
Funktioniert überall, wo Sie es brauchen.
Tesseract ist eine Open-Source-Softwarelibrawry, die unter der Apache-Lizenzvereinbarung veröffentlicht wurde. Es wurde ursprünglich in den 1980er Jahren von Hewlett Packard entwickelt. Es handelt sich um ein Texterkennungsprogramm, das in erster Linie zur Identifizierung und Extraktion von Texten aus Bildern verwendet wird. Tesseract OCR bietet eine Befehlszeilenschnittstelle zur Ausführung dieser Funktion.
Tesseract-Installationsprogramm für Windows herunterladen
Tesseract OCR installieren
Installationspfad zu den Umgebungsvariablen hinzufügen
Um den Tesseract-Befehl unter Windows zu verwenden, müssen wir zunächst die Tesseract OCR-Binärdateien .exe Windows Installer herunterladen.
Es gibt viele Stellen, an denen die neueste Version von Tesseract OCR heruntergeladen werden kann. Ein solcher Ort ist von UB Mannheim, die sich von tesseract-ocr/tesseract (Haupt-Repository).
Herunterladen der tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 Bit) Windows-Installationsprogramm.
Tesseract kann mit einem der beiden folgenden Befehle in der Python-Eingabeaufforderung unter macOS installiert werden:
brew install tesseract
sudo port install tesseract
Als Nächstes installieren wir Tesseract mithilfe der .exe-Datei, die wir im vorherigen Schritt heruntergeladen haben. Starten Sie das .exe-Installationsprogramm, um die Installation von Tesseract zu beginnen.
Sobald das Entpacken des Setups abgeschlossen ist, erscheint der Sprachdialog des Installationsprogramms. Sie können Tesseract so installieren, dass Sie mehrere Sprachen verwenden können, indem Sie zusätzliche Sprachpakete auswählen, aber hier werden wir nur die Sprachdaten für die englische Sprache installieren.
Klicken Sie auf OK und die Sprache des Installationsprogramms für Tesseract OCR ist eingestellt.
Als nächstes wird der Einrichtungsassistent angezeigt. Dieser Setup-Assistent führt Sie durch die Installation von Tesseract für Windows.
Klicken Sie auf Weiter, um die Installation fortzusetzen.
Tesseract OCR ist unter der Apache License Version 2.0 lizenziert. Da es quelloffen und frei verwendbar ist, können Sie Versionen von Tesseract ohne Loyalitätsbedenken weiterverteilen und verändern.
Klicken Sie auf Ich stimme zu, um mit der Installation fortzufahren.
Sie können wählen, ob Sie Tesseract für mehrere Benutzer oder nur für einen Benutzer installieren möchten.
Klicken Sie auf Weiter, um die Komponenten auszuwählen, die mit Tesseract installiert werden sollen.
In der Liste der zu installierenden Komponenten sind ScrollView, Training Tools, Shortcuts Creation und Language data standardmäßig ausgewählt. Wir werden alle standardmäßig ausgewählten Optionen beibehalten. Sie können je nach Bedarf jede Komponente auswählen oder weglassen. In der Regel sind alle für die Installation erforderlich.
Klicken Sie auf Weiter, um den Installationsort auszuwählen.
Als nächstes wählen wir den Ort, an dem wir Tesseract installieren wollen. Stellen Sie sicher, dass Sie den Pfad des Zielordners kopieren. Diese Angabe wird später benötigt, um den Installationsort in die Umgebungsvariable Pfad des Rechners aufzunehmen.
Klicken Sie auf Weiter, um die Installation von Tesseract weiter einzurichten.
Dies ist der letzte Schritt, in dem wir Verknüpfungen im Startmenü erstellen werden. Sie können den Ordner beliebig benennen, aber ich habe ihn so belassen, wie er vorgegeben ist.
Klicken Sie nun auf Installieren und warten Sie, bis die Installation abgeschlossen ist. Sobald die Installation abgeschlossen ist, wird der folgende Bildschirm angezeigt. Klicken Sie auf Fertigstellen und die Installation von Tesseract OCR unter Windows ist erfolgreich abgeschlossen.
Nun fügen wir den Tesseract-Installationspfad zu den Umgebungsvariablen von Windows hinzu.
Geben Sie im Startmenü "Umgebungsvariablen" oder "erweiterte Systemeinstellungen" ein
Sobald sich das Dialogfeld Systemeigenschaften öffnet, klicken Sie auf Erweitert und dann auf die Schaltfläche Umgebungsvariablen unten rechts auf dem Bildschirm.
Das Dialogfeld Umgebungsvariablen wird angezeigt.
Klicken Sie unter Systemvariablen auf die Variable Pfad.
Klicken Sie nun auf Bearbeiten.
Klicken Sie im Dialogfeld Umgebungsvariable bearbeiten auf Neu. Fügen Sie den Installationspfad ein, der im zweiten Schritt kopiert wurde, und klicken Sie auf OK.
Das war's! Wir haben die Umgebungsvariable für Tesseract OCR erfolgreich heruntergeladen, installiert und auf dem Windows-Rechner gesetzt.
Um zu überprüfen, ob Tesseract OCR für Windows erfolgreich installiert und zu den Umgebungsvariablen hinzugefügt wurde, öffnen Sie die Eingabeaufforderung(cmd) auf Ihrem Windows-Rechner und führen Sie dann den Befehl "tesseract " aus. Wenn alles geklappt hat, muss eine Kurzanleitung mit OCR und einzelnen Optionen wie der Tesseract-Version angezeigt werden.
Herzlichen Glückwunsch! Wir haben Tesseract OCR für Windows erfolgreich installiert.
IronOCR ist eine auf Tesseract basierende C#-Bibliothek, die es .NET-Softwareentwicklern ermöglicht, Text aus Bildern und PDF-Dokumenten zu identifizieren und zu extrahieren. Es wurde ausschließlich in .NET entwickelt und verwendet die fortschrittlichste Tesseract-Engine, die es gibt.
Die Installation von IronOCR in Visual Studio oder über die Kommandozeile mit dem NuGet Package Manager ist sehr einfach. Navigieren Sie in Visual Studio mit zu den Menüoptionen:
Werkzeuge > NuGet-Paketmanager > Paketmanager-Konsole
Geben Sie dann in der Befehlszeile den folgenden Befehl ein:
Install-Package IronOcr
Dadurch lässt sich IronOCR problemlos installieren, und Sie können das volle Potenzial des Programms ausschöpfen.
Sie können auch andere IronOCR NuGet-Pakete für verschiedene Plattformen herunterladen:
Das folgende Codebeispiel zeigt, wie einfach es ist, IronOCR Tesseract zu verwenden, um Text aus einem Bild zu lesen und OCR mit C# durchzuführen.
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
Dim Text As String = (New IronTesseract()).Read("test-files/redacted-employmentapp.png").Text
Console.WriteLine(Text) ' Printed text
Wenn Sie einen robusteren Code wünschen, sollte Ihnen das Folgende dabei helfen, die gleiche Aufgabe zu erfüllen:
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/redacted-employmentapp.png");
// you can add any number of images
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/redacted-employmentapp.png");
// you can add any number of images
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddImage("test-files/redacted-employmentapp.png")
' you can add any number of images
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Die Ausgabe wird auf der Konsole wie folgt dargestellt:
IronOCR ist sehr einfach zu installieren. Es bietet eine vollständige und gut dokumentierte .NET-Softwarebibliothek.
IronOCR erreicht eine Texterkennungsgenauigkeit von 99,8 %, ohne dass andere Bibliotheken oder Webservices von Drittanbietern erforderlich sind.
Außerdem bietet es Multithreading-Unterstützung. Vor allem aber kann IronOCR mit weit über 125 internationalen Sprachen arbeiten.
In diesem Lernprogramm haben wir gelernt, wie man Tesseract OCR für Windows herunterlädt und installiert. Tesseract OCR ist eine hervorragende Software für C++-Entwickler, die jedoch einige Einschränkungen aufweist. Es ist nicht vollständig für .NET entwickelt. Gescannte Bilddateien oder fotografierte Bilder müssen in hoher Auflösung verarbeitet und standardisiert werden, damit sie frei von digitalem Rauschen sind. Erst dann kann Tesseract sie präzise bearbeiten.
Im Gegensatz dazu kann IronOCR mit nur einer einzigen Codezeile mit jedem beliebigen Bild arbeiten, egal ob es gescannt oder fotografiert wurde. IronOCR verwendet ebenfalls Tesseract als interne OCR-Engine, ist aber sehr fein abgestimmt, um das Beste aus Tesseract herauszuholen, speziell für C# entwickelt, mit einer hohen Leistung und verbesserten Funktionen.
Sie können das IronOCR-Softwareprodukt von dieser Website herunterladenlink.
9 .NET API-Produkte für Ihre Bürodokumente