Test in einer Live-Umgebung
Test in der Produktion ohne Wasserzeichen.
Funktioniert überall, wo Sie es brauchen.
OCR (Optische Zeichenerkennung) ist eine bahnbrechende Technologie, die die Verwendung von gescannten Dokumenten in der heutigen digitalen Welt völlig verändert. Sie ermöglicht es Computern, Text aus einer Vielzahl von Quellen zu erkennen und zu extrahieren, darunter auch aus gescannten PDF-Dokumenten, so dass wir PDF-Dokumente effektiv bearbeiten und mit ihnen interagieren können. Eine der optischen Zeichenerkennung (OCR) programme ist Adobe Acrobat, mit dem Sie schnell Text aus gescannten Dokumenten extrahieren und sie in bearbeitbare PDFs und durchsuchbare Bild-PDFs umwandeln können.
Entwickler können mit OCR-Bibliotheken wie Tesseract und IronOCR auf robuste Tools und APIs zugreifen, die modernste Algorithmen und Ansätze des maschinellen Lernens nutzen. Diese Bibliotheken ermöglichen eine präzise Texterkennung, was die Verwaltung und den Abruf nützlicher Informationen sowohl aus bereits gescannten als auch aus brandneuen Dokumenten vereinfacht. OCR ermöglicht eine nahtlose Inhaltsanalyse und hilft Unternehmen und Privatpersonen, ihre Produktivität zu maximieren, indem sie das Beste aus ihren gescannten Dokumenten und Seitenbildern herausholen. OCR ist ein unverzichtbares Werkzeug in der heutigen Technologie, sei es zur Digitalisierung von Papierunterlagen, zur Extraktion von Daten aus Rechnungen oder einfach zur Verbesserung der Zugänglichkeit von Dokumenten.
Die bekannteste Open-Source-OCR-Engine heißt Tesseract und wurde ursprünglich von Hewlett-Packard entwickelt. Seit 2006 unterstützt Google dieses freie Softwareprojekt, das unter der Apache-Lizenz veröffentlicht wird.
Eines der genauesten kostenlosen Open-Source-Systeme ist die OCR-Engine Tesseract. Tesseract unterstützt mit seiner neuesten stabilen Version 4.1.1, die auf LSTM basiert, inzwischen 116 Sprachen.
Tesseract benötigt Unterstützung durch eine separate GUI (grafische Benutzeroberfläche) wenn es über eine Befehlszeilenschnittstelle ausgeführt wird, da es keine eigene integrierte Schnittstelle hat. Es kann mithilfe seiner neuronalen Netze neue Informationen lernen und verfügt über eine fortschrittliche Bildvorverarbeitungspipeline. Die effektivste Technik, um OCR-Funktionen zu Ihrer .NET-Anwendung hinzuzufügen, ist das Tesseract .NET SDK, das eine der besten Lösungen für die Bereitstellung von Texterkennungsfunktionen ist. Auch wenn Tesseract zweifellos die beste OCR-Bibliothek ist, die derzeit auf dem Markt ist.
Für die Erstellung der OCR wurde die GNU Public License verwendet (Optische Zeichenerkennung) programm mit der Bezeichnung GOCR. Es wandelt Textdateien wieder in gescannte Bilder von Dokumenten um. Nach dem Start des Programms und der Leitung des Entwicklungsteams bei SF betreut Joerg Schulenburg das Paket weiterhin bei einer (sehr) niedrige Zeitbasis heute.
Da GOCR mit verschiedenen Front-Ends verwendet werden kann, ist es relativ einfach, es auf andere Betriebssysteme, Netzwerkanwendungen und Architekturen zu portieren. Es kann eine Vielzahl von Bilddateitypen lesen, und bis 2010 wurde seine Qualität ständig verbessert.
Laut GOCR kann es einspaltige serifenlose Schriften mit einer Höhe von 20-60 Pixeln verarbeiten. Er meldet Schwierigkeiten mit Texten, die in anderen Alphabeten als Latein geschrieben sind, mit Serifenschriften, überlappenden Buchstaben, handgeschriebenem Text, verschiedenen Schriftarten, verrauschten Fotos und übermäßigen Neigungswinkeln. GOCR ist auch in der Lage, Barcodes zu übersetzen.
CuneiForm, eine freie und quelloffene Technologie, ist jetzt auch als "Cognitive OpenOCR" bekannt Sie hat eine integrierte Ausgabe und eine Datenbank. Es deckt 23 verschiedene Sprachen ab und übernimmt auch Aufgaben wie das Scannen von Textformaten, die Analyse des Dokumentenlayouts und die Identifizierung.
Cognitive Technologies hat die Lizenzen für OpenOCR entwickelt, die Freeware und BSD sind. Obwohl es plattformübergreifend eingesetzt werden kann, steht Linux-Benutzern keine grafische Oberfläche zur Verfügung.
Um die Arbeit mit der Zeichenerkennung in beliebigen Anwendungen des .NET-Frameworks 2.0 oder höher zu vereinfachen, wird die Wrapper-Bibliothek Puma Dot NET verwendet. Bei der Verarbeitung der Daten wird eine Wörterbuchprüfung durchgeführt, um die Qualität der Erkennung zu verbessern.
CuneiForm ist eine Technologie, die entwickelt wurde, um elektronische Kopien von Papierdokumenten und Bilddateien automatisch oder halbautomatisch in eine bearbeitbare Form umzuwandeln, ohne die Struktur und die Originalschriftarten des Dokuments zu beeinträchtigen. Das System besteht aus zwei Teilen für die Verarbeitung elektronischer Dokumente in Stapeln und für die Verarbeitung eines Dokuments auf einmal. Außerdem unterstützt das System eine Kombination aus Russisch und Englisch. Nur der 2009 von Andrei Borovsky gegründete Zweig unterstützt die Anerkennung anderer Hybridsprachen. Dem System beizubringen, andere Sprachen zu erkennen, ist eine Herausforderung, da jede Sprache mit einer Datendatei verbunden ist, deren Struktur und Erstellungsprozess von den Entwicklern nicht offengelegt wird.
Kraken wurde entwickelt, um die Probleme mit Ocropus zu beheben, ohne die anderen Funktionen zu beeinträchtigen. Es verwendet die CLSTM-Bibliothek für neuronale Netze und nutzt die wertvolle Erfahrung aus früheren Projekten mit neuen Daten. Es erfordert die Verwendung bestimmter externer Bibliotheken, um auf verschiedenen Plattformen effektiv zu funktionieren. Mit Hilfe der gespeicherten Informationen kann es genauere Vorhersagen über mögliche Probleme bei der Datenvalidierung treffen. Außerdem erleichtert die Arbeitsmethodik die Einführung und Schulung neuer Modelle.
A9T9 ist eine kostenlose OCR-Software, mit der man Text aus Bilddateien extrahieren und Bilder und PDF-Dokumente konvertieren kann. Es bietet eine grafische Benutzeroberfläche (GUI) für die Tesseract OCR-Engine.
Das Programm ist einfach einzurichten. Das Wichtigste ist, dass es völlig kostenlos und quelloffen ist. Es enthält keine Spyware und Adware.
Sie können eine PDF-Datei oder ein Bild öffnen, und der Inhalt der Quelldatei wird im linken Fenster angezeigt. Wenn Ihr Dokument mehrere Seiten hat oder ein mehrseitiges Dokument ist, können Sie die Pfeile am unteren Rand der Seite verwenden, um zwischen den Seiten zu navigieren.
Um den OCR-Vorgang zu starten, klicken Sie einfach auf die grüne OCR-Schaltfläche, und die Ausgabe wird im zweiten rechten Fenster angezeigt. Sie haben die Möglichkeit, den Ausgabetext sowohl als Textdatei als auch als Word-Dokument zu speichern.
Im Gegensatz zur Tesseract-Standardbibliothek erweitert IronOCR Tesseract und bietet eine native C# OCR-Bibliothek mit höherer Genauigkeit, verbesserter Leistung und erhöhter Stabilität. IronOCR kann in .NET-Programmen und Websites verwendet werden, um Text aus PDFs und Bildern zu extrahieren. Es unterstützt eine breite Palette von Fremdsprachen und kann einfache Text- oder strukturierte Datenausgaben erzeugen. Er ist in der Lage, Barcodes und Bilder mit eingebettetem Text zu scannen. Die Bibliothek kann in Anwendungen verwendet werden, die in .NET für die Konsole, das Web, MVC und den Desktop entwickelt wurden. Das Entwicklungsteam bietet direkte Unterstützung beim Lizenzierungsprozess für kommerzielle Einsätze. IronOCR ist mit den neuesten Versionen von Visual Studio kompatibel.
IronOCR kann sowohl Klartext- als auch Barcodedaten ausgeben. Entwickler können alle Inhalte für die direkte Eingabe in ein System über ein alternatives Paradigma für strukturierte Datenobjekte abrufen. Dazu gehören strukturierte Überschriften, Absätze, Zeilen, Wörter und Zeichen in Webanwendungen.
Im Folgenden finden Sie den Beispielcode, mit dem wir den Textinhalt aus dem gegebenen Bild erkennen und in Text umwandeln werden.
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())
{
Input.AddImage(@"Demo.png");
var R = Ocr.Read(Input);
Console.WriteLine(R.Text);
Console.ReadKey();
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())
{
Input.AddImage(@"Demo.png");
var R = Ocr.Read(Input);
Console.WriteLine(R.Text);
Console.ReadKey();
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
Using Input = New OcrInput()
Input.AddImage("Demo.png")
Dim R = Ocr.Read(Input)
Console.WriteLine(R.Text)
Console.ReadKey()
End Using
Im obigen Codeschnipsel entwickeln wir eine Funktion mit "IronTesseract". Zuerst instanziieren wir ein neues "OcrInput"-Objekt, um das Hinzufügen einer oder mehrerer Bilddateien zu ermöglichen. Bei der Verwendung der "Add"-Methode des "OcrInput"-Objekts müssen wir möglicherweise den Pfad des Bildes im Code angeben. Sie können so viele Bilder hinzufügen, wie Sie möchten. Indem wir die Bilddokumente analysieren und die Ergebnisse in das OCR-Ergebnis extrahieren, können wir die Funktion "Lesen" des zuvor erstellten Objekts nutzen, um auf die Bilder zuzugreifen. Es kann Text aus Bildern extrahieren und in eine Zeichenkette umwandeln.
Die folgende Ausgabe zeigt den Text, der aus dem zuvor bereitgestellten Bild extrahiert wurde, und zeigt, dass der Text erfolgreich aus dem Bild extrahiert wurde.
Siehe dies beitrag für eine gründliche IronOCR-Anleitung.
Mit Open-Source-Tools für die OCR können wir unsere eigenen Programme unter Verwendung ihres Quellcodes erstellen. Einige Tools verfügen jedoch nicht über eine offizielle Bibliothek oder ein spezielles Team, das bei Codierungsproblemen Unterstützung leistet. In der Dokumentation von Tesseract fehlt es auch an Beispielcode oder Tutorials für gängige Anwendungsszenarien, was es für Anfänger schwierig macht, den Code und die Bibliotheken zu verstehen.
IronOCR unterstützt verschiedene .NET-Projekte wie .NET-Framework Standard 2, .NET Framework 4.5 und .NET Core 2, 3 und 5. Es funktioniert auch mit neueren Technologien wie Mono, Xamarin und Azure. Durch den Einsatz von IronOCR-Technologien können wir die Ergebnisse von Tesseract verbessern und ungenau gescannte Dokumente oder Bilder korrigieren. Das komplexe Tesseract-Wörterbuchsystem wird über das NuGet-Paket verwaltet. Wir verwenden die Iron OCR Library, um ein OCR-Tool zu entwickeln.
Mit IronOCR können wir das Programm ohne zusätzliche Konfiguration verwenden, und es unterstützt PDF-Dateien, TIFF-Dateien mit mehreren Bildern und alle gängigen Bildformate. Außerdem bietet es Barcode-Erkennungsfunktionen, mit denen wir Barcode-Daten extrahieren und Barcode-Werte aus Bildern lesen können. IronOCR bietet eine kostengünstige Entwicklungsversion mit einer kostenlosen Testversion, und die lebenslange Lizenz ist im IronOCR-Bundle ohne zusätzliche Kosten enthalten. Das IronOCR-Bundle deckt mit einer einzigen Zahlung mehrere Plattformen ab. Weitere Informationen über die Preisgestaltung von IronOCR finden Sie in diesem seite.
9 .NET API-Produkte für Ihre Bürodokumente