Test in einer Live-Umgebung
Test in der Produktion ohne Wasserzeichen.
Funktioniert überall, wo Sie es brauchen.
OCR - Optische Zeichenerkennung ermöglicht die Erkennung von Text in digitalen Dateien. Die gescannten Papierdokumente werden immer als Bilddateien auf dem Computer gespeichert. Die Daten in diesen Bilddateien können nicht mit einem normalen Texteditor oder gar einer Textverarbeitungsanwendung durchsucht, bearbeitet oder im Textformat gespeichert werden. Mit Hilfe der OCR-Verarbeitung werden diese Bilder in maschinenlesbaren Text umgewandelt, der von den Benutzern weiterverarbeitet werden kann.
In der heutigen Zeit werden Dokumente über das Internet in digitalem Format und meist in Form von PDFs oder Bildern ausgetauscht. Es gibt eine ganze Reihe von Online-Ressourcen, die das Bild in Text umwandeln. Die meisten Unternehmen benötigen diese Funktionalität jedoch in ihren Softwareanwendungen. Aus diesem Grund gibt es viele Bibliotheken, die OCR-Lösungen zur Einbettung in Softwareanwendungen anbieten.
In diesem Artikel werden wir zwei der beliebtesten OCR-Technologien für C# vergleichen:
IronOCR for .NET ist eine C#-Bibliothek zum Scannen, Suchen und Lesen von Bildern und PDFs. Es nimmt ein Bild oder eine PDF-Datei als Eingabe und verwendet die neueste Tesseract 5 custom build .NET OCR-Engine zur Ausgabe von Text, strukturierten Daten oder durchsuchbaren PDF-Dokumenten. Tesseract ist in mehr als 125 Sprachen verfügbar und bietet plattformübergreifende Unterstützung für .NET Core, Standard, von 2.0 bis 7.
IronOCR ist eine benutzerfreundliche API, die es C#-Entwicklern ermöglicht, Bilder automatisch in Text zu konvertieren, indem sie einfach die Klasse IronTesseract
verwenden. Dabei stehen Geschwindigkeit, Genauigkeit und Benutzerfreundlichkeit im Vordergrund. Es hilft auch der Computer Vision API, Text mit einem trainierten Satz von Modellen zu finden.
Eine weitere leistungsstarke Funktion von IronOCR ist das Scannen von Barcodes und QR-Codes aus allen Bilddateien und das Lesen ihres Textes. Weitere wichtige Merkmale von IronOCR sind im Folgenden aufgeführt.
Iris OCR SDK ist ein modulares Software-Toolkit, mit dem Ihre Anwendungen Bildtext in bearbeitbare Dateien umwandeln und andere Texterkennungsdienste anbieten können. Es ist die schnellste professionelle OCR mit hoher Leistung und Genauigkeit. Mit der Iriserkennungstechnologie erhalten Sie die fortschrittlichsten Techniken für die optische Zeichenerkennung, die modernes Scannen, KI-basierte Dokumentenklassifizierung, Datenintegrität und Datenextraktion umfassen.
Iris OCR ist ein funktionsreiches SDK, das auch leistungsstarke Bildbereinigungswerkzeuge zur Bildverbesserung bietet. Es kann leicht in C++-, C#-, J#- und VB.NET-Softwareanwendungen integriert werden. IrisOCR bietet langfristigen Support und ist für den plattformübergreifenden Einsatz konzipiert. Es unterstützt auch OEM- und SaaS-Anwendungen. Iris OCR unterstützt Unternehmen mit einer globalen Lösung zu flexiblen Preisen.
In diesem Tutorial werden wir die neueste Version von Visual Studio 2022 verwenden. Ich gehe also davon aus, dass Sie es für C# bereits heruntergeladen und installiert haben. Falls nicht, können Sie es von der Website Visual Studio-Website.
Nun müssen wir ein Konsolenprojekt erstellen, um mit beiden Bibliotheken zu arbeiten. Folgen Sie den Schritten, um ein Projekt zu erstellen:
Klicken Sie auf Neues Projekt erstellen.
Wählen Sie C# Console Application aus den angegebenen Optionen und klicken Sie auf Next
Konfigurieren Sie Ihr neues Projekt mit einem Namen und einem Speicherort. Z.B. "OCRProjekt".
Für weitere Informationen wählen Sie .NET 6.0 Framework, da dies die stabilste Version ist.
Es gibt mehrere Möglichkeiten, die IronOCR-Bibliothek zu installieren.
NuGet ist der Paketmanager zum Herunterladen und Installieren von Abhängigkeiten in Ihrem Projekt. Die Pakete enthalten kompilierten Code (DLL) und die Manifestdatei. Greifen Sie mit der folgenden Methode darauf zu:
Klicken Sie auf NuGet-Pakete für Lösungen verwalten
Klicken Sie auf NuGet-Pakete verwalten
Nun wird das Fenster NuGet Package Manager geöffnet. Suchen Sie nach IronOCR und klicken Sie auf Installieren.
Es kann direkt von der offiziellen NuGet-Website heruntergeladen werden.
Klicken Sie auf den Link: "".
Klicken Sie auf die Option "Paket herunterladen" auf der rechten Seite der Seite.
Öffnen Sie das heruntergeladene Paket und die Installation beginnt.
Besuchen Sie einfach die Website von Iron Software und navigieren Sie zur IronOCR for .NET-Webseite. Blättern Sie bis zum Ende und klicken Sie auf Download DLL oder Download Windows Installer.
Eine Zip-Datei wird heruntergeladen. Extrahieren Sie Ihre Projektdatei oder führen Sie das Windows-Installationsprogramm aus. Führen Sie die folgenden Schritte aus, um sie zu Ihrem Projekt hinzuzufügen.
Klicken Sie mit der rechten Maustaste auf die Abhängigkeiten des Projekts in Visual Studio im Projektmappen-Explorer.
Wählen Sie dann die Option Projektreferenz hinzufügen.
Durchsuchen Sie den Speicherort der heruntergeladenen DLL-Datei.
Navigieren Sie in Visual Studio zur Registerkarte Tools.
Erweitern Sie die Option NuGet Package Manager.
Install-Package IronOcr
Dadurch wird IronOCR automatisch heruntergeladen und in Ihrem Projekt installiert.
Es ist nur ein Namespace erforderlich, der oben in der Quellcodedatei hinzugefügt werden muss, wo wir auf seine Funktionen zugreifen müssen.
using IronOcr;
using IronOcr;
Imports IronOcr
Jetzt sind wir bereit, IronOCR in unserem Projekt zu verwenden.
Es gibt viele Möglichkeiten, Iris OCR zu verwenden. Wenn Sie auf der Suche nach einer Lösung für kleine Unternehmen oder Büros sind, können Sie die OCR-App verwenden. Die Software kann von dieser Seite heruntergeladen werden link.
Wenn Sie auf der Suche nach mittelgroßen Business-Lösungen sind, dann müssen Sie das Iris-Team zu kontaktieren, um ein Angebot nach Ihren Bedürfnissen zu erhalten. Die SDKs und andere Dokumentationen sind nur für registrierte Kunden verfügbar. Um das SDK in einer Entwicklungsumgebung zu verwenden, müssen Sie den Zugriff mit dieser formular.
Hier werden wir die Iris 17 OCR-Software zu Vergleichszwecken verwenden. Es bietet alle Funktionalitäten auf einem Basisniveau und kann im Vergleich zu IronOCR verwendet werden. Die folgenden Schritte helfen Ihnen, die Iris OCR-Software herunterzuladen und zu installieren:
Sobald die Software heruntergeladen ist, doppelklicken Sie darauf, um den Einrichtungsassistenten zu öffnen.
Klicken Sie auf Weiter und wählen Sie den Installationsmodus.
Wählen Sie dann die Sprachen aus, aus denen Sie den Text vorlesen möchten
Klicken Sie auf Weiter und installieren Sie Iris OCR
Jetzt beginnt die Installation der Software. Klicken Sie nach der Installation auf Fertig stellen und öffnen Sie die Iris OCR Software.
Alles erledigt! Kommen wir nun zum eigentlichen Vergleich.
Das Lesen von Daten aus Bildern ist eine ziemlich mühsame Aufgabe. Auflösung und Qualität der Bilder spielen bei der Extraktion von Inhalten eine wichtige Rolle. Beide Bibliotheken bieten Funktionen zur optischen Zeichenerkennung, um Text aus Bildern zu extrahieren.
IronOCR macht es Entwicklern mit seiner leistungsstarken Klasse IronTessaract
sehr einfach, den Inhalt einer Bilddatei zu lesen. Hier werden wir ein PNG-Bild verwenden, um text aus einer Bilddatei lesen und der Code lautet wie folgt:
var OCR = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/employmentapp.png");
var Result = OCR.Read(Input);
Console.WriteLine(Result.Text);
}
var OCR = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/employmentapp.png");
var Result = OCR.Read(Input);
Console.WriteLine(Result.Text);
}
Dim OCR = New IronTesseract()
Using Input = New OcrInput()
Input.AddImage("test-files/employmentapp.png")
Dim Result = OCR.Read(Input)
Console.WriteLine(Result.Text)
End Using
Die Ausgabe von IronOCR entspricht dem ihm übergebenen Originalbild. Der Code ist sauber und einfach zu verstehen, ohne jegliche technische Details.
Mit der Iris OCR-Software können alle Ihre Papierdokumente gescannt und für die Texterkennung verwendet werden. Die Textextraktion ist mit der Iris OCR-Technologie sehr einfach. Wählen Sie eine Bilddatei aus der Registerkarte "Aus Datei" im Menü "Home". Das gleiche Bild wird zum Testen und Vergleichen der Ergebnisse der beiden Programme verwendet.
Sie können eine Bildkorrektur auf das hochgeladene Bild anwenden. Auf der Registerkarte Ausgabedatei können Sie ein beliebiges Format für die Ausgabe wählen. Es bietet mehrere Ausgabeformate wie Word, Excel, PDF, Textdateien usw. Speichern Sie die Datei einfach in einem beliebigen Format und öffnen Sie sie, um den extrahierten Text anzuzeigen.
Sie können sehen, dass es einen deutlichen Unterschied in der Ausgabe der beiden Programme gibt. IronOCR extrahierte den genauen Text aus dem Bild zusammen mit der Formatierung. Bei der Iris OCR hingegen blieb die Formatierung erhalten, aber der vollständige Name und die Telefonnummer sind durcheinander geraten.
IronOCR bietet eine einzigartige und nützliche Funktion beim Lesen von Bildern, d.h. es kann Barcodes und QR-Codes lesen. Es kann Barcodes erkennen und deren Wert mühelos anzeigen.
Setzen Sie dazu die Konfiguration "Barcode lesen" auf "true" und gehen Sie dann die einzelnen Barcodes in den OCR-Ergebnissen durch. Der Code zum Lesen von Barcodes ist unten angegeben:
var OCR = new IronTesseract();
OCR.Configuration.ReadBarCodes = true;
using (var input = new OcrInput()){
input.AddImage("test-files/Barcode.png");
var Result = OCR.Read(input);
foreach (var Barcode in Result.Barcodes){
Console.WriteLine(Barcode.Value);
}
}
var OCR = new IronTesseract();
OCR.Configuration.ReadBarCodes = true;
using (var input = new OcrInput()){
input.AddImage("test-files/Barcode.png");
var Result = OCR.Read(input);
foreach (var Barcode in Result.Barcodes){
Console.WriteLine(Barcode.Value);
}
}
Dim OCR = New IronTesseract()
OCR.Configuration.ReadBarCodes = True
Using input = New OcrInput()
input.AddImage("test-files/Barcode.png")
Dim Result = OCR.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
Next Barcode
End Using
Alle drei Strichcodes im Eingabebild werden erfolgreich gelesen, und ihr verborgener Text wird angezeigt.
Iris OCR bietet auch die Möglichkeit, die Barcode-Daten aus Bildern oder PDF-Dateien zu extrahieren. Bei Barcodes müssen wir jedoch den zu erfassenden Barcodebereich manuell auswählen. Wechseln Sie zur Registerkarte "Zonen" und wählen Sie den Barcode aus, der erkannt werden soll.
Klicken Sie mit der rechten Maustaste auf den ausgewählten Bereich, kopieren Sie ihn als Daten und speichern Sie ihn dann in einer Textverarbeitungsdatei, um die Daten anzuzeigen.
In diesem Fall ist die Iris OCR-Software nicht in der Lage, den versteckten Text hinter den Strichcodes auf dem Bild zu erkennen.
Das Lesen von PDF-Dateien ist in IronOCR so einfach wie das Lesen von Bilddateien. Sie müssen lediglich die Methode AddImage
in AddPDF
im Bildlesecode ändern. Der Code lautet wie folgt:
var OCR = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddPdf("test-files/example.pdf");
var Result = OCR.Read(Input);
Console.WriteLine(Result.Text);
}
var OCR = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddPdf("test-files/example.pdf");
var Result = OCR.Read(Input);
Console.WriteLine(Result.Text);
}
Dim OCR = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("test-files/example.pdf")
Dim Result = OCR.Read(Input)
Console.WriteLine(Result.Text)
End Using
Der extrahierte Text ist in der gleichen Formatierung wie die PDF-Datei.
Auch das Lesen von PDF-Dateien ist mit der Iris-Software sehr einfach. Es unterstützt alle digitalen Formate und PDF ist eines davon. Sie können mit der Iris OCR-Software auch durchsuchbare Formate erstellen. PDF ist ein Papierdokument und jede Seite wird als separate Bilddatei behandelt. Öffnen Sie Papierdokumente mit der Option Aus Datei. Wählen Sie den Seitenbereich aus, aus dem Sie Text extrahieren möchten, und speichern Sie ihn in einem bearbeitbaren Format Ihrer Wahl aus den vorgegebenen Optionen.
IronOCR ist für Entwicklungszwecke kostenlos, für die kommerzielle Nutzung muss es jedoch lizenziert werden. Es bietet auch eine kostenlose Testversion an, um das gesamte Potenzial für Ihre Bedürfnisse zu testen. Das Lite-Paket beginnt bei $749 mit einer 30-tägigen Geld-zurück-Garantie. IronOCR bietet 1 Jahr lang kostenlosen Produktsupport und Updates, danach 399 $ pro Jahr. Alle Lizenzen sind unbefristet, d. h. es gibt nur einmalige Käufe und keine versteckten Kosten. Sie können sich auch für eine lizenzgebührenfreie Weiterverbreitung von SaaS- und OEM-Produkten entscheiden - für nur $1999 beim einmaligen Kauf. Weitere Informationen über Lizenzpakete und Preispläne finden Sie unter hier.
Iris ist eine OCR-Lösung, die 10 Tage lang kostenlos getestet werden kann. Die Pro-Version beginnt bei 99 $ und die Kooperationsversion beginnt bei 199 $. Um das SDK im Produktionsmodus zu verwenden, müssen wir ein Angebot von ihrem Vertriebsmitarbeiter einholen. Wenn Sie es für die Entwicklung von C# oder einer anderen Sprache lizenzieren möchten, erhalten Sie ein Angebot von hier. Weitere Informationen und einen Vergleich zwischen der Pro- und der Cooperate-Version finden Sie unter hier.
IronOCR bietet C#-Entwicklern die fortschrittlichste Tesseract-API, die wir kennen, auf jeder Plattform. IronOCR kann unter Windows, Linux, Mac, Azure, AWS und Lambda eingesetzt werden und unterstützt sowohl .NET Framework-Projekte als auch .NET Standard und .NET Core. Wir können auch Barcodes in OCR-Scans lesen und unsere OCR sogar als HTML und durchsuchbare PDFs exportieren.
Die Iris OCR-Software verfügt über KI-Funktionen und ist mit Windows und Mac kompatibel. Das SDK ist für mehrere Programmiersprachen verfügbar. Iris Pro wird mit den Funktionen des Iris OCR SDK für Windows und Mac als GUI-Anwendung geliefert. Sie können Text aus Bildern und PDF-Dateien lesen und in anderen Formaten ausgeben. Sie können auch alle Ihre Papierdokumente mit der Iris-Software mit nur wenigen Klicks anpassen.
IronOCR-Lizenzen sind entwicklerbasiert, d. h. Sie sollten immer eine Lizenz auf der Grundlage der Anzahl der Entwickler erwerben, die das Produkt verwenden werden. Iris OCR-Entwicklungslizenzen werden nicht auf der Iris-Website veröffentlicht. Sie müssen ein Angebot für die Lizenzierung Informationen anfordern. Außerdem ist die IronOCR-Lizenz ein einmaliger Kauf und kann ein Leben lang genutzt werden.
Insgesamt bieten beide Programme fast alle OCR-Funktionen mit KI-Technologie, aber IronOCR hat einen leichten Vorteil gegenüber Iris OCR. In Bezug auf Geschwindigkeit, Genauigkeit und Gesamtleistung ist IronOCR in einer Produktionsumgebung besser. Mit nur wenigen Codezeilen lässt sich eine anspruchsvolle Texterkennungsanwendung erstellen. Die API-Dokumentation ist ebenfalls rund um die Uhr verfügbar, so dass Entwickler diese Bibliothek lieben und sie zur ersten Wahl für OCR-Lösungen machen. Sie können die volle Funktionalität mit einer kostenloser Test.
Jetzt können Sie 5 Iron-Produkte zum Preis von 2 kaufen. Für weitere Informationen besuchen Sie diese link.
IronOCR herunterladen von hier und probieren Sie es aus.
9 .NET API-Produkte für Ihre Bürodokumente