Test in einer Live-Umgebung
Test in der Produktion ohne Wasserzeichen.
Funktioniert überall, wo Sie es brauchen.
In diesem Artikel werden zwei Softwarebibliotheken verglichen, die optische Zeichenerkennung verwenden (OCR) um die Erkennung und Extraktion von gedrucktem oder handgeschriebenem Text aus Bildern und gescannten Dokumenten zu automatisieren. Zunächst werden wir die Merkmale beider Bibliotheken erörtern. Als Nächstes werden wir ihre Fähigkeiten zur Texterkennung und -extraktion anhand von Beispiel-Quellcode, der mit beiden Bibliotheken erstellt wurde, untersuchen und vergleichen. Schließlich werden wir die Lizenzierung und Preisgestaltung der Bibliotheken vergleichen.
Die Bibliotheken, die wir in diesem Artikel vergleichen werden, sind:
Die Essential PDF-Bibliothek von Syncfusion enthält OCR-Funktionen, die eine Bild-Text-Verarbeitung von gescannten Bildern in PDF-Dokumenten ermöglichen.
Der OCR-Prozessor von Syncfusion kann mit den Tesseract-Versionen 3 (3.02 und 3.05) und 4. Die Bibliothek kann in .NET Core- und ASP.NET-Anwendungen eingebunden werden.
Zu den Merkmalen der OCR-Funktionalität von SyncFusion Essential PDF gehören:
OCRProzessor
klasse kann für die OCR von PDF-Dateien verwendet werden. Es basiert auf dem Tesseract-Datenprozessor, der als einer der besten OCR-Prozessoren der Welt bekannt ist.IronOCR ist eine C#-Softwarebibliothek, die es Entwicklern der .NET-Plattform ermöglicht, Text aus Bildern und PDF-Dokumenten zu erkennen und zu lesen. Es handelt sich um eine reine .NET-OCR-Bibliothek, die die leistungsstarke Tesseract-Engine nutzt. Die Tesseract-Versionen 3 - 5 funktionieren sofort nach dem Auspacken unter Windows, macOS, Linux, Azure, AWS, Lambda, Mono und Xamarin Mac.
IronOCR deckt mit 125 Sprachen mehr Sprachen ab als jede andere verfügbare OCR-Engine, (standardmäßig wird nur Englisch installiert).
.NET-Entwickler haben die volle Kontrolle über ihre Dokumente und können sie nach eigenem Ermessen ändern.
IronOCR bietet eine einzigartige Kombination von Fähigkeiten und Funktionen zum Integrieren, Signieren, Exportieren, Lesen von Bildmaterial und Extrahieren von Details aus Fotos, unabhängig vom technischen Hintergrund des Benutzers oder von der Komplexität der Hardware.
Das IronOCR SDK übertrifft andere OCR-Bibliotheken in Bezug auf die Genauigkeit mit einer Rate von 99,8 Prozent.
Die IronOCR-Klasse bietet C#-Entwicklern umfangreiche Steuerungsmöglichkeiten. Sie geben ihren Entwicklern OCR (bilder und PDF in Text umwandeln) funktionalität und fein abgestimmte Leistung in jedem einzelnen Fall.
IronOCR enthält Konfigurationsoptionen, die es der Bibliothek ermöglichen, Bilder zu verarbeiten, die nicht von idealer Qualität sind. Einige der verfügbaren Konfigurationen sind: Hintergrundrauschen entfernen, Kontrast verbessern, Auflösung verbessern, Sprache, Strategie, Drehen und Begradigen, Farbraum, Weißen Text auf dunklem Hintergrund erkennen und Eingabebildtyp.
IronOCR bietet Unterstützung für mehr als 125 internationale Sprachen.
Der Iron Tesseract kann verschiedene Bildformate und auch PDF-Dateien lesen. Diese Funktion ist bei den standardmäßigen, kostenlosen Tesseract-Engines nicht verfügbar. Wenn Ihre Scans von schlechter Qualität sind, können Sie mit der OCR-Eingabe die erforderlichen Attribute automatisch korrigieren.
Die OCRInput-Klasse bietet C#-Programmierern eine fein abgestufte Steuerung der Eingabe. Die eingegebenen Bilder werden anschließend von den Entwicklern im Hinblick auf Geschwindigkeit und Genauigkeit vorverarbeitet. Dadurch entfällt die Notwendigkeit, Photoshop Batch Scripts oder ImageMagick zu verwenden, um Fotos vor der OCR-Verarbeitung vorzubereiten.
IronOCR ermöglicht es seinen Endbenutzern, OCR auf bestimmten Bereichen eines Bildes durchzuführen.
IronOCR liefert für jede Seite, die mit Tesseract 3, 4 oder 5 gescannt wird, ein erweitertes Ergebnisobjekt. Dieses enthält Standortdaten, Bilder, Text, statistische Konfidenz, alternative Symbolauswahlen, Schriftnamen, Schriftgrößen, Schriftschnitte und eine Position für jedes der folgenden Elemente:
IronOCR ermöglicht es Entwicklern, mehrere Sprachen in einem einzigen Dokument zu verwenden. Diese Fähigkeit ist für die Anbieter von .NET-Diensten von großem Nutzen.
In diesem Artikel werden wir eine neue Visual Studio-Konsolenanwendung verwenden, um die OCR-Verarbeitungsfunktionen von IronOCR und Syncfusion Essential PDF zu demonstrieren.
Öffnen Sie die Visual Studio-Software, gehen Sie zum Menü Datei und wählen Sie Neues Projekt. Wählen Sie dann Konsolenanwendung.
Geben Sie den Projektnamen ein und wählen Sie den Pfad in dem entsprechenden Textfeld aus. Klicken Sie anschließend auf die Schaltfläche "Erstellen" und wählen Sie das gewünschte .NET-Framework aus, wie in der folgenden Abbildung dargestellt:
Das Visual Studio-Projekt wird nun die Struktur für die neue Konsolenanwendung generieren. Die Datei program.cs wird nach Fertigstellung geöffnet.
Wir werden nun beide Bibliotheken zum Projekt hinzufügen.
Die IronOCR-Bibliothek kann auf vier Arten heruntergeladen und installiert werden. Diese sind:
Verwendung des Visual Studio NuGet-Paketmanagers
Direkter Download von der NuGet-Webseite.
Direkter Download von der IronOCR-Webseite.
Sie können IronOCR in ein C#-Projekt integrieren, indem Sie den Visual Studio NuGet Package Manager verwenden.
Rufen Sie die NuGet Package Manager GUI auf, indem Sie auf Tools > NuGet Package Manager > Manage NuGet Packages for Solutions... klicken
Daraufhin wird ein neues Fenster angezeigt. Suchen Sie nach IronOCR und installieren Sie das Paket in Ihrem Projekt.
Zusätzliche Sprachpakete für IronOCR können ebenfalls mit der oben beschriebenen Methode installiert werden.
IronOCR kann direkt von der NuGet-Website heruntergeladen werden, indem Sie diese Anweisungen befolgen:
Navigieren Sie zum IronPDF NuGet-Galerie-Seite
Wählen Sie im Menü auf der rechten Seite die Option Paket herunterladen.
Entwickler können herunterladen die Bibliothek von der IronOCR-Website und fügen Sie sie als Projektreferenz hinzu.
Folgen Sie den nachstehenden Anweisungen, um die Bibliothek als Referenz in Visual Studio hinzuzufügen.
Klicken Sie mit der rechten Maustaste auf das Projekt im Lösungsfenster.
Wählen Sie dann Projektreferenz hinzufügen und suchen Sie den Speicherort der heruntergeladenen Referenz.
Gehen Sie in Visual Studio zu Tools > NuGet-Paketmanager > Paketmanager-Konsole
Geben Sie die folgende Zeile auf der Registerkarte der Paketmanager-Konsole ein:
Das Paket wird nun in das aktuelle Projekt heruntergeladen/installiert und steht zur Verwendung bereit.
Syncfsion Essential PDF kann auf drei verschiedene Arten installiert werden.
Verwendung des Visual Studio NuGet-Paketmanagers
Direkter Download von der NuGet-Webseite.
Wie bei IronOCR können Entwickler auch die OCR-Bibliothek von SyncFusion über den NuGet-Paketmanager von Visual Studio installieren.
Rufen Sie den Paketmanager wie zuvor auf, indem Sie auf Tools > NuGet Package Manager > Manage NuGet Packages for Solutions... klicken
Suchen Sie nach SyncFusion OCR und installieren Sie das entsprechende Paket (sollte sein Syncfusion.PDF.OCR.Net.Core
)
Zusätzliche Sprachpakete für SyncFusion Essential PDF OCR können heruntergeladen werden von GitHub.
Syncfusion Essential PDF OCR kann direkt von der NuGet-Website heruntergeladen werden, indem Sie diese Anweisungen befolgen:
Navigieren Sie zum Paket NuGet Galerie Seite.
Wählen Sie im Menü auf der rechten Seite die Option Paket herunterladen.
Doppelklicken Sie auf das heruntergeladene Paket. Sie wird automatisch installiert.
Gehen Sie in Visual Studio zu Tools > NuGet Package Manager > Package Manager Console
Install-Package Syncfusion.PDF.OCR.Net.Core -Version 20.2.0.38
Das Paket wird nun in das aktuelle Projekt heruntergeladen/installiert und steht zur Verwendung bereit.
Sowohl IronOCR als auch Syncfusion OCR sind in der Lage, OCR an PDF-Dokumenten durchzuführen. Hier werden wir besprechen, wie beide in Visual Studio verwendet werden können.
Mit nur wenigen Codezeilen können Entwickler OCR für eine gesamte PDF-Datei oder für bestimmte Seiten/Teile einer PDF-Datei durchführen. Betrachten Sie den folgenden Codeschnipsel.
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("example.pdf", "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Sie können die OCRProzessor-Klasse verwenden, um OCR auf PDF-Dokumenten sowie auf Bereichen eines Dokuments durchzuführen. Schauen Sie sich das nachstehende Codebeispiel an, um den Zusammenhang zu verstehen.
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
Imports Syncfusion.OCRProcessor
Imports Syncfusion.Pdf.Graphics
Imports Syncfusion.Pdf.Parsing
'initialize the ocr processor
Using processor As New OCRProcessor("TesseractBinaries\")
Dim lDoc As New PdfLoadedDocument("Input.pdf")
processor.Settings.Language = Languages.English
processor.PerformOCR(lDoc, "TessData\")
lDoc.Save("Sample.pdf")
lDoc.Close(True)
End Using
Beide Bibliotheken können OCR für Bilder innerhalb einer C#.NET- und .NET Core-Anwendung durchführen.
IronOCR ist einzigartig in seiner Fähigkeit, mit nur zwei Codezeilen automatisch Text aus unvollkommen gescannten Bildern zu erkennen und zu lesen.
using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
Imports IronOcr
Private Result = (New IronTesseract()).Read("images\11111.png").Text
OCR OUTPUT form IMAGE
OCR Output
Simple Data Outputs:
» NET Text Strings
» Barcode & QR Data & Images
Structured Data Outputs:
» Pages
» Blocks
» Paragraphs
» Lines
» words
» Characters
Export Documents:
» Searchable PDFs
» hOCR / HTML Export
» Images of any Page, Text
Element or Barcode
Syncfusion Essential PDF ist in der Lage, Text aus Bildern mit großer Genauigkeit zu extrahieren.
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
Using processor As New OCRProcessor("TesseractBinaries\")
Using Syncfusion.OCRProcessor
End Using
End Using
Using Syncfusion.Pdf.Graphics
Using Syncfusion.Pdf.Parsing
'loading the input image
Dim image As New Bitmap("11111.jpeg")
'Set OCR language to process
processor.Settings.Language = Languages.English
'Process OCR by providing the bitmap image, data dictionary and language
Dim ocrText As String= processor.PerformOCR(image, "TessData\")
End Using
End Using
OCR OUTPUT Formular IMAGE
OCR Auspu
Einfache Datenausgabe:
+ NET-Text-Strings
Dee eT Nd
tC eke arsch
Biren)
Soja
Seg
oders
eae
eed
TLC
eres
Smt d
Siehe amr'
etd ieot
Für die Nutzung von IronOCR und Syncfusion Essential PDF sind Softwarelizenzen erforderlich.
IronOCR hat eine freie Entwicklungslizenz für persönliche, nicht-kommerzielle Projekte.
IronOCR bietet eine klare Preisstruktur für kommerzielle Lizenzen. Das Lite-Paket beginnt bei $749 ohne zusätzliche Kosten. Alle Lizenzen beinhalten eine 30-tägige Geld-zurück-Garantie, ein Jahr Software-Support und Upgrades, Gültigkeit für Entwicklung, Test, Staging und Produktion sowie eine unbefristete Lizenz (einmaliger Kauf). Erfahren Sie mehr über die vollständige Preisstruktur von IronOCR und die Lizenzierungsinformationen unter diese Seite.
Für eine einmalige Gebühr von $1599 können Sie eine lizenzgebührenfreie Weiterverteilung von SaaS- und OEM-Produkten erhalten.
Syncfusion Essential PDF bietet drei Arten von Entwicklerlizenzen, aber keine SaaS- und OEM-Abdeckung.
Unbegrenzte Lizenz Diese Option bietet Lizenzen für ein ganzes Unternehmen auf der gleichen, jährlichen Basis, aber zu einem niedrigeren Preis.
Sehen Sie sich die gesamte Lizenzierungsstruktur für Syncfusion Essential PDF an (und für andere Syncfusion-Komponenten) über die produktlizenzierungsseite.
IronOCR unterstützt insgesamt etwa 125 Sprachen weltweit. Zu seinen Verarbeitungsmöglichkeiten gehören: die Fähigkeit, OCR auf Teilen eines PDF-Dokuments oder Bildes durchzuführen, die Fähigkeit, Text aus PDFs und Fotos zu extrahieren, und die Fähigkeit, ein Bild von schlechter Qualität zu korrigieren, und vieles mehr. IronOCR legt den Schwerpunkt auf Geschwindigkeit und Genauigkeit. Die Genauigkeitsrate von 99,8 Prozent ist höher als bei jeder anderen Tesseract-gestützten OCR-Bibliothek auf dem Markt. IronOCR ist sofort einsatzbereit, ohne dass eine Leistungsoptimierung oder Bildvorverarbeitung erforderlich ist.
Syncfusion Essential PDF OCR verwendet ebenfalls die Open-Source-Engine Tesseract von Google. Es kann OCR für ganze Dokumente oder bestimmte Teile von Dokumenten durchführen. Die OCR-Bibliothek von Syncfusion unterstützt mehr als 60 internationale Sprachen.
IronOCR-Lizenzen haben eine lebenslange Gültigkeit mit unbegrenztem Support und SaaS- und OEM-Abdeckung. Auf der anderen Seite bietet Syncfusion Essential PDF OCR jährliche Lizenzen an. Die Preise für IronOCR beginnen bei $749 und die Preise für Syncfusion beginnen bei $995 pro Jahr.
Sie erhalten IronOCR zusammen mit vier weiteren Iron Software-Produkten zu einem vergünstigten Preis, wenn Sie die Vollversion erwerben EisenSuite. Zu den in der IronSuite gebündelten Produkten gehören:
IronPDF
IronOCR
IronXL
IronBarcode
IronWebscraper
Die Iron Software lizenzierungsseite enthält genauere Informationen über Preise und Lizenzen für die oben genannten fünf Produkte.
9 .NET API-Produkte für Ihre Bürodokumente