VERGLEICH MIT ANDEREN KOMPONENTEN

Ein Vergleich zwischen IronOCR und Syncfusion OCR

Veröffentlicht 14. November 2022
Teilen Sie:

In diesem Artikel werden zwei Softwarebibliotheken verglichen, die optische Zeichenerkennung verwenden (OCR) um die Erkennung und Extraktion von gedrucktem oder handgeschriebenem Text aus Bildern und gescannten Dokumenten zu automatisieren. Zunächst werden wir die Merkmale beider Bibliotheken erörtern. Als Nächstes werden wir ihre Fähigkeiten zur Texterkennung und -extraktion anhand von Beispiel-Quellcode, der mit beiden Bibliotheken erstellt wurde, untersuchen und vergleichen. Schließlich werden wir die Lizenzierung und Preisgestaltung der Bibliotheken vergleichen.

Die Bibliotheken, die wir in diesem Artikel vergleichen werden, sind:

  • IronOCR
  • Syncfusion Essential PDF

1. Syncfusion OCR

Die Essential PDF-Bibliothek von Syncfusion enthält OCR-Funktionen, die eine Bild-Text-Verarbeitung von gescannten Bildern in PDF-Dokumenten ermöglichen.

Der OCR-Prozessor von Syncfusion kann mit den Tesseract-Versionen 3 (3.02 und 3.05) und 4. Die Bibliothek kann in .NET Core- und ASP.NET-Anwendungen eingebunden werden.

Zu den Merkmalen der OCR-Funktionalität von SyncFusion Essential PDF gehören:

  • OCR-Aufgaben für PDF-Dokumente durchführen Die Bibliothek OCRProzessor klasse kann für die OCR von PDF-Dateien verwendet werden. Es basiert auf dem Tesseract-Datenprozessor, der als einer der besten OCR-Prozessoren der Welt bekannt ist.
  • **Benutzer können bestimmte Seiten oder Bereiche eines PDF-Dokuments mit OCR bearbeiten.
  • **Benutzer können Textdaten aus Bildern extrahieren, um sie in andere Anwendungen zu importieren.
  • Mehrsprachige Unterstützung Die Google Tesseract-Engine (Syncfusion durch Erweiterung) unterstützt derzeit mehr als 60 Sprachen und experimentiert mit vielen weiteren.
  • Gute Genauigkeit. Durch die Nutzung der Open-Source-Engine Tesseract von Google erreicht Syncfusion Essential PDF eine sehr gute Textgenauigkeit und führt OCR in einer angemessenen Zeit durch.

2. IronOCR

IronOCR ist eine C#-Softwarebibliothek, die es Entwicklern der .NET-Plattform ermöglicht, Text aus Bildern und PDF-Dokumenten zu erkennen und zu lesen. Es handelt sich um eine reine .NET-OCR-Bibliothek, die die leistungsstarke Tesseract-Engine nutzt. Die Tesseract-Versionen 3 - 5 funktionieren sofort nach dem Auspacken unter Windows, macOS, Linux, Azure, AWS, Lambda, Mono und Xamarin Mac.

IronOCR deckt mit 125 Sprachen mehr Sprachen ab als jede andere verfügbare OCR-Engine, (standardmäßig wird nur Englisch installiert).

.NET-Entwickler haben die volle Kontrolle über ihre Dokumente und können sie nach eigenem Ermessen ändern.

2.1. IronOCR Merkmale

IronOCR bietet eine einzigartige Kombination von Fähigkeiten und Funktionen zum Integrieren, Signieren, Exportieren, Lesen von Bildmaterial und Extrahieren von Details aus Fotos, unabhängig vom technischen Hintergrund des Benutzers oder von der Komplexität der Hardware.

2.1.1. Genauigkeit

Das IronOCR SDK übertrifft andere OCR-Bibliotheken in Bezug auf die Genauigkeit mit einer Rate von 99,8 Prozent.

2.1.2. Korrigieren von Scans und Bildern niedriger Qualität

Die IronOCR-Klasse bietet C#-Entwicklern umfangreiche Steuerungsmöglichkeiten. Sie geben ihren Entwicklern OCR (bilder und PDF in Text umwandeln) funktionalität und fein abgestimmte Leistung in jedem einzelnen Fall.

IronOCR enthält Konfigurationsoptionen, die es der Bibliothek ermöglichen, Bilder zu verarbeiten, die nicht von idealer Qualität sind. Einige der verfügbaren Konfigurationen sind: Hintergrundrauschen entfernen, Kontrast verbessern, Auflösung verbessern, Sprache, Strategie, Drehen und Begradigen, Farbraum, Weißen Text auf dunklem Hintergrund erkennen und Eingabebildtyp.

2.1.3. Sprachen

IronOCR bietet Unterstützung für mehr als 125 internationale Sprachen.

2.1.4. OCR-Text-Extraktion

Der Iron Tesseract kann verschiedene Bildformate und auch PDF-Dateien lesen. Diese Funktion ist bei den standardmäßigen, kostenlosen Tesseract-Engines nicht verfügbar. Wenn Ihre Scans von schlechter Qualität sind, können Sie mit der OCR-Eingabe die erforderlichen Attribute automatisch korrigieren.

2.1.5. Bildoptimierungs-Filter

Die OCRInput-Klasse bietet C#-Programmierern eine fein abgestufte Steuerung der Eingabe. Die eingegebenen Bilder werden anschließend von den Entwicklern im Hinblick auf Geschwindigkeit und Genauigkeit vorverarbeitet. Dadurch entfällt die Notwendigkeit, Photoshop Batch Scripts oder ImageMagick zu verwenden, um Fotos vor der OCR-Verarbeitung vorzubereiten.

2.1.6. OCR-Bereich eines Bildes

IronOCR ermöglicht es seinen Endbenutzern, OCR auf bestimmten Bereichen eines Bildes durchzuführen.

2.1.7. OCRResult Klasse

IronOCR liefert für jede Seite, die mit Tesseract 3, 4 oder 5 gescannt wird, ein erweitertes Ergebnisobjekt. Dieses enthält Standortdaten, Bilder, Text, statistische Konfidenz, alternative Symbolauswahlen, Schriftnamen, Schriftgrößen, Schriftschnitte und eine Position für jedes der folgenden Elemente:

  • Seiten
  • Paragraphen
  • Textzeilen
  • Wörter
  • Einzelne Zeichen
  • Barcodes

2.1.8. Mehrere Sprachen in einem Dokument

IronOCR ermöglicht es Entwicklern, mehrere Sprachen in einem einzigen Dokument zu verwenden. Diese Fähigkeit ist für die Anbieter von .NET-Diensten von großem Nutzen.

3. Starten eines neuen Projekts in Visual Studio

In diesem Artikel werden wir eine neue Visual Studio-Konsolenanwendung verwenden, um die OCR-Verarbeitungsfunktionen von IronOCR und Syncfusion Essential PDF zu demonstrieren.

Öffnen Sie die Visual Studio-Software, gehen Sie zum Menü Datei und wählen Sie Neues Projekt. Wählen Sie dann Konsolenanwendung.

Geben Sie den Projektnamen ein und wählen Sie den Pfad in dem entsprechenden Textfeld aus. Klicken Sie anschließend auf die Schaltfläche "Erstellen" und wählen Sie das gewünschte .NET-Framework aus, wie in der folgenden Abbildung dargestellt:

Ein Vergleich zwischen IronOCR und SyncFusion Essential PDF OCR, Abbildung 1

Das Visual Studio-Projekt wird nun die Struktur für die neue Konsolenanwendung generieren. Die Datei program.cs wird nach Fertigstellung geöffnet.

Ein Vergleich zwischen IronOCR und SyncFusion Essential PDF OCR, Abbildung 2

Wir werden nun beide Bibliotheken zum Projekt hinzufügen.

4. Installieren Sie die IronOCR-Bibliothek

Die IronOCR-Bibliothek kann auf vier Arten heruntergeladen und installiert werden. Diese sind:

  1. Verwendung des Visual Studio NuGet-Paketmanagers

  2. Direkter Download von der NuGet-Webseite.

  3. Direkter Download von der IronOCR-Webseite.

  4. Verwendung der Visual Studio-Befehlszeile.

4.1. Verwendung des Visual Studio NuGet Managers

Sie können IronOCR in ein C#-Projekt integrieren, indem Sie den Visual Studio NuGet Package Manager verwenden.

Rufen Sie die NuGet Package Manager GUI auf, indem Sie auf Tools > NuGet Package Manager > Manage NuGet Packages for Solutions... klicken

Ein Vergleich zwischen IronOCR und SyncFusion Essential PDF OCR, Abbildung 3

Daraufhin wird ein neues Fenster angezeigt. Suchen Sie nach IronOCR und installieren Sie das Paket in Ihrem Projekt.

Ein Vergleich zwischen IronOCR und SyncFusion Essential PDF OCR, Abbildung 4

Zusätzliche Sprachpakete für IronOCR können ebenfalls mit der oben beschriebenen Methode installiert werden.

4.2. Direkter Download von der NuGet-Webseite

IronOCR kann direkt von der NuGet-Website heruntergeladen werden, indem Sie diese Anweisungen befolgen:

  1. Navigieren Sie zum IronPDF NuGet-Galerie-Seite

  2. Wählen Sie im Menü auf der rechten Seite die Option Paket herunterladen.

  3. Doppelklicken Sie auf das heruntergeladene Paket. Sie wird automatisch installiert.

4.3. Direkter Download von der IronOCR-Webseite

Entwickler können herunterladen die Bibliothek von der IronOCR-Website und fügen Sie sie als Projektreferenz hinzu.

Folgen Sie den nachstehenden Anweisungen, um die Bibliothek als Referenz in Visual Studio hinzuzufügen.

  1. Klicken Sie mit der rechten Maustaste auf das Projekt im Lösungsfenster.

  2. Wählen Sie dann Projektreferenz hinzufügen und suchen Sie den Speicherort der heruntergeladenen Referenz.

  3. Klicken Sie anschließend auf OK, um die Referenz hinzuzufügen.

4.4. Verwendung der Visual Studio-Befehlszeile

  1. Gehen Sie in Visual Studio zu Tools > NuGet-Paketmanager > Paketmanager-Konsole

  2. Geben Sie die folgende Zeile auf der Registerkarte der Paketmanager-Konsole ein:

  3. Installieren-Paket IronOCR
    Ein Vergleich zwischen IronOCR und SyncFusion Essential PDF OCR, Abbildung 5

    Das Paket wird nun in das aktuelle Projekt heruntergeladen/installiert und steht zur Verwendung bereit.

    Ein Vergleich zwischen IronOCR und SyncFusion Essential PDF OCR, Abbildung 6

5. Installieren Sie die Syncfusion Essential PDF OCR Library

Syncfsion Essential PDF kann auf drei verschiedene Arten installiert werden.

  1. Verwendung des Visual Studio NuGet-Paketmanagers

  2. Direkter Download von der NuGet-Webseite.

  3. Verwendung der Visual Studio-Befehlszeile.

5.1. Verwendung des Visual Studio NuGet Managers

Wie bei IronOCR können Entwickler auch die OCR-Bibliothek von SyncFusion über den NuGet-Paketmanager von Visual Studio installieren.

Rufen Sie den Paketmanager wie zuvor auf, indem Sie auf Tools > NuGet Package Manager > Manage NuGet Packages for Solutions... klicken

Ein Vergleich zwischen IronOCR und SyncFusion Essential PDF OCR, Abbildung 7

Suchen Sie nach SyncFusion OCR und installieren Sie das entsprechende Paket (sollte sein Syncfusion.PDF.OCR.Net.Core)

Ein Vergleich zwischen IronOCR und SyncFusion Essential PDF OCR, Abbildung 8

Zusätzliche Sprachpakete für SyncFusion Essential PDF OCR können heruntergeladen werden von GitHub.

5.2. Direkter Download von der NuGet-Webseite

Syncfusion Essential PDF OCR kann direkt von der NuGet-Website heruntergeladen werden, indem Sie diese Anweisungen befolgen:

  1. Navigieren Sie zum Paket NuGet Galerie Seite.

  2. Wählen Sie im Menü auf der rechten Seite die Option Paket herunterladen.

  3. Doppelklicken Sie auf das heruntergeladene Paket. Sie wird automatisch installiert.

  4. Laden Sie dann die Lösung neu und verwenden Sie sie für das Projekt.

5.3. Verwendung der Visual Studio-Befehlszeile

  1. Gehen Sie in Visual Studio zu Tools > NuGet Package Manager > Package Manager Console

  2. Geben Sie die folgende Zeile auf der Registerkarte der Paketmanager-Konsole ein:
Install-Package Syncfusion.PDF.OCR.Net.Core -Version 20.2.0.38
Ein Vergleich zwischen IronOCR und SyncFusion Essential PDF OCR, Abbildung 9

Das Paket wird nun in das aktuelle Projekt heruntergeladen/installiert und steht zur Verwendung bereit.

6. OCR für PDF-Dokumente durchführen

Sowohl IronOCR als auch Syncfusion OCR sind in der Lage, OCR an PDF-Dokumenten durchzuführen. Hier werden wir besprechen, wie beide in Visual Studio verwendet werden können.

6.1. PDF OCR Textextraktion mit IronOCR

Mit nur wenigen Codezeilen können Entwickler OCR für eine gesamte PDF-Datei oder für bestimmte Seiten/Teile einer PDF-Datei durchführen. Betrachten Sie den folgenden Codeschnipsel.

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("example.pdf", "password");
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("example.pdf", "password");
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddPdf("example.pdf", "password")
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

6.2. PDF OCR Textextraktion mit Syncfusion Essential PDF OCR

Sie können die OCRProzessor-Klasse verwenden, um OCR auf PDF-Dokumenten sowie auf Bereichen eines Dokuments durchzuführen. Schauen Sie sich das nachstehende Codebeispiel an, um den Zusammenhang zu verstehen.

using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
Imports Syncfusion.OCRProcessor
Imports Syncfusion.Pdf.Graphics
Imports Syncfusion.Pdf.Parsing
'initialize the ocr processor
Using processor As New OCRProcessor("TesseractBinaries\")
Dim lDoc As New PdfLoadedDocument("Input.pdf")
processor.Settings.Language = Languages.English
processor.PerformOCR(lDoc, "TessData\")
lDoc.Save("Sample.pdf")
lDoc.Close(True)
End Using
VB   C#

7. OCR für Bilder durchführen

Beide Bibliotheken können OCR für Bilder innerhalb einer C#.NET- und .NET Core-Anwendung durchführen.

7.1. OCR auf Bildern mit IronOCR durchführen

IronOCR ist einzigartig in seiner Fähigkeit, mit nur zwei Codezeilen automatisch Text aus unvollkommen gescannten Bildern zu erkennen und zu lesen.

using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
Imports IronOcr
Private Result = (New IronTesseract()).Read("images\11111.png").Text
VB   C#

OCR-Eingabe Bild

Ein Vergleich zwischen IronOCR und SyncFusion Essential PDF OCR, Abbildung 10

OCR OUTPUT form IMAGE
OCR Output
Simple Data Outputs:
» NET Text Strings
» Barcode & QR Data & Images
Structured Data Outputs:
» Pages
» Blocks
» Paragraphs
» Lines
» words
» Characters
Export Documents:
» Searchable PDFs
» hOCR / HTML Export
» Images of any Page, Text
Element or Barcode

7.2. OCR am Bild mit dem Syncfusion Essential PDF OCR Processor durchführen

Syncfusion Essential PDF ist in der Lage, Text aus Bildern mit großer Genauigkeit zu extrahieren.

using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
Using processor As New OCRProcessor("TesseractBinaries\")
Using Syncfusion.OCRProcessor
End Using
End Using
Using Syncfusion.Pdf.Graphics
	Using Syncfusion.Pdf.Parsing
	'loading the input image
	Dim image As New Bitmap("11111.jpeg")
	'Set OCR language to process
	processor.Settings.Language = Languages.English
	'Process OCR by providing the bitmap image, data dictionary and language
	Dim ocrText As String= processor.PerformOCR(image, "TessData\")
	End Using
End Using
VB   C#

OCR-Eingabebild

Ein Vergleich zwischen IronOCR und SyncFusion Essential PDF OCR, Abbildung 11


OCR OUTPUT Formular IMAGE

OCR Auspu

Einfache Datenausgabe:

+ NET-Text-Strings

 Dee eT Nd

 tC eke arsch

 Biren)

 Soja

 Seg

 oders

 eae

 eed

 TLC

 eres

 Smt d

 Siehe amr'

 etd ieot

8. Lizenzvergabe

Für die Nutzung von IronOCR und Syncfusion Essential PDF sind Softwarelizenzen erforderlich.

8.1. IronOCR-Lizenzierung

IronOCR hat eine freie Entwicklungslizenz für persönliche, nicht-kommerzielle Projekte.

IronOCR bietet eine klare Preisstruktur für kommerzielle Lizenzen. Das Lite-Paket beginnt bei $749 ohne zusätzliche Kosten. Alle Lizenzen beinhalten eine 30-tägige Geld-zurück-Garantie, ein Jahr Software-Support und Upgrades, Gültigkeit für Entwicklung, Test, Staging und Produktion sowie eine unbefristete Lizenz (einmaliger Kauf). Erfahren Sie mehr über die vollständige Preisstruktur von IronOCR und die Lizenzierungsinformationen unter diese Seite.

Für eine einmalige Gebühr von $1599 können Sie eine lizenzgebührenfreie Weiterverteilung von SaaS- und OEM-Produkten erhalten.

Ein Vergleich zwischen IronOCR und SyncFusion Essential PDF OCR, Abbildung 12

8.2. Syncfusion Essential PDF-Lizenzierung

Syncfusion Essential PDF bietet drei Arten von Entwicklerlizenzen, aber keine SaaS- und OEM-Abdeckung.

  • Community-Lizenz. Die Community-Lizenz ist für Entwickler und kleine Unternehmen mit bis zu 5 Entwicklern kostenlos. Es umfasst auch Live-Support.
  • **Die Einzelhandelslizenz ist eine Jahreslizenz, die für jeden Entwickler in einer Organisation separat erworben werden muss. Einzelhandelslizenzen gibt es ab $995 pro Jahr und Entwickler.
  • Unbegrenzte Lizenz Diese Option bietet Lizenzen für ein ganzes Unternehmen auf der gleichen, jährlichen Basis, aber zu einem niedrigeren Preis.

    Sehen Sie sich die gesamte Lizenzierungsstruktur für Syncfusion Essential PDF an (und für andere Syncfusion-Komponenten) über die produktlizenzierungsseite.

    Ein Vergleich zwischen IronOCR und SyncFusion Essential PDF OCR, Abbildung 13

9. Schlussfolgerung

IronOCR unterstützt insgesamt etwa 125 Sprachen weltweit. Zu seinen Verarbeitungsmöglichkeiten gehören: die Fähigkeit, OCR auf Teilen eines PDF-Dokuments oder Bildes durchzuführen, die Fähigkeit, Text aus PDFs und Fotos zu extrahieren, und die Fähigkeit, ein Bild von schlechter Qualität zu korrigieren, und vieles mehr. IronOCR legt den Schwerpunkt auf Geschwindigkeit und Genauigkeit. Die Genauigkeitsrate von 99,8 Prozent ist höher als bei jeder anderen Tesseract-gestützten OCR-Bibliothek auf dem Markt. IronOCR ist sofort einsatzbereit, ohne dass eine Leistungsoptimierung oder Bildvorverarbeitung erforderlich ist.

Syncfusion Essential PDF OCR verwendet ebenfalls die Open-Source-Engine Tesseract von Google. Es kann OCR für ganze Dokumente oder bestimmte Teile von Dokumenten durchführen. Die OCR-Bibliothek von Syncfusion unterstützt mehr als 60 internationale Sprachen.

IronOCR-Lizenzen haben eine lebenslange Gültigkeit mit unbegrenztem Support und SaaS- und OEM-Abdeckung. Auf der anderen Seite bietet Syncfusion Essential PDF OCR jährliche Lizenzen an. Die Preise für IronOCR beginnen bei $749 und die Preise für Syncfusion beginnen bei $995 pro Jahr.

Sie erhalten IronOCR zusammen mit vier weiteren Iron Software-Produkten zu einem vergünstigten Preis, wenn Sie die Vollversion erwerben EisenSuite. Zu den in der IronSuite gebündelten Produkten gehören:

  1. IronPDF

  2. IronOCR

  3. IronXL

  4. IronBarcode

  5. IronWebscraper

    Die Iron Software lizenzierungsseite enthält genauere Informationen über Preise und Lizenzen für die oben genannten fünf Produkte.

< PREVIOUS
Ein Vergleich zwischen IronOCR und Aspose.OCR
NÄCHSTES >
Vergleich zwischen IronOCR und AWS Textract OCR

Sind Sie bereit, loszulegen? Version: 2024.10 gerade veröffentlicht

Gratis NuGet-Download Downloads insgesamt: 2,561,036 Lizenzen anzeigen >