Ein Vergleich zwischen IronOCR und Abbyy Finereader
In diesem Artikel werden wir zwei der gängigen Bibliotheken und Anwendungen für die Verwendung von OCR für PDF-Dokumente und Bilder vergleichen. Diese sind:
- ABBYY FineReader PDF-Software
- IronOCR
Wie man Abbyy Finereader SDK in C# verwendet
- Abbyy Finereader SDK installieren, um OCR in C# durchzuführen
- Konvertierung von Bild- und PDF-Dokumenten in Microsoft Word, durchsuchbare PDF, CSV und Text
- Erstellung bearbeitbarer PDFs aus PDF-Dateien
- Unterstützung von PDF/A-1 bis PDF/A-3 und PDF/UA
- Nutzen Sie die neueste KI-basierte OCR-Technologie, um alle Arten von Dokumenten zu digitalisieren, abzurufen, zu bearbeiten, zu schützen, zu teilen und gemeinsam zu bearbeiten
1. Einleitung
1.1 ABBYY FineReader PDF — Einführung und Funktionen
ABBYY FineReader PDF ist eine Anwendung zur optischen Zeichenerkennung (OCR), die von ABBYY entwickelt wurde. Es ermöglicht uns, Bilddokumente (Bilder, Scans, PDF-Dateien) und Bildschirmaufnahmen in bearbeitbare Dateiformate wie Microsoft Word, Microsoft Excel, Microsoft PowerPoint, Rich Text Format, HTML, PDF/A, durchsuchbare PDF, CSV und Text (unformatierter Text) zu konvertieren.
ABBYY FineReader ist eine Desktop-Anwendung, die sowohl für Windows, Linux als auch macOS verfügbar ist. Es ermöglicht auch das Erstellen bearbeitbarer Formate für PDF-Dateien. Wir können PDFs auch genauso lesen wie mit Adobe Acrobat. ABBYY FineReader integriert gescannte Dokumente in digitale Workflows.
Dokumente einfach und effizient verwalten und abschließen, um Zeit und Mühe zu sparen. Arbeiten Sie mit jedem Dokument auf die gleiche methodische Weise, egal ob es digital erstellt oder aus Papier umgewandelt wurde. Sie können den Text, die Tabellen und das vollständige Layout Ihres PDFs ändern, ohne es zuerst konvertieren zu müssen.
ABBYY FineReader PDF kann PDFs aus mehr als 25 verschiedenen Dateiformaten erstellen, direkt aus Papierdokumenten oder durch Drucken auf einem PDF-Drucker aus nahezu jeder Anwendung heraus. PDF/A-1 bis PDF/A-3 werden für die langfristige Archivierung unterstützt, und PDF/UA sorgt dafür, dass Inhalte bei Verwendung unterstützender Software wie Bildschirmlesegeräten zugänglich sind. Es erlaubt auch Fachleuten, die Effizienz im digitalen Arbeitsplatz zu maximieren.
Erstellen und aktualisieren Sie mit ABBYY FineReader Ihre eigenen interaktiven PDF-Formulare, um Informationen erfolgreich zu sammeln und Dokumente zu standardisieren. Erstellen Sie Formulare, indem Sie interaktive Felder verschiedener Typen kombinieren, Aktionen festlegen, bestehende PDF-Formulare bearbeiten oder Formelemente zu einem herkömmlichen PDF hinzufügen.
ABBYY FineReader kann Papierdokumente, Scans und gescannte PDFs sofort in durchsuchbare PDFs umwandeln, sodass Sie Dokumente aus digitalen Archiven abrufen und auf die darin enthaltenen Informationen zugreifen können. FineReader PDF unterstützt alle Compliance-Stufen und Varianten des PDF/A-Formats, dem Industriestandard für langfristige Archivierung von PDF/A-1 bis PDF/A-3.
ABBYYs neueste KI-basierte OCR-Technologie, FineReader PDF, erleichtert die Digitalisierung, das Abrufen, Bearbeiten, Schützen, Teilen und Zusammenarbeiten an allen Arten von Dokumenten im gleichen Workflow. FineReader enthält auch einen Dokumentenvergleich, der uns hilft, Originaldokumente sowie umgewandelte PDFs und Bilddateien zu vergleichen.
1.2 IronOCR — Einführung und Funktionen
IronOCR bietet Software für Ingenieure, die IronOCR for .NET verwenden, um Textinhalte aus Fotos und PDFs in .NET-Anwendungen und Webseiten zu lesen. Es durchsucht Fotos nach Text und Barcodes und unterstützt zahlreiche weltweite Sprachen; es kann dann die Ausgabe entweder als einfachen Text oder als strukturierte Daten liefern. Die OCR-Bibliothek von Iron Software kann in MVC-, Web-, Konsolen- und Desktop .NET-Anwendungen verwendet werden. Für kommerzielle Bereitstellungen wird mit direkter Unterstützung durch das Entwicklungsteam eine Lizenzierung angeboten.
- Mit der neuesten Tesseract-5-Engine liest IronOCR Text, Barcodes und QR-Codes aus jedem Bild- oder PDF-Format. Diese Bibliothek fügt Desktop-, Konsolen- und Webanwendungen schnell OCR hinzu.
- IronOCR unterstützt 125 internationale Sprachen. Es unterstützt auch benutzerdefinierte Sprach- und Wortlisten.
- IronOCR kann mehr als 20 Barcode-Formate und QR-Codes lesen.
- IronOCR unterstützt mehrseitige GIFs und TIFF-Bildformate.
- IronOCR bietet eine Korrektur für qualitativ minderwertige gescannte Bilder.
- IronOCR unterstützt Multithreading - es führt einen oder mehrere Prozesse gleichzeitig aus.
- IronOCR kann strukturierte Datenausgaben für Seiten, Absätze, Zeilen, Wörter, Zeichen usw. bereitstellen.
- IronOCR unterstützt verschiedene Betriebssysteme wie Windows, Linux, macOS usw.
2. Erstellen eines neuen Projekts in Visual Studio
Öffnen Sie die Visual Studio Software und gehen Sie zum "Dateimenü". Wählen Sie "Neues Projekt" und dann "Konsolenanwendung".
Geben Sie den Projektnamen ein und wählen Sie den Dateipfad im entsprechenden Textfeld aus. Klicken Sie dann auf die Schaltfläche Erstellen und wählen Sie das erforderliche .NET Framework, wie im folgenden Screenshot.
Das Visual Studio-Projekt wird nun die Struktur für die ausgewählte Anwendung generieren. Wenn Sie die Konsolen-, Windows- und Webanwendung ausgewählt haben, wird nun die Datei Program.cs geöffnet, in der Sie den Code eingeben und die Anwendung erstellen/ausführen können.
Wir fügen die Bibliothek zum Test des Codes hinzu.
3. Installation
3.1 Installation von ABBYY FineReader PDF
Wir können den ABBYY FineReader hier herunterladen.
Das obige Bild zeigt, dass es zwei Versionen gibt, Einzel- und Geschäftsausgabe, die Sie gemäß Ihren Anforderungen herunterladen können. Wählen Sie 'Kostenlose Testversion herunterladen'. Es wird Sie wie im Bild unten zu einem Formular weiterleiten:
Wir müssen das Formular ausfüllen, um den Speicherort der EXE-Datei zu erhalten. Klicken Sie auf Herunterladen, um die Datei zu laden.
Sobald der Dateidownload abgeschlossen ist, können wir die EXE-Datei doppelklicken, um die Installation zu starten. Nach Abschluss wird eine Popup-Nachricht angezeigt und es ist jetzt einsatzbereit.
3.2 Installation von IronOCR
Die IronOCR-Bibliothek kann auf vier Arten heruntergeladen und installiert werden.
Diese sind:
- Verwendung von Visual Studio
- Verwenden der Visual Studio-Befehlszeile
- Direkter Download von der NuGet-Webseite
- Direkt von der IronPDF-Website herunterladen
3.2.1 Mit Visual Studio
Die Visual Studio-Software bietet die NuGet-Paket-Manager-Option, um das Paket direkt in die Lösung zu installieren. Der folgende Screenshot zeigt, wie der NuGet-Paketmanager geöffnet wird.
Es bietet ein Suchfeld zur Anzeige der Pakete von der NuGet-Website. Im Paket-Manager müssen wir nach dem Schlüsselwort IronOCR suchen, wie im folgenden Screenshot:
Aus dem obigen Bild erhalten wir die Liste der verwandten Suchergebnisse. Wir müssen die erforderliche Option auswählen, um das Paket in der Lösung zu installieren.
3.2.2 Mit der Visual Studio-Befehlszeile
In Visual Studio gehen Sie zu Werkzeuge -> NuGet-Paket-Manager -> Paket-Manager-Konsole
Geben Sie die folgende Zeile im Paket-Manager-Konsolen-Tab ein:
Install-Package IronOcr
Dieser Befehl lädt das Paket herunter und installiert es im aktuellen Projekt, und es ist einsatzbereit.
3.2.3 Direkt von der NuGet-Website herunterladen
Der dritte Weg ist, das NuGet-Paket direkt von der Website herunterzuladen.
- Navigate to the Link.
- Wählen Sie die Download-Paket-Option im Menü auf der rechten Seite.
- Doppelklicken Sie auf das heruntergeladene Paket. Es wird automatisch installiert.
- Laden Sie dann die Lösung neu und beginnen Sie, es im Projekt zu verwenden.
3.2.4 Direkt von der IronOCR-Website herunterladen
Click the link here to download the latest package direct from the website. Once downloaded, follow the steps below to add the package to the project.
- Klicken Sie mit der rechten Maustaste auf das Projekt im Lösungsfenster.
- Wählen Sie dann die Option "Referenz hinzufügen" und durchsuchen Sie den Speicherort der heruntergeladenen Referenz.
- Klicken Sie auf OK, um die Referenz hinzuzufügen.
4. OCR-Bild
Sowohl IronOCR als auch ABBYY FineReader verfügen über eine OCR-Technologie, die das Bild in Text umwandeln wird.
4.1 Verwendung von ABBYY FineReader PDF
Öffnen Sie die ABBYY FineReader PDF-App, die mit mehreren Optionen geöffnet wird, wie im Bild unten.
Wählen Sie als Nächstes die Option "Öffnen" aus den Optionen des OCR-Editors aus. Dies wird eine Option zur Auswahl von Bilddateien anzeigen:
Nach der Auswahl einer Datei startet es automatisch das Scannen des Bildes in bearbeitbaren Text und zeigt dann das Ergebnis im Fenster an, wie im folgenden Screenshot:
Das obige Bild zeigt das Konvertieren des Quellbildes in bearbeitbaren Text. Das Ergebnis ist jedoch nicht sehr genau. Einige der Zahlen werden von der ABBYY FineReader PDF-App nicht erkannt. Dies zeigt sich deutlich in den Vergleichsfenstern – auf der linken Seite ist das Quellbild und auf der rechten Seite der OCR-konvertierte Text.
4.2 Verwendung von IronOCR
// Create an instance of IronTesseract for OCR operations
var Ocr = new IronTesseract();
// Configure OCR language and Tesseract version
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
// Create a new OcrInput object to manage input images
using (var Input = new OcrInput())
{
// Add an image to the input for processing
Input.AddImage(@"3.png");
// Perform OCR to read text from the image
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
Console.ReadKey();
}
// Create an instance of IronTesseract for OCR operations
var Ocr = new IronTesseract();
// Configure OCR language and Tesseract version
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
// Create a new OcrInput object to manage input images
using (var Input = new OcrInput())
{
// Add an image to the input for processing
Input.AddImage(@"3.png");
// Perform OCR to read text from the image
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
Console.ReadKey();
}
' Create an instance of IronTesseract for OCR operations
Dim Ocr = New IronTesseract()
' Configure OCR language and Tesseract version
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
' Create a new OcrInput object to manage input images
Using Input = New OcrInput()
' Add an image to the input for processing
Input.AddImage("3.png")
' Perform OCR to read text from the image
Dim Result = Ocr.Read(Input)
' Output the extracted text to the console
Console.WriteLine(Result.Text)
Console.ReadKey()
End Using
Die Tesseract 5 API, die es uns ermöglicht Bilddateien in Text zu konvertieren, wird oben demonstriert. Wir erstellen eine Instanz von IronTesseract in dem obigen Code-Snippet. Wir verwenden auch ein OcrInput-Objekt, mit dem wir ein oder mehrere Bilddateien hinzufügen können. Bei Verwendung der OcrInput-Objektmethode AddImage muss der Pfad des verfügbaren Bildes im Code angegeben werden. Beliebig viele Bilder können hinzugefügt werden. Die Funktion Read im IronTesseract Objekt, das wir zuvor erstellt haben, kann zur OCR-Erkennung verwendet werden, indem die Bilddatei analysiert und das Ergebnis in das OCR-Ergebnis extrahiert wird. Es ist in der Lage, Text aus Bildern zu extrahieren und in eine Zeichenfolge zu konvertieren.
Wir können auch Tesseract verwenden, um Mehrbilddateien hinzuzufügen. AddMultiFrameTiff ist eine andere Methode für diese Operation. Die Tesseract-Bibliothek liest jeden Frame im Bild und jeder Frame wird als eigenständige Seite behandelt. Der Prozess liest den ersten Frame des Bildes und geht dann auf den nächsten Frame über, und so weiter, bis alle Bilderrahmen gescannt wurden. Diese Methode unterstützt nur das TIFF-Bildformat.
Das obige Bild ist das Ergebnis von IronOCR, das genau und korrekt zeigt, wie die Daten in bearbeitbaren Text umgewandelt wurden.
5. OCR-PDF-Datei
IronOCR und ABBYY FineReader PDF helfen, eine PDF-Datei in bearbeitbaren Text umzuwandeln. ABBYY FineReader PDF bietet dem Benutzer eine Liste von Optionen wie Seite speichern, Bild bearbeiten, Seite erkennen usw. Es bietet auch Speicheroptionen wie txt, Dokument, HTML-Format usw. IronOCR erlaubt uns auch, konvertierte OCR-Dateien in HTML, txt, pdf usw. zu speichern.
5.1 Verwendung von ABBYY FineReader PDF
Öffnen Sie die ABBYY FineReader PDF-Software. Dies wird eine Seite wie das Bild unten öffnen, die mehrere Optionen bietet.
Wählen Sie als Nächstes die Option "Öffnen" aus den Optionen des OCR-Editors aus. Dies zeigt eine Option zum Auswählen der Bild/PDF an. Wir können entweder ein PDF oder ein Bild auswählen oder wir können beide Dateien auswählen.
Nach der Dateiauswahl klicken Sie auf die OK-Schaltfläche. Es wird automatisch das Bild in bearbeitbaren Text scannen und das Ergebnis in einem Fenster wie dem folgenden Screenshot anzeigen.
Das obige Bild zeigt das Quell-PDF, das in bearbeitbaren Text umgewandelt wurde. Das Ergebnis ist jedoch nicht vollständig genau. Einige Zahlen werden von der ABBYY FineReader PDF-Anwendung nicht erkannt. Dies zeigt sich deutlich in den Vergleichsfenstern – auf der linken Seite ist das Quell-PDF und auf der rechten Seite der OCR-konvertierte Text.
5.2 Verwendung von IronOCR
Wir können auch OCRInput verwenden, um PDF-Dateien zu verwalten. Jede Seite der Dokumente wird von der Iron Tesseract-Klasse gelesen. Anschließend wird der Text von den Seiten extrahiert. Wir können geschützte Dokumente auch mit einer zweiten Funktion namens AddPdf öffnen, mit der wir PDFs zu unserer Dokumentenliste hinzufügen können (Passwort erforderlich, falls geschützt). Der folgende Code zeigt, wie man ein passwortgeschütztes PDF-Dokument öffnet:
// Create an instance of IronTesseract for OCR operations
var Ocr = new IronTesseract();
// Create OcrInput to manage input PDFs
using (var Input = new OcrInput())
{
// Add a password-protected PDF to the input
Input.AddPdf("example.pdf", "password");
// Perform OCR to read text from the PDF
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
}
// Create an instance of IronTesseract for OCR operations
var Ocr = new IronTesseract();
// Create OcrInput to manage input PDFs
using (var Input = new OcrInput())
{
// Add a password-protected PDF to the input
Input.AddPdf("example.pdf", "password");
// Perform OCR to read text from the PDF
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
}
' Create an instance of IronTesseract for OCR operations
Dim Ocr = New IronTesseract()
' Create OcrInput to manage input PDFs
Using Input = New OcrInput()
' Add a password-protected PDF to the input
Input.AddPdf("example.pdf", "password")
' Perform OCR to read text from the PDF
Dim Result = Ocr.Read(Input)
' Output the extracted text to the console
Console.WriteLine(Result.Text)
End Using
Die folgenden Methoden werden auch von Iron Tesseract bereitgestellt:
AddPdfPageAddPdfPages
Wir können mithilfe von AddPdfPage Inhalte von einer einzelnen Seite eines PDF-Dokuments lesen und extrahieren. Es muss nur die Seitenzahl angegeben werden, von der wir den Text extrahieren möchten. AddPdfPages ermöglicht es uns, Text aus mehreren von uns angegebenen Seiten zu extrahieren. In IEnumerable<int> müssen wir lediglich die Anzahl der Seiten angeben. Wir müssen auch den Dateispeicherort sowie die Dateierweiterung angeben. Dies wird im folgenden Codebeispiel dargestellt:
// Define numbers representing pages to extract from the PDF
IEnumerable<int> numbers = new List<int> { 2, 8, 10 };
// Create an instance of IronTesseract for OCR operations
var Ocr = new IronTesseract();
// Create OcrInput to manage input PDFs
using (var Input = new OcrInput())
{
// Add a specific page from PDF for OCR
// Input.AddPdfPage("example.pdf", 10);
// Add multiple specific pages from PDF for OCR
// Input.AddPdfPages("example.pdf", numbers);
// Perform OCR to read text from the specified pages
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
// Save the extracted text to a file
Result.SaveAsTextFile("ocrtext.txt");
}
// Define numbers representing pages to extract from the PDF
IEnumerable<int> numbers = new List<int> { 2, 8, 10 };
// Create an instance of IronTesseract for OCR operations
var Ocr = new IronTesseract();
// Create OcrInput to manage input PDFs
using (var Input = new OcrInput())
{
// Add a specific page from PDF for OCR
// Input.AddPdfPage("example.pdf", 10);
// Add multiple specific pages from PDF for OCR
// Input.AddPdfPages("example.pdf", numbers);
// Perform OCR to read text from the specified pages
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
// Save the extracted text to a file
Result.SaveAsTextFile("ocrtext.txt");
}
' Define numbers representing pages to extract from the PDF
Dim numbers As IEnumerable(Of Integer) = New List(Of Integer) From {2, 8, 10}
' Create an instance of IronTesseract for OCR operations
Dim Ocr = New IronTesseract()
' Create OcrInput to manage input PDFs
Using Input = New OcrInput()
' Add a specific page from PDF for OCR
' Input.AddPdfPage("example.pdf", 10);
' Add multiple specific pages from PDF for OCR
' Input.AddPdfPages("example.pdf", numbers);
' Perform OCR to read text from the specified pages
Dim Result = Ocr.Read(Input)
' Output the extracted text to the console
Console.WriteLine(Result.Text)
' Save the extracted text to a file
Result.SaveAsTextFile("ocrtext.txt")
End Using
Mithilfe der Funktion SaveAsTextFile können wir das Ergebnis als Textdatei speichern, sodass wir die Datei in den Ausgabeverzeichnispfad herunterladen können. Außerdem können wir die Datei als HTML-Datei mit SaveAsHocrFile speichern.
6. Weitere Funktionen
6.1 Verwendung von ABBYY FineReader PDF
FineReader hat einige zusätzliche Optionen wie: Textbereich zeichnen, Bildbereich zeichnen, Tabellenbereich zeichnen, Erkennungsbereich zeichnen usw. Diese helfen dem Benutzer, die Leistung der OCR zu verbessern. Darüber hinaus ermöglicht die Anwendung neben der Durchführung von OCR auch das Ausführen von Aufgaben wie das Kombinieren von PDFs, das Teilen von PDFs, das Bearbeiten von PDFs usw.
6.2 Verwendung von IronOCR
IronOCR bietet einzigartige Funktionen, mit denen wir Barcodes und QR-Codes aus gescannten Dokumenten lesen können. Der untenstehende Code zeigt, wie wir Barcodes aus einem gegebenen Bild oder Dokument lesen können.
// Create an instance of IronTesseract for OCR operations
var Ocr = new IronTesseract();
// Configure OCR language and barcode reading
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.ReadBarCodes = true;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
// Create OcrInput to manage input images
using (var Input = new OcrInput())
{
// Add an image containing barcodes
Input.AddImage("barcode.gif");
// Perform OCR to read text and barcodes from the image
var Result = Ocr.Read(Input);
// Iterate through detected barcodes and output their values
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
}
}
// Create an instance of IronTesseract for OCR operations
var Ocr = new IronTesseract();
// Configure OCR language and barcode reading
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.ReadBarCodes = true;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
// Create OcrInput to manage input images
using (var Input = new OcrInput())
{
// Add an image containing barcodes
Input.AddImage("barcode.gif");
// Perform OCR to read text and barcodes from the image
var Result = Ocr.Read(Input);
// Iterate through detected barcodes and output their values
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
}
}
' Create an instance of IronTesseract for OCR operations
Dim Ocr = New IronTesseract()
' Configure OCR language and barcode reading
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.ReadBarCodes = True
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
' Create OcrInput to manage input images
Using Input = New OcrInput()
' Add an image containing barcodes
Input.AddImage("barcode.gif")
' Perform OCR to read text and barcodes from the image
Dim Result = Ocr.Read(Input)
' Iterate through detected barcodes and output their values
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
Next Barcode
End Using
Der oben gezeigte Code hilft dabei, Barcodes aus einem gegebenen Bild- oder PDF-Dokument zu lesen. Es ist in der Lage, mehr als einen Barcode aus einer Seite/einem Bild zu lesen. Zum Lesen des Barcodes verfügt IronOCR über eine spezielle Einstellung Ocr.Configuration.ReadBarCodes, die beim Lesen des Barcodes hilft; der Standardwert ist auf falsch gesetzt.
Nach dem Einlesen der Eingabe werden die Daten im Objekt mit dem Namen OCRResult gespeichert; Diese Klasse besitzt eine Eigenschaft namens "Barcodes", die alle verfügbaren Barcode-Daten in einer Liste zusammenfasst. Mithilfe der Schleife foreach können wir die Details aller Barcodes nacheinander abrufen. Ebenso wird der Barcode gescannt und der Wert des Barcodes gelesen – zwei Operationen in einem Prozess abgeschlossen!
Darüber hinaus werden auch Thread-Optionen unterstützt, was bedeutet, dass wir mehrere OCR-Prozesse gleichzeitig durchführen können. IronOCR kann auch einen bestimmten Bereich innerhalb einer angegebenen Region erkennen.
// Create an instance of IronTesseract for OCR operations
var Ocr = new IronTesseract();
// Create OcrInput to manage input images
using (var Input = new OcrInput())
{
// Define a specific rectangular area on the image for OCR
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Add an image specifying the area to be processed
Input.Add("document.png", ContentArea);
// Perform OCR to read text from the specified area
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
}
// Create an instance of IronTesseract for OCR operations
var Ocr = new IronTesseract();
// Create OcrInput to manage input images
using (var Input = new OcrInput())
{
// Define a specific rectangular area on the image for OCR
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Add an image specifying the area to be processed
Input.Add("document.png", ContentArea);
// Perform OCR to read text from the specified area
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
}
' Create an instance of IronTesseract for OCR operations
Dim Ocr = New IronTesseract()
' Create OcrInput to manage input images
Using Input = New OcrInput()
' Define a specific rectangular area on the image for OCR
Dim ContentArea = New System.Drawing.Rectangle() With {
.X = 215,
.Y = 1250,
.Height = 280,
.Width = 1335
}
' Add an image specifying the area to be processed
Input.Add("document.png", ContentArea)
' Perform OCR to read text from the specified area
Dim Result = Ocr.Read(Input)
' Output the extracted text to the console
Console.WriteLine(Result.Text)
End Using
Der oben gezeigte Code ist ein Beispiel für OCR in einem bestimmten Bereich. Wir müssen nur die rechteckige Region im Bild oder PDF angeben – die Tesseract-Engine in IronOCR ermöglicht die Erkennung des Textes.
7. Fazit
Bei der Verwendung von IronOCR im .NET Framework-Kontext ist Tesseract einfach und leicht zu gebrauchen. Es unterstützt Fotos und PDF-Dokumente auf verschiedene Weise. Es bietet auch eine Reihe von Einstellungen, um die Leistung der Tesseract-OCR-Bibliothek zu verbessern. Verschiedene Sprachen werden unterstützt, sowie zahlreiche Sprachen in einer einzigen Operation. Um mehr über die Tesseract OCR zu erfahren, besuchen Sie deren Website.
ABBYY FineReader PDF ist eine Softwareanwendung, die eine künstliche Intelligenz-Engine verwendet, um ein Bild-/PDF-Dokument zu erkennen. Es bietet auch verschiedene Einstellungen, um die Leistung des OCR-Prozesses zu verbessern. Darüber hinaus bietet es die Möglichkeit, mehrere Sprachen auszuwählen. ABBYY FineReader PDF hat einige Einschränkungen bei der Nutzung der Seitenkonvertierungen. Es gibt unterschiedliche Preise für verschiedene Betriebssysteme. To know more about the ABBYY FineReader PDF price details, click here.
In unseren Tests zeigte IronOCR eine stärkere Leistung im Vergleich zu ABBYY FineReader PDF. In den speziellen Testfällen, die in diesem Vergleich vorgestellt wurden, wurden einige Zeichen und Zahlen in qualitativ minderwertigen Bildern nicht so genau wie in FineReader erkannt, während IronOCR genauere Ergebnisse für diese bestimmten Szenarien lieferte. IronOCR bietet auch die zusätzliche Fähigkeit, Barcodedaten zu erkennen und Barcodes von Bildern zu lesen. Das IronOCR-Paket bietet eine lebenslange Lizenz, und es gibt keine laufenden Kosten. The IronOCR package supports multiple platforms at a single price. To know more about IronOCR price details, click here.
Häufig gestellte Fragen
Was macht IronOCR zu einer überlegenen Alternative zu ABBYY FineReader?
IronOCR gilt als überlegen aufgrund seiner genauen OCR-Leistung, der Fähigkeit, Bilder von niedriger Qualität zu verarbeiten, und umfassender Funktionen wie das Lesen von Barcodes und QR-Codes. Es bietet auch eine lebenslange Lizenz ohne wiederkehrende Kosten, was es kosteneffektiv macht.
Wie verarbeitet IronOCR Bilder von niedriger Qualität?
IronOCR bietet erweiterte Bildkorrekturfunktionen, die die Qualität von niedrig aufgelösten oder qualitativ minderwertigen gescannten Bildern verbessern und dadurch die Genauigkeit der OCR-Ergebnisse steigern.
Welche Plattformen werden von IronOCR unterstützt?
IronOCR unterstützt mehrere Plattformen, einschließlich Windows, Linux und macOS, mit einer einzigen lebenslangen Lizenz.
Kann IronOCR OCR an Barcodes durchführen?
Ja, IronOCR kann Barcodes aus Bildern lesen, indem die Bibliothek so konfiguriert wird, dass sie Barcode-Werte mithilfe ihrer OCR-Fähigkeiten erkennt und extrahiert.
Welche Vorteile bietet die Multithreading-Funktion von IronOCR?
Die Multithreading-Funktion in IronOCR ermöglicht es, mehrere OCR-Prozesse gleichzeitig auszuführen und so die Leistung und die Verarbeitungsgeschwindigkeit erheblich zu verbessern.
Welche Sprachen werden von IronOCR unterstützt?
IronOCR unterstützt OCR in 125 verschiedenen Sprachen, was es zu einem vielseitigen Werkzeug für globale Anwendungen macht.
Wie vergleicht sich die Lizenzierung von IronOCR mit der von ABBYY FineReader?
IronOCR bietet eine lebenslange Lizenz ohne wiederkehrende Kosten, während der Preis für ABBYY FineReader je nach Betriebssystem variieren kann und laufende Gebühren beinhalten kann.
Wie kann ich IronOCR in mein C#-Projekt integrieren?
Sie können IronOCR in Ihr C#-Projekt integrieren, indem Sie Visual Studio, die Visual Studio-Befehlszeile verwenden oder es von der NuGet-Website herunterladen.
Welche Dateiformate können mit IronOCR konvertiert werden?
IronOCR kann Bilder und PDFs in verschiedene bearbeitbare Formate umwandeln, einschließlich Microsoft Word, Excel und durchsuchbare PDFs.
Warum wird IronOCR für das Lesen von QR-Codes bevorzugt?
IronOCR wird für das Lesen von QR-Codes bevorzugt aufgrund seiner hohen Genauigkeit und seines robusten Funktionsumfangs, der die Verarbeitung einer Vielzahl von Bildformaten und Qualitätsstufen umfasst.


