VERGLEICH MIT ANDEREN KOMPONENTEN

Vergleich zwischen IronOCR und AWS Textract OCR

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

Kannapat Udonpant

12. Oktober 2022

Teilen Sie:

Was ist OCR?

Das Verfahren zur Umwandlung eines Bildes mit Text in ein maschinenlesbares Textformat ist als Optical Character Recognition (OCR) bekannt. Wenn Sie z. B. ein Formular, eine Rechnung oder einen Beleg scannen, speichert Ihr Computer den Scan als Bilddatei. Die Daten in der Bilddatei können nicht mit einem Texteditor bearbeitet, gesucht oder gezählt werden. Sie können jedoch OCR-Lösungen verwenden, um die Bilddatei in ein Textdokument zu konvertieren, dessen Inhalt als Textdaten gespeichert ist.

In der heutigen Zeit beziehen die meisten Geschäftsabläufe Informationen aus Printmedien. Verschiedene Dokumente wie Papierformulare, Rechnungen, gescannte juristische Dokumente, Tabellenextraktion und gedruckter Text oder Verträge sind alle Teil von Geschäftsprozessen. Außerdem entstehen bei der Digitalisierung solcher Dokumentationsinhalte Bilder, in denen der Text verborgen ist. Text in Bildern kann von Textverarbeitungsprogrammen nicht auf die gleiche Weise verarbeitet werden wie Textdokumente. Die OCR-Technologie löst das Problem, indem sie Textbilder in Textdaten umwandelt, die von anderer Unternehmenssoftware analysiert werden können.

Wie funktioniert OCR?

Die OCR-Engine arbeitet mit den folgenden Schritten:

Bilderfassung

Bei diesem Verfahren liest ein Scanner die Dokumente und wandelt sie in Binärdaten um. Die OCR-Software erkennt das gescannte Bild und klassifiziert die hellen Bereiche als Hintergrund und die dunklen Bereiche als Text.

Vorverarbeitung

Die OCR-Software bereinigt zunächst das Bild und entfernt Fehler, um die Daten für das Lesen vorzubereiten.

Texterkennung

Die beiden Haupttypen von OCR-Algorithmen für die Texterkennung sind der Mustervergleich und die Merkmalsextraktion.

Abgleich von Mustern

Ein Zeichenbild, eine Glyphe, wird während des Mustervergleichs isoliert und mit einer zuvor aufgezeichneten Glyphe verglichen.

Merkmalsextraktion

Durch den Prozess der Merkmalsextraktion werden die Glyphen in Merkmale wie Linien, geschlossene Schleifen, Linienrichtung und Linienkreuzungen unterteilt.

Nachbearbeitung

Die Technologie wandelt die abgerufenen Textdaten nach der Analyse in eine digitale Datei um. Einige OCR-Systeme können mit Anmerkungen versehene PDF-Dokumente erstellen, die sowohl die Vorher- als auch die Nachher-Version des gescannten Dokuments enthalten.

In diesem Artikel werden zwei der gängigsten Anwendungen und Dokumentenbibliotheken für OCR miteinander verglichen. Diese sind:

IronOCR
AWS OCR Textract

Einführung

IronOCR-Bibliothek

IronOCR ist eine C# .NET-Bibliothek, die Dienste zum Scannen, Suchen und Lesen von Bildern und PDFs bietet. Es wird mit 127+ globalen Sprachpaketen geliefert. Die Ausgabe erfolgt als Text, strukturierte Daten oder durchsuchbare PDFs. Unterstützt .NET-Versionen wie 6, 5, Core, Standard und Framework.

IronOCR ist einzigartig in seiner Fähigkeit, automatisch Daten aus unvollkommen gescannten Bildern und Dokumenten zu erkennen und zu extrahieren. Die Klasse 'IronTesseract' verfügt über die einfachste API. Es bietet die fortschrittlichste Version von Tesseract auf jeder Plattform mit erhöhter Geschwindigkeit und Genauigkeit sowie einer nativen DLL und API.

IronOCR kann auch Barcodes und QR-Codes aus allen Bildformaten scannen, Text lesen und PDF-Scans mit der neuesten Tesseract 5-Engine durchführen.

Eigenschaften

Es ist ausschließlich für .NET-Anwendungen gedacht.
Es kann 127 verschiedene Sprachen unterstützen. Arabisch, Chinesisch, Englisch, Finnisch, Französisch, Deutsch, Japanisch und viele andere Sprachen werden von IronOCR unterstützt.
Es kann die Position eines gekippten Bildes korrigieren und Rauschen aus einem Bild entfernen, um eine präzise Ausgabe zu ermöglichen.
Bei Bildern mit geringer Auflösung und niedrigem DPI-Wert zeigt er eine außergewöhnlich gute Leistung.
Es kann mehrere Arten von QR-Codes und Barcodes lesen.
Es unterstützt auch die Formate Gif und Tiff.
Es erlaubt viele Threads gleichzeitig. Dies ist eine herausragende Funktion, die in anderen OCR-Bibliotheken nicht vorhanden ist. Das macht die Prozesse reibungsloser.
Es kann einfach OCR auf PDF-Dateien durchführen und durchsuchbare PDF-Dokumente mit OCR exportieren.
Werfen wir nun einen Blick auf AWS OCR.

AWS OCR Textract

Der AWS Textract von Amazon ist ein Machine-Learning-Dienst (ML), der automatisch Text und Daten aus gescannten Dokumenten extrahiert. Es geht über die einfache optische Zeichenerkennung (OCR) hinaus, indem es Formulare und Tabellen mit Deep-Learning-Technologie identifiziert, versteht und Daten daraus extrahiert.

Der AWS OCR Textract verwendet maschinelles Lernen, um Dokumente jeglicher Art zu lesen und zu verarbeiten und dabei Text, tabellarische Daten und andere Daten ohne manuellen Aufwand exakt zu extrahieren. Anstatt Stunden oder Tage zu brauchen, um die Daten zu extrahieren, kann Textract dies schnell tun. Zusätzlich können Sie menschliche Überprüfungen mit Amazon Augmented Artificial Intelligence (AI) hinzufügen, um die Kontrolle über Ihre Modelle zu ermöglichen und sensible Daten zu überprüfen.

Eigenschaften

Erkennen Sie Text in einer Vielzahl von Dokumenten, einschließlich Finanzberichten, medizinischen Unterlagen, Tabellen und Steuerformularen.
Extrahieren Sie Text-, Formular- und Tabellendaten aus Dokumenten mit strukturierten Daten mithilfe der Dokumentenanalyse-API.
Spezifizieren und extrahieren Sie Informationen aus Dokumenten mithilfe der Abfragefunktion innerhalb der Analyze Document API.
Verarbeiten Sie Rechnungen und Quittungen mit der Analyze Expense API.
Bearbeitung von Ausweisdokumenten wie Führerscheinen und Reisepässen, die von den Vereinigten Staaten ausgestellt wurden. regierung unter Verwendung der Analyze ID API.
Skalierbare Dokumentenanalyse, die die Entscheidungsfindung beschleunigen kann.
Der Rest des Artikels lautet wie folgt:

Visual Studio-Projekt erstellen
Installation von IronOCR
Installation von AWS OCR Textract
PDF zu Text
Bild zu Text
Barcode und QR zu Text
Lizenzvergabe
Schlussfolgerung

1. Visual Studio-Projekt erstellen

In diesem Tutorial wird die Version 2022 von Visual Studio verwendet, so dass ich davon ausgehe, dass Sie diese installiert haben müssen.

Öffnen Sie Visual Studio 2022.
Erzeugen Sie ein neues .NET Core-Projekt und wählen Sie dann Console App.
Konsolenanwendung
Geben Sie dem Projekt einen Namen. Z.B. TextReader.
Die neueste und stabilste Version des .NET-Frameworks ist 6.0. Wir werden diese verwenden.
Klicken Sie auf die Schaltfläche Erstellen und das Projekt wird erstellt.
Als Nächstes werden wir die Bibliotheken für unsere Zwecke nacheinander installieren.

2. Installation von IronOCR

Die IronOCR-Bibliothek kann auf vier Arten heruntergeladen und installiert werden. Diese sind wie folgt:

Verwendung des Visual Studio NuGet-Paketmanagers.
Direkter Download über die NuGet-Website.
Direkter Download über die IronOCR-Webseite.
Verwendung der Befehlszeile in Visual Studio.

2.1. Verwendung des Visual Studio NuGet Managers

Der Visual Studio NuGet Package Manager kann verwendet werden, um IronOCR in ein C#-Projekt einzubinden.

Erweitern Sie Tools oder klicken Sie mit der rechten Maustaste auf den Lösungsexplorer.
Erweitern Sie den NuGet-Paketmanager.
Klicken Sie auf NuGet-Pakete für Lösungen verwalten oder klicken Sie im Lösungsexplorer auf NuGet-Pakete verwalten.
Verwalten von NuGet-Paketen
Daraufhin erscheint ein neues Fenster in der Suchleiste: Geben Sie IronOCR ein. Markieren Sie das Projektfeld auf der rechten Seite und klicken Sie auf Installieren.
IronOCR durchsuchen
Mit dieser Methode können Entwickler die IronOCR-Bibliothek und ein beliebiges Sprachpaket ihrer Wahl installieren.

2.2. Direkter Download über die NuGet-Website

IronOCR kann direkt von der NuGet-Website heruntergeladen werden, indem Sie diese Anweisungen befolgen:

Gehen Sie zum Link "https://www.nuget.org/packages/IronOcr/".
Wählen Sie im Menü auf der rechten Seite die Option Paket herunterladen.
Doppelklicken Sie auf das Download-Paket. Sie wird automatisch installiert.
Laden Sie dann die Lösung neu und verwenden Sie sie für das Projekt.

2.3. Direkter Download über die IronOCR-Webseite

Entwickler können die IronOCR-Bibliothek direkt von der Website herunterladen, indem sie diesen Link verwenden.

Klicken Sie mit der rechten Maustaste auf das Projekt im Lösungsfenster.
Wählen Sie dann die Option Referenz und suchen Sie den Speicherort der heruntergeladenen Referenz.
Klicken Sie anschließend auf OK, um die Referenz hinzuzufügen.

2.4. Verwendung der Befehlszeile in Visual Studio

Gehen Sie in Visual Studio zu Werkzeuge -> NuGet-Paketmanager -> Paketmanager-Konsole
Geben Sie die folgende Zeile auf der Registerkarte der Paketmanager-Konsole ein:

Install-Package IronOcr

Das Paket wird nun in das aktuelle Projekt heruntergeladen/installiert und ist einsatzbereit.

Konsolenanwendung

Nachdem Sie den Befehl eingegeben haben, drücken Sie die Eingabetaste und er wird installiert.

2.5. Hinzufügen des IronOCR-Namensraumes

Fügen Sie diese Codezeile in das Programm ein, um IronOCR zu verwenden:

using IronOcr;

using IronOcr;

Imports IronOcr

$vbLabelText $csharpLabel

Lassen Sie uns nun AWS Textract installieren.

3. Installation von AWS Textract OCR

Bevor Sie Amazon Textract zum ersten Mal verwenden, sollten Sie die folgenden Aufgaben erledigen:

Melden Sie sich für AWS-Services an.
Erstellen Sie einen IAM-Benutzer.
Nachdem Sie sich erfolgreich für das Konto angemeldet und einen IAM-Benutzer erstellt haben, können Sie nun die Zugriffsschlüssel in der AWS-Konsole festlegen, um mit C# programmatisch auf die API zuzugreifen. Sie benötigen:
- AccessKeyId
- SecretAccessKey
- RegionEndPoint (Ihr Zugriffsbereich) - In diesem Beispiel: AFSouth1

3.1. Verwendung von NuGet Package Manager

Sie können AWS Textract SDK vom NuGet Package Manager herunterladen und installieren.
NuGet-Paketmanager
Klicken Sie auf Durchsuchen und suchen Sie nach AWS Textract:
AWS-Textrakt

3.2. Hinzufügen von AWS OCR-Namensräumen

Schließen Sie die folgenden Namespaces ein, um AWS Textract zu verwenden:

using Amazon.Textract;
using Amazon.Textract.Model;

using Amazon.Textract;
using Amazon.Textract.Model;

Imports Amazon.Textract
Imports Amazon.Textract.Model

$vbLabelText $csharpLabel

4. PDF-Datei in Text

Beide Bibliotheken können Text aus PDF-Dateien extrahieren. Schauen wir uns den Code der Reihe nach an.

4.1. Verwendung von IronOCR

IronOCR ermöglicht das Erkennen und Lesen von Text aus PDF-Dokumenten unter Verwendung des fortschrittlichen Tesseract. Der folgende einfache Code wird zum Extrahieren von Informationen verwendet:

var Ocr = new IronTesseract();
using (var input = new OcrInput())
{
    input.AddPdf("example.pdf","password");
    // We can also select specific PDF page numbers to OCR
    var Result = Ocr.Read(input);
    Console.WriteLine(Result.Text);
    Console.WriteLine($"{Result.Pages.Count()} Pages");
    // Read every page of the PDF
}

var Ocr = new IronTesseract();
using (var input = new OcrInput())
{
    input.AddPdf("example.pdf","password");
    // We can also select specific PDF page numbers to OCR
    var Result = Ocr.Read(input);
    Console.WriteLine(Result.Text);
    Console.WriteLine($"{Result.Pages.Count()} Pages");
    // Read every page of the PDF
}

Dim Ocr = New IronTesseract()
Using input = New OcrInput()
	input.AddPdf("example.pdf","password")
	' We can also select specific PDF page numbers to OCR
	Dim Result = Ocr.Read(input)
	Console.WriteLine(Result.Text)
	Console.WriteLine($"{Result.Pages.Count()} Pages")
	' Read every page of the PDF
End Using

$vbLabelText $csharpLabel

Der Code ist einfach, sauber und sehr leicht zu verstehen und zu verwenden.

PDF-Datei eingeben

Beispiel PDF

Ausgabe

IronOCR-Ausgang

4.2. AWS-Textrakt

Mit Amazon Textract können Sie Ihren Anwendungen ganz einfach Dokumententexterkennung und -analyse hinzufügen. Der folgende Code wird verwendet, um PDF zu lesen, und dasselbe PDF wird übergeben:

public static async void ReturnResult()
{
    AmazonTextractClient client = new AmazonTextractClient("your_access_key_id", "your_secret_access_key", Amazon.RegionEndpoint.AFSouth1);
    var request = new StartDocumentTextDetectionRequest();
    request.DocumentLocation = new DocumentLocation
    {
        S3Object = new S3Object
                {
                    Bucket = "your_bucket_name",
                    Name = "your_bucket_key"
                }
         };
         var id = await client.StartDocumentTextDetectionAsync(request);
         var jobId = id.JobId;
         var response = client.GetDocumentTextDetectionAsync(new GetDocumentTextDetectionRequest{
             JobId = jobId
         });
         response.Wait();
         if (response.Result.JobStatus.Equals("SUCCEEDED"))
         {
        foreach (var block in response.Result.Blocks)
                {
                    if (block.BlockType == "WORD")
                    {
                        Console.WriteLine(block.Text);
                    }
                    else if (block.BlockType == "PAGE")
                    {
                        Console.WriteLine(block.Text);
                    }
                    else if (block.BlockType == "Line")
                    {
                        Console.WriteLine(block.Text);
                    }
                }
            }
        }
}
static void Main(String [] args)
{
    ReturnResult();
}

public static async void ReturnResult()
{
    AmazonTextractClient client = new AmazonTextractClient("your_access_key_id", "your_secret_access_key", Amazon.RegionEndpoint.AFSouth1);
    var request = new StartDocumentTextDetectionRequest();
    request.DocumentLocation = new DocumentLocation
    {
        S3Object = new S3Object
                {
                    Bucket = "your_bucket_name",
                    Name = "your_bucket_key"
                }
         };
         var id = await client.StartDocumentTextDetectionAsync(request);
         var jobId = id.JobId;
         var response = client.GetDocumentTextDetectionAsync(new GetDocumentTextDetectionRequest{
             JobId = jobId
         });
         response.Wait();
         if (response.Result.JobStatus.Equals("SUCCEEDED"))
         {
        foreach (var block in response.Result.Blocks)
                {
                    if (block.BlockType == "WORD")
                    {
                        Console.WriteLine(block.Text);
                    }
                    else if (block.BlockType == "PAGE")
                    {
                        Console.WriteLine(block.Text);
                    }
                    else if (block.BlockType == "Line")
                    {
                        Console.WriteLine(block.Text);
                    }
                }
            }
        }
}
static void Main(String [] args)
{
    ReturnResult();
}

Public Shared Async Sub ReturnResult()
	Dim client As New AmazonTextractClient("your_access_key_id", "your_secret_access_key", Amazon.RegionEndpoint.AFSouth1)
	Dim request = New StartDocumentTextDetectionRequest()
	request.DocumentLocation = New DocumentLocation With {
		.S3Object = New S3Object With {
			.Bucket = "your_bucket_name",
			.Name = "your_bucket_key"
		}
	}
		 Dim id = Await client.StartDocumentTextDetectionAsync(request)
		 Dim jobId = id.JobId
		 Dim response = client.GetDocumentTextDetectionAsync(New GetDocumentTextDetectionRequest With {.JobId = jobId})
		 response.Wait()
		 If response.Result.JobStatus.Equals("SUCCEEDED") Then
		For Each block In response.Result.Blocks
					If block.BlockType = "WORD" Then
						Console.WriteLine(block.Text)
					ElseIf block.BlockType = "PAGE" Then
						Console.WriteLine(block.Text)
					ElseIf block.BlockType = "Line" Then
						Console.WriteLine(block.Text)
					End If
		Next block
		 End If
End Sub
}
Shared Sub Main(ByVal args() As String)
	ReturnResult()
End Sub

$vbLabelText $csharpLabel

Der Code ist etwas knifflig, langwierig und erfordert Aufmerksamkeit beim Übergeben und Abrufen von Objekten. Zuerst müssen wir ein AmazonTextractClient-Objekt mit 3 Parametern erstellen: AccessKeyId, SecretAccessKey und Region. Dann müssen wir eine Anfrage mit der Methode StartDocumentTextDetectionRequest() initiieren. Das Anforderungsobjekt legt dann die DocumentLocation mithilfe des Bucket-Namens und des Schlüssels fest. Diese Anfrage wird dann an die Methode StartDocumentTextDetectionAsync() übergeben. Da es sich um eine asynchrone Methode handelt, müssen wir das Schlüsselwort await davor verwenden und die ReturnResult-Funktion asynchron machen. Bei Erfolg wird das Ergebnis zurückgegeben und die jobid gespeichert. Die jobid wird an die Methode GetDocumentTextDetectionAsync() übergeben und wartet auf eine SUCCEEDED-Antwort. Die Foreach-Schleife wird verwendet, um jeden Block zu durchlaufen und zu prüfen, ob es sich um ein "WORD", eine "PAGE" oder eine "LINE" handelt, und dann die Texterkennung auszudrucken. Rufen Sie diese Methode schließlich in der Main-Methode für die Dokumentenverarbeitung auf.

Ausgabe

Die Ausgabe ist IronOCR sehr ähnlich.

AWS Textract-Ausgabe

5. Bilder zu Text

Das Lesen von Daten aus Bildern ist schwierig, da die Qualität des Bildes bei der Extraktion von Informationen eine entscheidende Rolle spielt. Beide Bibliotheken bieten die Möglichkeit, Text zu extrahieren. Hier werden wir png-Dateien verwenden.

5.1. Verwendung von IronOCR

Der Code ist fast identisch mit dem vorherigen. Hier wird die AddPDF-Methode durch die AddImage-Methode ersetzt.

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png")
    //... you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png")
    //... you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

Dim Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddImage("test-files/redacted-employmentapp.png") var Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using

$vbLabelText $csharpLabel

Eingabe Bild

Geschwärzte Mitarbeiterdaten

Ausgabe

Die Ausgabe ist sauber und stimmt mit dem Originalbild überein, und zwar mit nur wenigen Codezeilen, ohne jegliche Technik und mit einer perfekten Ausgabe.

Bildausgabe

5.2. AWS Textract verwenden

Der folgende Code hilft bei der Erkennung von Text in Bildern:

public static async void ReturnResult()
{
    AmazonTextractClient client = new   AmazonTextractClient("your_access_key_id", "your_secret_access_key", Amazon.RegionEndpoint.AFSouth1);
    var request = new DetectDocumentTextRequest();
    request.Document = new Document {
            Bytes = new MemoryStream(File.ReadAllBytes(@"test-files/redacted-employmentapp.png"))}; 
    var result = await client.DetectDocumentTextAsync(request);
    foreach (var block in result.Blocks)
    {
        if (block.BlockType == "WORD")
        {
            Console.WriteLine(block.Text);
        }
    }
}

static void Main(String [] args)
{
    ReturnResult();
}

public static async void ReturnResult()
{
    AmazonTextractClient client = new   AmazonTextractClient("your_access_key_id", "your_secret_access_key", Amazon.RegionEndpoint.AFSouth1);
    var request = new DetectDocumentTextRequest();
    request.Document = new Document {
            Bytes = new MemoryStream(File.ReadAllBytes(@"test-files/redacted-employmentapp.png"))}; 
    var result = await client.DetectDocumentTextAsync(request);
    foreach (var block in result.Blocks)
    {
        if (block.BlockType == "WORD")
        {
            Console.WriteLine(block.Text);
        }
    }
}

static void Main(String [] args)
{
    ReturnResult();
}

Public Shared Async Sub ReturnResult()
	Dim client As New AmazonTextractClient("your_access_key_id", "your_secret_access_key", Amazon.RegionEndpoint.AFSouth1)
	Dim request = New DetectDocumentTextRequest()
	request.Document = New Document With {.Bytes = New MemoryStream(File.ReadAllBytes("test-files/redacted-employmentapp.png"))}
	Dim result = Await client.DetectDocumentTextAsync(request)
	For Each block In result.Blocks
		If block.BlockType = "WORD" Then
			Console.WriteLine(block.Text)
		End If
	Next block
End Sub

Shared Sub Main(ByVal args() As String)
	ReturnResult()
End Sub

$vbLabelText $csharpLabel

Auch hier ist der Code fast identisch mit dem vorherigen. Hier müssen wir eine Anfrage mit der Methode DetectDocumentTextRequest() initiieren. Das Request-Objekt setzt dann das Dokument, indem es alle Bytes liest. Diese Anfrage wird dann an die Methode DetectDocumentTextAsync() übergeben. Da es sich um eine asynchrone Methode handelt, müssen wir das Schlüsselwort await davor verwenden und die ReturnResult-Funktion asynchron machen. Bei Erfolg wird das Ergebnis in Blöcken zurückgegeben. Die Foreach-Schleife wird verwendet, um jeden Block zu durchlaufen und zu prüfen, ob es sich um "WORD" handelt, und dann die Texterkennung auszudrucken. Rufen Sie diese Methode schließlich in der Main-Methode für die Dokumentenverarbeitung auf.

Die Ausgabe ist ähnlich wie bei IronOCR, allerdings muss die Datei zunächst in den AWS-Bucket hochgeladen werden.

6. Barcode und QR-Code in Text umwandeln

Ein einzigartiges Merkmal von IronOCR ist, dass es Barcodes und QR-Codes von Dokumenten lesen kann, während es nach Text scannt. Instanzen der OcrResult.OcrBarcode-Klasse geben dem Entwickler detaillierte Informationen über jeden gescannten Barcode. AWS Textract bietet diese Funktionalität nicht.

Der Code für IronOCR ist unten angegeben:

var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
    input.AddImage("test-files/Barcode.png");
    var Result = Ocr.Read(input);
    foreach (var Barcode in Result.Barcodes)
    {
        Console.WriteLine(Barcode.Value);
        // type and location properties also exposed
    }
}

var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
    input.AddImage("test-files/Barcode.png");
    var Result = Ocr.Read(input);
    foreach (var Barcode in Result.Barcodes)
    {
        Console.WriteLine(Barcode.Value);
        // type and location properties also exposed
    }
}

Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True
Using input = New OcrInput()
	input.AddImage("test-files/Barcode.png")
	Dim Result = Ocr.Read(input)
	For Each Barcode In Result.Barcodes
		Console.WriteLine(Barcode.Value)
		' type and location properties also exposed
	Next Barcode
End Using

$vbLabelText $csharpLabel

Der Code ist selbsterklärend und leicht zu verstehen.

7. Lizenzvergabe

IronOCR ist eine Bibliothek, die eine Entwicklerlizenz kostenlos bereitstellt. Es hat auch eine eigene Preisstruktur; Das Lite-Bundle beginnt bei $749 ohne versteckte Gebühren. Auch der Weitervertrieb von SaaS- und OEM-Produkten ist möglich. Alle Lizenzen kommen mit einer 30-tägigen Geld-zurück-Garantie, einem Jahr Software-Support und -Upgrades, Gültigkeit für Entwicklung/Stage/Produktion und einer unbefristeten Lizenz (Einmalkauf). Um den gesamten Preisstruktur und Lizenzdetails von IronOCR zu sehen, klicken Sie hier.

IronOCR-Tarifplan

Sie können die Weiterverbreitung von SaaS- und OEM-Produkten lizenzfrei für nur $1599 einmalig erwerben.

SAAS-Dienst

AWS Textract API bietet Entwicklern den AWS Free Tier-Dienst. Sie können kostenlos mit Amazon Textract beginnen. Die kostenlose Version hat eine Laufzeit von drei Monaten und die Preise sind unten aufgeführt.

Preisliste

Liste der Preise

Preisinformationen finden Sie unter diesem Link. Außerdem können Sie die Preise mit Hilfe des Preiskalkulators an Ihre Bedürfnisse anpassen.

8. Schlussfolgerung

IronOCR bietet C#-Entwicklern die fortschrittlichste Tesseract API, die wir kennen, auf jeder Plattform. IronOCR kann auf Windows, Linux, Mac, Azure, AWS, Lambda eingesetzt werden und unterstützt .NET Framework-Projekte sowie .NET Standard und .NET Core. Wir können auch Barcodes in OCR-Scans lesen und unsere OCR sogar als HTML und durchsuchbare PDFs exportieren.

Mit Amazon Textract können Sie Ihren Anwendungen ganz einfach Dokumententexterkennung und -analyse hinzufügen. Amazon Textract basiert auf der bewährten, hoch skalierbaren Deep-Learning-Technologie, die von Amazons Computer-Vision-Wissenschaftlern entwickelt wurde, um täglich Milliarden von Bildern und Videos zu analysieren. Sie brauchen keine Kenntnisse im Bereich des maschinellen Lernens, um es zu nutzen. Amazon Textract enthält einfache, leicht zu bedienende APIs, die Bild- und PDF-Dateien analysieren können. Amazon Textract lernt ständig aus neuen Daten, und Amazon erweitert den Dienst kontinuierlich um neue Funktionen.

IronOCR-Lizenzen sind entwicklerbasiert, d. h. Sie sollten immer eine Lizenz auf der Grundlage der Anzahl der Entwickler erwerben, die das Produkt verwenden werden. AWS Textract-Lizenzen basieren auf der Anzahl der Seiten des Dokuments, um Informationen zu extrahieren und die Daten zu analysieren. Die Lizenzen sind auf monatlicher Basis und die Preise werden für eine große Anzahl von Seiten sehr hoch im Vergleich zu IronOCR Lizenz. Darüber hinaus ist IronOCR eine einmalig erworbene Lizenz, die lebenslang genutzt werden kann und die OME- und SaaS-Verteilung unterstützt.

Im Gesamtvergleich verfügen IronOCR und AWS OCR beide über maschinelle Lernfunktionen zur Erkennung von Text in einem Dokument oder Bild. IronOCR hat einen leichten Vorteil gegenüber AWS OCR, da es schnell und zeitsparend ist. Der Code ist einfach und die Erkennung von Text aus Dokumenten ist unkompliziert. Diese Aufgabe wird auf verschiedene Weise erfüllt. AWS Textract hingegen verwendet viele Methoden, um die gleiche Aufgabe zu erfüllen. Dies erhöht die Antwortzeit des Servers und ist manchmal sehr zeitaufwändig. Wir können sehen, dass IronOCR selbst bei der Eingabe eines unvollkommenen Dokuments dessen Inhalt mit einer statistischen Genauigkeit von etwa 99 % lesen kann, obwohl das Dokument schlecht formatiert, schief und mit digitalem Rauschen versehen war. IronOCR ist sofort einsatzbereit, ohne dass die Leistung optimiert oder die eingegebenen Bilder stark verändert werden müssen. Rasante Geschwindigkeit: IronOCR.2020 + ist bis zu 10 Mal schneller und macht über 250 % weniger Fehler als frühere Versionen.

Darüber hinaus bietet Iron Software derzeit ein Paket mit fünf Werkzeugen zum Preis von nur zwei an. Die in der Iron Suite enthaltenen Tools sind:

IronBarcode
IronXL
IronOCR
IronPDF
IronWebScraper
Bitte besuchen Sie diesen Link, um die IRONSUITE zu erkunden.

Kannapat Udonpant

Jetzt mit dem Ingenieurteam chatten

Software-Ingenieur

Bevor er Software-Ingenieur wurde, promovierte Kannapat an der Universität Hokkaido in Japan im Bereich Umweltressourcen. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Abteilung für Bioproduktionstechnik ist. Im Jahr 2022 wechselte er mit seinen C#-Kenntnissen zum Engineering-Team von Iron Software, wo er sich auf IronPDF konzentriert. Kannapat schätzt an seiner Arbeit, dass er direkt von dem Entwickler lernt, der den Großteil des in IronPDF verwendeten Codes schreibt. Neben dem kollegialen Lernen genießt Kannapat auch den sozialen Aspekt der Arbeit bei Iron Software. Wenn er nicht gerade Code oder Dokumentationen schreibt, kann man Kannapat normalerweise beim Spielen auf seiner PS5 oder beim Wiedersehen mit The Last of Us antreffen.

< PREVIOUS
Ein Vergleich zwischen IronOCR und Syncfusion OCR

NÄCHSTES >
Tesseract-Alternativen (2022 Update)