Optische Zeichenerkennung (OCR) ist eine Technologie, die verschiedene Dokumentformate, einschließlich gescannter Papierdokumente, PDFs, digitale Dateien oder Bilder von gedrucktem Text, die mit einer Digitalkamera aufgenommen wurden, in bearbeitbare und durchsuchbare maschinenkodierte Textdaten umwandelt.
IronOCR ist eine großartige OCR-Engine-Bibliothek, die Entwicklern leistungsstarke OCR-Funktionalitäten bietet. In diesem Artikel werden wir untersuchen, wie man mit IronOCR OCR durchführt, inklusive Codebeispiele mit OCR Software Demo.
Was ist IronOCR?
IronOCR ist eine leistungsstarke .NET-Bibliothek, die speziell entwickelt wurde, um die optische Zeichenerkennung (OCR) in C#- und VB.NET-Anwendungen zu erleichtern. IronOCR nutzt fortschrittliche Algorithmen und Techniken des maschinellen Lernens, um Text und Inhalte aus gescannten PDF-Dateien, Bildern und PDFs genau zu extrahieren und erleichtert so die programmgesteuerte Verarbeitung, Suche und Analyse solcher Dateien.
Dank der unkomplizierten API und der umfangreichen Funktionen können Entwickler OCR-Funktionen nahtlos in ihre Anwendungen integrieren, um Datenextraktion, Dokumentenverarbeitung, Dateneingabe und Content-Management-Aufgaben zu automatisieren. Egal, ob Sie geschäftlich mit Rechnungen, Berichten, automatisierter Datenextraktion, durchsuchbaren PDFs oder anderen textreichen Dokumenten arbeiten, IronOCR bietet eine zuverlässige Lösung, um OCR-Anforderungen effizient zu erfüllen.
Erste Schritte mit IronOCR
Bevor Sie in die Code-Beispiele eintauchen, müssen Sie IronOCR über den NuGet-Paket-Manager installieren. Sie können IronOCR installieren, indem Sie den folgenden Befehl in der Paketmanager-Konsole ausführen:
Install-Package IronOcr
Install-Package IronOcr
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'Install-Package IronOcr
$vbLabelText $csharpLabel
Durchführen von OCR mit IronOCR
Grundlegende Texterkennung
Um eine einfache Texterkennung mit IronOCR durchzuführen, können Sie den folgenden Codeschnipsel verwenden:
using IronOcr;
using System;
IronTesseract ocrTesseract = new IronTesseract();
using (OcrInput ocrInput = new OcrInput("ocr.png"))
{
OcrResult ocrResult = ocrTesseract.Read(ocrInput);
string RecognizedText = ocrResult.Text;
Console.WriteLine(RecognizedText);
}
using IronOcr;
using System;
IronTesseract ocrTesseract = new IronTesseract();
using (OcrInput ocrInput = new OcrInput("ocr.png"))
{
OcrResult ocrResult = ocrTesseract.Read(ocrInput);
string RecognizedText = ocrResult.Text;
Console.WriteLine(RecognizedText);
}
Imports IronOcr
Imports System
Private ocrTesseract As New IronTesseract()
Using ocrInput As New OcrInput("ocr.png")
Dim ocrResult As OcrResult = ocrTesseract.Read(ocrInput)
Dim RecognizedText As String = ocrResult.Text
Console.WriteLine(RecognizedText)
End Using
$vbLabelText $csharpLabel
Dieser Code verwendet IronOCR, um optische Zeichenerkennung (OCR) auf einer Bilddatei mit dem Namen "ocr.png" durchzuführen. Es initialisiert ein IronTesseract-Objekt und liest die Textebene der Bilddatei in ein OcrInput-Objekt ein.
Das OCR-Ergebnis wird dann als RecognizedText abgerufen und auf die Konsole ausgegeben.
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'- LOGO SHOP - LOREM IPSUM - DOLOR SITAMET CONSECTETUR - ADIPISCING ELIT - 1 LOREM IPSUM $3.20 - 2 ORNARE MALESUADA $9.50 - 3 PORTA FERMENTUM $5.90 - 4 SODALES ARCU $6.00 - 5 ELEIFEND $9.00 - 6 SEMNISIMASSA $0.50 - 7 DUIS FAMES DIS $7.60 - 8 FACILISIRISUS $810 - GESAMTBETRAG $49.80 BARGELD 50,00 $
$vbLabelText $csharpLabel
### Erweiterte OCR-Optionen
IronOCR bietet verschiedene Optionen, mit denen Sie den OCR-Prozess entsprechend Ihren Bilddateien und Anforderungen anpassen können. So können Sie beispielsweise die OCR-Sprache festlegen, die Einstellungen für die Bildvorverarbeitung anpassen oder die Textbereinigung aktivieren. Hier ein Beispiel, das einige dieser erweiterten Optionen veranschaulicht:
```cs
using IronOcr;
class Program
{
static void Main()
{
var ocr = new IronTesseract();
using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"images\image.png");
// Set OCR language to English
ocr.Language = OcrLanguage.English;
// Enable text cleaning
ocrInput.DeNoise();
ocrInput.EnhanceResolution(225);
var result = ocr.Read(ocrInput);
if (result != null && result.Text != null)
{
Console.WriteLine($"Recognized Text: {result.Text}");
}
}
}
Der Code verwendet IronOCR, um OCR an einer Bilddatei "image.png" durchzuführen, die sich im Ordner "images" befindet. Sie stellt die OCR-Sprache auf Englisch ein, bereinigt das Bildrauschen und erhöht die Auflösung. Der erkannte Text wird aus dem Bild extrahiert und dann auf der Konsole ausgegeben.
Barcode-Lesen
IronOCR unterstützt auch das Lesen von Barcodes, so dass Sie Software erstellen können, die Barcode-Informationen aus Bildern extrahiert. Das folgende Codebeispiel zeigt, wie man mit IronOCR einen Barcode liest:
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"images\imageWithBarcode.png");
var ocrResult = ocrTesseract.Read(ocrInput);
foreach (var barcode in ocrResult.Barcodes)
{
Console.WriteLine(barcode.Value);
}
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"images\imageWithBarcode.png");
var ocrResult = ocrTesseract.Read(ocrInput);
foreach (var barcode in ocrResult.Barcodes)
{
Console.WriteLine(barcode.Value);
}
Imports IronOcr
Imports System
Private ocrTesseract = New IronTesseract()
ocrTesseract.Configuration.ReadBarCodes = True
Dim ocrInput As New OcrInput()
ocrInput.LoadImage("images\imageWithBarcode.png")
Dim ocrResult = ocrTesseract.Read(ocrInput)
For Each barcode In ocrResult.Barcodes
Console.WriteLine(barcode.Value)
Next barcode
$vbLabelText $csharpLabel
Der Code verwendet IronOCR zum Erkennen und Lesen von Strichcodes aus einer Bilddatei "imageWithBarcode.png" im Ordner "images". Es konfiguriert IronOCR, um das Lesen von Barcodes zu aktivieren, indem ReadBarCodes auf true gesetzt wird. Die erkannten Barcodewerte werden dann auf der Konsole ausgegeben.
PDF-Text-Extraktion
IronOCR kann auch Text aus PDFs und gescannten Dokumenten extrahieren. Das folgende Codebeispiel zeigt, wie man mit IronOCR Text aus einer PDF-Datei extrahiert:
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
using var ocrInput = new OcrInput();
// OCR entire document
ocrInput.LoadPdf("Email_Report.pdf");
int[] pages = { 1, 2, 3, 4, 5 };
// Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password: "password");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
using var ocrInput = new OcrInput();
// OCR entire document
ocrInput.LoadPdf("Email_Report.pdf");
int[] pages = { 1, 2, 3, 4, 5 };
// Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password: "password");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
Imports IronOcr
Imports System
Private ocrTesseract = New IronTesseract()
Private ocrInput = New OcrInput()
' OCR entire document
ocrInput.LoadPdf("Email_Report.pdf")
Dim pages() As Integer = { 1, 2, 3, 4, 5 }
' Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password:= "password")
Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)
$vbLabelText $csharpLabel
Der Code verwendet IronOCR für die OCR-Verarbeitung eines PDF-Dokuments namens "Email_Report.pdf". Es kann das gesamte Dokument mit LoadPdf oder bestimmte Seiten aus "example.pdf" mit LoadPdfPages und einem Passwort OCR. Der erkannte Text aus dem OCR-Vorgang wird auf der Konsole ausgedruckt.
Schlussfolgerung
IronOCR ist eine leistungsstarke .NET-Bibliothek, die fortschrittliche OCR-Software-Funktionen bietet und Entwicklern die Durchführung von OCR-Aufgaben in ihren Anwendungen erleichtert. In diesem Artikel haben wir untersucht, wie man grundlegende und fortgeschrittene OCR-Software-Demo mit IronOCR mit Code-Beispielen durchzuführen.
Wenn Sie an einem .NET-Projekt arbeiten und OCR-Funktionen integrieren müssen, ist IronOCR auf jeden Fall eine Überlegung wert, wenn Sie sich verschiedene OCR-Engines ansehen. Seine Benutzerfreundlichkeit, Geschwindigkeit, Flexibilität und umfangreiche Dokumentation machen es zu einer beliebten Wahl unter Entwicklern für OCR-Automatisierungsaufgaben.
Warum also nicht IronOCR ausprobieren und sehen, wie es Ihren eigenen OCR-Projektentwicklungsprozess vereinfachen kann? Es könnte die beste OCR-Engine für Ihre Projekte sein.
IronOCR bietet eine kostenlose Testlizenz an, die dann ab $749 USD beginnt, sodass Sie weiterhin das Beste aus IronOCR in Ihren Projekten herausholen können.
Um mehr über IronOCR zu erfahren, besuchen Sie hier.
Bevor er Software-Ingenieur wurde, promovierte Kannapat an der Universität Hokkaido in Japan im Bereich Umweltressourcen. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Abteilung für Bioproduktionstechnik ist. Im Jahr 2022 wechselte er mit seinen C#-Kenntnissen zum Engineering-Team von Iron Software, wo er sich auf IronPDF konzentriert. Kannapat schätzt an seiner Arbeit, dass er direkt von dem Entwickler lernt, der den Großteil des in IronPDF verwendeten Codes schreibt. Neben dem kollegialen Lernen genießt Kannapat auch den sozialen Aspekt der Arbeit bei Iron Software. Wenn er nicht gerade Code oder Dokumentationen schreibt, kann man Kannapat normalerweise beim Spielen auf seiner PS5 oder beim Wiedersehen mit The Last of Us antreffen.
< PREVIOUS Tesseract OCR für mehrere Sprachen (Entwickler-Tutorial)
NÄCHSTES > OCR der Fahrzeugzulassung in C# durchführen