OCR in C# CodeProject Tutorial: Extrahieren von Text aus Bildern mit IronOCR
Die optische Zeichenerkennung (OCR) in C# ermöglicht es Ihnen, maschinenlesbaren Text aus gescannten Dokumenten, Bilddateien und TIFF-Dateien innerhalb von .NET Anwendungen zu extrahieren. Mit IronOCR , einer .NET-nativen OCR-Bibliothek, installieren Sie ein NuGet Paket und können mit wenigen Codezeilen Text aus Bildern lesen – ohne externen Dienst, ohne Laufzeitabhängigkeit, ohne API-Gebühren pro Aufruf.
Starten Sie Ihre kostenlose Testversion von IronOCR , um die folgenden Codebeispiele nachzuvollziehen.
Wie installiert man IronOCR in einem .NET -Projekt?
Der schnellste Weg, OCR zu einem .NET 10-Projekt hinzuzufügen, ist über den NuGet Paketmanager. Öffnen Sie ein Terminal in Ihrem Projektverzeichnis und führen Sie den dotnet CLI-Befehl aus, oder verwenden Sie die Paket-Manager-Konsole in Visual Studio:
# .NET CLI
dotnet add package IronOcr
# Package Manager Console
Install-Package IronOcr
# .NET CLI
dotnet add package IronOcr
# Package Manager Console
Install-Package IronOcr
Nach der Installation lädt der NuGet Paketmanager alle benötigten Assemblys herunter und stellt die Referenzen automatisch her. IronOCR zielt auf .NET Framework 4.6.2+, .NET Core 3.1+ und .NET 5 bis .NET 10 ab und funktioniert daher in Konsolenanwendungen, ASP.NET Core Diensten, WPF-Anwendungen und Azure Functions.
Für lokale Tests ist keine Registrierung eines Lizenzschlüssels erforderlich – auf der Ausgabe wird ein Testwasserzeichen angezeigt, bis eine Lizenz angewendet wird. Fügen Sie die using-Direktive hinzu und übergeben Sie Ihren Schlüssel einmalig beim Start, sobald Sie für den Produktivbetrieb bereit sind:
using IronOcr;
// Apply license key before any OCR calls (production only)
IronOcr.License.LicenseKey = "YOUR-LICENSE-KEY";
using IronOcr;
// Apply license key before any OCR calls (production only)
IronOcr.License.LicenseKey = "YOUR-LICENSE-KEY";
Imports IronOcr
' Apply license key before any OCR calls (production only)
IronOcr.License.LicenseKey = "YOUR-LICENSE-KEY"
Auf der IronOCR -Lizenzseite finden Sie Informationen zu Preisen und Aktivierung.
Wie extrahiert man Text aus einer Bilddatei?
Der zentrale OCR-Workflow umfasst drei Objekte: IronTesseract (die Engine), OcrInput (der Eingabecontainer) und OcrResult (die Ausgabe). Das folgende Beispiel liest eine PNG-Datei und gibt den erkannten Text in der Konsole aus.
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadImage("sample-document.png");
OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadImage("sample-document.png");
OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
Imports IronOcr
Dim ocr As New IronTesseract()
Using input As New OcrInput()
input.LoadImage("sample-document.png")
Dim result As OcrResult = ocr.Read(input)
Console.WriteLine(result.Text)
End Using
Ausgabe der optischen Zeichenerkennung

IronTesseract umhüllt die Tesseract 5-Engine mit .NET-freundlichen Voreinstellungen und automatischer Modellverwaltung. OcrInput.LoadImage akzeptiert PNG-, JPEG-, BMP-, GIF-, TIFF- und WebP-Dateien, so dass Sie selten Formate konvertieren müssen, bevor Sie ein Bild an die Engine übergeben.
Die Eigenschaft OcrResult.Text gibt eine einfache Zeichenkette aus allen erkannten Zeichen zurück, die durch Zeilenumbrüche verbunden sind. Für einen umfassenderen Zugang - Wortbegrenzungsrahmen, Konfidenzwerte, Text pro Absatz - navigieren Sie durch die Sammlungen result.Pages, result.Paragraphs, result.Words und result.Characters.
Wichtige Eigenschaften, die man kennen sollte:
result.Pages[0].Text-- Text von einer einzelnen Seiteresult.Words[n].Textundresult.Words[n].Confidence-- Genauigkeit pro Wort (0,0 -- 1,0)result.Pages[0].Paragraphs-- Absatzsegmentierung für strukturierte Extraktion
Sie können auch ocr.ReadAsync(input) aufrufen, um den UI-Thread in Desktop- oder Webanwendungen frei zu halten.
Wie verarbeiten Sie gescannte Dokumente und TIFF-Dateien?
Mehrseitige TIFF-Dateien sind in Dokumentenscanning-Workflows weit verbreitet. IronOCR verarbeitet sie mit LoadImageFrames, mit dem Sie genau auswählen können, welche Frames (Seiten) verarbeitet werden sollen - nützlich, wenn Sie nur eine Teilmenge eines großen Archivs benötigen.
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
int[] pageIndices = { 0, 1, 2 };
input.LoadImageFrames("scanned-documents.tiff", pageIndices);
// Correct skew and remove noise before reading
input.Deskew();
input.DeNoise();
OcrResult result = ocr.Read(input);
foreach (var page in result.Pages)
{
Console.WriteLine($"Page {page.PageNumber}:");
Console.WriteLine(page.Text);
}
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
int[] pageIndices = { 0, 1, 2 };
input.LoadImageFrames("scanned-documents.tiff", pageIndices);
// Correct skew and remove noise before reading
input.Deskew();
input.DeNoise();
OcrResult result = ocr.Read(input);
foreach (var page in result.Pages)
{
Console.WriteLine($"Page {page.PageNumber}:");
Console.WriteLine(page.Text);
}
Imports IronOcr
Dim ocr As New IronTesseract()
Using input As New OcrInput()
Dim pageIndices As Integer() = {0, 1, 2}
input.LoadImageFrames("scanned-documents.tiff", pageIndices)
' Correct skew and remove noise before reading
input.Deskew()
input.DeNoise()
Dim result As OcrResult = ocr.Read(input)
For Each page In result.Pages
Console.WriteLine($"Page {page.PageNumber}:")
Console.WriteLine(page.Text)
Next
End Using
OCR-Ausgabe aus mehrseitiger TIFF-Datei

Deskew dreht das Bild, um die von Flachbettscannern verursachte Neigung zu korrigieren. DeNoise entfernt Flecken und JPEG-Artefakte, die die Tesseract-Engine verwirren. Zusammen verbessern diese beiden Vorverarbeitungsfilter die Erkennungsgenauigkeit bei Scans von schlechter Qualität erheblich.
Zusätzliche OcrInput Filter sind für schwieriges Quellmaterial verfügbar:
input.Sharpen()-- erhöht den Kantenkontrast bei unscharfen Bilderninput.Binarize()-- konvertiert in Schwarz-Weiß für Dokumente in Faxqualitätinput.Scale(200)-- skaliert kleine Bilder für eine bessere Zeichentrennung hochinput.Rotate(90)-- korrigiert gedrehte Dokumentausrichtungen
Eine vollständige Liste der Vorverarbeitungsoptionen und deren Anwendungszeitpunkte finden Sie im IronOCR Bildfilterleitfaden .
Wie konfiguriert man die Sprachunterstützung für OCR?
IronOCR liest standardmäßig englischen Text. Um Dokumente in anderen Sprachen zu verarbeiten, installieren Sie das NuGet-Paket für die entsprechende Sprache und setzen Sie die Eigenschaft Language auf der Instanz IronTesseract.
dotnet add package IronOcr.Languages.German
dotnet add package IronOcr.Languages.French
dotnet add package IronOcr.Languages.Japanese
dotnet add package IronOcr.Languages.German
dotnet add package IronOcr.Languages.French
dotnet add package IronOcr.Languages.Japanese
Konfigurieren Sie anschließend die Engine und fügen Sie für zweisprachige Dokumente eine zweite Sprache hinzu:
using IronOcr;
using IronOcr.Languages;
var ocr = new IronTesseract();
ocr.Language = OcrLanguage.German;
// For bilingual documents (e.g. Canadian forms, EU directives)
ocr.AddSecondaryLanguage(OcrLanguage.French);
using var input = new OcrInput();
input.LoadImage("german-invoice.png");
OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
using IronOcr;
using IronOcr.Languages;
var ocr = new IronTesseract();
ocr.Language = OcrLanguage.German;
// For bilingual documents (e.g. Canadian forms, EU directives)
ocr.AddSecondaryLanguage(OcrLanguage.French);
using var input = new OcrInput();
input.LoadImage("german-invoice.png");
OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
Imports IronOcr
Imports IronOcr.Languages
Dim ocr As New IronTesseract()
ocr.Language = OcrLanguage.German
' For bilingual documents (e.g. Canadian forms, EU directives)
ocr.AddSecondaryLanguage(OcrLanguage.French)
Using input As New OcrInput()
input.LoadImage("german-invoice.png")
Dim result As OcrResult = ocr.Read(input)
Console.WriteLine(result.Text)
End Using
IronOCR unterstützt über 125 Sprachen , die jeweils als separates, schlankes NuGet Paket bereitgestellt werden. Dadurch bleibt Ihre Produktionsbinärdatei klein – es werden nur die Sprachdaten aufgenommen, die Ihre Anwendung tatsächlich benötigt. Die Engine mischt primäre und sekundäre Sprachmodelle während der Erkennung, wenn Sie AddSecondaryLanguage aufrufen.
Wie geht man mit OCR-Fehlern um und verbessert die Erkennungsergebnisse?
Produktionsanwendungen benötigen eine Fehlerbehandlung im Bereich der OCR-Pipeline. Probleme mit der Bildqualität, fehlende Dateien oder nicht unterstützte Formate können Ausnahmen verursachen. Durch das Einbetten des Aufrufs in einen try/catch-Block erhalten Sie einen sauberen Wiederherstellungspfad.
using IronOcr;
var ocr = new IronTesseract();
ocr.Language = OcrLanguage.English;
try
{
using var input = new OcrInput();
input.LoadImage("document.png");
input.DeNoise();
input.Deskew();
OcrResult result = ocr.Read(input);
if (result.Text.Length > 0)
{
Console.WriteLine("Recognised text:");
Console.WriteLine(result.Text);
}
else
{
Console.WriteLine("No text was detected in the image.");
}
}
catch (Exception ex)
{
Console.WriteLine($"OCR error: {ex.Message}");
}
using IronOcr;
var ocr = new IronTesseract();
ocr.Language = OcrLanguage.English;
try
{
using var input = new OcrInput();
input.LoadImage("document.png");
input.DeNoise();
input.Deskew();
OcrResult result = ocr.Read(input);
if (result.Text.Length > 0)
{
Console.WriteLine("Recognised text:");
Console.WriteLine(result.Text);
}
else
{
Console.WriteLine("No text was detected in the image.");
}
}
catch (Exception ex)
{
Console.WriteLine($"OCR error: {ex.Message}");
}
Imports IronOcr
Dim ocr As New IronTesseract()
ocr.Language = OcrLanguage.English
Try
Using input As New OcrInput()
input.LoadImage("document.png")
input.DeNoise()
input.Deskew()
Dim result As OcrResult = ocr.Read(input)
If result.Text.Length > 0 Then
Console.WriteLine("Recognised text:")
Console.WriteLine(result.Text)
Else
Console.WriteLine("No text was detected in the image.")
End If
End Using
Catch ex As Exception
Console.WriteLine($"OCR error: {ex.Message}")
End Try
Einige zusätzliche Einstellungen, die helfen, wenn die Genauigkeit geringer als erwartet ist:
ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.Auto-- lässt Tesseract automatisch zwischen einspaltigen, mehrspaltigen und einwortigen Layouts wählenocr.Configuration.ReadBarCodes = false-- Deaktiviert die Barcode-Erkennung, wenn Sie reine Textdokumente verarbeiten und einen schnelleren Durchsatz wünschenocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5-- stellt sicher, dass Sie die schnellste verfügbare Engine verwenden
Bei strukturierten Formularen, bei denen die Felder an vorhersehbaren Positionen erscheinen, sollte die regionenbasierte OCR verwendet werden, um nur die relevanten Bereiche zu lesen:
using IronOcr;
using IronSoftware.Drawing;
var ocr = new IronTesseract();
using var input = new OcrInput();
var region = new CropRectangle(x: 50, y: 200, width: 600, height: 100);
input.LoadImage("form.png", region);
OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
using IronOcr;
using IronSoftware.Drawing;
var ocr = new IronTesseract();
using var input = new OcrInput();
var region = new CropRectangle(x: 50, y: 200, width: 600, height: 100);
input.LoadImage("form.png", region);
OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
Imports IronOcr
Imports IronSoftware.Drawing
Dim ocr As New IronTesseract()
Using input As New OcrInput()
Dim region As New CropRectangle(x:=50, y:=200, width:=600, height:=100)
input.LoadImage("form.png", region)
Dim result As OcrResult = ocr.Read(input)
Console.WriteLine(result.Text)
End Using
Durch die Beschränkung der Bilderkennung auf einen Bildausschnitt verkürzt sich die Verarbeitungszeit bei großen Bildern um bis zu 90 Prozent. Diese Technik eignet sich gut zum Extrahieren von Rechnungsnummern, zum Auslesen von Formularfeldern und zum Scannen von Ausweisdokumenten. Weitere Details finden Sie im regionalen OCR-Leitfaden .
Wie erstellt man aus erkanntem Text eine durchsuchbare PDF-Datei?
Die Umwandlung gescannter Bildarchive in durchsuchbare PDF-Dateien ist einer der wertvollsten Anwendungsfälle für OCR. Die resultierende Datei bewahrt das ursprüngliche visuelle Erscheinungsbild und bettet gleichzeitig eine unsichtbare Textebene ein, die von PDF-Viewern, Suchmaschinen und Bildschirmleseprogrammen indexiert werden kann.
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
input.Title = "Quarterly Report Q1 2026";
input.LoadImage("page1.png");
input.LoadImage("page2.png");
input.LoadImage("page3.png");
OcrResult result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
Console.WriteLine("Searchable PDF created.");
Console.WriteLine($"Pages processed: {result.Pages.Count}");
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
input.Title = "Quarterly Report Q1 2026";
input.LoadImage("page1.png");
input.LoadImage("page2.png");
input.LoadImage("page3.png");
OcrResult result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
Console.WriteLine("Searchable PDF created.");
Console.WriteLine($"Pages processed: {result.Pages.Count}");
Imports IronOcr
Dim ocr As New IronTesseract()
Using input As New OcrInput()
input.Title = "Quarterly Report Q1 2026"
input.LoadImage("page1.png")
input.LoadImage("page2.png")
input.LoadImage("page3.png")
Dim result As OcrResult = ocr.Read(input)
result.SaveAsSearchablePdf("searchable-output.pdf")
Console.WriteLine("Searchable PDF created.")
Console.WriteLine($"Pages processed: {result.Pages.Count}")
End Using
Ausgabe eines durchsuchbaren PDF-Dokuments

SaveAsSearchablePdf schreibt eine PDF/A-kompatible Datei, in der jedes erkannte Wort an den exakten Pixelkoordinaten des Originalbildes platziert ist. Adobe Acrobat, Vorschau unter macOS und Foxit Reader unterstützen alle die Volltextsuche in diesen Dateien unmittelbar nach deren Erstellung.
Für webbasierte Dokumentenbetrachter oder nachgeschaltete NLP-Pipelines verwenden Sie stattdessen result.SaveAsHocrFile("output.hocr"). Das hOCR-Format ist ein offener XML-Standard, der neben dem Text auch Begrenzungsrahmen für jedes Wort kodiert und so clientseitige Hervorhebung bei der Suche sowie Barrierefreiheitsanmerkungen auf Wortebene ermöglicht.
Weitere Ausgabeformate sind bei OcrResult erhältlich:
result.SaveAsHocrFile("output.hocr")-- hOCR XML mit Positionsdatenresult.ToXDocument()-- LINQ-queryable XDocument für programmatische Verarbeitungresult.Pages[0].Text-- einfacher Text pro Seite für Streaming-Pipelines
Für Anwendungen, die bereits mit IronPDF arbeiten, können Sie OcrResult direkt in PDF-Generierungs-Workflows einbinden und die OCR-Extraktion mit der PDF-Bearbeitung in einem einzigen .NET-Prozess kombinieren.
Wie liest man Barcodes zusammen mit Text?
IronOCR kann Barcodes und QR-Codes lesen, die in dasselbe Bild wie gedruckter Text eingebettet sind, wodurch die Notwendigkeit entfällt, eine separate Barcode-Bibliothek zu verwenden. Aktivieren Sie die Funktion mit einer einzigen Konfigurationseigenschaft:
using IronOcr;
var ocr = new IronTesseract();
ocr.Configuration.ReadBarCodes = true;
using var input = new OcrInput();
input.LoadImage("shipping-label.png");
OcrResult result = ocr.Read(input);
Console.WriteLine("Text:");
Console.WriteLine(result.Text);
Console.WriteLine("Barcodes:");
foreach (var barcode in result.Barcodes)
{
Console.WriteLine($" {barcode.Format}: {barcode.Value}");
}
using IronOcr;
var ocr = new IronTesseract();
ocr.Configuration.ReadBarCodes = true;
using var input = new OcrInput();
input.LoadImage("shipping-label.png");
OcrResult result = ocr.Read(input);
Console.WriteLine("Text:");
Console.WriteLine(result.Text);
Console.WriteLine("Barcodes:");
foreach (var barcode in result.Barcodes)
{
Console.WriteLine($" {barcode.Format}: {barcode.Value}");
}
IRON VB CONVERTER ERROR developers@ironsoftware.com
Unterstützte Barcode-Formate sind Code 128, Code 39, EAN-13, EAN-8, UPC-A, UPC-E, PDF417, Data Matrix und QR-Code. Alle Details finden Sie im IronOCR Leitfaden zum Lesen von Barcodes .
Diese Funktion ist besonders nützlich in den Bereichen Logistik, Gesundheitswesen und Einzelhandel, wo Versandetiketten, Patientenarmbänder und Produktanhänger sowohl für Menschen lesbaren Text als auch maschinenlesbare Barcodes enthalten.
Wie vergleicht man IronOCR mit anderen .NET OCR-Optionen?
Entwickler, die OCR-Bibliotheken für .NET evaluieren, ziehen typischerweise IronOCR, Tesseract .NET und Cloud-Dienste wie Google Cloud Vision oder Azure Computer Vision in Betracht. Die folgenden Tabellen fassen die wichtigsten Unterschiede zusammen:
| Kriterium | IronOCR | Tesseract.NET | Azure Computer Vision |
|---|---|---|---|
| Bereitstellung | Vor Ort oder in der Cloud, keine externen Anrufe | Vor Ort | Nur in der Cloud, Internetverbindung erforderlich |
| Installation | Einzelnes NuGet -Paket | Mehrere Pakete + native Binärdateien | SDK + Azure-Abonnement |
| Sprachpakete | Mehr als 125 über NuGet -Pakete | Manueller Tessdata-Download | Verwaltet von Azure |
| Durchsuchbare PDF-Ausgabe | Eingebauter Methodenaufruf | Nicht enthalten | Nicht enthalten |
| Bildvorverarbeitung | 12+ integrierte Filter | Manuelles Pre-Processing erforderlich | Automatisch (serverseitig) |
| Preismodell | Einmalige unbefristete Lizenz | Open Source (Apache 2.0) | Abrechnung pro Anruf |
Tesseract , das von Google als Open-Source-Projekt gepflegt wird, bildet die Grundlage sowohl von IronOCR als auch von Tesseract .NET . IronOCR bietet .NET-idiomatische Paketierung, automatisches Modellmanagement und die Produktionsausgabefunktionen (durchsuchbares PDF, hOCR-Export), die bei den reinen Tesseract-Bindungen fehlen. Azure Computer Vision bietet zwar höchste Genauigkeit in der Cloud, führt aber zu Netzwerklatenz und Kosten pro Aufruf, die für Workflows mit hohem Datenvolumen oder Offline-Nutzung ungeeignet sind.
Für Szenarien, in denen Datenschutzbestimmungen das Senden von Dokumenten an externe Dienste verbieten – z. B. Krankenakten, Rechtsdokumente, Finanzberichte – ist eine lokale Bibliothek wie IronOCR die richtige Wahl.
Was sind Ihre nächsten Schritte?
Sie verfügen nun über die Bausteine, um OCR zu jeder .NET 10-Anwendung hinzuzufügen: Installation über NuGet, grundlegende Bild-zu-Text-Extraktion, Verarbeitung mehrseitiger TIFF-Dateien, Sprachkonfiguration, Fehlerbehandlung, regionenbasiertes Lesen, Barcode-Erkennung und Generierung durchsuchbarer PDFs.
Um tiefer in die Materie einzutauchen, erkunden Sie diese IronOCR Ressourcen:
- IronOCR -Dokumentationsseite – vollständige API-Referenz und Funktionshandbücher
- Tutorial zu Bildfiltern – detaillierte Anleitung zu allen Vorverarbeitungsfiltern
- Leitfaden zum Lesen von Barcodes – QR-Codes und lineare Barcodes neben Text
- Regionale OCR-Anleitung -- kulturbasierte Erkennung für Formulare und Ausweise
- Sprachreferenz – vollständige Liste der über 125 unterstützten Sprachen
- API-Referenz – alle Klassen, Methoden und Eigenschaften
Bei Fragen zur Lizenzierung oder zur Bereitstellung von IronOCR in einer Produktionsumgebung besuchen Sie die IronOCR Lizenzierungsseite . Eine kostenlose Testlizenz entfernt Wasserzeichen aus der Ausgabe während des Testzeitraums, und das Support-Team von Iron Software steht bei technischen Fragen in jeder Preisstufe zur Verfügung.
Häufig gestellte Fragen
Was ist OCR und welchen Nutzen hat es für C#-Entwickler?
OCR (Optical Character Recognition) wandelt Dokumente wie Scans, PDFs oder Bilder in bearbeitbare und durchsuchbare Daten um. Für C#-Entwickler vereinfacht OCR die Dokumentenverarbeitung, indem es Anwendungen ermöglicht, Text aus Bildern und Scans zu extrahieren und so die Datenzugänglichkeit und -nutzbarkeit zu verbessern.
Wie implementiert man OCR in einem C#-Projekt?
Sie implementieren OCR in einem C#-Projekt, indem Sie das IronOCR NuGet Paket installieren, eine IronTesseract-Instanz erstellen, ein Bild in OcrInput laden und die Read-Methode aufrufen. Das zurückgegebene OcrResult enthält den extrahierten Text und die Positionsdaten für jedes Wort.
Welche Bildformate werden von IronOCR unterstützt?
IronOCR unterstützt die Bildformate PNG, JPEG, BMP, GIF, TIFF und WebP. Dadurch können Sie mit den gängigsten Bildtypen arbeiten, ohne die Dateien vor der Verarbeitung konvertieren zu müssen.
Kann IronOCR mehrseitige TIFF-Dateien verarbeiten?
Ja, IronOCR kann mehrseitige TIFF-Dateien verarbeiten. Verwenden Sie LoadImageFrames mit einem Array von Seitenindizes, um bestimmte Frames zu verarbeiten, und iterieren Sie über result.Pages, um auf den Text jeder einzelnen Seite zuzugreifen.
Ist es möglich, mit IronOCR Text aus einem bestimmten Bereich eines Bildes zu extrahieren?
Ja, übergeben Sie ein CropRectangle an LoadImage, um die OCR auf einen definierten Bereich zu beschränken. Dies reduziert die Verarbeitungszeit erheblich und ist nützlich, um bestimmte Felder aus Formularen, Rechnungen und Ausweisdokumenten zu extrahieren.
Unterstützt IronOCR verschiedene Sprachen für die Textextraktion?
IronOCR unterstützt über 125 Sprachen, die jeweils als separates NuGet Paket verfügbar sind. Legen Sie die Language-Eigenschaft von IronTesseract fest und rufen Sie AddSecondaryLanguage für zweisprachige Dokumente auf.
Welche Vorteile bietet IronOCR im Vergleich zu reinem Tesseract .NET?
IronOCR erweitert die Tesseract-Engine um .NET-idiomatische Paketierung, automatische Sprachmodellverwaltung, integrierte Bildvorverarbeitungsfilter, durchsuchbare PDF-Ausgabe und hOCR-Export. All dies ist über ein einziges NuGet Paket ohne manuelle native Binärverwaltung zugänglich.
Wie kann IronOCR die Genauigkeit der Texterkennung verbessern?
IronOCR bietet Vorverarbeitungsfilter – Deskew, DeNoise, Sharpen, Binarize, Scale und Rotate –, die häufige Scanfehler korrigieren, bevor die Tesseract-Engine das Bild verarbeitet, und so die Erkennungsgenauigkeit bei minderwertigem Quellmaterial verbessern.
Kann IronOCR Barcodes und QR-Codes lesen?
Ja, setzen Sie `ocr.Configuration.ReadBarCodes = true`, um Barcodes und QR-Codes zusammen mit Text im selben Bild zu erkennen. Die Ergebnisse sind in `OcrResult.Barcodes` mit Formattyp und dekodiertem Wert verfügbar.
Was sind gängige Anwendungsfälle für IronOCR in C#-Anwendungen?
IronOCR wird in Dokumentenmanagementsystemen, der Extraktion von Rechnungs- und Belegdaten, der Erstellung durchsuchbarer PDFs aus gescannten Archiven, dem Auslesen von Formularfeldern, der Verarbeitung von Versandetiketten, der Digitalisierung von Gesundheitsdatensätzen und in Barrierefreiheitstools eingesetzt.



