Gescannte Dokumente in C# using IronOcr lesen
Mit IronOCR können C#-Entwickler mithilfe von OCR-Technologie Text aus gescannten PDF-Dateien und Bildern extrahieren und so nicht durchsuchbare, bildbasierte Dokumente mit nur wenigen Zeilen Code in durchsuchbare, barrierefreie Inhalte umwandeln.
Viele PDF-Dateien enthalten nicht durchsuchbaren, bildbasierten Text. IronOCR wandelt diese in durchsuchbare Inhalte um, wodurch das Auffinden bestimmter Informationen erleichtert und die Barrierefreiheit von Dokumenten verbessert wird, insbesondere für Menschen mit Sehbehinderungen.
Anstatt Text und Bilder manuell zu kopieren oder neu zu erstellen, gewährleistet die automatisierte Extraktion Genauigkeit und Effizienz. Dies ist besonders nützlich für Forschung, juristische Dokumente und die Erstellung von Inhalten, wo die Wiederverwendung bestimmter Teile von PDF-Dateien üblich ist.
Unternehmen können wichtige Daten aus PDF-Dateien für Analysen oder die Systemintegration extrahieren und so Arbeitsabläufe optimieren. Designer und Marketingfachleute können zudem Bilder extrahieren, um sie zu optimieren und in verschiedenen Projekten wiederzuverwenden.
In diesem Tutorial werden wir die OcrPdfInput-Methoden untersuchen und dabei die verfügbaren Optionen und Parameter behandeln, um zu veranschaulichen, wie IronOCR die Extraktion von Text und Bildern aus PDF-Dateien für verschiedene Anwendungen vereinfacht.
Um diese Funktion nutzen zu können, müssen Sie außerdem das Paket IronOcr.Extensions.AdvancedScan installieren.
Schnellstart: Text aus einem gescannten PDF oder Bild extrahieren
In wenigen Sekunden loslegen – mit einer einzigen Codezeile laden Sie Ihre gescannte PDF-Datei oder Ihr Bild mithilfe von IronOCRs OcrInput.LoadPdf oder LoadImage und extrahieren den Text sofort über ReadDocument. Ideal für Entwickler, die OCR schnell einsatzbereit haben möchten.
-
Installieren Sie IronOCR mit NuGet Package Manager
PM > Install-Package IronOcr -
Kopieren Sie diesen Codeausschnitt und führen Sie ihn aus.
var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text; -
Bereitstellen zum Testen in Ihrer Live-Umgebung
Beginnen Sie noch heute, IronOCR in Ihrem Projekt zu verwenden, mit einer kostenlosen Testversion
Minimaler Arbeitsablauf (5 Schritte)
- Laden Sie die C#-Bibliothek zum Lesen gescannter Dokumente herunter
- Importieren Sie das gescannte Dokument zur Verarbeitung
- Verwenden Sie die
LoadImageMethode für Bilder oderLoadPdffür gescannte PDFs - Extrahieren Sie Text mithilfe der
ReadDocumentMethode - Speichern oder exportieren Sie den extrahierten Text nach Bedarf für die weitere Verwendung
Wie extrahiere ich Text aus gescannten Dokumenten?
Um Text aus allen Bildern innerhalb eines Dokuments zu extrahieren, verwenden Sie die Methode ReadDocument. Diese Methode verarbeitet das Dokument und gibt ein Objekt zurück, das den extrahierten Text enthält, auf den über die Eigenschaft Text zugegriffen werden kann. Das folgende Beispiel zeigt, wie diese Methode mit einer -Datei angewendet wird.
IronOCR unterstützt eine Vielzahl von Dokumentformaten für das Scannen. Bei Bildern können Sie mit den Formaten JPG, PNG, GIF, TIFF und BMP arbeiten, während die PDF-Unterstützung sowohl einseitige als auch mehrseitige Dokumente umfasst. Die Bibliothek nutzt die fortschrittliche Tesseract 5-Technologie, um eine hohe Genauigkeit bei allen unterstützten Formaten zu gewährleisten.
- Die Methode funktioniert derzeit nur für Englisch, Chinesisch, Japanisch, Koreanisch und das lateinische Alphabet.
- Die Verwendung von "Advanced Scan" im .NET Framework erfordert, dass das Projekt auf einer x64-Architektur läuft. )}]
Wie sieht das Ausgangsdokument aus?

Wie implementiere ich den OCR-Code?
:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;
// Instantiate OCR engine
var ocr = new IronTesseract();
// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");
// Perform OCR
OcrResult result = ocr.ReadDocument(input);
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate OCR engine
Private ocr = New IronTesseract()
' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")
' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)
Console.WriteLine(result.Text)
Welche Ergebnisse kann ich von der OCR-Verarbeitung erwarten?

Wenn Sie stattdessen eine OCR-Bearbeitung an einer PDF-Datei durchführen müssen, ersetzen Sie einfach die Methode LoadImage durch LoadPdf. Dadurch kann IronOCR Text aus gescannten PDF-Dateien auf die gleiche Weise verarbeiten und extrahieren.
Erweiterte Optionen zur Dokumentenverarbeitung
Bei der Arbeit mit gescannten Dokumenten benötigen Sie oft mehr Kontrolle über den OCR-Prozess. IronOCR bietet mehrere erweiterte Funktionen, um Ihre Ergebnisse bei der Textextraktion zu verbessern.
Verarbeitung mehrseitiger Dokumente
Bei mehrseitigen Dokumenten sorgt IronOCR für eine effiziente Stapelverarbeitung:
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");
// Process all pages
OcrResult result = ocr.ReadDocument(input);
// Access individual page results
foreach (var page in result.Pages)
{
Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");
// Process all pages
OcrResult result = ocr.ReadDocument(input);
// Access individual page results
foreach (var page in result.Pages)
{
Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}
Imports IronOcr
Dim ocr As New IronTesseract()
Using input As New OcrInput()
' Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf")
' Process all pages
Dim result As OcrResult = ocr.ReadDocument(input)
' Access individual page results
For Each page In result.Pages
Console.WriteLine($"Page {page.PageNumber}: {page.Text}")
Next
End Using
Optimierung der OCR-Leistung
Die Qualität Ihrer gescannten Dokumente wirkt sich direkt auf die OCR-Genauigkeit aus. IronOCR enthält integrierte Bildoptimierungsfilter zur Verbesserung der Texterkennung:
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew(); // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white
OcrResult result = ocr.ReadDocument(input);
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew(); // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white
OcrResult result = ocr.ReadDocument(input);
Imports IronOcr
Dim ocr As New IronTesseract()
Using input As New OcrInput()
' Load and enhance image quality
input.LoadImage("low-quality-scan.jpg")
input.Deskew() ' Correct image skew
input.DeNoise() ' Remove background noise
input.Binarize() ' Convert to black and white
Dim result As OcrResult = ocr.ReadDocument(input)
End Using
Erstellen durchsuchbarer PDF-Dateien
Eine der wertvollsten Funktionen bei der Verarbeitung gescannter Dokumente ist die Möglichkeit, durchsuchbare PDF-Dateien zu erstellen. Dadurch bleibt das ursprüngliche Erscheinungsbild des Dokuments erhalten, während eine Textebene hinzugefügt wird:
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");
// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");
// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
Imports IronOcr
Dim ocr As New IronTesseract()
Using input As New OcrInput()
input.LoadPdf("scanned-document.pdf")
' Process and save as searchable PDF
Dim result As OcrResult = ocr.ReadDocument(input)
result.SaveAsSearchablePdf("searchable-output.pdf")
End Using
Arbeiten mit verschiedenen Dokumenttypen
IronOCR zeichnet sich durch die Verarbeitung verschiedener Dokumenttypen aus, die in Geschäftsumgebungen häufig vorkommen. Ob es sich um Rechnungen, Verträge oder historische Dokumente handelt – die Bibliothek bietet spezielle Funktionen zum Extrahieren von Daten aus verschiedenen Quellen.
Verarbeitung von Altdokumenten
Viele Unternehmen verfügen über Archive mit gescannten Dokumenten in älteren Formaten. IronOCR bewältigt diese Aufgaben effizient, einschließlich der Unterstützung für mehrseitige TIFF-Dateien, die häufig in Dokumentenmanagementsystemen verwendet werden.
Sprachunterstützung
Während sich dieses Beispiel auf englischen Text konzentriert, unterstützt IronOCR über 125 internationale Sprachen. Dies macht sie ideal für die Verarbeitung mehrsprachiger Dokumente oder Dokumente in anderen Sprachen als Englisch.
Bewährte Verfahren für das Scannen von Dokumenten
So erzielen Sie optimale Ergebnisse bei der Verarbeitung gescannter Dokumente:
- Scanqualität: Verwenden Sie für optimale Ergebnisse eine Auflösung von mindestens 300 DPI
- Dateiformat: Die Formate TIFF und PNG bewahren die Qualität bei Textdokumenten besser als JPEG
- Vorverarbeitung: Wenden Sie je nach Zustand Ihres Dokuments geeignete Filter an
- Leistung: Bei großen Datenmengen sollten Sie die Nutzung von Multithreading-Funktionen in Betracht ziehen
Behebung häufiger Probleme
Bei der Arbeit mit gescannten Dokumenten können verschiedene Herausforderungen auftreten. Hier sind Lösungen für häufige Probleme:
- Scans von schlechter Qualität: Wenden Sie vor der OCR-Verarbeitung Verbesserungsfilter an
- Schräge Dokumente: Verwenden Sie die Methode
Deskew(), um die Ausrichtung zu korrigieren - Gemischte Inhalte: Behandeln Sie bestimmte Bereiche, wenn Dokumente sowohl Text- als auch Nicht-Text-Elemente enthalten
Für detailliertere Anleitungen sehen Sie sich unser umfassendes C#-OCR-Tutorial an oder schauen Sie sich einfache OCR-Beispiele an, um schnell loszulegen.
Nächste Schritte
Nachdem Sie nun wissen, wie man Text aus gescannten Dokumenten extrahiert, können Sie sich mit fortgeschritteneren Funktionen befassen, wie z. B. das Durchsuchbarmachen von PDF-Dateien oder die Verarbeitung von PDF-Streams für Webanwendungen. Dank seiner Flexibilität eignet sich IronOCR für alles von der einfachen Dokumentendigitalisierung bis hin zu komplexen Workflows zur Dokumentenverarbeitung in Enterprise-Umgebungen.
Häufig gestellte Fragen
Wie extrahiere ich Text aus einer gescannten PDF-Datei in C#?
IronOCR macht es einfach, Text aus gescannten PDFs in C# zu extrahieren. Verwenden Sie die LoadPdf-Methode, um Ihr gescanntes PDF zu importieren, und rufen Sie dann ReadDocument auf, um den Text zu extrahieren. Beispiel: var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text; Diese einzige Codezeile lädt Ihr PDF und extrahiert den gesamten Textinhalt.
Welche Dateiformate unterstützt die OCR-Bibliothek für die Textextraktion?
IronOCR unterstützt eine breite Palette von Dokumentenformaten für OCR-Scans. Bei Bildern arbeitet es mit den Formaten JPG, PNG, GIF, TIFF und BMP. Bei PDFs werden sowohl einseitige als auch mehrseitige Dokumente verarbeitet. Die Bibliothek nutzt die fortschrittliche Tesseract 5-Technologie, um eine hohe Genauigkeit bei allen unterstützten Formaten zu gewährleisten.
Muss ich zusätzliche Pakete für die OCR-Funktionalität installieren?
Ja, um die volle OCR-Funktionalität mit IronOCR zu nutzen, müssen Sie das IronOcr.Extensions.AdvancedScan-Paket zusätzlich zur IronOCR-Hauptbibliothek installieren. Dieses Erweiterungspaket bietet erweiterte Scanfunktionen für die Verarbeitung gescannter Dokumente.
Kann ich Text sowohl aus gescannten Bildern als auch aus PDF-Dateien extrahieren?
Ja, IronOCR verarbeitet sowohl gescannte Bilder als auch PDFs gleichermaßen gut. Verwenden Sie die LoadImage-Methode für Bilddateien (JPG, PNG, GIF, TIFF, BMP) oder LoadPdf für PDF-Dokumente. Die ReadDocument-Methode arbeitet mit beiden Eingabetypen, um Textinhalte zu extrahieren.
Wie kann OCR bei nicht durchsuchbaren PDF-Dokumenten helfen?
IronOCR wandelt nicht durchsuchbare, bildbasierte PDFs in durchsuchbare Inhalte um, indem der Text mithilfe der OCR-Technologie extrahiert wird. Diese Umwandlung erleichtert das Auffinden bestimmter Informationen in den Dokumenten und verbessert die Zugänglichkeit der Dokumente erheblich, insbesondere für Personen mit Sehbehinderungen.
Was sind die wichtigsten Geschäftsanwendungen für OCR-Textextraktion?
IronOCR ermöglicht es Unternehmen, wichtige Daten aus PDF-Dateien zu extrahieren, um sie zu analysieren und in Systeme zu integrieren und so die Arbeitsabläufe zu optimieren. Es ist besonders nützlich für die Verarbeitung von Rechtsdokumenten, Forschungsunterlagen und die Automatisierung der Dateneingabe. Designer und Marketingfachleute können auch Bilder zur Verbesserung und Wiederverwendung in verschiedenen Projekten extrahieren.
Kann IronOCR in bestehende Anwendungen integriert werden?
IronOCR ist darauf ausgelegt, leicht in bestehende Anwendungen mithilfe von C# integriert zu werden, sodass Entwickler OCR-Funktionalität mit minimalem Aufwand zu ihrer Software hinzufügen können.
Was sind die Vorteile der Nutzung von IronOCR für das Dokumentenmanagement?
Die Verwendung von IronOCR für das Dokumentenmanagement rationalisiert den Arbeitsablauf, indem gescannte Dokumente in durchsuchbare und bearbeitbare Texte umgewandelt werden, wodurch der Bedarf an manueller Dateneingabe reduziert und die Zugänglichkeit von Dokumenten verbessert wird.
Wie kann IronOCR die Datenqualität verbessern?
IronOCR verbessert die Datenqualität durch seine fortschrittlichen Erkennungsalgorithmen und Bildkorrekturfunktionen, die sicherstellen, dass der Textextraktionsprozess sowohl zuverlässig als auch genau ist.
Gibt es eine kostenlose Testversion von IronOCR?
Ja, Iron Software bietet eine kostenlose Testversion von IronOCR an, die es den Benutzern ermöglicht, die Funktionen und Fähigkeiten zu testen, bevor sie eine Kaufentscheidung treffen.

