Gescannte Dokumente lesen – PDF Text extrahieren und Bild zu Text mit IronOCR
IronOCR ermöglicht es C#-Entwicklern, mit Hilfe der Texterkennung (OCR) PDF Text zu extrahieren aus gescannten Bildern und nicht durchsuchbaren Dokumenten – und diese mit nur wenigen Codezeilen in durchsuchbare, zugängliche Inhalte zu konvertieren.
Viele PDFs enthalten nicht durchsuchbaren, bildbasierten Text. IronOCR wandelt diese durch Bild zu Text Konvertierung in durchsuchbare Inhalte um, was das Auffinden bestimmter Informationen erleichtert und die Zugänglichkeit der Dokumente verbessert, insbesondere für Personen mit Sehbehinderungen.
Anstatt Text und Bilder manuell zu kopieren oder neu zu erstellen, sorgt die automatisierte Extraktion für Genauigkeit und Effizienz. Dies ist besonders nützlich für Forschung, juristische Dokumente und die Erstellung von Inhalten, bei denen die Wiederverwendung bestimmter Teile von PDFs üblich ist.
Unternehmen können kritische Daten aus PDFs für Analysen oder die Systemintegration extrahieren und so Arbeitsabläufe optimieren. Designer und Marketer können auch Bilder extrahieren, um sie zu verbessern und in verschiedenen Projekten wiederzuverwenden.
In diesem Tutorial werden wir die OcrPdfInput Methoden untersuchen und die verfügbaren Optionen und Parameter erläutern, um zu zeigen, wie IronOCR die Extraktion von PDF-Text und -Bildern für verschiedene Anwendungen vereinfacht.
Um diese Funktion nutzen zu können, müssen Sie außerdem das Paket IronOcr.Extensions.AdvancedScan installieren.
Schnellstart: Text aus einem gescannten PDF oder Bild extrahieren
Legen Sie in Sekundenschnelle los – mit nur einer Codezeile laden Sie Ihr gescanntes PDF oder Bild mithilfe von IronOCRs OcrInput.LoadPdf oder LoadImage und extrahieren den Text sofort über ReadDocument. Perfekt für Entwickler, die OCR schnell einsatzbereit haben möchten.
-
Installieren Sie IronOCR mit NuGet Package Manager
PM > Install-Package IronOcr -
Kopieren Sie diesen Codeausschnitt und führen Sie ihn aus.
var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text; -
Bereitstellen zum Testen in Ihrer Live-Umgebung
Beginnen Sie noch heute, IronOCR in Ihrem Projekt zu verwenden, mit einer kostenlosen Testversion
Minimaler Arbeitsablauf (5 Schritte)
- Laden Sie die C#-Bibliothek zum Lesen gescannter Dokumente herunter.
- Importieren Sie das gescannte Dokument zur Verarbeitung
- Verwenden Sie die `LoadImage` Methode für Bilder oder `LoadPdf` für gescannte PDFs.
- Extrahieren Sie Text mithilfe der `ReadDocument` Methode
- Speichern oder exportieren Sie den extrahierten Text bei Bedarf zur weiteren Verwendung
Wie extrahiere ich Text aus gescannten Dokumenten?
Um Text aus allen Bildern innerhalb eines Dokuments zu extrahieren, verwenden Sie die Methode ReadDocument. Diese Methode verarbeitet das Dokument und gibt ein Objekt zurück, das den extrahierten Text enthält und über die Eigenschaft Text aufgerufen werden kann. Das untenstehende Beispiel zeigt, wie Sie diese Methode mit einer -Datei verwenden.
IronOCR unterstützt eine Vielzahl von Dokumentenformaten zum Scannen. Für Bilder können Sie mit den Formaten JPG, PNG, GIF, TIFF und BMP arbeiten, während die PDF-Unterstützung sowohl ein- als auch mehrseitige Dokumente umfasst. Die Bibliothek verwendet die fortschrittliche Tesseract 5-Technologie, um eine hohe Genauigkeit in allen unterstützten Formaten zu gewährleisten.
[{ich:(
- Die Methode funktioniert derzeit nur für Englisch, Chinesisch, Japanisch, Koreanisch und das Lateinische Alphabet.
- Die Verwendung eines erweiterten Scans auf .NET Framework erfordert, dass das Projekt auf x64-Architektur läuft.
)}]
Wie sieht das Eingabedokument aus?

Wie implementiere ich den OCR-Code?
:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;
// Instantiate OCR engine
var ocr = new IronTesseract();
// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");
// Perform OCR
OcrResult result = ocr.ReadDocument(input);
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate OCR engine
Private ocr = New IronTesseract()
' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")
' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)
Console.WriteLine(result.Text)
Welche Ergebnisse kann ich von der OCR-Verarbeitung erwarten?

Falls Sie stattdessen eine OCR-Texterkennung auf einer PDF-Datei durchführen müssen, ersetzen Sie einfach die Methode LoadImage durch LoadPdf. Dies ermöglicht es IronOCR, gescannte PDFs auf die gleiche Weise zu verarbeiten und Text zu extrahieren.
Erweiterte Optionen für die Dokumentenverarbeitung
Wenn Sie mit gescannten Dokumenten arbeiten, benötigen Sie oft mehr Kontrolle über den OCR-Prozess. IronOCR bietet mehrere fortschrittliche Funktionen zur Verbesserung Ihrer Textextraktionsergebnisse.
Bearbeitung mehrseitiger Dokumente
Bei Dokumenten mit mehreren Seiten kann IronOCR die Stapelverarbeitung effizient durchführen:
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");
// Process all pages
OcrResult result = ocr.ReadDocument(input);
// Access individual page results
foreach (var page in result.Pages)
{
Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");
// Process all pages
OcrResult result = ocr.ReadDocument(input);
// Access individual page results
foreach (var page in result.Pages)
{
Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}
Imports IronOcr
Dim ocr As New IronTesseract()
Using input As New OcrInput()
' Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf")
' Process all pages
Dim result As OcrResult = ocr.ReadDocument(input)
' Access individual page results
For Each page In result.Pages
Console.WriteLine($"Page {page.PageNumber}: {page.Text}")
Next
End Using
Optimierung der OCR-Leistung
Die Qualität Ihrer gescannten Dokumente wirkt sich direkt auf die OCR-Genauigkeit aus. IronOCR enthält integrierte Bildoptimierungsfilter zur Verbesserung der Texterkennung:
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew(); // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white
OcrResult result = ocr.ReadDocument(input);
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew(); // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white
OcrResult result = ocr.ReadDocument(input);
Imports IronOcr
Dim ocr As New IronTesseract()
Using input As New OcrInput()
' Load and enhance image quality
input.LoadImage("low-quality-scan.jpg")
input.Deskew() ' Correct image skew
input.DeNoise() ' Remove background noise
input.Binarize() ' Convert to black and white
Dim result As OcrResult = ocr.ReadDocument(input)
End Using
Erstellen von durchsuchbaren PDFs
Eine der wertvollsten Funktionen bei der Verarbeitung gescannter Dokumente ist die Möglichkeit, durchsuchbare PDFs zu erstellen. Das Erscheinungsbild des Originaldokuments wird beibehalten, während eine Textebene hinzugefügt wird:
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");
// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");
// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
Imports IronOcr
Dim ocr As New IronTesseract()
Using input As New OcrInput()
input.LoadPdf("scanned-document.pdf")
' Process and save as searchable PDF
Dim result As OcrResult = ocr.ReadDocument(input)
result.SaveAsSearchablePdf("searchable-output.pdf")
End Using
Arbeiten mit verschiedenen Dokumenttypen
IronOCR zeichnet sich durch die Verarbeitung verschiedener Dokumenttypen aus, die in Geschäftsumgebungen häufig vorkommen. Egal, ob es sich um Rechnungen, Verträge oder historische Dokumente handelt, die Bibliothek bietet spezielle Funktionen für die Extraktion von Daten aus verschiedenen Quellen.
Bearbeitung älterer Dokumente
Viele Unternehmen haben Archive mit gescannten Dokumenten in älteren Formaten. IronOCR verarbeitet diese effizient, einschließlich der Unterstützung für mehrseitige TIFF-Dateien, die häufig in Dokumentenmanagementsystemen verwendet werden.
Sprachunterstützung
Während sich dieses Beispiel auf englischen Text konzentriert, unterstützt IronOCR über 125 internationale Sprachen. Damit ist sie ideal für die Bearbeitung mehrsprachiger Dokumente oder von Dokumenten in nicht-englischen Sprachen.
Best Practices für das Scannen von Dokumenten
Erzielung optimaler Ergebnisse bei der Verarbeitung gescannter Dokumente:
- Scanqualität: Verwenden Sie eine Mindestauflösung von 300 DPI für beste Ergebnisse
- Dateiformat: Die Formate TIFF und PNG bewahren die Qualität besser als JPEG für Textdokumente
- Vorverarbeitung: Wenden Sie geeignete Filter auf der Grundlage Ihrer Dokumentbedingungen an
- Leistungsfähigkeit: Für große Stapel sollten Sie Multithreading-Funktionen verwenden
Behebung häufiger Probleme
Bei der Arbeit mit gescannten Dokumenten können Sie auf verschiedene Herausforderungen stoßen. Hier finden Sie Lösungen für häufige Probleme:
- Scans von schlechter Qualität: Verbesserungsfilter vor der OCR-Verarbeitung anwenden
- Schiefe Dokumente : Verwenden Sie die Methode
Deskew(), um die Ausrichtung zu korrigieren. - Gemischter Inhalt: Verarbeitung bestimmter Regionen, wenn Dokumente sowohl Text- als auch Nicht-Text-Elemente enthalten
Ausführlichere Anleitungen finden Sie in unserem umfassenden C# OCR-Tutorial oder in den einfachen OCR-Beispielen für den schnellen Einstieg.
Nächste Schritte
Nachdem Sie nun wissen, wie man Text aus gescannten Dokumenten extrahiert, können Sie sich mit fortgeschritteneren Funktionen befassen, wie z. B. eine beliebige PDF-Datei durchsuchbar machen oder PDF-Streams für Webanwendungen verarbeiten. Dank seiner Flexibilität eignet sich IronOCR für alles, von der einfachen Dokumentendigitalisierung bis hin zu komplexen Dokumentenverarbeitungs-Workflows in Unternehmen.
Häufig gestellte Fragen
Wie extrahiere ich Text aus einer gescannten PDF-Datei in C#?
IronOCR macht es einfach, Text aus gescannten PDFs in C# zu extrahieren. Verwenden Sie die LoadPdf-Methode, um Ihr gescanntes PDF zu importieren, und rufen Sie dann ReadDocument auf, um den Text zu extrahieren. Beispiel: var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text; Diese einzige Codezeile lädt Ihr PDF und extrahiert den gesamten Textinhalt.
Welche Dateiformate unterstützt die OCR-Bibliothek für die Textextraktion?
IronOCR unterstützt eine breite Palette von Dokumentenformaten für OCR-Scans. Bei Bildern arbeitet es mit den Formaten JPG, PNG, GIF, TIFF und BMP. Bei PDFs werden sowohl einseitige als auch mehrseitige Dokumente verarbeitet. Die Bibliothek nutzt die fortschrittliche Tesseract 5-Technologie, um eine hohe Genauigkeit bei allen unterstützten Formaten zu gewährleisten.
Muss ich zusätzliche Pakete für die OCR-Funktionalität installieren?
Ja, um die volle OCR-Funktionalität mit IronOCR zu nutzen, müssen Sie das IronOcr.Extensions.AdvancedScan-Paket zusätzlich zur IronOCR-Hauptbibliothek installieren. Dieses Erweiterungspaket bietet erweiterte Scanfunktionen für die Verarbeitung gescannter Dokumente.
Kann ich Text sowohl aus gescannten Bildern als auch aus PDF-Dateien extrahieren?
Ja, IronOCR verarbeitet sowohl gescannte Bilder als auch PDFs gleichermaßen gut. Verwenden Sie die LoadImage-Methode für Bilddateien (JPG, PNG, GIF, TIFF, BMP) oder LoadPdf für PDF-Dokumente. Die ReadDocument-Methode arbeitet mit beiden Eingabetypen, um Textinhalte zu extrahieren.
Wie kann OCR bei nicht durchsuchbaren PDF-Dokumenten helfen?
IronOCR wandelt nicht durchsuchbare, bildbasierte PDFs in durchsuchbare Inhalte um, indem der Text mithilfe der OCR-Technologie extrahiert wird. Diese Umwandlung erleichtert das Auffinden bestimmter Informationen in den Dokumenten und verbessert die Zugänglichkeit der Dokumente erheblich, insbesondere für Personen mit Sehbehinderungen.
Was sind die wichtigsten Geschäftsanwendungen für OCR-Textextraktion?
IronOCR ermöglicht es Unternehmen, wichtige Daten aus PDF-Dateien zu extrahieren, um sie zu analysieren und in Systeme zu integrieren und so die Arbeitsabläufe zu optimieren. Es ist besonders nützlich für die Verarbeitung von Rechtsdokumenten, Forschungsunterlagen und die Automatisierung der Dateneingabe. Designer und Marketingfachleute können auch Bilder zur Verbesserung und Wiederverwendung in verschiedenen Projekten extrahieren.

