Lesen von gescannten Dokumenten in C# mit IronOCR

Aktualisiert:3. Juni 2026

Translated

View the article in English

IronOCR ermöglicht es C#-Entwicklern, mit Hilfe der OCR-Technologie Text aus gescannten PDFs und Bildern zu extrahieren und nicht durchsuchbare bildbasierte Dokumente mit nur wenigen Codezeilen in durchsuchbare, zugängliche Inhalte zu konvertieren.

Viele PDFs enthalten nicht durchsuchbaren, bildbasierten Text. IronOCR wandelt diese in durchsuchbare Inhalte um, was das Auffinden bestimmter Informationen erleichtert und die Zugänglichkeit der Dokumente verbessert, insbesondere für Personen mit Sehbehinderungen.

Anstatt Text und Bilder manuell zu kopieren oder neu zu erstellen, sorgt die automatisierte Extraktion für Genauigkeit und Effizienz. Dies ist besonders nützlich für Forschung, juristische Dokumente und die Erstellung von Inhalten, bei denen die Wiederverwendung bestimmter Teile von PDFs üblich ist.

Unternehmen können kritische Daten aus PDFs für Analysen oder die Systemintegration extrahieren und so Arbeitsabläufe optimieren. Designer und Marketer können auch Bilder extrahieren, um sie zu verbessern und in verschiedenen Projekten wiederzuverwenden.

In diesem Tutorial werden wir die OcrPdfInput Methoden erkunden, um zu zeigen, wie IronOCR die Textextraktion und Bildverarbeitung für verschiedene Anwendungen vereinfacht, indem wir die verfügbaren Optionen und Parameter abdecken.

Um diese Funktion zu verwenden, müssen Sie auch das IronOcr.Extensions.AdvancedScan Paket installieren.

Schnellstart: Text von einem gescannten PDF oder Bild extrahieren

Starten Sie in Sekunden—mit einer Zeile Code laden Sie Ihr gescanntes PDF oder Bild mit IronOCR's OcrInput.LoadPdf oder LoadImage und extrahieren Sie sofort den Text über ReadDocument. Perfekt für Entwickler, die OCR schnell einsatzbereit haben möchten.

Installieren Sie IronOCR mit NuGet Package Manager
PM > Install-Package IronOcr

Kopieren Sie diesen Codeausschnitt und führen Sie ihn aus.

var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text;

Bereitstellen zum Testen in Ihrer Live-Umgebung

Beginnen Sie noch heute, IronOCR in Ihrem Projekt zu verwenden, mit einer kostenlosen Testversion

Minimaler Arbeitsablauf (5 Schritte)

Laden Sie die C#-Bibliothek zum Lesen gescannter Dokumente herunter.
Importieren Sie das gescannte Dokument zur Verarbeitung
Verwenden Sie die LoadImage Methode für Bilder oder LoadPdf für gescannte PDFs.
Extrahieren Sie Text mithilfe der ReadDocument Methode
Speichern oder exportieren Sie den extrahierten Text bei Bedarf zur weiteren Verwendung

Wie extrahiere ich Text aus gescannten Dokumenten?

Um Text aus allen Bildern in einem Dokument zu extrahieren, verwenden Sie die ReadDocument Methode. Diese Methode verarbeitet das Dokument und gibt ein Objekt zurück, das den extrahierten Text enthält, der über die Text Eigenschaft zugänglich ist. Das untenstehende Beispiel zeigt, wie Sie diese Methode mit einer Beispiel-TIFF -Datei verwenden.

IronOCR unterstützt eine Vielzahl von Dokumentenformaten zum Scannen. Für Bilder können Sie mit den Formaten JPG, PNG, GIF, TIFF und BMP arbeiten, während die PDF-Unterstützung sowohl ein- als auch mehrseitige Dokumente umfasst. Die Bibliothek verwendet die fortschrittliche Tesseract 5-Technologie, um eine hohe Genauigkeit in allen unterstützten Formaten zu gewährleisten.

Hinweis:

Die Methode funktioniert derzeit nur für Englisch, Chinesisch, Japanisch, Koreanisch und das lateinische Alphabet.
Die Verwendung eines erweiterten Scans auf .NET Framework erfordert, dass das Projekt auf x64-Architektur läuft. )}]

Wie sieht das Eingabedokument aus?

Seite aus dem Harry Potter Buch zeigt Kapitel Acht 'The Deathday Party' mit erzählendem Text über Hogwarts im Oktober

Wie implementiere ich den OCR-Code?

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs

using IronOcr;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");

// Perform OCR
OcrResult result = ocr.ReadDocument(input);

Console.WriteLine(result.Text);

Imports IronOcr
Imports System

' Instantiate OCR engine
Private ocr = New IronTesseract()

' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")

' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)

Console.WriteLine(result.Text)

$vbLabelText $csharpLabel

Welche Ergebnisse kann ich von der OCR-Verarbeitung erwarten?

Visual Studio Debug-Fenster zeigt OCR-verarbeiteten Harry Potter Textausgabe aus dem gescannten Dokumentbeispiel

Wenn Sie stattdessen ein PDF-Dokument OCRen müssen, ersetzen Sie einfach die LoadImage Methode durch LoadPdf. Dies ermöglicht es IronOCR, gescannte PDFs auf die gleiche Weise zu verarbeiten und Text zu extrahieren.

Erweiterte Optionen für die Dokumentenverarbeitung

Wenn Sie mit gescannten Dokumenten arbeiten, benötigen Sie oft mehr Kontrolle über den OCR-Prozess. IronOCR bietet mehrere fortschrittliche Funktionen zur Verbesserung Ihrer Textextraktionsergebnisse.

Bearbeitung mehrseitiger Dokumente

Bei Dokumenten mit mehreren Seiten kann IronOCR die Stapelverarbeitung effizient durchführen:

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-3.cs

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");

// Process all pages
OcrResult result = ocr.ReadDocument(input);

// Access individual page results
foreach (var page in result.Pages)
{
    Console.WriteLine($"Page {page.PageNumber}: {page.WordCount} words");
}

Imports IronOcr

Dim ocr As New IronTesseract()
Using input As New OcrInput()
    ' Load a multi-page PDF
    input.LoadPdf("multi-page-document.pdf")

    ' Process all pages
    Dim result As OcrResult = ocr.ReadDocument(input)

    ' Access individual page results
    For Each page In result.Pages
        Console.WriteLine($"Page {page.PageNumber}: {page.WordCount} words")
    Next
End Using

$vbLabelText $csharpLabel

Optimierung der OCR-Leistung

Die Qualität Ihrer gescannten Dokumente wirkt sich direkt auf die OCR-Genauigkeit aus. IronOCR enthält integrierte Bildoptimierungsfilter zur Verbesserung der Texterkennung:

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-4.cs

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew();  // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white

OcrResult result = ocr.ReadDocument(input);

Imports IronOcr

Dim ocr As New IronTesseract()
Using input As New OcrInput()

    ' Load and enhance image quality
    input.LoadImage("low-quality-scan.jpg")
    input.Deskew()  ' Correct image skew
    input.DeNoise() ' Remove background noise
    input.Binarize() ' Convert to black and white

    Dim result As OcrResult = ocr.ReadDocument(input)

End Using

$vbLabelText $csharpLabel

Erstellen von durchsuchbaren PDFs

Eine der wertvollsten Funktionen bei der Verarbeitung gescannter Dokumente ist die Möglichkeit, durchsuchbare PDFs zu erstellen. Das Erscheinungsbild des Originaldokuments wird beibehalten, während eine Textebene hinzugefügt wird:

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-5.cs

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");

Imports IronOcr

Dim ocr As New IronTesseract()
Using input As New OcrInput()
    input.LoadPdf("scanned-document.pdf")

    ' Process and save as searchable PDF
    Dim result As OcrResult = ocr.ReadDocument(input)
    result.SaveAsSearchablePdf("searchable-output.pdf")
End Using

$vbLabelText $csharpLabel

Arbeiten mit verschiedenen Dokumenttypen

IronOCR zeichnet sich durch die Verarbeitung verschiedener Dokumenttypen aus, die in Geschäftsumgebungen häufig vorkommen. Egal, ob es sich um Rechnungen, Verträge oder historische Dokumente handelt, die Bibliothek bietet spezielle Funktionen für die Extraktion von Daten aus verschiedenen Quellen.

Bearbeitung älterer Dokumente

Viele Unternehmen haben Archive mit gescannten Dokumenten in älteren Formaten. IronOCR verarbeitet diese effizient, einschließlich der Unterstützung für mehrseitige TIFF-Dateien, die häufig in Dokumentenmanagementsystemen verwendet werden.

Sprachunterstützung

Während sich dieses Beispiel auf englischen Text konzentriert, unterstützt IronOCR über 125 internationale Sprachen. Damit ist sie ideal für die Bearbeitung mehrsprachiger Dokumente oder von Dokumenten in nicht-englischen Sprachen.

Best Practices für das Scannen von Dokumenten

Erzielung optimaler Ergebnisse bei der Verarbeitung gescannter Dokumente:

Scanqualität: Verwenden Sie eine Mindestauflösung von 300 DPI für beste Ergebnisse
Dateiformat: TIFF- und PNG-Formate bewahren die Qualität besser als JPEG für Textdokumente
Vorverarbeitung: Wenden Sie geeignete Filter basierend auf dem Zustand Ihres Dokuments an
Leistungsfähigkeit: Für große Stapel sollten Sie Multithreading-Funktionen verwenden

Behebung häufiger Probleme

Bei der Arbeit mit gescannten Dokumenten können Sie auf verschiedene Herausforderungen stoßen. Hier finden Sie Lösungen für häufige Probleme:

Schlechte Scanqualität: Wenden Sie vor der OCR-Verarbeitung Verbesserungsfilter an
Schiefe Dokumente: Verwenden Sie die Deskew() Methode, um die Orientierung zu korrigieren
Gemischter Inhalt: Verarbeiten Sie bestimmte Bereiche, wenn Dokumente sowohl Text- als auch Nicht-Text-Elemente enthalten

Ausführlichere Anleitungen finden Sie in unserem umfassenden C# OCR-Tutorial oder in den einfachen OCR-Beispielen für den schnellen Einstieg.

Nächste Schritte

Nachdem Sie nun wissen, wie man Text aus gescannten Dokumenten extrahiert, können Sie sich mit fortgeschritteneren Funktionen befassen, wie z. B. eine beliebige PDF-Datei durchsuchbar machen oder PDF-Streams für Webanwendungen verarbeiten. Dank seiner Flexibilität eignet sich IronOCR für alles, von der einfachen Dokumentendigitalisierung bis hin zu komplexen Dokumentenverarbeitungs-Workflows in Unternehmen.

Häufig gestellte Fragen

Wie extrahiere ich Text aus einer gescannten PDF-Datei in C#?

IronOCR macht es einfach, Text aus gescannten PDFs in C# zu extrahieren. Verwenden Sie die LoadPdf-Methode, um Ihr gescanntes PDF zu importieren, und rufen Sie dann ReadDocument auf, um den Text zu extrahieren. Beispiel: var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text; Diese einzige Codezeile lädt Ihr PDF und extrahiert den gesamten Textinhalt.

Welche Dateiformate unterstützt die OCR-Bibliothek für die Textextraktion?

IronOCR unterstützt eine breite Palette von Dokumentenformaten für OCR-Scans. Bei Bildern arbeitet es mit den Formaten JPG, PNG, GIF, TIFF und BMP. Bei PDFs werden sowohl einseitige als auch mehrseitige Dokumente verarbeitet. Die Bibliothek nutzt die fortschrittliche Tesseract 5-Technologie, um eine hohe Genauigkeit bei allen unterstützten Formaten zu gewährleisten.

Muss ich zusätzliche Pakete für die OCR-Funktionalität installieren?

Ja, um die volle OCR-Funktionalität mit IronOCR zu nutzen, müssen Sie das IronOcr.Extensions.AdvancedScan-Paket zusätzlich zur IronOCR-Hauptbibliothek installieren. Dieses Erweiterungspaket bietet erweiterte Scanfunktionen für die Verarbeitung gescannter Dokumente.

Kann ich Text sowohl aus gescannten Bildern als auch aus PDF-Dateien extrahieren?

Ja, IronOCR verarbeitet sowohl gescannte Bilder als auch PDFs gleichermaßen gut. Verwenden Sie die LoadImage-Methode für Bilddateien (JPG, PNG, GIF, TIFF, BMP) oder LoadPdf für PDF-Dokumente. Die ReadDocument-Methode arbeitet mit beiden Eingabetypen, um Textinhalte zu extrahieren.

Wie kann OCR bei nicht durchsuchbaren PDF-Dokumenten helfen?

IronOCR wandelt nicht durchsuchbare, bildbasierte PDFs in durchsuchbare Inhalte um, indem der Text mithilfe der OCR-Technologie extrahiert wird. Diese Umwandlung erleichtert das Auffinden bestimmter Informationen in den Dokumenten und verbessert die Zugänglichkeit der Dokumente erheblich, insbesondere für Personen mit Sehbehinderungen.

Was sind die wichtigsten Geschäftsanwendungen für OCR-Textextraktion?

IronOCR ermöglicht es Unternehmen, wichtige Daten aus PDF-Dateien zu extrahieren, um sie zu analysieren und in Systeme zu integrieren und so die Arbeitsabläufe zu optimieren. Es ist besonders nützlich für die Verarbeitung von Rechtsdokumenten, Forschungsunterlagen und die Automatisierung der Dateneingabe. Designer und Marketingfachleute können auch Bilder zur Verbesserung und Wiederverwendung in verschiedenen Projekten extrahieren.

Kann IronOCR in bestehende Anwendungen integriert werden?

IronOCR ist darauf ausgelegt, leicht in bestehende Anwendungen mithilfe von C# integriert zu werden, sodass Entwickler OCR-Funktionalität mit minimalem Aufwand zu ihrer Software hinzufügen können.

Was sind die Vorteile der Nutzung von IronOCR für das Dokumentenmanagement?

Die Verwendung von IronOCR für das Dokumentenmanagement rationalisiert den Arbeitsablauf, indem gescannte Dokumente in durchsuchbare und bearbeitbare Texte umgewandelt werden, wodurch der Bedarf an manueller Dateneingabe reduziert und die Zugänglichkeit von Dokumenten verbessert wird.

Wie kann IronOCR die Datenqualität verbessern?

IronOCR verbessert die Datenqualität durch seine fortschrittlichen Erkennungsalgorithmen und Bildkorrekturfunktionen, die sicherstellen, dass der Textextraktionsprozess sowohl zuverlässig als auch genau ist.

Gibt es eine kostenlose Testversion von IronOCR?

Ja, Iron Software bietet eine kostenlose Testversion von IronOCR an, die es den Benutzern ermöglicht, die Funktionen und Fähigkeiten zu testen, bevor sie eine Kaufentscheidung treffen.

Curtis Chau

Jetzt mit dem Ingenieurteam chatten

Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Bereit anzufangen?

Nuget Downloads 6,151,372 | Version: 2026.7 gerade veröffentlicht

Lizenzen anzeigen

Scrollst du immer noch?

Sie brauchen schnell einen Beweis? PM > Install-Package IronOcr
Führen Sie ein Beispiel aus und beobachten Sie, wie Ihr Bild zu durchsuchbarem Text wird.

Lizenzen anzeigen

Kunden-Highlight:

Entwickler im Rampenlicht:

Webinare:

Starten Sie die kostenlose 30-Tage-Testversion

Auf dieser Seite

Lesen von gescannten Dokumenten in C# mit IronOCR

Installieren Sie IronOCR mit NuGet Package Manager

Kopieren Sie diesen Codeausschnitt und führen Sie ihn aus.

Bereitstellen zum Testen in Ihrer Live-Umgebung

Minimaler Arbeitsablauf (5 Schritte)

Wie extrahiere ich Text aus gescannten Dokumenten?

Wie sieht das Eingabedokument aus?

Wie implementiere ich den OCR-Code?

Welche Ergebnisse kann ich von der OCR-Verarbeitung erwarten?

Erweiterte Optionen für die Dokumentenverarbeitung

Bearbeitung mehrseitiger Dokumente

Optimierung der OCR-Leistung

Erstellen von durchsuchbaren PDFs

Arbeiten mit verschiedenen Dokumenttypen

Bearbeitung älterer Dokumente

Sprachunterstützung

Best Practices für das Scannen von Dokumenten

Behebung häufiger Probleme

Nächste Schritte

Häufig gestellte Fragen

Wie extrahiere ich Text aus einer gescannten PDF-Datei in C#?

Welche Dateiformate unterstützt die OCR-Bibliothek für die Textextraktion?

Muss ich zusätzliche Pakete für die OCR-Funktionalität installieren?

Kann ich Text sowohl aus gescannten Bildern als auch aus PDF-Dateien extrahieren?

Wie kann OCR bei nicht durchsuchbaren PDF-Dokumenten helfen?

Was sind die wichtigsten Geschäftsanwendungen für OCR-Textextraktion?

Kann IronOCR in bestehende Anwendungen integriert werden?

Was sind die Vorteile der Nutzung von IronOCR für das Dokumentenmanagement?

Wie kann IronOCR die Datenqualität verbessern?

Gibt es eine kostenlose Testversion von IronOCR?

Scrollst du immer noch?

Ihr Lizenzschlüssel wurde in Ihren Posteingang geliefert

Ihre Demo-Anfrage ist eingegangen.

Iron-Support-Team

Starten Sie die kostenlose 30-Tage-Testversion

Auf dieser Seite

Lesen von gescannten Dokumenten in C# mit IronOCR

Installieren Sie IronOCR mit NuGet Package Manager

Kopieren Sie diesen Codeausschnitt und führen Sie ihn aus.

Bereitstellen zum Testen in Ihrer Live-Umgebung

Minimaler Arbeitsablauf (5 Schritte)

Wie extrahiere ich Text aus gescannten Dokumenten?

Wie sieht das Eingabedokument aus?

Wie implementiere ich den OCR-Code?

Welche Ergebnisse kann ich von der OCR-Verarbeitung erwarten?

Erweiterte Optionen für die Dokumentenverarbeitung

Bearbeitung mehrseitiger Dokumente

Optimierung der OCR-Leistung

Erstellen von durchsuchbaren PDFs

Arbeiten mit verschiedenen Dokumenttypen

Bearbeitung älterer Dokumente

Sprachunterstützung

Best Practices für das Scannen von Dokumenten

Behebung häufiger Probleme

Nächste Schritte

Häufig gestellte Fragen

Wie extrahiere ich Text aus einer gescannten PDF-Datei in C#?

Welche Dateiformate unterstützt die OCR-Bibliothek für die Textextraktion?

Muss ich zusätzliche Pakete für die OCR-Funktionalität installieren?

Kann ich Text sowohl aus gescannten Bildern als auch aus PDF-Dateien extrahieren?

Wie kann OCR bei nicht durchsuchbaren PDF-Dokumenten helfen?

Was sind die wichtigsten Geschäftsanwendungen für OCR-Textextraktion?

Kann IronOCR in bestehende Anwendungen integriert werden?

Was sind die Vorteile der Nutzung von IronOCR für das Dokumentenmanagement?

Wie kann IronOCR die Datenqualität verbessern?

Gibt es eine kostenlose Testversion von IronOCR?

Scrollst du immer noch?

Holen Sie sich Ihre KOSTENLOSE

Nächster Schritt: Kostenlosen 30-Tage-Test starten

Thank You

Nächster Schritt: Kostenlosen 30-Tage-Test starten

Möchten Sie IronSuite KOSTENLOS in einem Live-Projekt einsetzen?

DLL-Download

Ihr Lizenzschlüssel wurde in Ihren Posteingang geliefert

Ihre Demo-Anfrage ist eingegangen.

Von Millionen von Ingenieur*innen weltweit vertraut

Iron-Support-Team