Wie man gescannte Dokumente in C# liest | IronOCR

Lesen von gescannten Dokumenten in C# mit IronOCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR ermöglicht es C#-Entwicklern, mit Hilfe der OCR-Technologie Text aus gescannten PDFs und Bildern zu extrahieren und nicht durchsuchbare bildbasierte Dokumente mit nur wenigen Codezeilen in durchsuchbare, zugängliche Inhalte zu konvertieren.

Viele PDFs enthalten nicht durchsuchbaren, bildbasierten Text. IronOCR wandelt diese in durchsuchbare Inhalte um, was das Auffinden bestimmter Informationen erleichtert und die Zugänglichkeit der Dokumente verbessert, insbesondere für Personen mit Sehbehinderungen.

Anstatt Text und Bilder manuell zu kopieren oder neu zu erstellen, sorgt die automatisierte Extraktion für Genauigkeit und Effizienz. Dies ist besonders nützlich für Forschung, juristische Dokumente und die Erstellung von Inhalten, bei denen die Wiederverwendung bestimmter Teile von PDFs üblich ist.

Unternehmen können kritische Daten aus PDFs für Analysen oder die Systemintegration extrahieren und so Arbeitsabläufe optimieren. Designer und Marketer können auch Bilder extrahieren, um sie zu verbessern und in verschiedenen Projekten wiederzuverwenden.

In diesem Tutorial werden wir die OcrPdfInput Methoden untersuchen und die verfügbaren Optionen und Parameter erläutern, um zu zeigen, wie IronOCR die Extraktion von PDF-Text und -Bildern für verschiedene Anwendungen vereinfacht.

Um diese Funktion nutzen zu können, müssen Sie außerdem das Paket IronOcr.Extensions.AdvancedScan installieren.

Schnellstart: Text aus einem gescannten PDF oder Bild extrahieren

Legen Sie in Sekundenschnelle los – mit nur einer Codezeile laden Sie Ihr gescanntes PDF oder Bild mithilfe von IronOCRs OcrInput.LoadPdf oder LoadImage und extrahieren den Text sofort über ReadDocument. Perfekt für Entwickler, die OCR schnell einsatzbereit haben möchten.

  1. Installieren Sie IronOCR mit NuGet Package Manager

    PM > Install-Package IronOcr
  2. Kopieren Sie diesen Codeausschnitt und führen Sie ihn aus.

    var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text;
  3. Bereitstellen zum Testen in Ihrer Live-Umgebung

    Beginnen Sie noch heute, IronOCR in Ihrem Projekt zu verwenden, mit einer kostenlosen Testversion

    arrow pointer

Wie extrahiere ich Text aus gescannten Dokumenten?

Um Text aus allen Bildern innerhalb eines Dokuments zu extrahieren, verwenden Sie die Methode ReadDocument. Diese Methode verarbeitet das Dokument und gibt ein Objekt zurück, das den extrahierten Text enthält und über die Eigenschaft Text aufgerufen werden kann. Das untenstehende Beispiel zeigt, wie Sie diese Methode mit einer Beispiel-TIFF-Datei verwenden.

IronOCR unterstützt eine Vielzahl von Dokumentenformaten zum Scannen. Für Bilder können Sie mit den Formaten JPG, PNG, GIF, TIFF und BMP arbeiten, während die PDF-Unterstützung sowohl ein- als auch mehrseitige Dokumente umfasst. Die Bibliothek verwendet die fortschrittliche Tesseract 5-Technologie, um eine hohe Genauigkeit in allen unterstützten Formaten zu gewährleisten.

[{ich:(

  • Die Methode funktioniert derzeit nur für Englisch, Chinesisch, Japanisch, Koreanisch und das Lateinische Alphabet.
  • Die Verwendung eines erweiterten Scans auf .NET Framework erfordert, dass das Projekt auf x64-Architektur läuft.
    )}]

Wie sieht das Eingabedokument aus?

Seite aus dem Harry-Potter-Buch mit Kapitel Acht

Wie implementiere ich den OCR-Code?

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");

// Perform OCR
OcrResult result = ocr.ReadDocument(input);

Console.WriteLine(result.Text);
$vbLabelText   $csharpLabel

Welche Ergebnisse kann ich von der OCR-Verarbeitung erwarten?

Visual Studio Debug-Fenster mit Anzeige des OCR-verarbeiteten Harry-Potter-Textes aus einem gescannten Dokumentbeispiel

Falls Sie stattdessen eine OCR-Texterkennung auf einer PDF-Datei durchführen müssen, ersetzen Sie einfach die Methode LoadImage durch LoadPdf. Dies ermöglicht es IronOCR, gescannte PDFs auf die gleiche Weise zu verarbeiten und Text zu extrahieren.

Erweiterte Optionen für die Dokumentenverarbeitung

Wenn Sie mit gescannten Dokumenten arbeiten, benötigen Sie oft mehr Kontrolle über den OCR-Prozess. IronOCR bietet mehrere fortschrittliche Funktionen zur Verbesserung Ihrer Textextraktionsergebnisse.

Bearbeitung mehrseitiger Dokumente

Bei Dokumenten mit mehreren Seiten kann IronOCR die Stapelverarbeitung effizient durchführen:

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");

// Process all pages
OcrResult result = ocr.ReadDocument(input);

// Access individual page results
foreach (var page in result.Pages)
{
    Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");

// Process all pages
OcrResult result = ocr.ReadDocument(input);

// Access individual page results
foreach (var page in result.Pages)
{
    Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}
$vbLabelText   $csharpLabel

Optimierung der OCR-Leistung

Die Qualität Ihrer gescannten Dokumente wirkt sich direkt auf die OCR-Genauigkeit aus. IronOCR enthält integrierte Bildoptimierungsfilter zur Verbesserung der Texterkennung:

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew();  // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white

OcrResult result = ocr.ReadDocument(input);
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew();  // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white

OcrResult result = ocr.ReadDocument(input);
$vbLabelText   $csharpLabel

Erstellen von durchsuchbaren PDFs

Eine der wertvollsten Funktionen bei der Verarbeitung gescannter Dokumente ist die Möglichkeit, durchsuchbare PDFs zu erstellen. Das Erscheinungsbild des Originaldokuments wird beibehalten, während eine Textebene hinzugefügt wird:

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
$vbLabelText   $csharpLabel

Arbeiten mit verschiedenen Dokumenttypen

IronOCR zeichnet sich durch die Verarbeitung verschiedener Dokumenttypen aus, die in Geschäftsumgebungen häufig vorkommen. Egal, ob es sich um Rechnungen, Verträge oder historische Dokumente handelt, die Bibliothek bietet spezielle Funktionen für die Extraktion von Daten aus verschiedenen Quellen.

Bearbeitung älterer Dokumente

Viele Unternehmen haben Archive mit gescannten Dokumenten in älteren Formaten. IronOCR verarbeitet diese effizient, einschließlich der Unterstützung für mehrseitige TIFF-Dateien, die häufig in Dokumentenmanagementsystemen verwendet werden.

Sprachunterstützung

Während sich dieses Beispiel auf englischen Text konzentriert, unterstützt IronOCR über 125 internationale Sprachen. Damit ist sie ideal für die Bearbeitung mehrsprachiger Dokumente oder von Dokumenten in nicht-englischen Sprachen.

Best Practices für das Scannen von Dokumenten

Erzielung optimaler Ergebnisse bei der Verarbeitung gescannter Dokumente:

  1. Scanqualität: Verwenden Sie eine Mindestauflösung von 300 DPI für beste Ergebnisse
  2. Dateiformat: Die Formate TIFF und PNG bewahren die Qualität besser als JPEG für Textdokumente
  3. Vorverarbeitung: Wenden Sie geeignete Filter auf der Grundlage Ihrer Dokumentbedingungen an
  4. Leistungsfähigkeit: Für große Stapel sollten Sie Multithreading-Funktionen verwenden

Behebung häufiger Probleme

Bei der Arbeit mit gescannten Dokumenten können Sie auf verschiedene Herausforderungen stoßen. Hier finden Sie Lösungen für häufige Probleme:

  • Scans von schlechter Qualität: Verbesserungsfilter vor der OCR-Verarbeitung anwenden
  • Schiefe Dokumente : Verwenden Sie die Methode Deskew(), um die Ausrichtung zu korrigieren.
  • Gemischter Inhalt: Verarbeitung bestimmter Regionen, wenn Dokumente sowohl Text- als auch Nicht-Text-Elemente enthalten

Ausführlichere Anleitungen finden Sie in unserem umfassenden C# OCR-Tutorial oder in den einfachen OCR-Beispielen für den schnellen Einstieg.

Nächste Schritte

Nachdem Sie nun wissen, wie man Text aus gescannten Dokumenten extrahiert, können Sie sich mit fortgeschritteneren Funktionen befassen, wie z. B. eine beliebige PDF-Datei durchsuchbar machen oder PDF-Streams für Webanwendungen verarbeiten. Dank seiner Flexibilität eignet sich IronOCR für alles, von der einfachen Dokumentendigitalisierung bis hin zu komplexen Dokumentenverarbeitungs-Workflows in Unternehmen.

Häufig gestellte Fragen

Wie extrahiere ich Text aus einer gescannten PDF-Datei in C#?

IronOCR macht es einfach, Text aus gescannten PDFs in C# zu extrahieren. Verwenden Sie die LoadPdf-Methode, um Ihr gescanntes PDF zu importieren, und rufen Sie dann ReadDocument auf, um den Text zu extrahieren. Beispiel: var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text; Diese einzige Codezeile lädt Ihr PDF und extrahiert den gesamten Textinhalt.

Welche Dateiformate unterstützt die OCR-Bibliothek für die Textextraktion?

IronOCR unterstützt eine breite Palette von Dokumentenformaten für OCR-Scans. Bei Bildern arbeitet es mit den Formaten JPG, PNG, GIF, TIFF und BMP. Bei PDFs werden sowohl einseitige als auch mehrseitige Dokumente verarbeitet. Die Bibliothek nutzt die fortschrittliche Tesseract 5-Technologie, um eine hohe Genauigkeit bei allen unterstützten Formaten zu gewährleisten.

Muss ich zusätzliche Pakete für die OCR-Funktionalität installieren?

Ja, um die volle OCR-Funktionalität mit IronOCR zu nutzen, müssen Sie das IronOcr.Extensions.AdvancedScan-Paket zusätzlich zur IronOCR-Hauptbibliothek installieren. Dieses Erweiterungspaket bietet erweiterte Scanfunktionen für die Verarbeitung gescannter Dokumente.

Kann ich Text sowohl aus gescannten Bildern als auch aus PDF-Dateien extrahieren?

Ja, IronOCR verarbeitet sowohl gescannte Bilder als auch PDFs gleichermaßen gut. Verwenden Sie die LoadImage-Methode für Bilddateien (JPG, PNG, GIF, TIFF, BMP) oder LoadPdf für PDF-Dokumente. Die ReadDocument-Methode arbeitet mit beiden Eingabetypen, um Textinhalte zu extrahieren.

Wie kann OCR bei nicht durchsuchbaren PDF-Dokumenten helfen?

IronOCR wandelt nicht durchsuchbare, bildbasierte PDFs in durchsuchbare Inhalte um, indem der Text mithilfe der OCR-Technologie extrahiert wird. Diese Umwandlung erleichtert das Auffinden bestimmter Informationen in den Dokumenten und verbessert die Zugänglichkeit der Dokumente erheblich, insbesondere für Personen mit Sehbehinderungen.

Was sind die wichtigsten Geschäftsanwendungen für OCR-Textextraktion?

IronOCR ermöglicht es Unternehmen, wichtige Daten aus PDF-Dateien zu extrahieren, um sie zu analysieren und in Systeme zu integrieren und so die Arbeitsabläufe zu optimieren. Es ist besonders nützlich für die Verarbeitung von Rechtsdokumenten, Forschungsunterlagen und die Automatisierung der Dateneingabe. Designer und Marketingfachleute können auch Bilder zur Verbesserung und Wiederverwendung in verschiedenen Projekten extrahieren.

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen
Bereit anzufangen?
Nuget Downloads 5,554,905 | Version: 2026.3 gerade veröffentlicht
Still Scrolling Icon

Scrollst du immer noch?

Sie brauchen schnell einen Beweis? PM > Install-Package IronOcr
Führen Sie ein Beispiel aus und beobachten Sie, wie Ihr Bild zu durchsuchbarem Text wird.