Wie man gescannte Dokumente in C# liest | IronOCR

Lesen von gescannten Dokumenten in C#35; mit IronOCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR ermöglicht es C#-Entwicklern, mit Hilfe der OCR-Technologie Text aus gescannten PDFs und Bildern zu extrahieren und nicht durchsuchbare bildbasierte Dokumente mit nur wenigen Codezeilen in durchsuchbare, zugängliche Inhalte zu konvertieren.

Viele PDFs enthalten nicht durchsuchbaren, bildbasierten Text. IronOCR wandelt diese in durchsuchbare Inhalte um, was das Auffinden bestimmter Informationen erleichtert und die Zugänglichkeit der Dokumente verbessert, insbesondere für Personen mit Sehbehinderungen.

Anstatt Text und Bilder manuell zu kopieren oder neu zu erstellen, sorgt die automatisierte Extraktion für Genauigkeit und Effizienz. Dies ist besonders nützlich für Forschung, juristische Dokumente und die Erstellung von Inhalten, bei denen die Wiederverwendung bestimmter Teile von PDFs üblich ist.

Unternehmen können kritische Daten aus PDFs für Analysen oder die Systemintegration extrahieren und so Arbeitsabläufe optimieren. Designer und Marketer können auch Bilder extrahieren, um sie zu verbessern und in verschiedenen Projekten wiederzuverwenden.

In diesem Tutorial werden wir die OcrPdfInput-Methoden erkunden, die verfügbaren Optionen und Parameter abdecken, um zu zeigen, wie IronOCR die Text- und Bilderextraktion aus PDFs für verschiedene Anwendungen vereinfacht.

Um diese Funktion zu nutzen, müssen Sie auch das IronOcr.Extensions.AdvancedScan-Paket installieren.

Schnellstart: Text aus einem gescannten PDF oder Bild extrahieren

Legen Sie in Sekundenschnelle los - mit einer Zeile Code laden Sie Ihr gescanntes PDF oder Bild mit IronOCRs OcrInput.LoadPdf oder LoadImage und extrahieren den Text sofort über ReadDocument. Perfekt für Entwickler, die OCR schnell einsatzbereit haben möchten.

Nuget IconLegen Sie jetzt mit NuGet los, um PDFs zu erstellen:

  1. Installieren Sie IronOCR mit dem NuGet-Paketmanager.

    PM > Install-Package IronOcr

  2. Kopieren Sie diesen Codeausschnitt und führen Sie ihn aus.

    var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text;
  3. Bereitstellen zum Testen in Ihrer Live-Umgebung

    Beginnen Sie noch heute mit der Nutzung von IronOCR in Ihrem Projekt – mit einer kostenlosen Testversion.
    arrow pointer

Wie extrahiere ich Text aus gescannten Dokumenten?

Um Text aus allen Bildern innerhalb eines Dokuments zu extrahieren, verwenden Sie die ReadDocument-Methode. Diese Methode verarbeitet das Dokument und gibt ein Objekt zurück, das den extrahierten Text enthält, auf den über die Eigenschaft Text zugegriffen werden kann. Das untenstehende Beispiel zeigt, wie Sie diese Methode mit einer Beispiel-TIFF-Datei verwenden.

IronOCR unterstützt eine Vielzahl von Dokumentenformaten zum Scannen. Für Bilder können Sie mit den Formaten JPG, PNG, GIF, TIFF und BMP arbeiten, während die PDF-Unterstützung sowohl ein- als auch mehrseitige Dokumente umfasst. Die Bibliothek verwendet die fortschrittliche Tesseract 5-Technologie, um eine hohe Genauigkeit in allen unterstützten Formaten zu gewährleisten.

[{i:(

  • Die Methode funktioniert derzeit nur für Englisch, Chinesisch, Japanisch, Koreanisch und das Lateinische Alphabet.
  • Die Verwendung eines erweiterten Scans auf .NET Framework erfordert, dass das Projekt auf x64-Architektur läuft.
    @@--KLAMMER-SCHLIESSEN--@@

Wie sieht das Eingabedokument aus?

Seite aus dem Harry-Potter-Buch, die das achte Kapitel 'Die Party zum Todestag' mit erzählendem Text über Hogwarts im Oktober zeigt

Wie implementiere ich den OCR-Code?

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");

// Perform OCR
OcrResult result = ocr.ReadDocument(input);

Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate OCR engine
Private ocr = New IronTesseract()

' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")

' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)

Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Welche Ergebnisse kann ich von der OCR-Verarbeitung erwarten?

Visual Studio Debug window displaying OCR-processed Harry Potter text output from scanned document example

Wenn Sie stattdessen OCR auf einer PDF-Datei durchführen müssen, ersetzen Sie einfach die LoadImage-Methode durch LoadPdf. Dies ermöglicht es IronOCR, gescannte PDFs auf die gleiche Weise zu verarbeiten und Text zu extrahieren.

Erweiterte Optionen für die Dokumentenverarbeitung

Wenn Sie mit gescannten Dokumenten arbeiten, benötigen Sie oft mehr Kontrolle über den OCR-Prozess. IronOCR bietet mehrere fortschrittliche Funktionen zur Verbesserung Ihrer Textextraktionsergebnisse.

Bearbeitung mehrseitiger Dokumente

Bei Dokumenten mit mehreren Seiten kann IronOCR die Stapelverarbeitung effizient durchführen:

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");

// Process all pages
OcrResult result = ocr.ReadDocument(input);

// Access individual page results
foreach (var page in result.Pages)
{
    Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");

// Process all pages
OcrResult result = ocr.ReadDocument(input);

// Access individual page results
foreach (var page in result.Pages)
{
    Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Optimierung der OCR-Leistung

Die Qualität Ihrer gescannten Dokumente wirkt sich direkt auf die OCR-Genauigkeit aus. IronOCR enthält integrierte Bildoptimierungsfilter zur Verbesserung der Texterkennung:

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew();  // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white

OcrResult result = ocr.ReadDocument(input);
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew();  // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white

OcrResult result = ocr.ReadDocument(input);
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Erstellen von durchsuchbaren PDFs

Eine der wertvollsten Funktionen bei der Verarbeitung gescannter Dokumente ist die Möglichkeit, durchsuchbare PDFs zu erstellen. Das Erscheinungsbild des Originaldokuments wird beibehalten, während eine Textebene hinzugefügt wird:

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Arbeiten mit verschiedenen Dokumenttypen

IronOCR zeichnet sich durch die Verarbeitung verschiedener Dokumenttypen aus, die in Geschäftsumgebungen häufig vorkommen. Egal, ob es sich um Rechnungen, Verträge oder historische Dokumente handelt, die Bibliothek bietet spezielle Funktionen für die Extraktion von Daten aus verschiedenen Quellen.

Bearbeitung älterer Dokumente

Viele Unternehmen haben Archive mit gescannten Dokumenten in älteren Formaten. IronOCR verarbeitet diese effizient, einschließlich der Unterstützung für mehrseitige TIFF-Dateien, die häufig in Dokumentenmanagementsystemen verwendet werden.

Sprachunterstützung

Während sich dieses Beispiel auf englischen Text konzentriert, unterstützt IronOCR über 125 internationale Sprachen. Damit ist sie ideal für die Bearbeitung mehrsprachiger Dokumente oder von Dokumenten in nicht-englischen Sprachen.

Best Practices für das Scannen von Dokumenten

Erzielung optimaler Ergebnisse bei der Verarbeitung gescannter Dokumente:

  1. Scanqualität: Verwenden Sie eine Mindestauflösung von 300 DPI für beste Ergebnisse
  2. Dateiformat: Die Formate TIFF und PNG bewahren die Qualität besser als JPEG für Textdokumente
  3. Vorverarbeitung: Wenden Sie geeignete Filter auf der Grundlage Ihrer Dokumentbedingungen an
  4. Leistungsfähigkeit: Für große Stapel sollten Sie Multithreading-Funktionen verwenden

Behebung häufiger Probleme

Bei der Arbeit mit gescannten Dokumenten können Sie auf verschiedene Herausforderungen stoßen. Hier finden Sie Lösungen für häufige Probleme:

  • Scans von schlechter Qualität: Verbesserungsfilter vor der OCR-Verarbeitung anwenden
  • Geschnittene Dokumente: Verwenden Sie die Methode Deskew(), um die Ausrichtung zu korrigieren
  • Gemischter Inhalt: Verarbeitung bestimmter Regionen, wenn Dokumente sowohl Text- als auch Nicht-Text-Elemente enthalten

Ausführlichere Anleitungen finden Sie in unserem umfassenden C# OCR-Tutorial oder in den einfachen OCR-Beispielen für den schnellen Einstieg.

Nächste Schritte

Nachdem Sie nun wissen, wie man Text aus gescannten Dokumenten extrahiert, können Sie sich mit fortgeschritteneren Funktionen befassen, wie z. B. eine beliebige PDF-Datei durchsuchbar machen oder PDF-Streams für Webanwendungen verarbeiten. Dank seiner Flexibilität eignet sich IronOCR für alles, von der einfachen Dokumentendigitalisierung bis hin zu komplexen Dokumentenverarbeitungs-Workflows in Unternehmen.

Häufig gestellte Fragen

Wie extrahiere ich Text aus einer gescannten PDF-Datei in C#?

IronOCR macht es einfach, Text aus gescannten PDFs in C# zu extrahieren. Verwenden Sie die LoadPdf-Methode, um Ihr gescanntes PDF zu importieren, und rufen Sie dann ReadDocument auf, um den Text zu extrahieren. Beispiel: var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text; Diese einzige Codezeile lädt Ihr PDF und extrahiert den gesamten Textinhalt.

Welche Dateiformate unterstützt die OCR-Bibliothek für die Textextraktion?

IronOCR unterstützt eine breite Palette von Dokumentenformaten für OCR-Scans. Bei Bildern arbeitet es mit den Formaten JPG, PNG, GIF, TIFF und BMP. Bei PDFs werden sowohl einseitige als auch mehrseitige Dokumente verarbeitet. Die Bibliothek nutzt die fortschrittliche Tesseract 5-Technologie, um eine hohe Genauigkeit bei allen unterstützten Formaten zu gewährleisten.

Muss ich zusätzliche Pakete für die OCR-Funktionalität installieren?

Ja, um die volle OCR-Funktionalität mit IronOCR zu nutzen, müssen Sie das IronOcr.Extensions.AdvancedScan-Paket zusätzlich zur IronOCR-Hauptbibliothek installieren. Dieses Erweiterungspaket bietet erweiterte Scanfunktionen für die Verarbeitung gescannter Dokumente.

Kann ich Text sowohl aus gescannten Bildern als auch aus PDF-Dateien extrahieren?

Ja, IronOCR verarbeitet sowohl gescannte Bilder als auch PDFs gleichermaßen gut. Verwenden Sie die LoadImage-Methode für Bilddateien (JPG, PNG, GIF, TIFF, BMP) oder LoadPdf für PDF-Dokumente. Die ReadDocument-Methode arbeitet mit beiden Eingabetypen, um Textinhalte zu extrahieren.

Wie kann OCR bei nicht durchsuchbaren PDF-Dokumenten helfen?

IronOCR wandelt nicht durchsuchbare, bildbasierte PDFs in durchsuchbare Inhalte um, indem der Text mithilfe der OCR-Technologie extrahiert wird. Diese Umwandlung erleichtert das Auffinden bestimmter Informationen in den Dokumenten und verbessert die Zugänglichkeit der Dokumente erheblich, insbesondere für Personen mit Sehbehinderungen.

Was sind die wichtigsten Geschäftsanwendungen für OCR-Textextraktion?

IronOCR ermöglicht es Unternehmen, wichtige Daten aus PDF-Dateien zu extrahieren, um sie zu analysieren und in Systeme zu integrieren und so die Arbeitsabläufe zu optimieren. Es ist besonders nützlich für die Verarbeitung von Rechtsdokumenten, Forschungsunterlagen und die Automatisierung der Dateneingabe. Designer und Marketingfachleute können auch Bilder zur Verbesserung und Wiederverwendung in verschiedenen Projekten extrahieren.

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen
Bereit anzufangen?
Nuget Downloads 5,246,844 | Version: 2025.12 gerade veröffentlicht