Wie man gescannte Dokumente in C# liest | IronOCR

How to Read Scanned Documents Using IronOCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

Viele PDFs enthalten nicht durchsuchbaren, bildbasierten Text. IronOCR kann dies in durchsuchbare Inhalte umwandeln, wodurch es einfacher wird, spezifische Informationen zu finden und die Zugänglichkeit von Dokumenten zu verbessern, insbesondere für Menschen mit Sehbehinderungen.

Anstatt Text und Bilder manuell zu kopieren oder neu zu erstellen, sorgt die automatisierte Extraktion für Genauigkeit und Effizienz. Dies ist besonders nützlich für Forschung, juristische Dokumente und die Inhaltserstellung, bei denen die Wiederverwendung spezifischer Teile von PDFs üblich ist.

Unternehmen können kritische Daten aus PDFs für Analysen oder die Systemintegration extrahieren und so Arbeitsabläufe optimieren. Designer und Marketer können auch Bilder extrahieren, um sie zu verbessern und in verschiedenen Projekten wiederzuverwenden.

In diesem Tutorial werden wir die OcrPdfInput-Methoden erkunden, die verfügbaren Optionen und Parameter abdecken, um zu zeigen, wie IronOCR die Text- und Bilderextraktion aus PDFs für verschiedene Anwendungen vereinfacht.

Um diese Funktion zu nutzen, müssen Sie auch das IronOcr.Extensions.AdvancedScan-Paket installieren.

Schnellstart: Text aus einem gescannten PDF oder Bild extrahieren

Starten Sie in Sekunden—mit einer einzigen Zeile Code laden Sie Ihr gescanntes PDF oder Bild mit IronOCRs OcrInput.LoadPdf oder LoadImage und extrahieren sofort den Text über ReadDocument. Perfekt für Entwickler, die OCR schnell einsatzbereit haben möchten.

Nuget IconGet started making PDFs with NuGet now:

  1. Install IronOCR with NuGet Package Manager

    PM > Install-Package IronOcr

  2. Copy and run this code snippet.

    var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text;
  3. Deploy to test on your live environment

    Start using IronOCR in your project today with a free trial
    arrow pointer
class="hsg-featured-snippet">

Minimaler Arbeitsablauf (5 Schritte)

  1. Laden Sie die C#-Bibliothek zum Lesen gescannter Dokumente herunter
  2. Importieren Sie das gescannte Dokument zur Verarbeitung
  3. Verwenden Sie die LoadImage-Methode für Bilder oder LoadPdf für gescannte PDFs
  4. Extrahieren Sie Text mit der ReadDocument-Methode
  5. Speichern oder exportieren Sie den extrahierten Text nach Bedarf zur weiteren Nutzung

Beispiel für das Lesen gescannter Dokumente

Um Text aus allen Bildern innerhalb eines Dokuments zu extrahieren, verwenden Sie die ReadDocument-Methode. Diese Methode verarbeitet das Dokument und gibt ein Objekt zurück, das den extrahierten Text enthält, auf den über die Text-Eigenschaft zugegriffen werden kann. Das untenstehende Beispiel zeigt, wie Sie diese Methode mit einer Beispiel-TIFF-Datei verwenden.

Hinweis:

  • Die Methode funktioniert derzeit nur für Englisch, Chinesisch, Japanisch, Koreanisch und Lateinalphabeten.
  • Die Verwendung eines erweiterten Scans auf .NET Framework erfordert, dass das Projekt auf x64-Architektur läuft.

Eingabe

Eingabe

Code

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");

// Perform OCR
OcrResult result = ocr.ReadDocument(input);

Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate OCR engine
Private ocr = New IronTesseract()

' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")

' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)

Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Ausgabe

Ausgabe

Wenn Sie stattdessen OCR auf einer PDF-Datei durchführen müssen, ersetzen Sie einfach die LoadImage-Methode durch LoadPdf. Dies ermöglicht es IronOCR, gescannte PDFs auf die gleiche Weise zu verarbeiten und Text zu extrahieren.

Häufig gestellte Fragen

Wie kann ich gescannte Dokumente mit C# lesen?

Sie können gescannte Dokumente in C# lesen, indem Sie IronOCR verwenden. Laden Sie zuerst die C#-Bibliothek von NuGet herunter, importieren Sie dann Ihr gescanntes Dokument mithilfe der Methode LoadImage für Bilder oder LoadPdf für PDFs. Extrahieren Sie schließlich den Text mithilfe der Methode ReadDocument.

Was ist der Zweck der Umwandlung von bildbasiertem Text in PDFs zu durchsuchbarem Inhalt?

Die Umwandlung von bildbasiertem Text in PDFs zu durchsuchbarem Inhalt mit IronOCR verbessert die Zugänglichkeit, erleichtert das Auffinden spezifischer Informationen und unterstützt Menschen mit Sehbehinderungen.

Kann ich mit IronOCR Text aus Bildern und PDFs extrahieren?

Ja, IronOCR ermöglicht es Ihnen, Text sowohl aus Bildern als auch aus PDFs zu extrahieren. Verwenden Sie die Methode LoadImage für Bilder und die Methode LoadPdf für PDFs, gefolgt von der Methode ReadDocument, um die Extraktion durchzuführen.

Welche Sprachunterstützung bietet IronOCR?

IronOCR unterstützt die Textextraktion in Englisch, Chinesisch, Japanisch, Koreanisch und Lateinischen Alphabeten, was es vielseitig für die mehrsprachige Dokumentenverarbeitung macht.

Welche Architektur ist erforderlich, um erweiterte Scanfunktionen in IronOCR zu nutzen?

Um erweiterte Scanfunktionen in IronOCR auf dem .NET-Framework zu nutzen, muss Ihr Projekt auf der x64-Architektur laufen.

Wie kann ich IronOCR für die automatisierte Textextraktion in Geschäftsanwendungen verwenden?

IronOCR kann in Geschäftsanwendungen für die automatisierte Textextraktion verwendet werden, indem gescannte Dokumente importiert, die Methoden LoadPdf oder LoadImage verwendet und der Text mit der Methode ReadDocument extrahiert werden. Dies optimiert Arbeitsabläufe, indem es Unternehmen ermöglicht, wichtige Daten effizient zu analysieren und zu integrieren.

Welche Schritte sind erforderlich, um Text aus einem gescannten PDF mit IronOCR zu extrahieren?

Um Text aus einem gescannten PDF mit IronOCR zu extrahieren, laden Sie die Bibliothek herunter, importieren Sie das PDF mit der Methode LoadPdf, extrahieren Sie dann den Text mit der Methode ReadDocument. Der extrahierte Text kann dann nach Bedarf gespeichert oder exportiert werden.

Wie profitieren Designer und Marketer von IronOCR?

Designer und Marketer profitieren von IronOCR, indem sie Bilder und Texte aus PDFs zur Verbesserung und Wiederverwendung in verschiedenen Projekten extrahieren, was Effizienz und kreative Möglichkeiten erhöht.

Welches Paket muss für die Nutzung der erweiterten Funktionen von IronOCR installiert werden?

Um auf die erweiterten Funktionen von IronOCR zuzugreifen, müssen Sie das Paket IronOcr.Extensions.AdvancedScan von NuGet installieren.

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen
Bereit anzufangen?
Nuget Downloads 5,044,537 | Version: 2025.11 gerade veröffentlicht