Aktualisiert 16. Februar 2025
Teilen Sie:

Wie man gescannte Dokumente mit IronOCR liest

This article was translated from English: Does it need improvement?
Translated
View the article in English

von Curtis Chau

Viele PDFs enthalten nicht durchsuchbaren, bildbasierten Text. IronOCR kann dies in durchsuchbare Inhalte umwandeln, um das Auffinden spezifischer Informationen zu erleichtern und die Zugänglichkeit von Dokumenten zu verbessern, insbesondere für Personen mit Sehbehinderungen.

Anstatt Texte und Bilder manuell zu kopieren oder neu zu erstellen, sorgt die automatisierte Extraktion für Genauigkeit und Effizienz. Dies ist besonders nützlich für Forschung, juristische Dokumente und Inhaltserstellung, wo das Wiederverwenden bestimmter PDF-Abschnitte üblich ist.

Unternehmen können kritische Daten aus PDFs für Analysen oder die Systemintegration extrahieren und so Arbeitsabläufe optimieren. Designer und Vermarkter können auch Bilder extrahieren, um sie in verschiedenen Projekten zu verbessern und wiederzuverwenden.

In diesem Tutorial werden wir die OcrPdfInput-Methoden untersuchen und die verfügbaren Optionen und Parameter behandeln, um zu zeigen, wie IronOCR die Extraktion von Text und Bildern aus PDF-Dateien für verschiedene Anwendungen vereinfacht.

Beginnen Sie noch heute mit der Verwendung von IronOCR in Ihrem Projekt mit einer kostenlosen Testversion.

Erster Schritt:
green arrow pointer

Um diese Funktion zu nutzen, müssen Sie auch die IronOcr.Extension.AdvancedScan paket.

Gescannte Dokumente lesen Beispiel

Um Text aus allen Bildern innerhalb eines Dokuments zu extrahieren, verwenden Sie die Methode ReadDocument. Diese Methode verarbeitet das Dokument und gibt ein Objekt zurück, das den extrahierten Text enthält, auf den über die Eigenschaft Text zugegriffen werden kann. Das folgende Beispiel zeigt, wie diese Methode mit einem verwendet wirdbeispiel-TIFF datei.

Bitte beachten Sie

  • Die Methode funktioniert derzeit nur für Englisch, Chinesisch, Japanisch, Koreanisch und das lateinische Alphabet.
  • Die Verwendung des erweiterten Scans im .NET-Framework setzt voraus, dass das Projekt auf einer x64-Architektur läuft.

Eingabe

eingabe

Code

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");

// Perform OCR
OcrResult result = ocr.ReadDocument(input);

Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate OCR engine
Private ocr = New IronTesseract()

' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")

' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)

Console.WriteLine(result.Text)
VB   C#

Ausgabe

ausgabe

Wenn Sie stattdessen OCR auf einer PDF-Datei durchführen müssen, ersetzen Sie einfach die Methode LoadImage durch LoadPdf. Dies ermöglicht es IronOCR, Text aus gescannten PDFs auf die gleiche Weise zu verarbeiten und zu extrahieren.