Wie man gescannte Dokumente mit IronOCR liest
Viele PDFs enthalten nicht durchsuchbaren, bildbasierten Text. IronOCR kann dies in durchsuchbare Inhalte umwandeln, um das Auffinden spezifischer Informationen zu erleichtern und die Zugänglichkeit von Dokumenten zu verbessern, insbesondere für Personen mit Sehbehinderungen.
Anstatt Texte und Bilder manuell zu kopieren oder neu zu erstellen, sorgt die automatisierte Extraktion für Genauigkeit und Effizienz. Dies ist besonders nützlich für Forschung, juristische Dokumente und Inhaltserstellung, wo das Wiederverwenden bestimmter PDF-Abschnitte üblich ist.
Unternehmen können kritische Daten aus PDFs für Analysen oder die Systemintegration extrahieren und so Arbeitsabläufe optimieren. Designer und Vermarkter können auch Bilder extrahieren, um sie in verschiedenen Projekten zu verbessern und wiederzuverwenden.
In diesem Tutorial werden wir die OcrPdfInput-Methoden untersuchen und die verfügbaren Optionen und Parameter behandeln, um zu zeigen, wie IronOCR die Extraktion von Text und Bildern aus PDF-Dateien für verschiedene Anwendungen vereinfacht.
Wie man gescannte Dokumente mit IronOCR liest
- Laden Sie die C#-Bibliothek zum Lesen gescannter Dokumente herunter
- Importieren Sie das gescannte Dokument zur Verarbeitung
- Verwenden Sie die
BildLaden
Methode für Bilder oderLoadPdf
für gescannte PDFs - Text extrahieren mit dem
Dokument lesen
methode - Speichern oder exportieren Sie den extrahierten Text nach Bedarf für die weitere Verwendung
Beginnen Sie noch heute mit der Verwendung von IronOCR in Ihrem Projekt mit einer kostenlosen Testversion.
Um diese Funktion zu nutzen, müssen Sie auch die IronOcr.Extension.AdvancedScan paket.
Gescannte Dokumente lesen Beispiel
Um Text aus allen Bildern innerhalb eines Dokuments zu extrahieren, verwenden Sie die Methode ReadDocument
. Diese Methode verarbeitet das Dokument und gibt ein Objekt zurück, das den extrahierten Text enthält, auf den über die Eigenschaft Text zugegriffen werden kann. Das folgende Beispiel zeigt, wie diese Methode mit einem verwendet wirdbeispiel-TIFF datei.
Bitte beachten Sie
- Die Methode funktioniert derzeit nur für Englisch, Chinesisch, Japanisch, Koreanisch und das lateinische Alphabet.
-
Die Verwendung des erweiterten Scans im .NET-Framework setzt voraus, dass das Projekt auf einer x64-Architektur läuft.
Eingabe
Code
:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;
// Instantiate OCR engine
var ocr = new IronTesseract();
// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");
// Perform OCR
OcrResult result = ocr.ReadDocument(input);
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate OCR engine
Private ocr = New IronTesseract()
' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")
' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)
Console.WriteLine(result.Text)
Ausgabe
Wenn Sie stattdessen OCR auf einer PDF-Datei durchführen müssen, ersetzen Sie einfach die Methode LoadImage
durch LoadPdf
. Dies ermöglicht es IronOCR, Text aus gescannten PDFs auf die gleiche Weise zu verarbeiten und zu extrahieren.