Ergebnisse als durchsuchbare PDF-Datei speichern
Ein durchsuchbares PDF, oft als OCR (Optical Character Recognition) PDF bezeichnet, ist eine Art von PDF-Dokument, das sowohl gescannte Bilder als auch maschinenlesbaren Text enthält. Diese PDFs werden durch OCR auf gescannten Papierdokumenten oder Bildern erstellt, wodurch der Text in den Bildern erkannt und in auswählbaren und durchsuchbaren Text umgewandelt wird.
IronOCR bietet eine Lösung für die Durchführung von optischer Zeichenerkennung auf Dokumenten und den Export der Ergebnisse als durchsuchbare PDFs. Es unterstützt den Export von durchsuchbaren PDFs als Dateien, Bytes und Streams.
Legen Sie los mit IronOCR
Beginnen Sie noch heute mit der Verwendung von IronOCR in Ihrem Projekt mit einer kostenlosen Testversion.
Ergebnisse als durchsuchbare PDF-Datei speichern
- Laden Sie eine C#-Bibliothek herunter, um Ergebnisse als durchsuchbare PDF zu speichern
- Das Bild und das PDF-Dokument für die OCR vorbereiten
- Setzen Sie die RenderSearchablePdf-Eigenschaft auf true
- Verwenden Sie die
SaveAsSearchablePdf
-Methode, um eine durchsuchbare PDF-Datei zu erstellen - Den durchsuchbaren PDF als Byte und String exportieren
Export als durchsuchbares PDF Beispiel
Um das Ergebnis als durchsuchbare PDF-Datei zu exportieren, muss der Benutzer zuerst die Eigenschaft Configuration.RenderSearchablePdf auf true setzen. Nachdem Sie das OCR-Ergebnisseobjekt aus der Read
-Methode erhalten haben, verwenden Sie die SaveAsSearchablePdf
-Methode, indem Sie den Ausgabepfad angeben. Der untenstehende Code demonstriert dies anhand der folgenden Beispiel-TIFF-Datei.
:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf.cs
using IronOcr;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = true;
// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);
// Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf");
Imports IronOcr
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = True
' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)
' Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf")
Unten sehen Sie einen Screenshot des TIFF-Beispiels und eine eingebettete durchsuchbare PDF-Datei. Sie können versuchen, die durchsuchbare PDF-Datei auszuwählen, um zu prüfen, ob der Text auswählbar ist. Wählbarer Text ermöglicht auch die Suche in der PDF-Viewer-Software.
Bitte beachten Sie

TIFF-Datei
Durchsuchbares PDF
Durchsuchbares PDF als Byte und Stream
Byte- und Stream-Informationen der durchsuchbaren PDF-Datei können auch mit den Methoden SaveAsSearchablePdfBytes
bzw. SaveAsSearchablePdfStream
ausgegeben werden. Das folgende Codebeispiel zeigt, wie diese Methoden verwendet werden können.
:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf-byte-stream.cs
// Export searchable PDF byte
byte[] pdfByte = ocrResult.SaveAsSearchablePdfBytes();
// Export searchable PDF stream
Stream pdfStream = ocrResult.SaveAsSearchablePdfStream();
' Export searchable PDF byte
Dim pdfByte() As Byte = ocrResult.SaveAsSearchablePdfBytes()
' Export searchable PDF stream
Dim pdfStream As Stream = ocrResult.SaveAsSearchablePdfStream()