Ergebnisse als durchsuchbare PDF-Datei speichern

This article was translated from English: Does it need improvement?
Translated
View the article in English

von Chaknith Bin

Ein durchsuchbares PDF, oft auch als OCR bezeichnet(Optische Zeichenerkennung) PDF, ist eine Art von PDF-Dokument, das sowohl gescannte Bilder als auch maschinenlesbaren Text enthält. Diese PDFs werden durch OCR auf gescannten Papierdokumenten oder Bildern erstellt, wodurch der Text in den Bildern erkannt und in auswählbaren und durchsuchbaren Text umgewandelt wird.

IronOCR bietet eine Lösung für die Durchführung von optischer Zeichenerkennung auf Dokumenten und den Export der Ergebnisse als durchsuchbare PDFs. Es unterstützt den Export von durchsuchbaren PDFs als Dateien, Bytes und Streams.


C# NuGet-Bibliothek für OCR

Installieren mit NuGet

Install-Package IronOcr
oder
Java PDF JAR

Herunterladen DLL

DLL herunterladen

Manuelle Installation in Ihr Projekt

C# NuGet-Bibliothek für OCR

Installieren mit NuGet

Install-Package IronOcr
oder
Java PDF JAR

Herunterladen DLL

DLL herunterladen

Manuelle Installation in Ihr Projekt

Fangen Sie noch heute an, IronPDF in Ihrem Projekt mit einer kostenlosen Testversion zu verwenden.

Erster Schritt:
green arrow pointer

Schau dir an IronOCR an Nuget Für schnelle Installation und Bereitstellung. Mit über 8 Millionen Downloads verwandelt es OCR mit C#.

C# NuGet-Bibliothek für OCR nuget.org/packages/IronOcr/
Install-Package IronOcr

Erwägen Sie die Installation der IronOCR DLL direkt. Laden Sie es herunter und installieren Sie es manuell für Ihr Projekt oder die GAC-Form: IronOcr.zip

Manuelle Installation in Ihr Projekt

DLL herunterladen

Export als durchsuchbares PDF Beispiel

Um das Ergebnis als durchsuchbares PDF zu exportieren, muss der Benutzer zunächst die Eigenschaft Configuration.RenderSearchablePdf auf true setzen. Nachdem Sie das OCR-Ergebnisobjekt von der Methode "Read" erhalten haben, verwenden Sie die Methode "SaveAsSearchablePdf", indem Sie den Pfad der Ausgabedatei angeben. Der nachstehende Code veranschaulicht dies anhand des folgenden Beispielsbeispiel-TIFF datei.

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf");
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf")
VB   C#

Unten sehen Sie einen Screenshot des TIFF-Beispiels und eine eingebettete durchsuchbare PDF-Datei. Sie können versuchen, die durchsuchbare PDF-Datei auszuwählen, um zu prüfen, ob der Text auswählbar ist. Wählbarer Text ermöglicht auch die Suche in der PDF-Viewer-Software.

Bitte beachten Sie
IronOCR verwendet eine bestimmte Schriftart, um den Text über die Bilddatei zu legen. Daher kann es vorkommen, dass die ausgewählte Textgröße nicht mit der Textgröße übereinstimmt.

TIFF-Datei

Durchsuchbares PDF als Byte und Stream

Byte- und Stream-Informationen der durchsuchbaren PDF-Datei können auch mit den Methoden SaveAsSearchablePdfBytes und SaveAsSearchablePdfStream ausgegeben werden. Das folgende Codebeispiel zeigt, wie diese Methoden verwendet werden können.

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf-byte-stream.cs
// Export searchable PDF byte
byte[] pdfByte = ocrResult.SaveAsSearchablePdfBytes();

// Export searchable PDF stream
Stream pdfStream = ocrResult.SaveAsSearchablePdfStream();
' Export searchable PDF byte
Dim pdfByte() As Byte = ocrResult.SaveAsSearchablePdfBytes()

' Export searchable PDF stream
Dim pdfStream As Stream = ocrResult.SaveAsSearchablePdfStream()
VB   C#

Chaknith Bin

Software-Ingenieur

Chaknith ist der Sherlock Holmes der Entwickler. Zum ersten Mal kam ihm der Gedanke, dass er eine Zukunft in der Softwareentwicklung haben könnte, als er zum Spaß an Code Challenges teilnahm. Sein Schwerpunkt liegt auf IronXL und IronBarcode, aber er ist stolz darauf, Kunden mit jedem Produkt zu helfen. Chaknith nutzt sein Wissen aus direkten Gesprächen mit Kunden, um die Produkte selbst weiter zu verbessern. Sein anekdotisches Feedback geht über Jira-Tickets hinaus und unterstützt die Produktentwicklung, die Dokumentation und das Marketing, um das Gesamterlebnis der Kunden zu verbessern.Wenn er nicht im Büro ist, lernt er über maschinelles Lernen, programmiert und wandert.