Wie man Ergebnisse als durchsuchbares PDF in C# speichert

Speichern Sie durchsuchbare PDFs in C# mit IronOCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

Ein durchsuchbares PDF, oft auch als OCR-PDF (Optical Character Recognition) bezeichnet, ist ein PDF-Dokument, das sowohl gescannte Bilder als auch maschinenlesbaren Text enthält. Diese PDFs entstehen durch die Anwendung von OCR auf gescannte Papierdokumente oder Bilder, wodurch der Text in den Bildern erkannt und in auswählbaren und durchsuchbaren Text umgewandelt wird.

IronOCR bietet eine Lösung zur optischen Zeichenerkennung von Dokumenten und zum Export der Ergebnisse als durchsuchbare PDFs. Es unterstützt den Export durchsuchbarer PDFs als Dateien, Bytes und Datenströme.

Schnellstart: Durchsuchbares PDF in einer Zeile exportieren

Setzen Sie RenderSearchablePdf = true , führen Sie Read(...) für Ihre Eingabe aus und rufen Sie SaveAsSearchablePdf(...) auf – das ist alles, was nötig ist, um mit IronOCR ein vollständig durchsuchbares PDF zu erzeugen.

Nuget IconLegen Sie jetzt mit NuGet los, um PDFs zu erstellen:

  1. Installieren Sie IronOCR mit dem NuGet-Paketmanager.

    PM > Install-Package IronOcr

  2. Kopieren Sie diesen Codeausschnitt und führen Sie ihn aus.

    new IronOcr.IronTesseract { Configuration = { RenderSearchablePdf = true } } .Read(new IronOcr.OcrImageInput("file.jpg")).SaveAsSearchablePdf("searchable.pdf");
  3. Bereitstellen zum Testen in Ihrer Live-Umgebung

    Beginnen Sie noch heute mit der Nutzung von IronOCR in Ihrem Projekt – mit einer kostenlosen Testversion.
    arrow pointer


Export als durchsuchbares PDF-Beispiel

Hier erfahren Sie, wie Sie das Ergebnis mit IronOCR als durchsuchbare PDF-Datei exportieren können. Zuerst müssen Sie die Eigenschaft Configuration.RenderSearchablePdf auf true setzen. Nachdem Sie das OCR-Ergebnisobjekt mit der Read Methode erhalten haben, verwenden Sie die SaveAsSearchablePdf -Methode, indem Sie den Ausgabedateipfad angeben. Der untenstehende Code demonstriert die Verwendung einer Beispiel-TIFF-Datei.

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf");
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf")
$vbLabelText   $csharpLabel

Unten sehen Sie einen Screenshot der Beispiel-TIFF-Datei und ein eingebettetes, durchsuchbares PDF. Versuchen Sie, den Text in der PDF-Datei auszuwählen, um seine Durchsuchbarkeit zu überprüfen. Die Auswahlmöglichkeit bedeutet auch, dass der Text in einem PDF-Viewer durchsucht werden kann.

Hinweis:IronOCR verwendet eine spezielle Schriftart, um Text über die Bilddatei zu legen, was zu Abweichungen in der Textgröße führen kann.

TIFF-Datei

Als durchsuchbares PDF mit angewendeten Filtern exportieren

Die SaveAsSearchablePdf akzeptiert außerdem einen booleschen Wert als zweiten Parameter, mit dem Sie Filter auf ein durchsuchbares PDF anwenden können oder nicht, wodurch Entwickler die Flexibilität erhalten, dies zu wählen.

Nachfolgend ein Beispiel für die Anwendung der Graustufen und das anschließende Speichern der PDF-Datei mit einem Filter durch Setzen von true im zweiten Parameter von SaveAsSearchablePdf .

:path=/static-assets/ocr/content-code-examples/how-to/image-quality-correction-searchable-pdf.cs
using IronOcr;

var ocr = new IronTesseract();
var ocrInput = new OcrInput();

// Load a PDF file
ocrInput.LoadPdf("invoice.pdf");

// Apply gray scale filter
ocrInput.ToGrayScale();
OcrResult result = ocr.Read(ocrInput);

// Save the result as a searchable PDF with filters applied
result.SaveAsSearchablePdf("outputGrayscale.pdf", true);
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Durchsuchbare PDF-Dateien als Byte- und Stream-Dateien

Die Ausgabe des durchsuchbaren PDFs kann auch als Bytes oder Streams mit den Methoden SaveAsSearchablePdfBytes bzw. SaveAsSearchablePdfStream verarbeitet werden. Das folgende Codebeispiel zeigt, wie diese Methoden angewendet werden.

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf-byte-stream.cs
// Export searchable PDF byte
byte[] pdfByte = ocrResult.SaveAsSearchablePdfBytes();

// Export searchable PDF stream
Stream pdfStream = ocrResult.SaveAsSearchablePdfStream();
' Export searchable PDF byte
Dim pdfByte() As Byte = ocrResult.SaveAsSearchablePdfBytes()

' Export searchable PDF stream
Dim pdfStream As Stream = ocrResult.SaveAsSearchablePdfStream()
$vbLabelText   $csharpLabel

Häufig gestellte Fragen

Was ist ein durchsuchbares PDF?

Ein durchsuchbares PDF ist ein Dokument, das gescannte Bilder mit maschinenlesbarem Text kombiniert, erstellt durch die Durchführung von OCR auf gescannten Dokumenten oder Bildern, was es den Benutzern ermöglicht, Text im Dokument auszuwählen und zu durchsuchen.

Wie kann ich gescannte Dokumente in durchsuchbare PDFs in C# umwandeln?

Um gescannte Dokumente in durchsuchbare PDFs in C# umzuwandeln, verwenden Sie IronOCR, indem Sie die Eigenschaft Configuration.RenderSearchablePdf auf true setzen, OCR mit der Methode Read ausführen und den Output dann mit SaveAsSearchablePdf speichern.

Kann ich durchsuchbare PDFs als Bytes oder Streams exportieren?

Ja, IronOCR ermöglicht den Export von durchsuchbaren PDFs als Bytes mit der Methode SaveAsSearchablePdfBytes und als Streams mit der Methode SaveAsSearchablePdfStream.

Wie gehe ich mit verschiedenen Dateiformaten zur OCR-Verarbeitung um?

IronOCR unterstützt verschiedene Dateiformate wie TIFF für die OCR-Verarbeitung, wodurch die Erstellung von durchsuchbaren PDFs aus diesen Formaten ermöglicht wird.

Ist es möglich, Text in einem durchsuchbaren PDF auszuwählen und zu durchsuchen, das mit OCR-Technologie erstellt wurde?

Ja, durchsuchbare PDFs, die mit der IronOCR-Technologie erstellt wurden, ermöglichen die Textauswahl und Durchsuchbarkeit innerhalb eines PDF-Viewers.

Welche Schritte sind bei der Erstellung eines durchsuchbaren PDFs mit OCR beteiligt?

Die Schritte beinhalten das Herunterladen der IronOCR C#-Bibliothek, das Vorbereiten der Dokumente für OCR, das Setzen der Eigenschaft RenderSearchablePdf auf true und die Verwendung der Methode SaveAsSearchablePdf, um die Datei zu speichern.

Wie kann ich sicherstellen, dass der Text in meinem PDF durchsuchbar ist?

Stellen Sie sicher, dass der Text durchsuchbar ist, indem Sie IronOCR verwenden, um OCR auf Ihren Bildern durchzuführen und die Eigenschaft RenderSearchablePdf auf true setzen, bevor Sie das Dokument speichern.

Verwendet IronOCR eine spezifische Schriftart für Überlagerungstext in durchsuchbaren PDFs?

Ja, IronOCR verwendet eine spezifische Schriftart für Überlagerungstext auf Bilddateien, was zu einigen Abweichungen in der Textgröße führen kann.

Chaknith Bin
Software Ingenieur
Chaknith arbeitet an IronXL und IronBarcode. Er hat umfassende Expertise in C# und .NET und hilft, die Software zu verbessern und Kunden zu unterstützen. Seine Einblicke aus Benutzerinteraktionen tragen zu besseren Produkten, Dokumentationen und einem insgesamt besseren Erlebnis bei.
Rezensiert von
Jeff Fritz
Jeffrey T. Fritz
Principal Program Manager - .NET Community Team
Jeff ist außerdem Principal Program Manager für das .NET- und Visual Studio-Team. Er ist der ausführende Produzent der .NET Conf Virtual Conference Series und moderiert ‚Fritz and Friends‘, einen Livestream für Entwickler, der zweimal wöchentlich ausgestrahlt wird. Dort spricht er über Technik und schreibt gemeinsam mit den Zuschauern Code. Jeff schreibt Workshops, Präsentationen und plant Inhalte für die größten Microsoft-Entwicklerveranstaltungen, einschließlich Microsoft Build, Microsoft Ignite, .NET Conf und dem Microsoft MVP Summit.
Bereit anzufangen?
Nuget Downloads 5,167,857 | Version: 2025.11 gerade veröffentlicht