Comment enregistrer des résultats en tant que PDF consultable en C#

Enregistrer des PDF consultables en C# avec IronOCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

Un PDF consultable, souvent appelé PDF OCR (reconnaissance optique de caractères), est un type de document PDF qui contient à la fois des images numérisées et du texte lisible par machine. Ces fichiers PDF sont créés en effectuant une reconnaissance optique de caractères (OCR) sur des documents papier ou des images numérisés, en reconnaissant le texte dans les images et en le convertissant en texte sélectionnable et consultable.

IronOCR offre une solution pour effectuer la reconnaissance optique de caractères sur des documents et exporter les résultats sous forme de PDF consultables. Il permet d'exporter des PDF consultables sous forme de fichiers, d'octets et de flux.

Démarrage rapide : Exporter un PDF consultable en une seule ligne

Définissez RenderSearchablePdf = true , exécutez Read(...) sur votre entrée et invoquez SaveAsSearchablePdf(...) — c'est tout ce qu'il faut pour générer un PDF entièrement consultable avec IronOCR.

Nuget IconCommencez dès maintenant à créer des PDF avec NuGet :

  1. Installez IronOCR avec le gestionnaire de packages NuGet

    PM > Install-Package IronOcr

  2. Copiez et exécutez cet extrait de code.

    new IronOcr.IronTesseract { Configuration = { RenderSearchablePdf = true } } .Read(new IronOcr.OcrImageInput("file.jpg")).SaveAsSearchablePdf("searchable.pdf");
  3. Déployez pour tester sur votre environnement de production.

    Commencez à utiliser IronOCR dans votre projet dès aujourd'hui grâce à un essai gratuit.
    arrow pointer


Exemple d'exportation en tant que PDF consultable

Voici comment exporter le résultat sous forme de PDF consultable à l'aide d'IronOCR. Vous devez d'abord définir la propriété Configuration.RenderSearchablePdf sur true . Après avoir obtenu l'objet de résultat OCR à partir de la méthode Read , utilisez la méthode SaveAsSearchablePdf en spécifiant le chemin du fichier de sortie. Le code ci-dessous illustre l'utilisation d'un exemple de fichier TIFF.

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf");
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf")
$vbLabelText   $csharpLabel

Vous trouverez ci-dessous une capture d'écran de l'exemple de fichier TIFF et un PDF consultable intégré. Essayez de sélectionner le texte dans le PDF pour confirmer qu'il est consultable. La possibilité de sélectionner du texte permet également d'effectuer une recherche dans une visionneuse PDF.

IronOCR utilise une police spécifique pour superposer du texte sur le fichier image, ce qui peut entraîner des différences de taille de texte.

fichier TIFF

Exporter au format PDF consultable avec filtres appliqués

La SaveAsSearchablePdf accepte également un indicateur booléen comme deuxième paramètre, permettant d'appliquer ou non des filtres à un PDF consultable, offrant ainsi aux développeurs la flexibilité de choisir.

Vous trouverez ci-dessous un exemple d'application du niveau de gris, puis d'enregistrement du PDF avec un filtre en définissant true dans le deuxième paramètre de SaveAsSearchablePdf .

:path=/static-assets/ocr/content-code-examples/how-to/image-quality-correction-searchable-pdf.cs
using IronOcr;

var ocr = new IronTesseract();
var ocrInput = new OcrInput();

// Load a PDF file
ocrInput.LoadPdf("invoice.pdf");

// Apply gray scale filter
ocrInput.ToGrayScale();
OcrResult result = ocr.Read(ocrInput);

// Save the result as a searchable PDF with filters applied
result.SaveAsSearchablePdf("outputGrayscale.pdf", true);
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

PDF interrogeable sous forme d'octets et de flux

Le résultat du PDF consultable peut également être traité sous forme d'octets ou de flux à l'aide des méthodes SaveAsSearchablePdfBytes et SaveAsSearchablePdfStream , respectivement. L'exemple de code ci-dessous montre comment utiliser ces méthodes.

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf-byte-stream.cs
// Export searchable PDF byte
byte[] pdfByte = ocrResult.SaveAsSearchablePdfBytes();

// Export searchable PDF stream
Stream pdfStream = ocrResult.SaveAsSearchablePdfStream();
' Export searchable PDF byte
Dim pdfByte() As Byte = ocrResult.SaveAsSearchablePdfBytes()

' Export searchable PDF stream
Dim pdfStream As Stream = ocrResult.SaveAsSearchablePdfStream()
$vbLabelText   $csharpLabel

Questions Fréquemment Posées

Qu'est-ce qu'un PDF consultable ?

Un PDF consultable est un document qui combine des images numérisées avec du texte lisible par machine, créé en effectuant un OCR sur des documents ou images numérisés, permettant aux utilisateurs de sélectionner et de rechercher du texte dans le document.

Comment puis-je convertir des documents numérisés en PDF consultables en C# ?

Pour convertir des documents numérisés en PDF consultables en C#, utilisez IronOCR en définissant la propriété Configuration.RenderSearchablePdf sur true, exécutez l'OCR avec la méthode Read, puis enregistrez la sortie avec SaveAsSearchablePdf.

Puis-je exporter des PDF consultables en tant qu'octets ou flux ?

Oui, IronOCR permet d'exporter des PDF consultables en tant qu'octets à l'aide de SaveAsSearchablePdfBytes et en tant que flux à l'aide de SaveAsSearchablePdfStream.

Comment gérer différents formats de fichiers pour le traitement OCR ?

IronOCR prend en charge divers formats de fichiers tels que TIFF pour le traitement OCR, permettant la création de PDF consultables à partir de ces formats.

Est-il possible de sélectionner et rechercher du texte dans un PDF consultable créé à l'aide de la technologie OCR ?

Oui, les PDF consultables créés à l'aide de la technologie IronOCR permettent la sélection de texte et la recherche dans un visualiseur PDF.

Quelles étapes sont impliquées dans la création d'un PDF consultable à l'aide de l'OCR ?

Les étapes incluent le téléchargement de IronOCR, la préparation des documents pour l'OCR, définir RenderSearchablePdf à true et utiliser SaveAsSearchablePdf pour enregistrer le fichier.

Comment rendre le texte de mon PDF consultable ?

Utilisez IronOCR pour effectuer l'OCR sur vos images et définissez RenderSearchablePdf à true avant d'enregistrer.

Tutoriel de conversion OCR en PDF consultable.

Oui, IronOCR utilise une police spécifique pour le texte superposé sur des fichiers image, ce qui peut entraîner des divergences de taille de texte.

Chaknith Bin
Ingénieur logiciel
Chaknith travaille sur IronXL et IronBarcode. Il a une expertise approfondie en C# et .NET, aidant à améliorer le logiciel et à soutenir les clients. Ses idées issues des interactions avec les utilisateurs contribuent à de meilleurs produits, documentation et expérience globale.
Revu par
Jeff Fritz
Jeffrey T. Fritz
Responsable principal du programme - Équipe de la communauté .NET
Jeff est également responsable principal du programme pour les équipes .NET et Visual Studio. Il est le producteur exécutif de la série de conférences virtuelles .NET Conf et anime 'Fritz and Friends', une diffusion en direct pour développeurs qui est diffusée deux fois par semaine où il parle de technologie et écrit du code avec les téléspectateurs. Jeff écrit des ateliers, des présentations et prévoit du contenu pour les plus grands événements de développement Microsoft, y compris Microsoft Build, Microsoft Ignite, .NET Conf et le sommet Microsoft MVP
Prêt à commencer?
Nuget Téléchargements 5,167,857 | Version: 2025.11 vient de sortir