Comment enregistrer les résultats sous forme de PDF consultable ?
Un PDF avec possibilité de recherche, souvent appelé OCR (Reconnaissance optique de caractères) PDF, est un type de document PDF qui contient à la fois des images numérisées et du texte lisible par machine. Ces PDF sont créés en effectuant une reconnaissance optique des caractères (OCR) sur des documents papier ou des images numérisés, ce qui permet de reconnaître le texte dans les images et de le convertir en texte sélectionnable et consultable.
IronOCR est une solution permettant d'effectuer la reconnaissance optique de caractères sur des documents et d'exporter les résultats sous forme de PDF consultables. Il permet d'exporter des PDF consultables sous forme de fichiers, d'octets et de flux.
Comment enregistrer les résultats sous forme de PDF consultable ?
- Télécharger une bibliothèque C# pour enregistrer les résultats au format PDF avec possibilité de recherche
- Préparer l'image et le document PDF pour l'OCR
- Régler le RenderSearchablePdf à true (vrai)
- Utiliser le
SaveAsSearchablePdf
méthode pour produire un fichier PDF interrogeable - Exporter le PDF interrogeable sous forme d'octets et de chaînes de caractères
Installer avec NuGet
Install-Package IronOcr
Télécharger DLL
Installation manuelle dans votre projet
Installer avec NuGet
Install-Package IronOcr
Télécharger DLL
Installation manuelle dans votre projet
Commencez à utiliser IronPDF dans votre projet dès aujourd'hui avec un essai gratuit.
Découvrez IronOCR sur NuGet pour une installation rapide et un déploiement facile. Avec plus de 8 millions de téléchargements, il transforme OCR avec C#.
Install-Package IronOcr
Envisagez d'installer le IronOCR DLL directement. Téléchargez et installez-le manuellement pour votre projet ou sous forme de GAC : {{lienDllAfficher}}
Installation manuelle dans votre projet
Télécharger la DLLExporter au format PDF avec possibilité de recherche Exemple
Pour exporter le résultat sous forme de PDF consultable, l'utilisateur doit d'abord définir la propriété Configuration.RenderSearchablePdf sur true. Après avoir obtenu l'objet résultat de l'OCR par la méthode Read
, utilisez la méthode SaveAsSearchablePdf
en spécifiant le chemin du fichier de sortie. Le code ci-dessous en fait la démonstration en utilisant ce qui suit échantillon TIFF fichier.
:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf.cs
using IronOcr;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = true;
// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);
// Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf");
Imports IronOcr
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = True
' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)
' Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf")
Vous trouverez ci-dessous une capture d'écran de l'échantillon TIFF et un PDF incorporé avec possibilité de recherche. Vous pouvez essayer de sélectionner le PDF consultable pour vérifier que le texte est sélectionnable. Le texte sélectionnable permet également d'effectuer des recherches dans les logiciels de visualisation des PDF.
A noter
Fichier TIFF
PDF consultable
PDF consultable sous forme d'octets et de flux
Les informations sur les octets et les flux du fichier PDF consultable peuvent également être produites à l'aide des méthodes SaveAsSearchablePdfBytes
et SaveAsSearchablePdfStream
, respectivement. L'exemple de code ci-dessous montre comment utiliser ces méthodes.
:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf-byte-stream.cs
// Export searchable PDF byte
byte[] pdfByte = ocrResult.SaveAsSearchablePdfBytes();
// Export searchable PDF stream
Stream pdfStream = ocrResult.SaveAsSearchablePdfStream();
' Export searchable PDF byte
Dim pdfByte() As Byte = ocrResult.SaveAsSearchablePdfBytes()
' Export searchable PDF stream
Dim pdfStream As Stream = ocrResult.SaveAsSearchablePdfStream()