Comment enregistrer les résultats sous forme de PDF consultable ?

This article was translated from English: Does it need improvement?
Translated
View the article in English

par Chaknith Bin

Un PDF avec possibilité de recherche, souvent appelé OCR (Reconnaissance optique de caractères) PDF, est un type de document PDF qui contient à la fois des images numérisées et du texte lisible par machine. Ces PDF sont créés en effectuant une reconnaissance optique des caractères (OCR) sur des documents papier ou des images numérisés, ce qui permet de reconnaître le texte dans les images et de le convertir en texte sélectionnable et consultable.

IronOCR est une solution permettant d'effectuer la reconnaissance optique de caractères sur des documents et d'exporter les résultats sous forme de PDF consultables. Il permet d'exporter des PDF consultables sous forme de fichiers, d'octets et de flux.


Bibliothèque NuGet C# pour OCR

Installer avec NuGet

Install-Package IronOcr
ou
Java PDF JAR

Télécharger DLL

Télécharger la DLL

Installation manuelle dans votre projet

Bibliothèque NuGet C# pour OCR

Installer avec NuGet

Install-Package IronOcr
ou
Java PDF JAR

Télécharger DLL

Télécharger la DLL

Installation manuelle dans votre projet

Commencez à utiliser IronPDF dans votre projet dès aujourd'hui avec un essai gratuit.

Première étape :
green arrow pointer

Découvrez IronOCR sur NuGet pour une installation rapide et un déploiement facile. Avec plus de 8 millions de téléchargements, il transforme OCR avec C#.

Bibliothèque NuGet C# pour OCR nuget.org/packages/IronOcr/
Install-Package IronOcr

Envisagez d'installer le IronOCR DLL directement. Téléchargez et installez-le manuellement pour votre projet ou sous forme de GAC : {{lienDllAfficher}}

Installation manuelle dans votre projet

Télécharger la DLL

Exporter au format PDF avec possibilité de recherche Exemple

Pour exporter le résultat sous forme de PDF consultable, l'utilisateur doit d'abord définir la propriété Configuration.RenderSearchablePdf sur true. Après avoir obtenu l'objet résultat de l'OCR par la méthode Read, utilisez la méthode SaveAsSearchablePdf en spécifiant le chemin du fichier de sortie. Le code ci-dessous en fait la démonstration en utilisant ce qui suit échantillon TIFF fichier.

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf");
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf")
VB   C#

Vous trouverez ci-dessous une capture d'écran de l'échantillon TIFF et un PDF incorporé avec possibilité de recherche. Vous pouvez essayer de sélectionner le PDF consultable pour vérifier que le texte est sélectionnable. Le texte sélectionnable permet également d'effectuer des recherches dans les logiciels de visualisation des PDF.

A noter
IronOCR utilise une police particulière pour superposer le texte au fichier image. Par conséquent, dans certains cas, la taille du texte sélectionné peut être différente de la taille du texte.

Fichier TIFF

PDF consultable sous forme d'octets et de flux

Les informations sur les octets et les flux du fichier PDF consultable peuvent également être produites à l'aide des méthodes SaveAsSearchablePdfBytes et SaveAsSearchablePdfStream, respectivement. L'exemple de code ci-dessous montre comment utiliser ces méthodes.

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf-byte-stream.cs
// Export searchable PDF byte
byte[] pdfByte = ocrResult.SaveAsSearchablePdfBytes();

// Export searchable PDF stream
Stream pdfStream = ocrResult.SaveAsSearchablePdfStream();
' Export searchable PDF byte
Dim pdfByte() As Byte = ocrResult.SaveAsSearchablePdfBytes()

' Export searchable PDF stream
Dim pdfStream As Stream = ocrResult.SaveAsSearchablePdfStream()
VB   C#

Chaknith Bin

Ingénieur logiciel

Chaknith est le Sherlock Holmes des développeurs. C'est en s'amusant à relever des défis de code qu'il s'est rendu compte pour la première fois qu'il pourrait avoir un avenir dans le domaine de l'ingénierie logicielle. Il se concentre sur IronXL et IronBarcode, mais il est fier d'aider les clients avec chaque produit. Chaknith tire parti des connaissances qu'il a acquises en discutant directement avec les clients pour améliorer les produits eux-mêmes. Ses commentaires anecdotiques vont au-delà des tickets Jira et soutiennent le développement de produits, la documentation et le marketing, afin d'améliorer l'expérience globale des clients.Quand il n'est pas au bureau, on peut le trouver en train d'apprendre sur l'apprentissage automatique, le codage et la randonnée.