Comment enregistrer les résultats sous forme de PDF consultable ?

This article was translated from English: Does it need improvement?
Translated
View the article in English

par Chaknith Bin

Un PDF avec possibilité de recherche, souvent appelé OCR(Reconnaissance optique de caractères) PDF, est un type de document PDF qui contient à la fois des images numérisées et du texte lisible par machine. Ces PDF sont créés en effectuant une reconnaissance optique des caractères (OCR) sur des documents papier ou des images numérisés, ce qui permet de reconnaître le texte dans les images et de le convertir en texte sélectionnable et consultable.

IronOCR est une solution permettant d'effectuer la reconnaissance optique de caractères sur des documents et d'exporter les résultats sous forme de PDF consultables. Il permet d'exporter des PDF consultables sous forme de fichiers, d'octets et de flux.

Commencez avec IronOCR

Commencez à utiliser IronOCR dans votre projet dès aujourd'hui avec un essai gratuit.

Première étape :
green arrow pointer



Exporter au format PDF avec possibilité de recherche Exemple

Pour exporter le résultat sous forme de PDF consultable, l'utilisateur doit d'abord définir la propriété Configuration.RenderSearchablePdf sur true. Après avoir obtenu l'objet résultat de l'OCR par la méthode Read, utilisez la méthode SaveAsSearchablePdf en spécifiant le chemin du fichier de sortie. Le code ci-dessous en fait la démonstration en utilisant ce qui suitéchantillon TIFF fichier.

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf");
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf")
VB   C#

Vous trouverez ci-dessous une capture d'écran de l'échantillon TIFF et un PDF incorporé avec possibilité de recherche. Vous pouvez essayer de sélectionner le PDF consultable pour vérifier que le texte est sélectionnable. Le texte sélectionnable permet également d'effectuer des recherches dans les logiciels de visualisation des PDF.

A noter
IronOCR utilise une police particulière pour superposer le texte au fichier image. Par conséquent, dans certains cas, la taille du texte sélectionné peut être différente de la taille du texte.

Fichier TIFF

PDF consultable sous forme d'octets et de flux

Les informations sur les octets et les flux du fichier PDF consultable peuvent également être produites à l'aide des méthodes SaveAsSearchablePdfBytes et SaveAsSearchablePdfStream, respectivement. L'exemple de code ci-dessous montre comment utiliser ces méthodes.

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf-byte-stream.cs
// Export searchable PDF byte
byte[] pdfByte = ocrResult.SaveAsSearchablePdfBytes();

// Export searchable PDF stream
Stream pdfStream = ocrResult.SaveAsSearchablePdfStream();
' Export searchable PDF byte
Dim pdfByte() As Byte = ocrResult.SaveAsSearchablePdfBytes()

' Export searchable PDF stream
Dim pdfStream As Stream = ocrResult.SaveAsSearchablePdfStream()
VB   C#
Chaknith related to PDF consultable sous forme d'octets et de flux

Chaknith Bin

Ingénieur logiciel

Chaknith est le Sherlock Holmes des développeurs. C'est en s'amusant à relever des défis de code qu'il s'est rendu compte pour la première fois qu'il pourrait avoir un avenir dans le domaine de l'ingénierie logicielle. Il se concentre sur IronXL et IronBarcode, mais il est fier d'aider les clients avec chaque produit. Chaknith tire parti des connaissances qu'il a acquises en discutant directement avec les clients pour améliorer les produits eux-mêmes. Ses commentaires anecdotiques vont au-delà des tickets Jira et soutiennent le développement de produits, la documentation et le marketing, afin d'améliorer l'expérience globale des clients.Quand il n'est pas au bureau, on peut le trouver en train d'apprendre sur l'apprentissage automatique, le codage et la randonnée.