Highlight Texts As Images

This article was translated from English: Does it need improvement?
Translated
View the article in English

La visualisation des résultats de l'OCR implique le rendu de boîtes de délimitation autour des éléments de texte spécifiques que le moteur a détectés dans une image. Ce processus superpose des mises en évidence distinctes sur les emplacements exacts des caractères, mots, lignes ou paragraphes individuels, fournissant ainsi une carte claire du contenu reconnu.

Ce retour visuel est crucial pour le débogage et la validation de l'exactitude des résultats de l'OCR, car il permet aux développeurs de voir ce que le logiciel a identifié et où il a commis des erreurs.

Dans cet article, nous allons démontrer comment IronOCR permet aux développeurs d'effectuer facilement des diagnostics grâce à sa méthode HighlightTextAndSaveAsImages. Cette fonction permet aux développeurs de mettre en évidence des sections spécifiques du texte et de les enregistrer sous forme d'images à des fins de vérification.

Quickstart : Highlight Words in Your PDF Instantly

Cet extrait démontre à quel point il est facile d'utiliser IronOCR : chargez un PDF et mettez en évidence chaque mot du document, en enregistrant le résultat sous forme d'images. Il suffit d'une ligne pour obtenir un retour visuel sur les résultats de l'OCR et vérifier que tout fonctionne correctement.

Nuget IconGet started making PDFs with NuGet now:

  1. Install IronOCR with NuGet Package Manager

    PM > Install-Package IronOcr

  2. Copy and run this code snippet.

    new IronOcr.OcrInput().LoadPdf("document.pdf").HighlightTextAndSaveAsImages(new IronOcr.IronTesseract(), "highlight_page_", IronOcr.ResultHighlightType.Word);
  3. Deploy to test on your live environment

    Start using IronOCR in your project today with a free trial
    arrow pointer

Surligner le texte et l'enregistrer en tant qu'image

Mettre du texte en surbrillance et l'enregistrer sous forme d'images est très simple avec IronOCR. Dans cet exemple, nous chargerons un PDF existant avec LoadPdf, puis nous appellerons la méthode HighlightTextAndSaveAsImages pour mettre en évidence des sections du texte et les enregistrer en tant qu'images.

La méthode prend trois paramètres : le moteur OCR IronTesseract, un préfixe pour le nom du fichier de sortie et une énumération de ResultHighlightType qui dicte le type de texte à mettre en évidence. Dans cet exemple, nous utiliserons ResultHighlightType.Paragraph pour mettre en évidence les blocs de texte en tant que paragraphes.

[{i :(Cette fonction utilisera le préfixe de la chaîne de sortie et ajoutera un identifiant de page (par exemple, "page_0", "page_1") au nom de fichier de l'image de sortie pour chaque page.)}]]

Nous utiliserons cet exemple de PDF comportant trois paragraphes.

Entrée

Code

Jetons un coup d'œil à l'exemple de code ci-dessous.

:path=/static-assets/ocr/content-code-examples/how-to/highlight-texts-as-images.cs
using IronOcr;

IronTesseract ocrTesseract = new IronTesseract();

using var ocrInput = new OcrInput();
ocrInput.LoadPdf("document.pdf");
ocrInput.HighlightTextAndSaveAsImages(ocrTesseract, "highlight_page_", ResultHighlightType.Paragraph);
Imports IronOcr

Private ocrTesseract As New IronTesseract()

Private ocrInput = New OcrInput()
ocrInput.LoadPdf("document.pdf")
ocrInput.HighlightTextAndSaveAsImages(ocrTesseract, "highlight_page_", ResultHighlightType.Paragraph)
$vbLabelText   $csharpLabel

Images de sortie

Highlight text output

Comme vous pouvez le voir dans l'image de sortie ci-dessus, les trois paragraphes ont été mis en évidence par un encadré rouge clair.

ResultHightLightType

Dans l'exemple ci-dessus, nous avons utilisé ResultHighlightType.Paragraph pour mettre en évidence des blocs de texte. IronOCR propose des options de mise en évidence supplémentaires par le biais de cette énumération. Vous trouverez ci-dessous une liste complète des types de documents disponibles.

Character : Cette option fournit le niveau d'analyse le plus détaillé en dessinant une boîte englobante autour de chaque caractère unique que le moteur OCR détecte, correspondant à chaque IronOcr.OcrResult.Character.

Word : Lorsqu'elle est définie sur Word, la méthode met en évidence chaque mot complet identifié par le moteur, ce qui permet de vérifier la segmentation des mots et l'espacement de chaque mot.

Ligne : Cette option met en évidence chaque ligne détectée avec IronOCR, et les met en évidence comme chaque ligne de texte.

Paragraphe : Pour obtenir une vue d'ensemble de la structure du document, cette option met en évidence des blocs entiers de texte que le moteur a regroupés en tant que paragraphe.

Questions Fréquemment Posées

Quel est le but de surligner les textes comme des images dans IronOCR?

Le surlignage des textes comme des images dans IronOCR est utilisé pour visualiser les résultats OCR en rendant des boîtes de délimitation autour des éléments de texte détectés dans une image. Ce processus aide à déboguer et valider l'exactitude du résultat OCR en fournissant une carte claire du contenu reconnu.

Comment fonctionne la méthode HighlightTextAndSaveAsImages d'IronOCR?

La méthode HighlightTextAndSaveAsImages dans IronOCR permet aux développeurs de surligner des sections spécifiques de texte et de les enregistrer sous forme d'images. Elle prend trois paramètres: le moteur OCR IronTesseract, un préfixe pour le nom de fichier de sortie, et une énumération ResultHighlightType qui spécifie le type de texte à surligner.

Quels sont les types de surlignage disponibles dans IronOCR?

IronOCR offre quatre types de surlignage à travers l'énumération ResultHighlightType: Caractère, Mot, Ligne et Paragraphe. Chaque type fournit un niveau de détail différent, allant des caractères individuels à des paragraphes entiers.

IronOCR peut-il surligner du texte dans des documents PDF?

Oui, IronOCR peut surligner du texte dans des documents PDF. Vous pouvez charger un PDF avec la méthode LoadPdf et utiliser HighlightTextAndSaveAsImages pour surligner des sections spécifiques de texte et les enregistrer comme images.

Quel est l'avantage d'utiliser le type de surlignage Paragraphe dans IronOCR?

Le type de surlignage Paragraphe dans IronOCR offre une vue d'ensemble de la structure du document en surlignant l'intégralité des blocs de texte groupés comme paragraphes. Cela est utile pour visualiser le flux et l'organisation du texte dans un document.

Comment les développeurs peuvent-ils commencer à utiliser IronOCR pour le surlignage de texte?

Les développeurs peuvent commencer à utiliser IronOCR pour le surlignage de texte en téléchargeant une bibliothèque C#, en instanciant le moteur OCR, en chargeant un document PDF en utilisant LoadPdf, puis en appliquant la méthode HighlightTextAndSaveAsImages pour surligner et enregistrer des sections de texte sous forme d'images.

Quel exemple de code est fourni pour surligner le texte comme images dans IronOCR?

La page web fournit un exemple de code C# démontrant comment charger un PDF avec LoadPdf, appliquer la méthode HighlightTextAndSaveAsImages, et enregistrer le texte surligné sous forme d'images en utilisant l'option ResultHighlightType.Paragraph.

Curtis Chau
Rédacteur technique

Curtis Chau détient un baccalauréat en informatique (Université de Carleton) et se spécialise dans le développement front-end avec expertise en Node.js, TypeScript, JavaScript et React. Passionné par la création d'interfaces utilisateur intuitives et esthétiquement plaisantes, Curtis aime travailler avec des frameworks modernes ...

Lire la suite
Prêt à commencer?
Nuget Téléchargements 5,044,537 | Version : 2025.11 vient de sortir