Surligner du texte sous forme d'images en C# avec IronOCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

La visualisation des résultats de la reconnaissance optique de caractères (OCR) consiste à afficher des cadres de délimitation autour des éléments de texte spécifiques que le moteur a détectés dans une image. Ce procédé superpose des surlignages distincts aux emplacements exacts des caractères, mots, lignes ou paragraphes individuels, fournissant ainsi une carte claire du contenu reconnu.

Ce retour visuel est crucial pour le débogage et la validation de la précision du résultat de la reconnaissance optique de caractères (OCR), permettant aux développeurs de voir ce que le logiciel a identifié et où il a commis des erreurs.

Dans cet article, nous allons démontrer comment IronOCR permet aux développeurs d'effectuer facilement des diagnostics grâce à sa méthode HighlightTextAndSaveAsImages . Cette fonction permet aux développeurs de mettre en évidence des sections spécifiques de texte et de les enregistrer sous forme d'images pour vérification.

Démarrage rapide : Surlignez instantanément des mots dans votre PDF

Cet extrait montre à quel point il est facile d'utiliser IronOCR : chargez un PDF et surlignez chaque mot du document, puis enregistrez le résultat sous forme d'images. Une seule ligne suffit pour obtenir un retour visuel sur vos résultats OCR et vérifier que tout fonctionne correctement.

Nuget IconCommencez dès maintenant à créer des PDF avec NuGet :

  1. Installez IronOCR avec le gestionnaire de packages NuGet

    PM > Install-Package IronOcr

  2. Copiez et exécutez cet extrait de code.

    new IronOcr.OcrInput().LoadPdf("document.pdf").HighlightTextAndSaveAsImages(new IronOcr.IronTesseract(), "highlight_page_", IronOcr.ResultHighlightType.Word);
  3. Déployez pour tester sur votre environnement de production.

    Commencez à utiliser IronOCR dans votre projet dès aujourd'hui grâce à un essai gratuit.
    arrow pointer

Exemple de surbrillance de texte et d'enregistrement en tant qu'images

Avec IronOCR, la mise en surbrillance du texte et son enregistrement sous forme d'images sont très simples. Dans cet exemple, nous allons charger un PDF existant avec LoadPdf, puis appeler la méthode HighlightTextAndSaveAsImages pour surligner des sections du texte et les enregistrer sous forme d'images.

La méthode prend trois paramètres : le moteur OCR IronTesseract, un préfixe pour le nom du fichier de sortie et une énumération de ResultHighlightType qui détermine le type de texte à surligner. Dans cet exemple, nous utiliserons ResultHighlightType.Paragraph pour mettre en évidence les blocs de texte comme des paragraphes.

Veuillez noterCette fonction utilisera le préfixe de chaîne de sortie et ajoutera un identifiant de page (par exemple, " page_0 ", " page_1 ") au nom de fichier image de sortie pour chaque page.

Nous utiliserons cet exemple de PDF comportant trois paragraphes.

Entrée

Code

Examinons l'exemple de code ci-dessous.

:path=/static-assets/ocr/content-code-examples/how-to/highlight-texts-as-images.cs
using IronOcr;

IronTesseract ocrTesseract = new IronTesseract();

using var ocrInput = new OcrInput();
ocrInput.LoadPdf("document.pdf");
ocrInput.HighlightTextAndSaveAsImages(ocrTesseract, "highlight_page_", ResultHighlightType.Paragraph);
Imports IronOcr

Private ocrTesseract As New IronTesseract()

Private ocrInput = New OcrInput()
ocrInput.LoadPdf("document.pdf")
ocrInput.HighlightTextAndSaveAsImages(ocrTesseract, "highlight_page_", ResultHighlightType.Paragraph)
$vbLabelText   $csharpLabel

Images de sortie

Sortie de surbrillance du texte

Comme vous pouvez le constater sur l'image ci-dessus, les trois paragraphes ont été mis en évidence par un cadre rouge clair.

Type de surbrillance du résultat

Dans l'exemple ci-dessus, nous avons utilisé ResultHighlightType.Paragraph pour mettre en évidence des blocs de texte. IronOCR offre des options de surbrillance supplémentaires via cette énumération. Vous trouverez ci-dessous la liste complète des types disponibles.

Caractère : Cette option offre le niveau d'analyse le plus détaillé en dessinant un cadre autour de chaque caractère détecté par le moteur OCR, correspondant à chaque IronOcr.OcrResult.Character.

Mot : Lorsque cette méthode est sélectionnée, elle met en évidence chaque mot complet identifié par le moteur, ce qui permet de vérifier la segmentation et l'espacement des mots.

Ligne : Cette option met en évidence chaque ligne détectée par IronOCR, et les surligne comme une ligne de texte individuelle.

Paragraphe : Pour une vue d'ensemble de la structure du document, cette option met en évidence des blocs de texte entiers que le moteur a regroupés en paragraphes.

Questions Fréquemment Posées

Quel est le but de surligner les textes comme des images dans IronOCR?

Le surlignage des textes comme des images dans IronOCR est utilisé pour visualiser les résultats OCR en rendant des boîtes de délimitation autour des éléments de texte détectés dans une image. Ce processus aide à déboguer et valider l'exactitude du résultat OCR en fournissant une carte claire du contenu reconnu.

Comment fonctionne la méthode HighlightTextAndSaveAsImages d'IronOCR?

La méthode HighlightTextAndSaveAsImages dans IronOCR permet aux développeurs de surligner des sections spécifiques de texte et de les enregistrer sous forme d'images. Elle prend trois paramètres: le moteur OCR IronTesseract, un préfixe pour le nom de fichier de sortie, et une énumération ResultHighlightType qui spécifie le type de texte à surligner.

Quels sont les types de surlignage disponibles dans IronOCR?

IronOCR offre quatre types de surlignage à travers l'énumération ResultHighlightType: Caractère, Mot, Ligne et Paragraphe. Chaque type fournit un niveau de détail différent, allant des caractères individuels à des paragraphes entiers.

IronOCR peut-il surligner du texte dans des documents PDF?

Oui, IronOCR peut surligner du texte dans des documents PDF. Vous pouvez charger un PDF avec la méthode LoadPdf et utiliser HighlightTextAndSaveAsImages pour surligner des sections spécifiques de texte et les enregistrer comme images.

Quel est l'avantage d'utiliser le type de surlignage Paragraphe dans IronOCR?

Le type de surlignage Paragraphe dans IronOCR offre une vue d'ensemble de la structure du document en surlignant l'intégralité des blocs de texte groupés comme paragraphes. Cela est utile pour visualiser le flux et l'organisation du texte dans un document.

Comment les développeurs peuvent-ils commencer à utiliser IronOCR pour le surlignage de texte?

Les développeurs peuvent commencer à utiliser IronOCR pour le surlignage de texte en téléchargeant une bibliothèque C#, en instanciant le moteur OCR, en chargeant un document PDF en utilisant LoadPdf, puis en appliquant la méthode HighlightTextAndSaveAsImages pour surligner et enregistrer des sections de texte sous forme d'images.

Quel exemple de code est fourni pour surligner le texte comme images dans IronOCR?

La page web fournit un exemple de code C# démontrant comment charger un PDF avec LoadPdf, appliquer la méthode HighlightTextAndSaveAsImages, et enregistrer le texte surligné sous forme d'images en utilisant l'option ResultHighlightType.Paragraph.

Curtis Chau
Rédacteur technique

Curtis Chau détient un baccalauréat en informatique (Université de Carleton) et se spécialise dans le développement front-end avec expertise en Node.js, TypeScript, JavaScript et React. Passionné par la création d'interfaces utilisateur intuitives et esthétiquement plaisantes, Curtis aime travailler avec des frameworks modernes ...

Lire la suite
Prêt à commencer?
Nuget Téléchargements 5,167,857 | Version: 2025.11 vient de sortir