Mettre en évidence des textes sous forme d'images en C# ; avec IronOCR

Mis à jour:10 janvier 2026

Translated

View the article in English

La méthode HighlightTextAndSaveAsImages d'IronOCR visualise les résultats OCR en dessinant des cadres de délimitation autour du texte détecté (caractères, mots, lignes ou paragraphes) et les enregistre en tant qu'images de diagnostic, permettant aux développeurs de valider la précision de l'OCR et de déboguer les problèmes de reconnaissance.

La visualisation des résultats de l'OCR implique le rendu de boîtes de délimitation autour d'éléments de texte spécifiques que le moteur a détectés dans une image. Ce processus superpose des mises en évidence distinctes sur les emplacements exacts des caractères, mots, lignes ou paragraphes individuels, fournissant ainsi une carte claire du contenu reconnu.

Ce retour visuel est crucial pour le débogage et la validation de la précision des résultats de l'OCR, en montrant ce que le logiciel a identifié et où il a commis des erreurs. Lorsque l'on travaille avec des documents complexes ou que l'on cherche à résoudre des problèmes de reconnaissance, la mise en évidence visuelle devient un outil de diagnostic essentiel.

Cet article démontre les capacités de diagnostic d'IronOCR avec sa méthode HighlightTextAndSaveAsImages. Cette fonction permet de mettre en évidence certaines parties du texte et de les enregistrer sous forme d'images à des fins de vérification. Qu'il s'agisse de construire un système de traitement de documents, de mettre en œuvre des mesures de contrôle de la qualité ou de valider votre mise en œuvre de l'OCR, cette fonctionnalité fournit un retour visuel immédiat sur ce que le moteur d'OCR détecte.

Démarrage rapide : Surlignez instantanément des mots dans votre PDF

Cet extrait démontre l'utilisation d'IronOcr : chargez un PDF et mettez en évidence chaque mot du document, en enregistrant le résultat sous forme d'images. Il suffit d'une ligne pour obtenir un retour visuel sur les résultats de l'OCR.

Installez IronOCR avec le Gestionnaire de Packages NuGet
PM > Install-Package IronOcr

Copiez et exécutez cet extrait de code.

new IronOcr.OcrInput().LoadPdf("document.pdf").HighlightTextAndSaveAsImages(new IronOcr.IronTesseract(), "highlight_page_", IronOcr.ResultHighlightType.Word);

Déployez pour tester sur votre environnement de production.

Commencez à utiliser IronOCR dans votre projet dès aujourd'hui avec un essai gratuit

Flux de travail minimal (5 étapes)

Téléchargez une bibliothèque C# pour détecter la rotation d'une page
Instancier le moteur OCR
Charger le document PDF avec `LoadPdf`
Utilisez `HighlightTextAndSaveAsImages` pour surligner des sections de texte et les enregistrer sous forme d'images.

Comment surligner du texte et l'enregistrer en tant qu'image ?

La mise en surbrillance du texte et son enregistrement sous forme d'images sont simples à réaliser avec IronOCR. Chargez un PDF existant avec LoadPdf, puis appelez la méthode HighlightTextAndSaveAsImages pour mettre en surbrillance des sections de texte et les enregistrer sous forme d'images. Cette technique permet de vérifier la précision de l'OCR et de déboguer les problèmes de reconnaissance de texte dans vos documents.

La méthode prend trois paramètres : le moteur OCR IronTesseract , un préfixe pour le nom du fichier de sortie et une énumération de ResultHighlightType qui dicte le type de texte à mettre en évidence. Cet exemple utilise ResultHighlightType.Paragraph pour mettre en évidence les blocs de texte comme des paragraphes.

Cette fonction utilise le préfixe de chaîne de sortie et ajoute un identifiant de page (par exemple, " page_0 ", " page_1 ") au nom du fichier image de sortie pour chaque page.

Cet exemple utilise un PDF comportant trois paragraphes.

À quoi ressemble le PDF d'entrée?

Comment implémenter le code de mise en évidence ?

L'exemple de code ci-dessous démontre la mise en œuvre de base à l'aide de la classe OcrInput.

:path=/static-assets/ocr/content-code-examples/how-to/highlight-texts-as-images.cs

using IronOcr;

IronTesseract ocrTesseract = new IronTesseract();

using var ocrInput = new OcrInput();
ocrInput.LoadPdf("document.pdf");
ocrInput.HighlightTextAndSaveAsImages(ocrTesseract, "highlight_page_", ResultHighlightType.Paragraph);

$vbLabelText $csharpLabel

Que montrent les images de sortie?

Comme le montre l'image de sortie ci-dessus, les trois paragraphes ont été mis en évidence à l'aide d'un encadré rouge clair. Cette représentation visuelle aide les développeurs à identifier rapidement la façon dont le moteur OCR segmente le document en blocs lisibles.

Quelles sont les différentes options de ResultHighlightType?

L'exemple ci-dessus utilisait ResultHighlightType.Paragraph pour mettre en évidence des blocs de texte. IronOCR offre des options de surbrillance supplémentaires via cette énumération. Vous trouverez ci-dessous une liste complète des types disponibles, chacun servant à des fins de diagnostic différentes.

Character : Dessine un cadre autour de chaque caractère détecté par le moteur OCR. Utile pour déboguer la reconnaissance de caractères ou les polices spécialisées, en particulier lorsque vous travaillez avec des fichiers de langue personnalisés.

Mot : met en évidence chaque mot complet identifié par le moteur. Idéal pour valider les limites des mots et leur identification correcte, notamment lors de la mise en œuvre de la lecture de codes-barres et de QR parallèlement à la reconnaissance de texte.

Ligne : met en évidence chaque ligne de texte détectée. Utile pour les documents dont la mise en page complexe nécessite une vérification de l'identification des lignes, par exemple lors du traitement de documents numérisés.

Paragraphe : met en évidence des blocs de texte entiers regroupés en paragraphes. Parfait pour comprendre la mise en page d'un document et vérifier la segmentation des blocs de texte, particulièrement utile lorsque l'on travaille avec l'extraction de tableaux.

Comment comparer les différents types de surligneurs?

Cet exemple complet montre comment générer des mises en évidence pour tous les différents types sur le même document, ce qui vous permet de comparer les résultats :

using IronOcr;
using System;

// Initialize the OCR engine with custom configuration
IronTesseract ocrTesseract = new IronTesseract();

// Configure for better accuracy if needed
ocrTesseract.Configuration.ReadBarCodes = false; // Disable if not needed for performance
ocrTesseract.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;

// Load the PDF document
using var ocrInput = new OcrInput();
ocrInput.LoadPdf("document.pdf");

// Generate highlights for each type
Console.WriteLine("Generating character-level highlights...");
ocrInput.HighlightTextAndSaveAsImages(ocrTesseract, "highlight_character_", ResultHighlightType.Character);

Console.WriteLine("Generating word-level highlights...");
ocrInput.HighlightTextAndSaveAsImages(ocrTesseract, "highlight_word_", ResultHighlightType.Word);

Console.WriteLine("Generating line-level highlights...");
ocrInput.HighlightTextAndSaveAsImages(ocrTesseract, "highlight_line_", ResultHighlightType.Line);

Console.WriteLine("Generating paragraph-level highlights...");
ocrInput.HighlightTextAndSaveAsImages(ocrTesseract, "highlight_paragraph_", ResultHighlightType.Paragraph);

Console.WriteLine("All highlight images have been generated successfully!");

using IronOcr;
using System;

// Initialize the OCR engine with custom configuration
IronTesseract ocrTesseract = new IronTesseract();

// Configure for better accuracy if needed
ocrTesseract.Configuration.ReadBarCodes = false; // Disable if not needed for performance
ocrTesseract.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;

// Load the PDF document
using var ocrInput = new OcrInput();
ocrInput.LoadPdf("document.pdf");

// Generate highlights for each type
Console.WriteLine("Generating character-level highlights...");
ocrInput.HighlightTextAndSaveAsImages(ocrTesseract, "highlight_character_", ResultHighlightType.Character);

Console.WriteLine("Generating word-level highlights...");
ocrInput.HighlightTextAndSaveAsImages(ocrTesseract, "highlight_word_", ResultHighlightType.Word);

Console.WriteLine("Generating line-level highlights...");
ocrInput.HighlightTextAndSaveAsImages(ocrTesseract, "highlight_line_", ResultHighlightType.Line);

Console.WriteLine("Generating paragraph-level highlights...");
ocrInput.HighlightTextAndSaveAsImages(ocrTesseract, "highlight_paragraph_", ResultHighlightType.Paragraph);

Console.WriteLine("All highlight images have been generated successfully!");

$vbLabelText $csharpLabel

Comment traiter les documents de plusieurs pages ?

Lors du traitement de PDF multipages ou de fichiers TIFF multi-trames, la fonction de mise en évidence traite automatiquement chaque page individuellement. Ceci est particulièrement utile lors de la mise en œuvre de flux de travail PDF OCR text extraction :

using IronOcr;
using System.IO;

IronTesseract ocrTesseract = new IronTesseract();

// Load a multi-page document
using var ocrInput = new OcrInput();
ocrInput.LoadPdf("multi-page-document.pdf");

// Create output directory if it doesn't exist
string outputDir = "highlighted_pages";
Directory.CreateDirectory(outputDir);

// Generate highlights for each page
// Files will be named: highlighted_pages/page_0.png, page_1.png, etc.
ocrInput.HighlightTextAndSaveAsImages(ocrTesseract, 
    Path.Combine(outputDir, "page_"), 
    ResultHighlightType.Word);

// Count generated files for verification
int pageCount = Directory.GetFiles(outputDir, "page_*.png").Length;
Console.WriteLine($"Generated {pageCount} highlighted page images");

using IronOcr;
using System.IO;

IronTesseract ocrTesseract = new IronTesseract();

// Load a multi-page document
using var ocrInput = new OcrInput();
ocrInput.LoadPdf("multi-page-document.pdf");

// Create output directory if it doesn't exist
string outputDir = "highlighted_pages";
Directory.CreateDirectory(outputDir);

// Generate highlights for each page
// Files will be named: highlighted_pages/page_0.png, page_1.png, etc.
ocrInput.HighlightTextAndSaveAsImages(ocrTesseract, 
    Path.Combine(outputDir, "page_"), 
    ResultHighlightType.Word);

// Count generated files for verification
int pageCount = Directory.GetFiles(outputDir, "page_*.png").Length;
Console.WriteLine($"Generated {pageCount} highlighted page images");

$vbLabelText $csharpLabel

Quelles sont les meilleures pratiques en matière de performances ?

Lorsque vous utilisez la fonction de mise en évidence, tenez compte des meilleures pratiques suivantes :

Taille du fichier : Les images mises en évidence peuvent être volumineuses, en particulier pour les documents à haute résolution. Tenez compte de l'espace disponible dans le répertoire de sortie lors du traitement de lots importants. Pour des conseils d'optimisation, consultez notre guide de configuration de l'OCR rapide.
Performance : La génération de points saillants ajoute une surcharge de traitement. Pour les systèmes de production où les mises en évidence ne sont nécessaires qu'occasionnellement, il convient de les mettre en œuvre en tant que processus de diagnostic distinct plutôt que dans le cadre du flux de travail principal. Envisagez d'utiliser l'OCR multithread pour le traitement par lots.
Gestion des erreurs : Mettez toujours en œuvre une gestion des erreurs appropriée lorsque vous effectuez des opérations sur des fichiers :

try
{
    using var ocrInput = new OcrInput();
    ocrInput.LoadPdf("document.pdf");

    // Apply image filters if needed for better recognition
    ocrInput.Deskew(); // Correct slight rotations
    ocrInput.DeNoise(); // Remove background noise

    ocrInput.HighlightTextAndSaveAsImages(ocrTesseract, "highlight_", ResultHighlightType.Word);
}
catch (Exception ex)
{
    Console.WriteLine($"Error during highlighting: {ex.Message}");
    // Log error details for debugging
}

try
{
    using var ocrInput = new OcrInput();
    ocrInput.LoadPdf("document.pdf");

    // Apply image filters if needed for better recognition
    ocrInput.Deskew(); // Correct slight rotations
    ocrInput.DeNoise(); // Remove background noise

    ocrInput.HighlightTextAndSaveAsImages(ocrTesseract, "highlight_", ResultHighlightType.Word);
}
catch (Exception ex)
{
    Console.WriteLine($"Error during highlighting: {ex.Message}");
    // Log error details for debugging
}

$vbLabelText $csharpLabel

Comment le surlignage s'intègre-t-il aux résultats de l'OCR?

La fonction de mise en évidence fonctionne de manière transparente avec les objets résultats d'IronOcr, ce qui vous permet de corréler les mises en évidence visuelles avec les données textuelles extraites. Ceci est particulièrement utile lorsque vous avez besoin de track OCR progress ou de valider des sections spécifiques de texte reconnu. La classe OcrResult fournit des informations détaillées sur chaque élément détecté, qui correspondent directement aux surlignages visuels générés par cette méthode.

Et si je rencontre des problèmes?

Si vous rencontrez des problèmes avec la fonction de mise en évidence, consultez le guide général de dépannage pour trouver des solutions courantes. Pour des problèmes spécifiques liés à la mise en évidence :

Images de sortie vierges : assurez-vous que le document d'entrée contient du texte lisible et que le moteur OCR est correctement configuré pour votre type de document. Vous devrez peut-être appliquer des filtres d'optimisation d'image ou fixing image orientation pour améliorer la reconnaissance.
Les points forts : Certains types de documents peuvent nécessiter un prétraitement spécifique. Essayez d'appliquer des filtres d'image ou fixing image orientation pour améliorer la reconnaissance.
Problèmes de performance : Pour les documents volumineux, envisagez d'implémenter multithreading pour améliorer la vitesse de traitement. En outre, consultez notre guide sur la correction des scans de mauvaise qualité si vous travaillez avec des données d'entrée de mauvaise qualité.

Comment puis-je l'utiliser pour le débogage en production ?

La fonction de surlignage constitue un excellent outil de débogage de la production. Lorsqu'ils sont intégrés à des jetons d'abandon pour les opérations de longue durée et à des temporisations, vous pouvez créer un système de diagnostic robuste. Envisagez de mettre en place un mode de débogage dans votre application :

public class OcrDebugger
{
    private readonly IronTesseract _tesseract;
    private readonly bool _debugMode;

    public OcrDebugger(bool enableDebugMode = false)
    {
        _tesseract = new IronTesseract();
        _debugMode = enableDebugMode;
    }

    public OcrResult ProcessDocument(string filePath)
    {
        using var input = new OcrInput();
        input.LoadPdf(filePath);

        // Apply preprocessing
        input.Deskew();
        input.DeNoise();

        // Generate debug highlights if in debug mode
        if (_debugMode)
        {
            string debugPath = $"debug_{Path.GetFileNameWithoutExtension(filePath)}_";
            input.HighlightTextAndSaveAsImages(_tesseract, debugPath, ResultHighlightType.Word);
        }

        // Perform actual OCR
        return _tesseract.Read(input);
    }
}

public class OcrDebugger
{
    private readonly IronTesseract _tesseract;
    private readonly bool _debugMode;

    public OcrDebugger(bool enableDebugMode = false)
    {
        _tesseract = new IronTesseract();
        _debugMode = enableDebugMode;
    }

    public OcrResult ProcessDocument(string filePath)
    {
        using var input = new OcrInput();
        input.LoadPdf(filePath);

        // Apply preprocessing
        input.Deskew();
        input.DeNoise();

        // Generate debug highlights if in debug mode
        if (_debugMode)
        {
            string debugPath = $"debug_{Path.GetFileNameWithoutExtension(filePath)}_";
            input.HighlightTextAndSaveAsImages(_tesseract, debugPath, ResultHighlightType.Word);
        }

        // Perform actual OCR
        return _tesseract.Read(input);
    }
}

$vbLabelText $csharpLabel

Qu'est-ce que je dois faire ensuite ?

Maintenant que vous savez comment utiliser la fonction de mise en évidence, explorez :

Créer des PDF consultables à partir de vos résultats d'OCR
Lire des types de documents spécifiques comme les passeports ou les licences
Configurer IronOcr dans votre environnement de développement avec nos guides de mise en route
Mise en œuvre d'une prise en charge de 125 langues internationales pour des applications mondiales
Utilisation de l'assistant de filtre pour optimiser le traitement des images

Pour une utilisation en production, pensez à obtenir une licence pour supprimer les filigranes et accéder à toutes les fonctionnalités.

Questions Fréquemment Posées

Comment puis-je visualiser les résultats de l'OCR dans mon application C# ?

IronOcr fournit la méthode HighlightTextAndSaveAsImages qui permet de visualiser les résultats de l'OCR en dessinant des boîtes de délimitation autour des éléments de texte détectés (caractères, mots, lignes ou paragraphes) et de les enregistrer en tant qu'images de diagnostic. Cette fonction aide les développeurs à valider la précision de l'OCR et à déboguer les problèmes de reconnaissance.

Quel est le moyen le plus simple de surligner des mots dans un document PDF ?

Avec IronOCR, vous pouvez surligner des mots dans un PDF en une seule ligne de code : new IronOcr.OcrInput().LoadPdf("document.pdf").HighlightTextAndSaveAsImages(new IronOcr.IronTesseract(), "highlight_page_", IronOcr.ResultHighlightType.Word). Ceci charge le PDF et crée des images avec les mots surlignés.

Quels sont les paramètres requis par la méthode HighlightTextAndSaveAsImages ?

La méthode HighlightTextAndSaveAsImages d'IronOCR nécessite trois paramètres : l'instance du moteur OCR IronTesseract, une chaîne de préfixe pour le nom du fichier de sortie et une valeur ResultHighlightType enum qui spécifie les éléments de texte à mettre en évidence (Caractère, Mot, Ligne ou Paragraphe).

Comment les images de sortie sont-elles nommées lors de l'utilisation de la mise en évidence du texte ?

IronOCR nomme automatiquement les images de sortie en combinant le préfixe que vous avez spécifié avec un identifiant de page. Par exemple, si vous utilisez "highlight_page_" comme préfixe, la méthode génère des fichiers nommés "highlight_page_0", "highlight_page_1", etc. pour chaque page de votre document.

Pourquoi la mise en évidence visuelle est-elle importante pour le développement de l'OCR ?

La mise en évidence visuelle dans IronOcr fournit un retour de diagnostic crucial en montrant exactement le texte que le moteur d'OCR a détecté et où se produisent les erreurs potentielles. Cette carte visuelle aide les développeurs à déboguer les problèmes de reconnaissance, à valider la précision de l'OCR et à résoudre les problèmes dans les documents complexes.

Puis-je mettre en évidence d'autres types d'éléments de texte que les mots ?

Oui, l'énumération ResultHighlightType d'IronOcr vous permet de mettre en évidence divers éléments de texte, notamment des caractères individuels, des mots, des lignes ou des paragraphes entiers. Il suffit de spécifier le type souhaité lors de l'appel de la méthode HighlightTextAndSaveAsImages pour visualiser différents niveaux de détection de texte.

Curtis Chau

Discutez maintenant avec l'équipe d'ingénierie

Rédacteur technique

Curtis Chau détient un baccalauréat en informatique (Université de Carleton) et se spécialise dans le développement front-end avec expertise en Node.js, TypeScript, JavaScript et React. Passionné par la création d'interfaces utilisateur intuitives et esthétiquement plaisantes, Curtis aime travailler avec des frameworks modernes ...

Prêt à commencer?

Nuget Téléchargements 5,556,263 | Version : 2026.3 vient de sortir

Voir Licences

Vous faites encore défiler ?

Vous voulez une preuve rapidement ? PM > Install-Package IronOcr
lancez un échantillon regardez votre image se transformer en texte consultable.

Voir Licences

Mise en avant du client :

Projecteur sur les Développeurs:

Webinaires:

Commencer un essai gratuit de 30 jours

Sur cette page

Mettre en évidence des textes sous forme d'images en C# ; avec IronOCR

Installez IronOCR avec le Gestionnaire de Packages NuGet

Copiez et exécutez cet extrait de code.

Déployez pour tester sur votre environnement de production.

Flux de travail minimal (5 étapes)

Comment surligner du texte et l'enregistrer en tant qu'image ?

À quoi ressemble le PDF d'entrée?

Comment implémenter le code de mise en évidence ?

Que montrent les images de sortie?

Quelles sont les différentes options de ResultHighlightType?

Comment comparer les différents types de surligneurs?

Comment traiter les documents de plusieurs pages ?

Quelles sont les meilleures pratiques en matière de performances ?

Comment le surlignage s'intègre-t-il aux résultats de l'OCR?

Et si je rencontre des problèmes?

Comment puis-je l'utiliser pour le débogage en production ?

Qu'est-ce que je dois faire ensuite ?

Questions Fréquemment Posées

Comment puis-je visualiser les résultats de l'OCR dans mon application C# ?

Quel est le moyen le plus simple de surligner des mots dans un document PDF ?

Quels sont les paramètres requis par la méthode HighlightTextAndSaveAsImages ?

Comment les images de sortie sont-elles nommées lors de l'utilisation de la mise en évidence du texte ?

Pourquoi la mise en évidence visuelle est-elle importante pour le développement de l'OCR ?

Puis-je mettre en évidence d'autres types d'éléments de texte que les mots ?

Vous faites encore défiler ?

Équipe de soutien Iron

Commencer un essai gratuit de 30 jours

Sur cette page

Mettre en évidence des textes sous forme d'images en C# ; avec IronOCR

Installez IronOCR avec le Gestionnaire de Packages NuGet

Copiez et exécutez cet extrait de code.

Déployez pour tester sur votre environnement de production.

Flux de travail minimal (5 étapes)

Comment surligner du texte et l'enregistrer en tant qu'image ?

À quoi ressemble le PDF d'entrée?

Comment implémenter le code de mise en évidence ?

Que montrent les images de sortie?

Quelles sont les différentes options de ResultHighlightType?

Comment comparer les différents types de surligneurs?

Comment traiter les documents de plusieurs pages ?

Quelles sont les meilleures pratiques en matière de performances ?

Comment le surlignage s'intègre-t-il aux résultats de l'OCR?

Et si je rencontre des problèmes?

Comment puis-je l'utiliser pour le débogage en production ?

Qu'est-ce que je dois faire ensuite ?

Questions Fréquemment Posées

Comment puis-je visualiser les résultats de l'OCR dans mon application C# ?

Quel est le moyen le plus simple de surligner des mots dans un document PDF ?

Quels sont les paramètres requis par la méthode HighlightTextAndSaveAsImages ?

Comment les images de sortie sont-elles nommées lors de l'utilisation de la mise en évidence du texte ?

Pourquoi la mise en évidence visuelle est-elle importante pour le développement de l'OCR ?

Puis-je mettre en évidence d'autres types d'éléments de texte que les mots ?

Vous faites encore défiler ?

Étape suivante : Commencer l'essai gratuit de 30 jours

Étape suivante : Commencer l'essai gratuit de 30 jours

De confiance par des millions d'ingénieurs dans le monde entier

Équipe de soutien Iron