Enregistrez les résultats de l'OCR sous forme de HTML hOCR en C# ; avec IronOCR

Mis à jour:3 juin 2026

Translated

View the article in English

IronOCR permet aux développeurs de sauvegarder les résultats OCR en tant que fichiers HTML hOCR en définissant RenderHocr sur vrai et en utilisant les méthodes SaveAsHocrFile ou SaveAsHocrString, préservant la mise en page du texte et les coordonnées des caractères dans un format HTML structuré.

Démarrage rapide : Enregistrez le résultat OCR sous forme de fichier HTML hOCR

Activez le rendu hOCR et exportez les résultats directement vers un fichier HTML en une seule configuration et un seul appel de méthode.

Installez IronOCR avec le Gestionnaire de Packages NuGet
PM > Install-Package IronOcr

Copiez et exécutez cet extrait de code.

var hocr = new IronTesseract { Configuration = { RenderHocr = true } }.Read(new OcrInput("image.png")).SaveAsHocrString();

Déployez pour tester sur votre environnement de production.

Commencez à utiliser IronOCR dans votre projet dès aujourd'hui avec un essai gratuit

Flux de travail minimal (5 étapes)

Téléchargez une bibliothèque C# pour enregistrer les résultats au format hOCR dans un fichier HTML.
Préparer l'image et le document PDF ciblés
Définissez la propriété RenderHocr sur true
Utilisez la méthode SaveAsHocrFile pour générer un fichier HTML.
Utilisez la méthode SaveAsHocrString pour générer une chaîne HTML.

Qu'est-ce que hOCR et pourquoi l'utiliser?

hOCR, qui signifie " OCR basé sur HTML ", est un format de fichier utilisé pour représenter les résultats de la reconnaissance optique de caractères (OCR) de manière structurée. les fichiers hOCR sont écrits en HTML et permettent de stocker le texte reconnu, les informations de mise en page et les coordonnées de chaque caractère reconnu dans une image ou un document. Ce format structuré rend hOCR particulièrement utile pour les applications nécessitant des données de position de texte, telles que l'indexation de documents, les outils d'accessibilité et les implémentations de recherche avancée.

Le format hOCR est essentiel pour les développeurs d'applications qui ont besoin de comprendre non seulement le texte présent, mais aussi l'emplacement de ce texte dans le document original. Ces informations spatiales permettent des fonctions telles que le surlignage de texte pour le débogage, la création de superpositions cliquables sur les images originales et le maintien de l'intégrité de la mise en page des documents lors de la conversion de documents numérisés dans des formats accessibles. Pour les applications d'entreprise traitant des documents numérisés, hOCR constitue la base d'une compréhension avancée des documents et de flux de travail d'extraction.

Comment exporter les résultats de l'OCR sous forme de fichiers hOCR?

Pour exporter le résultat en tant que hOCR, activez d'abord la propriété Configuration.RenderHocr en la définissant sur vrai. Après avoir obtenu l'objet OcrResult de la méthode Read, utilisez la méthode SaveAsHocrFile pour exporter le résultat OCR en tant que HTML. Cette méthode produit un fichier HTML contenant le résultat de la lecture des documents d'entrée. Le code ci-dessous illustre son utilisation avec l' exemple de fichier TIFF suivant.

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html.cs

using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
imageInput.Title = "Html Title";

// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as HTML
ocrResult.SaveAsHocrFile("result.html");

Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
imageInput.Title = "Html Title"

' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as HTML
ocrResult.SaveAsHocrFile("result.html")

$vbLabelText $csharpLabel

La classe OcrInput offre des options étendues pour la préparation des images avant le traitement OCR. Vous pouvez appliquer des filtres, spécifier des régions d'intérêt et gérer divers formats d'entrée, notamment des fichiers TIFF multipages. Lorsque vous travaillez avec l'extraction de texte OCR au format PDF, les mêmes méthodes d'exportation hOCR s'appliquent de manière transparente.

Pourquoi le réglage de RenderHocr est-il important?

Définir la propriété RenderHocr sur vrai indique à IronOCR de générer la structure hOCR nécessaire pendant le processus d'OCR. Sans cette configuration, les méthodes SaveAsHocrFile et SaveAsHocrString ne produiront pas une sortie hOCR correctement formatée avec préservation de la mise en page. Cette configuration doit être définie avant d'appeler la méthode Read, car elle affecte la façon dont le moteur Tesseract traite et structure les données de sortie.

Le format hOCR préserve les métadonnées essentielles, notamment :

Boîtes de délimitation au niveau des caractères
Scores de confiance des mots
Structure des lignes et des paragraphes
Dimensions des pages et informations DPI
Caractéristiques des polices de caractères lorsqu'elles sont détectables

Ces métadonnées sont particulièrement utiles lors de la mise en œuvre de flux de travail de vision artificielle ou de la construction de systèmes qui doivent comprendre la structure des documents au-delà de la simple extraction de texte.

Quels sont les types de fichiers compatibles avec hOCR Export?

IronOcr prend en charge l'exportation hOCR à partir de divers formats d'image, notamment TIFF, PNG, JPEG, BMP et GIF. Les documents PDF peuvent également être traités et exportés en tant que hOCR, les informations relatives au texte et à la mise en page de chaque page étant conservées dans la structure HTML. La bibliothèque gère aussi bien les images d'une seule page que les documents de plusieurs pages de manière transparente.

Pour des résultats optimaux avec différents types de fichiers :

TIFF : idéal pour les documents numérisés, prend en charge le traitement de plusieurs pages
PDF : Excellent pour le contenu mixte (texte et images)
PNG/JPEG : idéal pour les photographies ou les captures d'écran nécessitant une reconnaissance optique de caractères (OCR)
BMP : Format non compressé adapté aux numérisations de haute qualité

Lorsqu'il s'agit de types de documents spécialisés tels que passports ou plaques d'immatriculation, le format hOCR permet de préserver les relations spatiales entre les différents éléments du texte, ce qui facilite l'extraction de champs spécifiques en fonction de leur emplacement.

Comment exporter les résultats de l'OCR sous forme de chaînes HTML?

En utilisant la même image d'échantillon TIFF, utilisez la méthode SaveAsHocrString pour exporter le résultat OCR en tant que chaîne HTML. Cette méthode renvoie une chaîne HTML.

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html-string.cs

// Export as HTML string
string hocr = ocrResult.SaveAsHocrString();

' Export as HTML string
Dim hocr As String = ocrResult.SaveAsHocrString()

$vbLabelText $csharpLabel

La chaîne de sortie contient un balisage hOCR complet qui peut être traité ultérieurement, stocké dans des bases de données ou intégré dans des applications web. Cette approche est particulièrement utile lors de la création de systèmes PDF consultables ou de la mise en œuvre de solutions d'indexation de documents personnalisées. Pour les développeurs travaillant avec 125 langues internationales, le format hOCR préserve les attributs de texte spécifiques à la langue et les informations relatives au sens de lecture.

Quand devrais-je utiliser une sortie de type chaîne de caractères plutôt que des fichiers?

La sortie en chaîne est idéale lorsque vous devez traiter ou manipuler les données hOCR en mémoire, les intégrer à des services web ou stocker les résultats dans une base de données. Cette approche permet d'éviter les dépendances du système de fichiers et de générer du HTML dynamique pour les applications web. Les cas d'utilisation courants incluent :

Intégration API Web : Renvoi des données hOCR directement dans les réponses API
Stockage dans une base de données : Stockage des résultats de l'OCR avec les métadonnées des documents
Traitement en temps réel : Traite les résultats sans surcharge d'E/S sur disque
Fonctions cloud : Travailler dans des environnements sans serveur avec un accès limité aux fichiers
Systèmes de gestion de contenu : intégrer les résultats de l'OCR dans les flux de documents existants

Pour les applications nécessitant un suivi de l'avancement des travaux (progress tracking), la sortie sous forme de chaîne permet un traitement immédiat des résultats partiels dès qu'ils sont disponibles. Ceci est particulièrement utile lors de la mise en œuvre de traitement OCR multithread où plusieurs documents sont traités simultanément.

Comment traiter plusieurs pages en chaînes HTML?

Lorsqu'on travaille avec des documents multipages, SaveAsHocrString consolide toutes les pages dans une seule chaîne HTML avec des divisions de page appropriées. Le contenu de chaque page est enveloppé dans des éléments hOCR appropriés, ce qui permet de conserver la structure du document et les limites de la page.

:path=/static-assets/ocr/content-code-examples/how-to/html-hocr-export-4.cs

// Processing multi-page documents
using var multiPageInput = new OcrPdfInput("multi-page-document.pdf");
multiPageInput.Title = "Multi-Page Document";

 // Configure for hOCR output
 IronTesseract tesseract = new IronTesseract();
 tesseract.Configuration.RenderHocr = true;

 // Read all pages
 OcrResult result = tesseract.Read(multiPageInput);

 // Export as single HTML string with all pages
 string fullHocr = result.SaveAsHocrString();

Imports IronOcr

' Processing multi-page documents
Using multiPageInput As New OcrPdfInput("multi-page-document.pdf")
    multiPageInput.Title = "Multi-Page Document"

    ' Configure for hOCR output
    Dim tesseract As New IronTesseract()
    tesseract.Configuration.RenderHocr = True

    ' Read all pages
    Dim result As OcrResult = tesseract.Read(multiPageInput)

    ' Export as single HTML string with all pages
    Dim fullHocr As String = result.SaveAsHocrString()
End Using

$vbLabelText $csharpLabel

Cette approche fonctionne de manière transparente avec les flux PDF et prend en charge des scénarios avancés tels que le traitement de plages de pages spécifiques ou l'application de différentes configurations d'OCR à différentes pages.

Conseils avancés pour la mise en œuvre de hOCR

Quelles sont les meilleures pratiques pour la qualité des sorties hOCR?

Pour maximiser la qualité de votre résultat hOCR, pensez à appliquer des filtres d'optimisation d'image avant le traitement :

:path=/static-assets/ocr/content-code-examples/how-to/html-hocr-export-5.cs

var input = new OcrImageInput("document.png");
input.DeNoise();  // Remove image noise
input.Deskew();   // Correct image rotation
input.Scale(2);   // Upscale for better recognition

IronTesseract ocr = new IronTesseract();
ocr.Configuration.RenderHocr = true;
var result = ocr.Read(input);

Dim input As New OcrImageInput("document.png")
input.DeNoise()  ' Remove image noise
input.Deskew()   ' Correct image rotation
input.Scale(2)   ' Upscale for better recognition

Dim ocr As New IronTesseract()
ocr.Configuration.RenderHocr = True
Dim result = ocr.Read(input)

$vbLabelText $csharpLabel

Pour les scans de faible qualité, des étapes de prétraitement supplémentaires peuvent améliorer de manière significative la précision de l'hOCR. L'assistant de filtrage aide à déterminer les combinaisons de filtres optimales pour vos types de documents spécifiques.

Comment la structure de hOCR prend-elle en charge le traitement avancé?

Le hOCR généré suit la spécification standard avec des éléments div imbriqués représentant la hiérarchie du document :

<div class='ocr_page' title='bbox 0 0 2480 3508'>
  <div class='ocr_carea' title='bbox 156 114 2324 3395'>
    <p class='ocr_par' title='bbox 157 114 2323 164'>
      <span class='ocr_line' title='bbox 157 114 2323 164'>
        <span class='ocr_word' title='bbox 157 114 294 161'>Hello</span>
        <span class='ocr_word' title='bbox 334 119 483 161'>World</span>
      </span>
    </p>
  </div>
</div>

<div class='ocr_page' title='bbox 0 0 2480 3508'>
  <div class='ocr_carea' title='bbox 156 114 2324 3395'>
    <p class='ocr_par' title='bbox 157 114 2323 164'>
      <span class='ocr_line' title='bbox 157 114 2323 164'>
        <span class='ocr_word' title='bbox 157 114 294 161'>Hello</span>
        <span class='ocr_word' title='bbox 334 119 483 161'>World</span>
      </span>
    </p>
  </div>
</div>

HTML

Cette structure permet une extraction précise de l'emplacement du texte et des capacités d'analyse avancée des documents, ce qui la rend précieuse pour les applications nécessitant des relations spatiales entre les textes ou la préservation de la mise en page. Lorsque vous travaillez avec l'extraction de tableaux, le format hOCR permet de conserver la structure tabulaire et les relations entre les cellules.

Les attributs bbox (bounding box) contiennent des coordonnées au format "bbox left top right bottom", fournissant des données de localisation au pixel près pour chaque élément de texte. Ces informations sont cruciales pour :

Créer des visionneuses de documents interactives avec sélection de texte
Mettre en œuvre des systèmes de rédaction qui préservent la mise en page
Construire des outils d'accessibilité qui maintiennent l'ordre de lecture
Développement de systèmes de comparaison de documents

Pour les développeurs qui ont besoin d'options de configuration encore plus détaillées, le Guide de configuration détaillée de Tesseract fournit des paramètres avancés qui affectent la qualité et la structure de la sortie hOCR.

RenderHocr

Questions Fréquemment Posées

Qu'est-ce que hOCR et pourquoi est-il utile pour les applications d'OCR ?

hOCR (HTML-based OCR) est un format de fichier qui représente les résultats de l'OCR en HTML structuré, stockant à la fois le texte reconnu et les informations spatiales telles que les coordonnées des caractères. IronOcr prend en charge l'exportation hOCR, ce qui est précieux pour les applications nécessitant des données sur la position du texte, l'indexation des documents, les outils d'accessibilité et le maintien de l'intégrité de la mise en page lors du traitement des documents numérisés.

Comment activer la sortie hOCR dans mon application OCR C# ?

Pour activer la sortie hOCR avec IronOCR, définissez la propriété Configuration.RenderHocr sur true sur votre instance IronTesseract. Cela indique à IronOcr de préparer les résultats de l'OCR au format hOCR, ce qui vous permet de les exporter à l'aide des méthodes SaveAsHocrFile ou SaveAsHocrString.

Quelles sont les méthodes disponibles pour exporter les résultats hOCR ?

IronOcr fournit deux méthodes d'exportation des résultats hOCR : SaveAsHocrFile() qui enregistre la sortie directement dans un fichier HTML sur le disque, et SaveAsHocrString() qui renvoie le HTML hOCR sous forme de chaîne de caractères pour un traitement ultérieur ou un stockage dans votre application.

Puis-je exporter des résultats d'OCR en tant que hOCR avec une seule ligne de code ?

Oui, IronOcr permet l'exportation de hOCR en une seule ligne en utilisant le chaînage de méthodes. Vous pouvez créer une instance IronTesseract avec RenderHocr activé, lire votre entrée et appeler SaveAsHocrString() en une seule instruction : var hocr = new IronTesseract { Configuration = { RenderHocr = true } }.Read(new OcrInput("image.png")).SaveAsHocrString() ;

Quel type d'informations spatiales hOCR préserve-t-il à partir des résultats de l'OCR ?

hOCR préserve les informations de mise en page et les coordonnées de chaque caractère reconnu dans l'image ou le document original. L'exportation hOCR d'IronOcr conserve ces données spatiales, permettant des fonctionnalités telles que la mise en évidence du texte pour le débogage, la création de superpositions cliquables sur les images et la compréhension de l'endroit où le texte apparaît sur le document d'origine.

IronOCR prend-elle en charge plusieurs langues ?

IronOCR prend en charge plusieurs langues, ce qui en fait un outil polyvalent pour des applications globales nécessitant la reconnaissance de texte dans différentes langues.

IronOCR peut-il être intégré dans des applications existantes ?

IronOCR est conçu pour être facilement intégré dans les applications existantes en utilisant C#, permettant aux développeurs d'ajouter des fonctionnalités OCR à leur logiciel avec un minimum d'effort.

Quels sont les avantages d'utiliser IronOCR pour la gestion des documents ?

Utiliser IronOCR pour la gestion des documents rationalise le flux de travail en convertissant les documents numérisés en texte modifiable et consultable, réduisant le besoin de saisie manuelle des données et améliorant l'accessibilité des documents.

Comment IronOCR peut-il améliorer la précision des données ?

IronOCR améliore la précision des données grâce à ses algorithmes de reconnaissance avancés et ses fonctionnalités de correction d'image, garantissant que le processus d'extraction de texte est à la fois fiable et précis.

Y a-t-il un essai gratuit disponible pour IronOCR ?

Oui, Iron Software propose un essai gratuit d'IronOCR, permettant aux utilisateurs de tester ses fonctionnalités et capacités avant de prendre une décision d'achat.

Curtis Chau

Discutez maintenant avec l'équipe d'ingénierie

Rédacteur technique

Curtis Chau détient un baccalauréat en informatique (Université de Carleton) et se spécialise dans le développement front-end avec expertise en Node.js, TypeScript, JavaScript et React. Passionné par la création d'interfaces utilisateur intuitives et esthétiquement plaisantes, Curtis aime travailler avec des frameworks modernes ...

Jeffrey T. Fritz

Responsable principal du programme - Équipe de la communauté .NET

Jeff est également responsable principal du programme pour les équipes .NET et Visual Studio. Il est le producteur exécutif de la série de conférences virtuelles .NET Conf et anime 'Fritz and Friends', une diffusion en direct pour développeurs qui est diffusée deux fois par semaine où il parle de technologie et écrit du code avec les téléspectateurs. Jeff écrit des ateliers, des présentations et prévoit du contenu pour les plus grands événements de développement Microsoft, y compris Microsoft Build, Microsoft Ignite, .NET Conf et le sommet Microsoft MVP

Prêt à commencer?

Nuget Téléchargements 6,136,090 | Version : 2026.7 vient de sortir

Voir Licences

Vous faites encore défiler ?

Vous voulez une preuve rapidement ? PM > Install-Package IronOcr
lancez un échantillon regardez votre image se transformer en texte consultable.

Voir Licences

Mise en avant du client :

Projecteur sur les Développeurs:

Webinaires:

Commencer un essai gratuit de 30 jours

Sur cette page

Enregistrez les résultats de l'OCR sous forme de HTML hOCR en C# ; avec IronOCR

Installez IronOCR avec le Gestionnaire de Packages NuGet

Copiez et exécutez cet extrait de code.

Déployez pour tester sur votre environnement de production.

Flux de travail minimal (5 étapes)

Qu'est-ce que hOCR et pourquoi l'utiliser?

Comment exporter les résultats de l'OCR sous forme de fichiers hOCR?

Pourquoi le réglage de RenderHocr est-il important?

Quels sont les types de fichiers compatibles avec hOCR Export?

Comment exporter les résultats de l'OCR sous forme de chaînes HTML?

Quand devrais-je utiliser une sortie de type chaîne de caractères plutôt que des fichiers?

Comment traiter plusieurs pages en chaînes HTML?

Conseils avancés pour la mise en œuvre de hOCR

Quelles sont les meilleures pratiques pour la qualité des sorties hOCR?

Comment la structure de hOCR prend-elle en charge le traitement avancé?

Questions Fréquemment Posées

Qu'est-ce que hOCR et pourquoi est-il utile pour les applications d'OCR ?

Comment activer la sortie hOCR dans mon application OCR C# ?

Quelles sont les méthodes disponibles pour exporter les résultats hOCR ?

Puis-je exporter des résultats d'OCR en tant que hOCR avec une seule ligne de code ?

Quel type d'informations spatiales hOCR préserve-t-il à partir des résultats de l'OCR ?

IronOCR prend-elle en charge plusieurs langues ?

IronOCR peut-il être intégré dans des applications existantes ?

Quels sont les avantages d'utiliser IronOCR pour la gestion des documents ?

Comment IronOCR peut-il améliorer la précision des données ?

Y a-t-il un essai gratuit disponible pour IronOCR ?

Vous faites encore défiler ?

Votre clé de licence a été livrée dans votre boîte de réception

Votre demande de démo est en cours.

Équipe de soutien Iron

Commencer un essai gratuit de 30 jours

Sur cette page

Enregistrez les résultats de l'OCR sous forme de HTML hOCR en C# ; avec IronOCR

Installez IronOCR avec le Gestionnaire de Packages NuGet

Copiez et exécutez cet extrait de code.

Déployez pour tester sur votre environnement de production.

Flux de travail minimal (5 étapes)

Qu'est-ce que hOCR et pourquoi l'utiliser?

Comment exporter les résultats de l'OCR sous forme de fichiers hOCR?

Pourquoi le réglage de RenderHocr est-il important?

Quels sont les types de fichiers compatibles avec hOCR Export?

Comment exporter les résultats de l'OCR sous forme de chaînes HTML?

Quand devrais-je utiliser une sortie de type chaîne de caractères plutôt que des fichiers?

Comment traiter plusieurs pages en chaînes HTML?

Conseils avancés pour la mise en œuvre de hOCR

Quelles sont les meilleures pratiques pour la qualité des sorties hOCR?

Comment la structure de hOCR prend-elle en charge le traitement avancé?

Questions Fréquemment Posées

Qu'est-ce que hOCR et pourquoi est-il utile pour les applications d'OCR ?

Comment activer la sortie hOCR dans mon application OCR C# ?

Quelles sont les méthodes disponibles pour exporter les résultats hOCR ?

Puis-je exporter des résultats d'OCR en tant que hOCR avec une seule ligne de code ?

Quel type d'informations spatiales hOCR préserve-t-il à partir des résultats de l'OCR ?

IronOCR prend-elle en charge plusieurs langues ?

IronOCR peut-il être intégré dans des applications existantes ?

Quels sont les avantages d'utiliser IronOCR pour la gestion des documents ?

Comment IronOCR peut-il améliorer la précision des données ?

Y a-t-il un essai gratuit disponible pour IronOCR ?

Vous faites encore défiler ?

Obtenez votre GRATUIT

Étape suivante : Commencer l'essai gratuit de 30 jours

Thank You

Étape suivante : Commencer l'essai gratuit de 30 jours

Vous voulez déployer IronSuite sur un projet en direct GRATUITEMENT ?

Qu'est-ce qui est inclus ?

Votre clé de licence a été livrée dans votre boîte de réception

Votre demande de démo est en cours.

De confiance par des millions d'ingénieurs dans le monde entier

Équipe de soutien Iron