Comment enregistrer des résultats en tant que hOCR dans un fichier HTML | IronOCR

How to Save Results as hOCR in an HTML File

This article was translated from English: Does it need improvement?
Translated
View the article in English

hOCR, qui signifie "HTML-based OCR", est un format de fichier utilisé pour représenter les résultats de la reconnaissance optique de caractères (OCR) de manière structurée. Les fichiers HOCR sont généralement écrits en HTML (Hypertext Markup Language) et permettent de stocker le texte reconnu, les informations de mise en page et les coordonnées de chaque caractère reconnu dans une image ou un document.

Quickstart : Save OCR Output as hOCR HTML File

Voici la façon la plus simple d'être opérationnel avec IronOcr : activez le rendu hOCR et exportez les résultats directement vers un fichier HTML en une seule configuration et un seul appel. Les développeurs peuvent commencer rapidement et voir les résultats de l'OCR dans un balisage HTML utilisable en quelques instants.

Nuget IconGet started making PDFs with NuGet now:

  1. Install IronOCR with NuGet Package Manager

    PM > Install-Package IronOcr

  2. Copy and run this code snippet.

    var hocr = new IronTesseract { Configuration = { RenderHocr = true } }.Read(new OcrInput("image.png")).SaveAsHocrString();
  3. Deploy to test on your live environment

    Start using IronOCR in your project today with a free trial
    arrow pointer


Résultat de l'exportation en tant qu'exemple hOCR

Pour exporter le résultat au format hOCR, l'utilisateur doit d'abord activer la propriété Configuration.RenderHocr en lui attribuant la valeur true. Après avoir obtenu l'objet résultat de l'OCR à partir de la méthode Read, utilisez la méthode SaveAsHocrFile pour exporter le résultat de l'OCR au format HTML. Cette méthode produira un fichier HTML contenant le résultat de la lecture des documents d'entrée. Le code ci-dessous démontre l'utilisation du fichier fichier TIFF suivant.

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
imageInput.Title = "Html Title";

// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as HTML
ocrResult.SaveAsHocrFile("result.html");
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
imageInput.Title = "Html Title"

' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as HTML
ocrResult.SaveAsHocrFile("result.html")
$vbLabelText   $csharpLabel

Exporter le résultat en tant que chaîne HTML

En utilisant le même exemple d'image TIFF, vous pouvez utiliser la méthode SaveAsHocrString pour exporter le résultat de l'OCR en tant que chaîne HTML. Cette méthode renvoie une chaîne HTML.

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html-string.cs
// Export as HTML string
string hocr = ocrResult.SaveAsHocrString();
' Export as HTML string
Dim hocr As String = ocrResult.SaveAsHocrString()
$vbLabelText   $csharpLabel

Questions Fréquemment Posées

Qu'est-ce que le hOCR et pourquoi est-il utilisé ?

hOCR signifie 'OCR basé sur HTML', et c'est un format de fichier utilisé pour représenter les résultats de la reconnaissance optique de caractères de manière structurée. Il est utilisé pour stocker le texte reconnu, les informations de mise en page et les coordonnées de chaque caractère dans une image ou un document, généralement au format HTML.

Comment puis-je enregistrer les résultats OCR en tant que fichier hOCR à l'aide de C# ?

Vous pouvez enregistrer les résultats OCR en tant que fichier hOCR en utilisant IronOCR en définissant d'abord la propriété RenderHocr sur true, puis en utilisant la méthode SaveAsHocrFile pour générer les résultats en tant que fichier HTML.

Les résultats OCR peuvent-ils être exportés en tant que chaîne HTML ?

Oui, les résultats OCR peuvent être exportés en tant que chaîne HTML en utilisant IronOCR en définissant la propriété RenderHocr sur true et en employant la méthode SaveAsHocrString, qui renvoie les résultats OCR au format chaîne HTML.

IronOCR prend-il en charge le traitement OCR pour les images et les PDFs ?

IronOCR prend en charge le traitement OCR pour les images et les documents PDF, permettant aux utilisateurs d'exporter les résultats en hOCR au format HTML.

Quelles étapes sont impliquées dans l'exportation des résultats OCR en hOCR en C# ?

Pour exporter les résultats OCR en hOCR à l'aide de C#, téléchargez la bibliothèque IronOCR, préparez votre image ou document PDF, définissez la propriété RenderHocr sur true, et utilisez soit SaveAsHocrFile, soit SaveAsHocrString pour exporter les résultats.

Quel environnement de programmation est adapté à l'utilisation de IronOCR ?

IronOCR est adapté à une utilisation dans l'environnement de programmation .NET C#, ce qui le rend idéal pour les développeurs travaillant avec C#.

Y a-t-il un code d'exemple disponible pour enregistrer les résultats OCR au format hOCR ?

Oui, IronOCR fournit un exemple de code C# démontrant comment lire du texte à partir d'un fichier image et enregistrer les résultats OCR en tant que fichier hOCR ou chaîne, avec des exemples pratiques utilisant des fichiers TIFF d'exemple.

Comment la propriété RenderHocr est-elle utilisée dans IronOCR ?

La propriété RenderHocr dans IronOCR est utilisée pour permettre l'exportation des résultats OCR au format hOCR. La définir sur true permet aux résultats d'être exportés soit sous forme de fichier HTML, soit sous forme de chaîne.

Chaknith Bin
Ingénieur logiciel
Chaknith travaille sur IronXL et IronBarcode. Il a une expertise approfondie en C# et .NET, aidant à améliorer le logiciel et à soutenir les clients. Ses idées issues des interactions avec les utilisateurs contribuent à de meilleurs produits, documentation et expérience globale.
Revu par
Jeff Fritz
Jeffrey T. Fritz
Responsable principal du programme - Équipe de la communauté .NET
Jeff est également responsable principal du programme pour les équipes .NET et Visual Studio. Il est le producteur exécutif de la série de conférences virtuelles .NET Conf et anime 'Fritz and Friends', une diffusion en direct pour développeurs qui est diffusée deux fois par semaine où il parle de technologie et écrit du code avec les téléspectateurs. Jeff écrit des ateliers, des présentations et prévoit du contenu pour les plus grands événements de développement Microsoft, y compris Microsoft Build, Microsoft Ignite, .NET Conf et le sommet Microsoft MVP
Prêt à commencer?
Nuget Téléchargements 5,044,537 | Version : 2025.11 vient de sortir