Comment enregistrer les résultats sous forme de hOCR dans un fichier HTML ?

This article was translated from English: Does it need improvement?
Translated
View the article in English

par Chaknith Bin

hOCR, qui signifie "HTML-based OCR", est un format de fichier utilisé pour représenter les résultats de la reconnaissance optique de caractères(OCR) de manière structurée. Les fichiers HOCR sont généralement rédigés en HTML(Langage de balisage hypertexte) et permettent de stocker le texte reconnu, les informations de mise en page et les coordonnées de chaque caractère reconnu dans une image ou un document.

IronOCR est une solution permettant d'effectuer la reconnaissance optique de caractères sur des documents et d'exporter les résultats sous forme de hOCR au format HTML. Il prend en charge les fichiers HTML et les chaînes de caractères.

Commencez avec IronOCR

Commencez à utiliser IronOCR dans votre projet dès aujourd'hui avec un essai gratuit.

Première étape :
green arrow pointer



Exporter le résultat en tant qu'exemple hOCR

Pour exporter le résultat au format hOCR, l'utilisateur doit d'abord activer la propriété Configuration.RenderHocr en lui attribuant la valeur true. Après avoir obtenu l'objet résultat de l'OCR par la méthode Read, utilisez la méthode SaveAsHocrFile pour exporter le résultat de l'OCR au format HTML. Cette méthode produit un fichier HTML qui contient le résultat de la lecture des documents d'entrée. Le code ci-dessous illustre l'utilisation de la méthode suivanteéchantillon TIFF fichier.

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
imageInput.Title = "Html Title";

// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as HTML
ocrResult.SaveAsHocrFile("result.html");
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
imageInput.Title = "Html Title"

' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as HTML
ocrResult.SaveAsHocrFile("result.html")
VB   C#

Exporter le résultat sous forme de chaîne HTML

En utilisant le même échantillon d'image TIFF, vous pouvez utiliser la méthode SaveAsHocrString pour exporter le résultat de l'OCR sous forme de chaîne HTML. Cette méthode renvoie une chaîne HTML.

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html-string.cs
// Export as HTML string
string hocr = ocrResult.SaveAsHocrString();
' Export as HTML string
Dim hocr As String = ocrResult.SaveAsHocrString()
VB   C#
Chaknith related to Exporter le résultat sous forme de chaîne HTML

Chaknith Bin

Ingénieur logiciel

Chaknith est le Sherlock Holmes des développeurs. C'est en s'amusant à relever des défis de code qu'il s'est rendu compte pour la première fois qu'il pourrait avoir un avenir dans le domaine de l'ingénierie logicielle. Il se concentre sur IronXL et IronBarcode, mais il est fier d'aider les clients avec chaque produit. Chaknith tire parti des connaissances qu'il a acquises en discutant directement avec les clients pour améliorer les produits eux-mêmes. Ses commentaires anecdotiques vont au-delà des tickets Jira et soutiennent le développement de produits, la documentation et le marketing, afin d'améliorer l'expérience globale des clients.Quand il n'est pas au bureau, on peut le trouver en train d'apprendre sur l'apprentissage automatique, le codage et la randonnée.