Comment enregistrer les résultats sous forme de hOCR dans un fichier HTML ?
hOCR, qui signifie "HTML-based OCR", est un format de fichier utilisé pour représenter les résultats de la reconnaissance optique de caractères(OCR) de manière structurée. Les fichiers HOCR sont généralement rédigés en HTML(Langage de balisage hypertexte) et permettent de stocker le texte reconnu, les informations de mise en page et les coordonnées de chaque caractère reconnu dans une image ou un document.
IronOCR est une solution permettant d'effectuer la reconnaissance optique de caractères sur des documents et d'exporter les résultats sous forme de hOCR au format HTML. Il prend en charge les fichiers HTML et les chaînes de caractères.
Commencez avec IronOCR
Commencez à utiliser IronOCR dans votre projet dès aujourd'hui avec un essai gratuit.
Comment enregistrer les résultats sous forme de hOCR dans un fichier HTML ?
- Télécharger une bibliothèque C# pour enregistrer les résultats sous forme de hOCR dans un fichier HTML
- Préparer l'image ciblée et le document PDF
- Régler le RenderHocr à true (vrai)
- Utiliser le
SaveAsHocrFile
pour produire un fichier HTML - Utiliser le
SaveAsHocrString
pour produire une chaîne de caractères HTML
Exporter le résultat en tant qu'exemple hOCR
Pour exporter le résultat au format hOCR, l'utilisateur doit d'abord activer la propriété Configuration.RenderHocr en lui attribuant la valeur true. Après avoir obtenu l'objet résultat de l'OCR par la méthode Read
, utilisez la méthode SaveAsHocrFile
pour exporter le résultat de l'OCR au format HTML. Cette méthode produit un fichier HTML qui contient le résultat de la lecture des documents d'entrée. Le code ci-dessous illustre l'utilisation de la méthode suivanteéchantillon TIFF fichier.
:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html.cs
using IronOcr;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = true;
// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
imageInput.Title = "Html Title";
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);
// Export as HTML
ocrResult.SaveAsHocrFile("result.html");
Imports IronOcr
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = True
' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
imageInput.Title = "Html Title"
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)
' Export as HTML
ocrResult.SaveAsHocrFile("result.html")
Exporter le résultat sous forme de chaîne HTML
En utilisant le même échantillon d'image TIFF, vous pouvez utiliser la méthode SaveAsHocrString
pour exporter le résultat de l'OCR sous forme de chaîne HTML. Cette méthode renvoie une chaîne HTML.
:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html-string.cs
// Export as HTML string
string hocr = ocrResult.SaveAsHocrString();
' Export as HTML string
Dim hocr As String = ocrResult.SaveAsHocrString()