Cómo guardar los resultados como hOCR en un archivo HTML

Chaknith related to Cómo guardar los resultados como hOCR en un archivo HTML
Chaknith Bin
22 de octubre, 2023
Actualizado 10 de diciembre, 2024
Compartir:
This article was translated from English: Does it need improvement?
Translated
View the article in English

hOCR, que significa "OCR basado en HTML," es un formato de archivo utilizado para representar los resultados del Reconocimiento Óptico de Caracteres (OCR) de manera estructurada. Los archivos HOCR generalmente se escriben en HTML (Hypertext Markup Language) y proporcionan una manera de almacenar texto reconocido, información de diseño y las coordenadas de cada carácter reconocido dentro de una imagen o documento.

IronOCR ofrece una solución para realizar el reconocimiento óptico de caracteres en documentos y exportar los resultados como hOCR en formato HTML. Admite tanto archivos HTML como cadenas.

Comience con IronOCR

Comience a usar IronOCR en su proyecto hoy con una prueba gratuita.

Primer Paso:
green arrow pointer



Exportar resultado como hOCR Ejemplo

Para exportar el resultado como hOCR, el usuario debe primero habilitar la propiedad Configuration.RenderHocr estableciéndola en true. Después de obtener el objeto de resultado de OCR del método Read, utiliza el método SaveAsHocrFile para exportar el resultado de OCR como HTML. Este método generará un archivo HTML que contendrá el resultado de la lectura de los documentos de entrada. El código a continuación demuestra el uso del siguiente archivo TIFF de muestra.

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
imageInput.Title = "Html Title";

// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as HTML
ocrResult.SaveAsHocrFile("result.html");
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
imageInput.Title = "Html Title"

' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as HTML
ocrResult.SaveAsHocrFile("result.html")
$vbLabelText   $csharpLabel

Exportar resultado como cadena HTML

Usando la misma imagen de muestra TIFF, puedes utilizar el método SaveAsHocrString para exportar el resultado de OCR como una cadena HTML. Este método devolverá una cadena HTML.

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html-string.cs
// Export as HTML string
string hocr = ocrResult.SaveAsHocrString();
' Export as HTML string
Dim hocr As String = ocrResult.SaveAsHocrString()
$vbLabelText   $csharpLabel
Chaknith related to Exportar resultado como cadena HTML
Ingeniero de software
Chaknith es el Sherlock Holmes de los desarrolladores. La primera vez que se le ocurrió que podría tener futuro en la ingeniería de software fue cuando hacía retos de código por diversión. Su trabajo se centra en IronXL e IronBarcode, pero se enorgullece de ayudar a los clientes con todos los productos. Chaknith aprovecha sus conocimientos, adquiridos hablando directamente con los clientes, para ayudar a mejorar los propios productos. Sus comentarios anecdóticos van más allá de los tickets de Jira y apoyan el desarrollo de productos, la documentación y el marketing, para mejorar la experiencia general del cliente.Cuando no está en la oficina, se le puede encontrar aprendiendo sobre aprendizaje automático, codificación y senderismo.