Cómo guardar los resultados como hOCR en un archivo HTML

por Chaknith Bin

hOCR, acrónimo de "HTML-based OCR" (reconocimiento óptico de caracteres basado en HTML), es un formato de archivo utilizado para representar los resultados del reconocimiento óptico de caracteres. (OCR) de forma estructurada. Los archivos HOCR suelen estar escritos en HTML (Lenguaje de marcado de hipertexto) y proporcionan una forma de almacenar el texto reconocido, la información de diseño y las coordenadas de cada carácter reconocido dentro de una imagen o documento.

IronOCR ofrece una solución para realizar el reconocimiento óptico de caracteres en documentos y exportar los resultados como hOCR en formato HTML. Admite tanto archivos HTML como cadenas.


Biblioteca NuGet C# para OCR

Instalar con NuGet

Install-Package IronOcr
o
Java PDF JAR

Descargar DLL

Descargar DLL

Instalar manualmente en su proyecto

Exportar resultado como hOCR Ejemplo

Para exportar el resultado como hOCR, el usuario debe activar primero la propiedad Configuration.RenderHocr poniéndola a true. Después de obtener el objeto de resultado OCR del método Read, utilice el método SaveAsHocrFile para exportar el resultado OCR como HTML. Este método generará un archivo HTML que contendrá el resultado de la lectura de los documentos de entrada. El siguiente código demuestra el uso de muestra TIFF archivo.

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html.cs
using IronOcr;

//  Instanciar IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

//  Habilitar renderizado como hOCR
ocrTesseract.Configuration.RenderHocr = true;

//  Añadir imagen
using var imageInput = new OcrImageInput("Potter.tiff");
imageInput.Title = "Html Title";

//  Realizar OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

//  Exportar como HTML
ocrResult.SaveAsHocrFile("result.html");
Imports IronOcr

'  Instanciar IronTesseract
Private ocrTesseract As New IronTesseract()

'  Habilitar renderizado como hOCR
ocrTesseract.Configuration.RenderHocr = True

'  Añadir imagen
Dim imageInput = New OcrImageInput("Potter.tiff")
imageInput.Title = "Html Title"

'  Realizar OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

'  Exportar como HTML
ocrResult.SaveAsHocrFile("result.html")
VB   C#

Exportar resultado como cadena HTML

Utilizando la misma imagen TIFF de muestra, puede utilizar el método SaveAsHocrString para exportar el resultado del OCR como una cadena HTML. Este método devolverá una cadena HTML.

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html-string.cs
//  Exportar como cadena HTML
string hocr = ocrResult.SaveAsHocrString();
'  Exportar como cadena HTML
Dim hocr As String = ocrResult.SaveAsHocrString()
VB   C#

Chaknith Bin

Ingeniero de software

Chaknith es el Sherlock Holmes de los desarrolladores. La primera vez que se le ocurrió que podría tener futuro en la ingeniería de software fue cuando hacía retos de código por diversión. Su trabajo se centra en IronXL e IronBarcode, pero se enorgullece de ayudar a los clientes con todos los productos. Chaknith aprovecha sus conocimientos, adquiridos hablando directamente con los clientes, para ayudar a mejorar los propios productos. Sus comentarios anecdóticos van más allá de los tickets de Jira y apoyan el desarrollo de productos, la documentación y el marketing, para mejorar la experiencia general del cliente.Cuando no está en la oficina, se le puede encontrar aprendiendo sobre aprendizaje automático, codificación y senderismo.