Cómo guardar los resultados como hOCR en un archivo HTML
hOCR, acrónimo de "HTML-based OCR" (reconocimiento óptico de caracteres basado en HTML), es un formato de archivo utilizado para representar los resultados del reconocimiento óptico de caracteres.(OCR) de forma estructurada. Los archivos HOCR suelen estar escritos en HTML(Lenguaje de marcado de hipertexto) y proporcionan una forma de almacenar el texto reconocido, la información de diseño y las coordenadas de cada carácter reconocido dentro de una imagen o documento.
IronOCR ofrece una solución para realizar el reconocimiento óptico de caracteres en documentos y exportar los resultados como hOCR en formato HTML. Admite tanto archivos HTML como cadenas.
Comience con IronOCR
Comience a usar IronOCR en su proyecto hoy con una prueba gratuita.
Cómo guardar los resultados como hOCR en un archivo HTML
Exportar resultado como hOCR Ejemplo
Para exportar el resultado como hOCR, el usuario debe activar primero la propiedad Configuration.RenderHocr poniéndola a true. Después de obtener el objeto de resultado OCR del método Read
, utilice el método SaveAsHocrFile
para exportar el resultado OCR como HTML. Este método generará un archivo HTML que contendrá el resultado de la lectura de los documentos de entrada. El siguiente código demuestra el uso demuestra TIFF archivo.
:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html.cs
using IronOcr;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = true;
// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
imageInput.Title = "Html Title";
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);
// Export as HTML
ocrResult.SaveAsHocrFile("result.html");
Imports IronOcr
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = True
' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
imageInput.Title = "Html Title"
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)
' Export as HTML
ocrResult.SaveAsHocrFile("result.html")
Exportar resultado como cadena HTML
Utilizando la misma imagen TIFF de muestra, puede utilizar el método SaveAsHocrString
para exportar el resultado del OCR como una cadena HTML. Este método devolverá una cadena HTML.
:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html-string.cs
// Export as HTML string
string hocr = ocrResult.SaveAsHocrString();
' Export as HTML string
Dim hocr As String = ocrResult.SaveAsHocrString()