Cómo guardar resultados como hOCR en un archivo HTML | IronOCR

Guardar los resultados de OCR como HTML hOCR en C# con IronOCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

hOCR, que significa "OCR basado en HTML," es un formato de archivo utilizado para representar los resultados del Reconocimiento Óptico de Caracteres (OCR) de manera estructurada. Los archivos HOCR generalmente se escriben en HTML (Lenguaje de Marcado de Hipertexto) y proporcionan una manera de almacenar texto reconocido, información de diseño y las coordenadas de cada caracter reconocido dentro de una imagen o documento.

Inicio rápido: Guardar salida de OCR como archivo HTML hOCR

Aquí está la manera más fácil de comenzar y poner en marcha IronOCR: habilitar el renderizado hOCR y exportar resultados directamente a un archivo HTML con solo una configuración y una llamada. Los desarrolladores pueden ver resultados de OCR en HTML utilizable rápidamente.

Nuget IconEmpieza a crear PDF con NuGet ahora:

  1. Instalar IronOCR con el gestor de paquetes NuGet

    PM > Install-Package IronOcr

  2. Copie y ejecute este fragmento de código.

    var hocr = new IronTesseract { Configuration = { RenderHocr = true } }.Read(new OcrInput("image.png")).SaveAsHocrString();
  3. Despliegue para probar en su entorno real

    Empieza a utilizar IronOCR en tu proyecto hoy mismo con una prueba gratuita
    arrow pointer


Ejemplo de exportación de resultados como hOCR

Para exportar el resultado como hOCR, el usuario primero debe habilitar la propiedad Configuration.RenderHocr configurándola a true. Después de obtener el objeto del resultado de OCR del método Read, utilice el método SaveAsHocrFile para exportar el resultado de OCR como HTML. Este método generará un archivo HTML que contiene el resultado de lectura de los documentos de entrada. El código a continuación demuestra el uso del archivo TIFF de muestra.

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
imageInput.Title = "Html Title";

// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as HTML
ocrResult.SaveAsHocrFile("result.html");
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
imageInput.Title = "Html Title"

' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as HTML
ocrResult.SaveAsHocrFile("result.html")
$vbLabelText   $csharpLabel

Exportar resultado como cadena HTML

Usando la misma imagen de muestra TIFF, puede utilizar el método SaveAsHocrString para exportar el resultado de OCR como una cadena HTML. Este método devolverá una cadena HTML.

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html-string.cs
// Export as HTML string
string hocr = ocrResult.SaveAsHocrString();
' Export as HTML string
Dim hocr As String = ocrResult.SaveAsHocrString()
$vbLabelText   $csharpLabel

Preguntas Frecuentes

¿Qué es hOCR y por qué se utiliza?

hOCR significa 'OCR basado en HTML', y es un formato de archivo utilizado para representar los resultados del Reconocimiento Óptico de Caracteres de manera estructurada. Se utiliza para almacenar texto reconocido, información de diseño y las coordenadas de cada carácter dentro de una imagen o documento, generalmente en formato HTML.

¿Cómo puedo guardar resultados OCR como un archivo hOCR usando C#?

Puedes guardar resultados OCR como un archivo hOCR usando IronOCR estableciendo primero la propiedad RenderHocr a verdadero, y luego usando el método SaveAsHocrFile para obtener los resultados como un archivo HTML.

¿Pueden los resultados del OCR exportarse como una cadena HTML?

Sí, los resultados del OCR pueden exportarse como una cadena HTML usando IronOCR estableciendo la propiedad RenderHocr a verdadero y empleando el método SaveAsHocrString, que devuelve los resultados del OCR en formato de cadena HTML.

¿IronOCR soporta el procesamiento de OCR tanto para imágenes como para PDFs?

IronOCR soporta el procesamiento de OCR tanto para imágenes como documentos PDF, permitiendo a los usuarios exportar los resultados como hOCR en formato HTML.

¿Qué pasos están involucrados en exportar resultados OCR como hOCR en C#?

Para exportar resultados OCR como hOCR usando C#, descarga la biblioteca IronOCR, prepara tu imagen o documento PDF, establece la propiedad RenderHocr a verdadero, y utiliza ya sea SaveAsHocrFile o SaveAsHocrString para exportar los resultados.

¿Qué entorno de programación es adecuado para usar IronOCR?

IronOCR es adecuado para su uso dentro del entorno de programación .NET C#, siendo ideal para desarrolladores que trabajan con C#.

¿Hay un código de ejemplo disponible para guardar resultados OCR como hOCR?

Sí, IronOCR proporciona un ejemplo de código C# que demuestra cómo leer texto de un archivo de imagen y guardar los resultados del OCR como un archivo o cadena hOCR, con ejemplos prácticos usando archivos TIFF de muestra.

¿Cómo se utiliza la propiedad RenderHocr en IronOCR?

La propiedad RenderHocr en IronOCR se usa para habilitar la exportación de resultados OCR en formato hOCR. Establecerlo en verdadero permite que los resultados se exporten como un archivo o cadena HTML.

Chaknith Bin
Ingeniero de Software
Chaknith trabaja en IronXL e IronBarcode. Tiene un profundo conocimiento en C# y .NET, ayudando a mejorar el software y apoyar a los clientes. Sus conocimientos derivados de las interacciones con los usuarios contribuyen a mejores productos, documentación y experiencia en general.
Revisado por
Jeff Fritz
Jeffrey T. Fritz
Gerente Principal de Programas - Equipo de la Comunidad .NET
Jeff también es Gerente Principal de Programas para los equipos de .NET y Visual Studio. Es el productor ejecutivo de la serie de conferencias virtuales .NET Conf y anfitrión de 'Fritz and Friends', una transmisión en vivo para desarrolladores que se emite dos veces a la semana donde habla sobre tecnología y escribe código junto con la audiencia. Jeff escribe talleres, presentaciones, y planifica contenido para los eventos de desarrolladores más importantes de Microsoft, incluyendo Microsoft Build, Microsoft Ignite, .NET Conf y la Cumbre de Microsoft MVP.
¿Listo para empezar?
Nuget Descargas 5,167,857 | Version: 2025.11 recién lanzado