如何将 OCR 结果保存为 HTML 文件中的 hOCR | IronOCR

使用 IronOCR 将 OCR 结果保存为 C# 中的 hOCR HTML

This article was translated from English: Does it need improvement?
Translated
View the article in English

hOCR,即"基于 HTML 的 OCR",是一种用于以结构化方式表示光学字符识别 (OCR) 结果的文件格式。 HOCR 文件通常用 HTML(超文本标记语言)编写,提供了一种存储识别的文本、布局信息以及图像或文档中每个识别字符的坐标的方法。

快速入门:将 OCR 输出保存为 hOCR HTML 文件

使用 IronOCR 最简单的方法是:只需一次设置和一次调用,即可启用 hOCR 渲染并将结果直接导出到 HTML 文件。 开发人员可以快速上手,并在短时间内看到 OCR 结果以可用的 HTML 标记形式呈现。

Nuget Icon立即开始使用 NuGet 创建 PDF 文件:

  1. 使用 NuGet 包管理器安装 IronOCR

    PM > Install-Package IronOcr

  2. 复制并运行这段代码。

    var hocr = new IronTesseract { Configuration = { RenderHocr = true } }.Read(new OcrInput("image.png")).SaveAsHocrString();
  3. 部署到您的生产环境中进行测试

    立即开始在您的项目中使用 IronOCR,免费试用!
    arrow pointer


导出结果为 hOCR 示例

要将结果导出为 hOCR,用户必须首先将Configuration.RenderHocr属性设置为 true 以启用该属性。 通过Read方法获取 OCR 结果对象后,使用SaveAsHocrFile方法将 OCR 结果导出为 HTML。 此方法将输出一个 HTML 文件,其中包含读取输入文档的结果。 以下代码演示了如何使用以下示例 TIFF文件。

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
imageInput.Title = "Html Title";

// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as HTML
ocrResult.SaveAsHocrFile("result.html");
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
imageInput.Title = "Html Title"

' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as HTML
ocrResult.SaveAsHocrFile("result.html")
$vbLabelText   $csharpLabel

将结果导出为 HTML 字符串

使用相同的 TIFF 示例图像,您可以利用SaveAsHocrString方法将 OCR 结果导出为 HTML 字符串。 此方法将返回一个 HTML 字符串。

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html-string.cs
// Export as HTML string
string hocr = ocrResult.SaveAsHocrString();
' Export as HTML string
Dim hocr As String = ocrResult.SaveAsHocrString()
$vbLabelText   $csharpLabel

常见问题解答

什么是hOCR以及为什么使用它?

hOCR是“基于HTML的OCR”的简称,它是一种文件格式,用于以结构化方式表示光学字符识别的结果。它用于存储识别的文本、布局信息以及图像或文档中每个字符的坐标,通常以HTML格式。

如何使用C#将OCR结果保存为hOCR文件?

您可以使用 IronOCR 将 OCR 结果保存为 hOCR 文件,方法是先将 RenderHocr 属性设置为 true,然后使用 SaveAsHocrFile 方法将结果输出为 HTML 文件。

OCR结果是否可以导出为HTML字符串?

是的,OCR 结果可以使用 IronOCR 导出为 HTML 字符串,方法是将 RenderHocr 属性设置为 true 并使用 SaveAsHocrString 方法,该方法以 HTML 字符串格式返回 OCR 结果。

IronOCR是否支持图像和PDF的OCR处理?

IronOCR支持图像和PDF文档的OCR处理,允许用户将结果导出为HTML格式的hOCR。

将OCR结果导出为C#中的hOCR需要哪些步骤?

要使用 C# 导出 OCR 结果为 hOCR,请下载 IronOCR 库,准备您的图像或 PDF 文档,将 RenderHocr 属性设置为 true,并使用 SaveAsHocrFileSaveAsHocrString 导出结果。

什么编程环境适合使用IronOCR?

IronOCR适合在.NET C#编程环境中使用,非常适合使用C#的开发人员。

是否有用于将OCR结果保存为hOCR的示例代码?

是的,IronOCR提供示例C#代码,演示如何从图像文件读取文本并将OCR结果保存为hOCR文件或字符串,示例使用样本TIFF文件。

在IronOCR中如何使用RenderHocr属性?

IronOCR 中的 RenderHocr 属性用于启用以 hOCR 格式导出 OCR 结果。将其设置为 true 可将结果导出为 HTML 文件或字符串。

Chaknith Bin
软件工程师
Chaknith 在 IronXL 和 IronBarcode 工作。他在 C# 和 .NET 方面有着深厚的专业知识,帮助改进软件并支持客户。他从用户互动中获得的见解有助于更好的产品、文档和整体体验。
审核者
Jeff Fritz
Jeffrey T. Fritz
首席项目经理 - .NET 社区团队
Jeff 也是 .NET 和 Visual Studio 团队的首席项目经理。他是 .NET Conf 虚拟会议系列的执行制片人,并主持“Fritz and Friends”直播节目,每周两次与观众一起谈论技术并编写代码。Jeff 撰写研讨会、演示文稿并计划包括 Microsoft Build、Microsoft Ignite、.NET Conf 和 Microsoft MVP 峰会在内的最大型微软开发者活动的内容。
准备开始了吗?
Nuget 下载 5,167,857 | Version: 2025.11 刚刚发布