如何在 HTML 中將結果保存為 hOCR | IronOCR

使用 IronOCR 將 OCR 結果儲存為 C# 中的 hOCR HTML

This article was translated from English: Does it need improvement?
Translated
View the article in English

hOCR,即"基於 HTML 的 OCR",是一種用於以結構化方式表示光學字元辨識 (OCR) 結果的檔案格式。 HOCR 檔案通常以 HTML(超文本標記語言)編寫,提供了一種儲存識別的文字、佈局資訊以及圖像或文件中每個識別字元的座標的方法。

快速入門:將 OCR 輸出儲存為 hOCR HTML 檔案

使用 IronOCR 最簡單的方法是:只需一次設定和一次調用,即可啟用 hOCR 渲染並將結果直接匯出到 HTML 檔案。 開發人員可以快速上手,並在短時間內看到 OCR 結果以可用的 HTML 標記形式呈現。

Nuget Icon立即開始使用 NuGet 建立 PDF 檔案:

  1. 使用 NuGet 套件管理器安裝 IronOCR

    PM > Install-Package IronOcr

  2. 複製並運行這段程式碼。

    var hocr = new IronTesseract { Configuration = { RenderHocr = true } }.Read(new OcrInput("image.png")).SaveAsHocrString();
  3. 部署到您的生產環境進行測試

    立即開始在您的專案中使用 IronOCR,免費試用!
    arrow pointer


匯出結果為 hOCR 範例

若要將結果匯出為 hOCR,使用者必須先將Configuration.RenderHocr屬性設為 true 以啟用該屬性。 透過Read方法取得 OCR 結果物件後,使用SaveAsHocrFile方法將 OCR 結果匯出為 HTML。 此方法將輸出一個 HTML 文件,其中包含讀取輸入文檔的結果。 以下程式碼示範如何使用以下範例 TIFF檔案。

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
imageInput.Title = "Html Title";

// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as HTML
ocrResult.SaveAsHocrFile("result.html");
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
imageInput.Title = "Html Title"

' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as HTML
ocrResult.SaveAsHocrFile("result.html")
$vbLabelText   $csharpLabel

將結果匯出為 HTML 字串

使用相同的 TIFF 範例圖像,您可以利用SaveAsHocrString方法將 OCR 結果匯出為 HTML 字串。 此方法將傳回一個 HTML 字串。

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html-string.cs
// Export as HTML string
string hocr = ocrResult.SaveAsHocrString();
' Export as HTML string
Dim hocr As String = ocrResult.SaveAsHocrString()
$vbLabelText   $csharpLabel

常見問題解答

什么是 hOCR 以及它为何被使用?

hOCR 代表 '基于 HTML 的 OCR',是一种用于以结构化方式表示光学字符识别(OCR)结果的文件格式。它用于存储识别的文本、布局信息以及图像或文档中每个字符的坐标,通常以 HTML 格式呈现。

如何使用 C# 将 OCR 结果保存为 hOCR 文件?

您可以通过首先将 RenderHocr 属性设置为 true,然后使用 SaveAsHocrFile 方法输出 HTML 文件,将 IronOCR 的 OCR 结果保存为 hOCR 文件。

OCR 结果可以导出为 HTML 字符串吗?

是的,您可以將 IronOCR 的 OCR 結果導出為 HTML 字符串,方法是將 RenderHocr 設置為 true 並使用 SaveAsHocrString

IronOCR 是否支持图像和 PDF 的 OCR 处理?

IronOCR 支持图像和 PDF 文档的 OCR 处理,允许用户将结果以 hOCR 格式导出为 HTML。

导出 OCR 结果为 C# 中的 hOCR 的步骤有哪些?

要使用 C# 将 OCR 结果导出为 hOCR,请下载 IronOCR 库,准备好您的图像或 PDF 文档,将 RenderHocr 属性设置为 true,然后使用 SaveAsHocrFileSaveAsHocrString 导出结果。

哪个编程环境适合使用 IronOCR?

.NET C# 编程环境适合使用 IronOCR,适合从事 C# 开发的开发者。

是否有用于将 OCR 结果保存为 hOCR 的示例代码?

是的,IronOCR 提供示例 C# 代码,展示如何从图像文件读取文本并将 OCR 结果保存为 hOCR 文件或字符串,并使用示例 TIFF 文件进行实际操作示例。

如何在 IronOCR 中使用 RenderHocr 属性?

IronOCR 中的 RenderHocr 属性用于启用以 hOCR 格式导出 OCR 结果。将其设置为 true 允许将结果导出为 HTML 文件或字符串。

Chaknith Bin
軟體工程師
Chaknith 在 IronXL 和 IronBarcode 上工作。他對 C# 和 .NET 擁有深厚的專業知識,幫助改進了軟體並支持客戶。他從用戶互動中得到的見解有助於改善產品、文檔和整體體驗。
審核人
Jeff Fritz
Jeffrey T. Fritz
首席程序经理 - .NET 社区团队
Jeff 也是 .NET 和 Visual Studio 团队的首席程序经理。他是 .NET Conf 虚拟会议系列的执行制作人,并主持“Fritz 和朋友”这一每周两次的开发者的直播节目,在节目上讨论技术并与观众一起编写代码。Jeff 撰写研讨会、主持演讲,并计划大型 Microsoft 开发者活动(包括 Microsoft Build、Microsoft Ignite、.NET Conf 和 Microsoft MVP Summit)的内容。
準備好開始了嗎?
Nuget 下載 5,167,857 | Version: 2025.11 剛發表