如何將結果以 hOCR 格式儲存為 HTML 文件

This article was translated from English: Does it need improvement?
Translated
View the article in English

查克尼思·賓

hOCR(即基於 HTML 的 OCR)是一種用於表示光學字元識別結果的文件格式(光學字符識別)以結構化的方式。 HOCR 檔案通常是用 HTML 撰寫的(超文本標記語言)並提供一種方法來存儲識別的文本、佈局信息和圖像或文件中每個識別字符的座標。

IronOCR 提供了一種解決方案,用於對文件進行光學字符識別並將結果以 HTML 格式導出為 hOCR。 它支持HTML文件和字符串。


C# NuGet 程式庫用于 OCR

安裝與 NuGet

Install-Package IronOcr
Java PDF JAR

下載 DLL

下載DLL

手動安裝到您的項目中

C# NuGet 程式庫用于 OCR

安裝與 NuGet

Install-Package IronOcr
Java PDF JAR

下載 DLL

下載DLL

手動安裝到您的項目中

立即開始在您的專案中使用IronPDF,並享受免費試用。

第一步:
green arrow pointer

查看 IronOCRNuget 方便快速安裝和部署。擁有超過 800 萬次下載,它正在使用 C# 改造 OCR。

C# NuGet 程式庫用于 OCR nuget.org/packages/IronOcr/
Install-Package IronOcr

請考慮安裝 IronOCR DLL 直接下載並手動安裝到您的專案或GAC表單: IronOcr.zip

Dll Img related to 如何將結果以 hOCR 格式儲存為 HTML 文件

手動安裝到您的項目中

下載DLL

將結果導出為 hOCR 示例

要將結果導出為hOCR,使用者必須首先通過將Configuration.RenderHocr屬性設置為true來啟用它。 在從 Read 方法獲得 OCR 結果對象後,使用 SaveAsHocrFile 方法將 OCR 結果導出為 HTML。 此方法將輸出一個 HTML 文件,其中包含輸入文件的閱讀結果。 以下程式碼示範了使用下列範例 TIFF文件。

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
imageInput.Title = "Html Title";

// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as HTML
ocrResult.SaveAsHocrFile("result.html");
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
imageInput.Title = "Html Title"

' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as HTML
ocrResult.SaveAsHocrFile("result.html")
VB   C#

將結果導出為HTML字符串

使用相同的TIFF樣本圖像,您可以使用SaveAsHocrString方法將OCR結果導出為HTML字符串。 此方法將返回一個HTML字符串。

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html-string.cs
// Export as HTML string
string hocr = ocrResult.SaveAsHocrString();
' Export as HTML string
Dim hocr As String = ocrResult.SaveAsHocrString()
VB   C#
Chaknith related to 將結果導出為HTML字符串

查克尼思·賓

軟體工程師

Chaknith 是開發者界的夏洛克福爾摩斯。他第一次意識到自己可能有個軟體工程的未來,是在他為了娛樂而參加程式挑戰的時候。他的重點是 IronXL 和 IronBarcode,但他也引以為豪的是,他幫助客戶解決所有產品的問題。Chaknith 利用他與客戶直接對話中獲得的知識,以進一步改進產品。他的實際反饋超越了 Jira 工單,並支持產品開發、文件撰寫和行銷,以提升客戶的整體體驗。不在公司時,他通常在學習機器學習、寫程式和徒步旅行。