如何將結果以 hOCR 格式儲存為 HTML 文件
hOCR(即基於 HTML 的 OCR)是一種用於表示光學字元識別結果的文件格式 (光學字符識別) 以結構化方式。HOCR 文件通常用 HTML 編寫 (超文本標記語言) 並提供一種方法來儲存已識別的文字、版面資訊,以及圖像或文件中每個已識別字符的座標。
IronOCR 提供了一個解決方案,用於對文件執行光學字符識別並將結果以 hOCR 的 HTML 格式匯出。它支援 HTML 檔案和字串。
如何將結果以 hOCR 格式儲存為 HTML 文件
立即開始在您的專案中使用IronPDF,並享受免費試用。
查看 IronOCR 上 Nuget 快速安裝和部署。已被下載超過800萬次,它正用C#改變OCR。
Install-Package IronOcr
請考慮安裝 IronOCR DLL 直接下載並手動安裝到您的專案或GAC表單: IronOcr.zip
手動安裝到您的項目中
下載DLL將結果導出為 hOCR 範例
要將結果導出為 hOCR,使用者必須首先將 Configuration.RenderHocr 屬性設為 true。從 Read
方法獲取 OCR 結果對象後,使用 SaveAsHocrFile
方法將 OCR 結果導出為 HTML。此方法將輸出一個包含輸入文件讀取結果的 HTML 文件。以下代碼演示如何使用以下內容: 範例 TIFF 文件。
:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html.cs
using IronOcr;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = true;
// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
imageInput.Title = "Html Title";
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);
// Export as HTML
ocrResult.SaveAsHocrFile("result.html");
Imports IronOcr
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = True
' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
imageInput.Title = "Html Title"
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)
' Export as HTML
ocrResult.SaveAsHocrFile("result.html")
將結果匯出為 HTML 字串
使用相同的 TIFF 樣本圖像,您可以利用SaveAsHocrString
方法將 OCR 結果匯出為 HTML 字串。此方法會返回一個 HTML 字串。
:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html-string.cs
// Export as HTML string
string hocr = ocrResult.SaveAsHocrString();
' Export as HTML string
Dim hocr As String = ocrResult.SaveAsHocrString()