如何將結果以 hOCR 格式儲存為 HTML 文件
hOCR(即基於 HTML 的 OCR)是一種用於表示光學字元識別結果的文件格式(光學字符識別)以結構化的方式。 HOCR 檔案通常是用 HTML 撰寫的(超文本標記語言)並提供一種方法來存儲識別的文本、佈局信息和圖像或文件中每個識別字符的座標。
IronOCR 提供了一種解決方案,用於對文件進行光學字符識別並將結果以 HTML 格式導出為 hOCR。 它支持HTML文件和字符串。
如何將結果以 hOCR 格式儲存為 HTML 文件
立即開始在您的專案中使用IronPDF,並享受免費試用。
查看 IronOCR 上 Nuget 方便快速安裝和部署。擁有超過 800 萬次下載,它正在使用 C# 改造 OCR。
Install-Package IronOcr
請考慮安裝 IronOCR DLL 直接下載並手動安裝到您的專案或GAC表單: IronOcr.zip
手動安裝到您的項目中
下載DLL將結果導出為 hOCR 示例
要將結果導出為hOCR,使用者必須首先通過將Configuration.RenderHocr屬性設置為true來啟用它。 在從 Read
方法獲得 OCR 結果對象後,使用 SaveAsHocrFile
方法將 OCR 結果導出為 HTML。 此方法將輸出一個 HTML 文件,其中包含輸入文件的閱讀結果。 以下程式碼示範了使用下列範例 TIFF文件。
:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html.cs
using IronOcr;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = true;
// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
imageInput.Title = "Html Title";
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);
// Export as HTML
ocrResult.SaveAsHocrFile("result.html");
Imports IronOcr
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = True
' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
imageInput.Title = "Html Title"
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)
' Export as HTML
ocrResult.SaveAsHocrFile("result.html")
將結果導出為HTML字符串
使用相同的TIFF樣本圖像,您可以使用SaveAsHocrString
方法將OCR結果導出為HTML字符串。 此方法將返回一個HTML字符串。
:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html-string.cs
// Export as HTML string
string hocr = ocrResult.SaveAsHocrString();
' Export as HTML string
Dim hocr As String = ocrResult.SaveAsHocrString()