如何將結果以 hOCR 格式儲存為 HTML 文件
hOCR,全稱為「基於HTML的OCR」,是一種用於以結構化方式表示光學字符識別(OCR)結果的文件格式。 HOCR 檔案通常以 HTML(超文字標記語言)撰寫,提供了一種存儲辨識文本、版面資訊和每個辨識字符在圖像或文件中的座標的方法。
IronOCR 提供了一種解決方案,用於對文件進行光學字符識別並將結果以 HTML 格式導出為 hOCR。 它支持HTML文件和字符串。
開始使用IronOCR
立即在您的專案中使用IronOCR,並享受免費試用。
如何將結果以 hOCR 格式儲存為 HTML 文件
將結果導出為 hOCR 示例
要將結果導出為hOCR,使用者必須先啟用Configuration.RenderHocr屬性,將其設置為true。 從 Read
方法獲取 OCR 結果對象後,使用 SaveAsHocrFile
方法將 OCR 結果導出為 HTML。 此方法將輸出一個 HTML 文件,其中包含輸入文件的閱讀結果。 下面的代碼展示了使用以下範例 TIFF 文件。
:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html.cs
using IronOcr;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = true;
// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
imageInput.Title = "Html Title";
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);
// Export as HTML
ocrResult.SaveAsHocrFile("result.html");
Imports IronOcr
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = True
' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
imageInput.Title = "Html Title"
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)
' Export as HTML
ocrResult.SaveAsHocrFile("result.html")
將結果導出為HTML字符串
使用相同的 TIFF 範例圖像,可以利用 SaveAsHocrString
方法將 OCR 結果匯出為 HTML 字串。 此方法將返回一個HTML字符串。
:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html-string.cs
// Export as HTML string
string hocr = ocrResult.SaveAsHocrString();
' Export as HTML string
Dim hocr As String = ocrResult.SaveAsHocrString()