如何在 HTML 文件中将结果保存为 hOCR
hOCR 是 "基于 HTML 的 OCR "的缩写,是一种用于表示光学字符识别结果的文件格式 (光学字符识别) 的结构化方式。HOCR 文件通常用 HTML 编写 (超文本标记语言) 并提供一种方法来存储识别的文本、布局信息以及图像或文档中每个识别字符的坐标。
IronOCR 为在文档上执行光学字符识别并将结果以 HTML 格式导出为 hOCR 提供了一种解决方案。它同时支持 HTML 文件和字符串。
如何在 HTML 文件中将结果保存为 hOCR
开始在您的项目中使用IronPDF,并立即获取免费试用。
查看 IronOCR 上 Nuget 用于快速安装和部署。它有超过800万次下载,正在使用C#改变OCR。
Install-Package IronOcr
考虑安装 IronOCR DLL 直接。下载并手动安装到您的项目或GAC表单中: IronOcr.zip
手动安装到你的项目中
下载DLL导出结果为 hOCR 示例
要将结果导出为 hOCR,用户必须首先启用 Configuration.RenderHocr 属性,将其设置为 true。从 Read
方法获取 OCR 结果对象后,使用 SaveAsHocrFile
方法将 OCR 结果导出为 HTML。该方法将输出一个包含输入文档阅读结果的 HTML 文件。下面的代码演示了使用 TIFF 样本 锉刀
:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html.cs
using IronOcr;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = true;
// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
imageInput.Title = "Html Title";
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);
// Export as HTML
ocrResult.SaveAsHocrFile("result.html");
Imports IronOcr
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = True
' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
imageInput.Title = "Html Title"
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)
' Export as HTML
ocrResult.SaveAsHocrFile("result.html")
将结果导出为 HTML 字符串
使用相同的 TIFF 示例图像,您可以使用 SaveAsHocrString
方法将 OCR 结果导出为 HTML 字符串。此方法将返回 HTML 字符串。
:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html-string.cs
// Export as HTML string
string hocr = ocrResult.SaveAsHocrString();
' Export as HTML string
Dim hocr As String = ocrResult.SaveAsHocrString()