如何将 OCR 结果保存为 HTML 文件中的 hOCR | IronOCR

How to Save Results as hOCR in an HTML File

This article was translated from English: Does it need improvement?
Translated
View the article in English

hOCR 是 "基于 HTML 的 OCR "的缩写,是一种用于以结构化方式表示光学字符识别 (OCR) 结果的文件格式。 HOCR 文件通常用 HTML(超文本标记语言)编写,提供了一种存储识别文本、布局信息以及图像或文档中每个识别字符坐标的方法。

as-heading:2(快速入门:将 OCR 输出保存为 hOCR HTML 文件) <em

以下是使用 IronOCR 启动和运行的最简单方法:只需一次设置和一次调用,即可启用 hOCR 渲染并将结果直接导出到 HTML 文件。 开发人员可以快速上手,并在短时间内看到可用 HTML 标记的 OCR 结果。

Nuget IconGet started making PDFs with NuGet now:

  1. Install IronOCR with NuGet Package Manager

    PM > Install-Package IronOcr

  2. Copy and run this code snippet.

    var hocr = new IronTesseract { Configuration = { RenderHocr = true } }.Read(new OcrInput("image.png")).SaveAsHocrString();
  3. Deploy to test on your live environment

    Start using IronOCR in your project today with a free trial
    arrow pointer