跳至页脚内容

OCR 结果

获取的不仅仅是文本。我们的 API 提供结构化数据,包括坐标、置信度分数和完整的文档层次结构(页、行、字)。

Icon Main related to OCR 结果
数据输出

1

文本

IronOCR 将段落、行、单词和字符的文本输出以结构化对象和字符串的形式返回,使开发人员能够快速访问和操作数据。

using IronOcr;

var ocrTesseract = new IronTesseract();
using var ocrInput = new OcrInput();
var pages = new int[] { 1, 2 };
ocrInput.LoadImageFrames("example.tiff", pages);
OcrResult ocrResult = ocrTesseract.Read(ocrInput);
foreach (var page in ocrResult.Pages)
{
    // Page text
    string PageText = page.Text;
}
C#
3

OCR 输出信心

using IronOcr;

var ocrTesseract = new IronTesseract();
using var ocrInput = new OcrInput();

// Load image from file
ocrInput.LoadImage("sameple.png");

// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(ocrInput);

// Check Confidence level
Console.WriteLine($"Confidence: {ocrResult.Confidence}%");
C#

Icon Main related to OCR 结果
输出类型

3

hOCR

using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = true;

// Add image
using var imageInput = new OcrImageInput("sample.tiff");
imageInput.Title = "Html Title";

// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as HTML
ocrResult.SaveAsHocrFile("result.html");
C#
4

将文本突出显示为图像

为了进行调试和验证,应生成原始文档的图像,并突出显示所有已识别的文本。这样可以快速直观地检查 OCR 引擎的准确性和文本位置。

了解如何:C# 高亮显示文本以进行调试
using IronOcr;

IronTesseract ocrTesseract = new IronTesseract();
using var ocrInput = new OcrInput();
ocrInput.LoadPdf("sample.pdf");
ocrInput.HighlightTextAndSaveAsImages(ocrTesseract, "highlight_page_", ResultHighlightType.Paragraph);
C#