跳至页脚内容

OCR 结果

获取的不仅仅是文本。我们的 API 提供结构化数据,包括坐标、置信度分数和完整的文档层次结构(页、行、字)。

Icon Main related to OCR 结果
数据输出

1

文本

IronOCR 将段落、行、单词和字符的文本输出以结构化对象和字符串的形式返回,使开发人员能够快速访问和操作数据。

using IronOcr;

var ocrTesseract = new IronTesseract();
using var ocrInput = new OcrInput();
var pages = new int[] { 1, 2 };
ocrInput.LoadImageFrames("example.tiff", pages);
OcrResult ocrResult = ocrTesseract.Read(ocrInput);
foreach (var page in ocrResult.Pages)
{
    // Page text
    string PageText = page.Text;
}
C#
2

OCR 文本位置

获取每个段落、行、单词和字符的精确 X/Y 坐标和边界框尺寸,实现文本高亮显示、区域 OCR 和数据验证。

了解如何:在 .NET C# 中提取读取结果
using IronOcr;
using IronOcr.OcrResult;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Add image
using var imageInput = new OcrImageInput("sample.jpg");

// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Retrieve list of detected paragraphs
Paragraph[] paragraphs = ocrResult.Paragraphs;

// Output Text location (X,Y) of the first paragraph
Console.WriteLine($"X: {paragraphs[0].X}");
Console.WriteLine($"Y: {paragraphs[0].Y}");
C#
3

OCR 输出信心

对提取的文本进行置信度评分。以编程方式标记低置信度结果,供人工审核,以建立更可靠的自动化工作流程。

了解如何:在.NET C#中获得阅读信心
using IronOcr;

var ocrTesseract = new IronTesseract();
using var ocrInput = new OcrInput();

// Load image from file
ocrInput.LoadImage("sameple.png");

// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(ocrInput);

// Check Confidence level
Console.WriteLine($"Confidence: {ocrResult.Confidence}%");
C#
4

OCR 元素的图像

除文本外,还可将输入文档中通过 OCR 检测到的文本视觉元素导出为单独的图像文件,这对归档或处理非文本数据非常有用。

了解如何:在 .NET C# 中提取读取结果
using IronOcr;
using IronSoftware.Drawing;

var ocrTesseract = new IronTesseract();
using var ocrInput = new OcrInput();
ocrInput.LoadImage("sample.png");
var ocrResult = ocrTesseract.Read(ocrInput);
foreach (var page in ocrResult.Pages)
{
    foreach (var word in page.Words)
    {
        word.ToBitmap(ocrInput).SaveAs($"page{page.PageNumber}_word{word.WordNumber}.png", AnyBitmap.ImageFormat.Png);
    }
}
C#

Icon Main related to OCR 结果
输出类型

1

Text

通过结构化、分级式 API 访问 OCR 结果。从大段落轻松浏览到单个字符,让您对提取的文本及其元数据进行细粒度控制。

了解如何:在 .NET C# 中提取读取结果
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Add image
using var imageInput = new OcrImageInput("sample.jpg");

// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Output the first detected paragraph text
Console.WriteLine($"Text: {ocrResult.Paragraphs[0].Text}");
C#
2

可搜索的 PDFs

将任何扫描文件或图像转换成完全可搜索的 PDF 文件。保留原始布局,但所有文本均可选择、复制和查找。

了解如何:将结果保存为可搜索的 PDF
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = true;

// Add image
using var imageInput = new OcrImageInput("sample.tiff");

// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf");
C#
3

hOCR

以 hOCR 格式导出结果,这是一种基于 HTML 的标准,可提供丰富的元数据,包括文本、布局信息和每个单词的坐标,非常适合高级文档分析。

了解如何:在 HTML 文件中将结果保存为 hOCR
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = true;

// Add image
using var imageInput = new OcrImageInput("sample.tiff");
imageInput.Title = "Html Title";

// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as HTML
ocrResult.SaveAsHocrFile("result.html");
C#
4

将文本突出显示为图像

为了进行调试和验证,应生成原始文档的图像,并突出显示所有已识别的文本。这样可以快速直观地检查 OCR 引擎的准确性和文本位置。

了解如何:C# 高亮显示文本以进行调试
using IronOcr;

IronTesseract ocrTesseract = new IronTesseract();
using var ocrInput = new OcrInput();
ocrInput.LoadPdf("sample.pdf");
ocrInput.HighlightTextAndSaveAsImages(ocrTesseract, "highlight_page_", ResultHighlightType.Paragraph);
C#
5

条形码和 QR 码值

从文档中发现的任何 BarCode 或 QR 码中提取解码字符串值。API 在提供文本结果的同时提供这些数据,从而提供完整的数据采集解决方案。

了解如何:在 .NET C# 中提取读取结果
using IronOcr;
using IronOcr.OcrResult;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable barcodes detection
ocrTesseract.Configuration.ReadBarCodes = true;

// Load PDF file
using OcrInput ocrInput = new OcrInput();
ocrInput.LoadPdf("sample.pdf");

// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(ocrInput);

// Output Barcode value
Console.WriteLine(ocrResult.Barcodes[0].Value);
C#
准备开始了吗?
Nuget 下载 5,167,857 | Version: 2025.11 刚刚发布