使用 IronOCR 在 C# 中读取扫描文档

Curtis Chau

已更新:2026年6月3日

Translated

View the article in English

IronOCR 使 C# 开发人员能够使用 OCR 技术从扫描的 PDF 和图像中提取文本，只需几行代码就能将不可搜索的基于图像的文档转换为可搜索、可访问的内容。

许多 PDF 文件包含无法搜索的、基于图像的文本。 IronOCR 将其转换为可搜索的内容，使查找特定信息变得更加容易，并增强了文档的可访问性，尤其是对有视觉障碍的个人而言。

自动提取无需手动复制或重新创建文本和图像，从而确保准确性和效率。这对研究、法律文件和内容创建特别有用，因为在这些领域中，重复使用 PDF 的特定部分很常见。

企业可以从 PDF 文件中提取关键数据进行分析或系统集成，从而简化工作流程。设计师和营销人员还可以提取图像，以便在各种项目中进行增强和重复使用。

本教程中，我们将探索OcrPdfInput方法，涵盖可用选项和参数，以展示IronOCR如何简化PDF文本和图像提取，适用于多种应用。

要使用此功能，还必须安装IronOcr.Extensions.AdvancedScan包。

快速入门：从扫描的PDF或图像中提取文本

在几秒钟内使用IronOCR的ReadDocument立即提取文本。非常适合希望快速启动并运行 OCR 功能的开发人员。

使用 NuGet 包管理器安装 https://www.nuget.org/packages/IronOcr
PM > Install-Package IronOcr

复制并运行这段代码。

var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text;

部署到您的生产环境中进行测试

通过免费试用立即在您的项目中开始使用IronOCR

最小工作流程（5 个步骤）

下载用于读取扫描文档的 C# 库
导入扫描文档以进行处理
对于图像，请使用LoadImage方法；对于扫描的 PDF 文件，请使用LoadPdf方法。
使用ReadDocument方法提取文本
根据需要保存或导出提取的文本以供进一步使用

如何从扫描文档中提取文本？

从文档中的所有图像中提取文本，使用ReadDocument方法。此方法处理文档并返回包含提取文本的对象，可通过Text属性访问。下面的示例演示了如何使用此方法处理示例 TIFF 文件。

IronOCR 支持多种文件格式的扫描。对于图像，您可以使用 JPG、PNG、GIF、TIFF 和 BMP 格式，而 PDF 支持包括单页和多页文档。该库使用先进的 Tesseract 5 技术，以确保所有支持格式的高准确性。

[{我：（
该方法目前仅适用于英语、汉语、日语、韩语和拉丁字母。

在 .NET Framework 上使用高级扫描功能需要项目在 x64 架构上运行。 )}]

输入文档是什么样的？

哈利·波特书中的一页，显示第八章《死灵节聚会》，其中有关于霍格沃茨在十月的叙述

我如何实现OCR代码？

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs

using IronOcr;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");

// Perform OCR
OcrResult result = ocr.ReadDocument(input);

Console.WriteLine(result.Text);

Imports IronOcr
Imports System

' Instantiate OCR engine
Private ocr = New IronTesseract()

' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")

' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)

Console.WriteLine(result.Text)

$vbLabelText $csharpLabel

我可以从 OCR 处理中期待什么结果？

Visual Studio调试窗口显示OCR处理的哈利·波特文本输出，来自扫描文档示例

如果您需要对PDF文件进行OCR，只需将LoadPdf。这样，IronOCR 就可以用同样的方法处理和提取扫描 PDF 中的文本。

高级文档处理选项

在处理扫描文档时，您通常需要对 OCR 过程进行更多控制。 IronOCR 提供多种高级功能，可增强文本提取结果。

处理多页文档

对于有多个页面的文档，IronOCR 可以高效地进行批处理：

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-3.cs

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");

// Process all pages
OcrResult result = ocr.ReadDocument(input);

// Access individual page results
foreach (var page in result.Pages)
{
    Console.WriteLine($"Page {page.PageNumber}: {page.WordCount} words");
}

Imports IronOcr

Dim ocr As New IronTesseract()
Using input As New OcrInput()
    ' Load a multi-page PDF
    input.LoadPdf("multi-page-document.pdf")

    ' Process all pages
    Dim result As OcrResult = ocr.ReadDocument(input)

    ' Access individual page results
    For Each page In result.Pages
        Console.WriteLine($"Page {page.PageNumber}: {page.WordCount} words")
    Next
End Using

$vbLabelText $csharpLabel

优化 OCR 性能

扫描文件的质量直接影响 OCR 的准确性。 IronOCR for .NET 包含内置图像优化过滤器，可增强文本识别能力：

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-4.cs

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew();  // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white

OcrResult result = ocr.ReadDocument(input);

Imports IronOcr

Dim ocr As New IronTesseract()
Using input As New OcrInput()

    ' Load and enhance image quality
    input.LoadImage("low-quality-scan.jpg")
    input.Deskew()  ' Correct image skew
    input.DeNoise() ' Remove background noise
    input.Binarize() ' Convert to black and white

    Dim result As OcrResult = ocr.ReadDocument(input)

End Using

$vbLabelText $csharpLabel

创建可搜索的 PDF 文件

在处理扫描文档时，最有价值的功能之一是创建可搜索 PDF 的能力。这既保持了原始文档的外观，又增加了文字层：

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-5.cs

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");

Imports IronOcr

Dim ocr As New IronTesseract()
Using input As New OcrInput()
    input.LoadPdf("scanned-document.pdf")

    ' Process and save as searchable PDF
    Dim result As OcrResult = ocr.ReadDocument(input)
    result.SaveAsSearchablePdf("searchable-output.pdf")
End Using

$vbLabelText $csharpLabel

处理不同的文档类型

IronOCR 擅长处理商业环境中常见的各种文档类型。无论是处理发票、合同还是历史文档，该库都提供了从不同来源提取数据的专业功能。

处理遗留文档

许多组织都有旧格式的扫描文件档案。 IronOCR 可以高效地处理这些问题，包括支持文档管理系统中常用的多页 TIFF 文件。

语言支持

虽然本示例侧重于英文文本，但 IronOCR 支持超过 125 种国际语言。因此，它非常适合处理多语言文档或非英语文档。

文档扫描的最佳实践

在处理扫描文件时达到最佳效果：

扫描质量：使用最低分辨率300 DPI以获得最佳效果
文件格式：TIFF和PNG格式比JPEG更好地保留文本文档的质量
预处理：根据文档条件应用适当的过滤器 4.性能：对于大批量翻译，请考虑使用多线程功能。

ABCpdf 常见问题和解决方案

在处理扫描文件时，您可能会遇到各种挑战。以下是常见问题的解决方案：

质量差的扫描：在OCR处理前应用增强过滤器
倾斜文档：使用Deskew()方法校正方向
混合内容：如果文档包含文字和非文字元素，处理特定区域

如需更详细的指导，请浏览我们的全面的 C# OCR 教程或查看简单的 OCR 示例以快速入门。

下一步

现在您已经了解了如何从扫描文档中提取文本，您可以探索更高级的功能，如使任何 PDF 都可搜索或为网络应用程序处理 PDF 流。 IronOCR 的灵活性使其适用于从简单的文档数字化到复杂的企业文档处理工作流程等各种情况。

常见问题解答

如何用 C# 从扫描的 PDF 中提取文本？

IronOCR 使用 C# 从扫描的 PDF 中提取文本变得简单。使用 LoadPdf 方法导入扫描的 PDF，然后调用 ReadDocument 提取文本。例如：var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text; 这一行代码加载你的 PDF 并提取所有文本内容。

OCR 库支持哪些文件格式的文本提取？

IronOCR 支持全面的 OCR 扫描文档格式。对于图像，它支持 JPG、PNG、GIF、TIFF 和 BMP 格式。对于 PDF，它可以处理单页和多页文档。该库采用先进的 Tesseract 5 技术，可确保所有支持格式的高准确性。

我需要为 OCR 功能安装额外的软件包吗？

是的，要使用 IronOCR 的全部 OCR 功能，除了 IronOCR 主库之外，还需要安装 IronOcr.Extensions.AdvancedScan 软件包。该扩展包为处理扫描文档提供了增强的扫描功能。

我能否从扫描图像和 PDF 中提取文本？

是的，IronOCR 对扫描图像和 PDF 的处理同样出色。对图像文件（JPG、PNG、GIF、TIFF、BMP）使用 LoadImage 方法，对 PDF 文档使用 LoadPdf 方法。ReadDocument 方法可同时处理这两种输入类型，以提取文本内容。

OCR 如何帮助处理不可搜索的 PDF 文档？

IronOCR 通过使用 OCR 技术提取文本，将不可搜索、基于图像的 PDF 转换为可搜索内容。这种转换使查找文档中的特定信息变得更加容易，并大大提高了文档的可访问性，尤其是对有视觉障碍的人而言。

OCR 文本提取的主要商业应用是什么？

IronOCR 使企业能够从 PDF 中提取关键数据进行分析和系统集成，从而简化工作流程。它尤其适用于处理法律文件、研究论文和自动数据录入。设计人员和营销人员还可以提取图像，以便在各种项目中进行增强和重用。

IronOCR可以集成到现有应用程序中吗？

IronOCR设计为易于使用C#集成到现有应用程序中，允许开发人员以最小的努力为他们的软件添加OCR功能。

使用IronOCR进行文档管理有什么好处？

使用IronOCR进行文档管理可以通过将扫描的文档转换为可搜索和可编辑文本来简化工作流程，减少手动数据输入的需要，提高文档可访问性。

IronOCR如何提高数据准确性？

IronOCR通过其高级识别算法和图像校正功能提高数据准确性，确保文本提取过程既可靠又精确。

IronOCR 有免费试用版吗？

是的，Iron Software 提供IronOCR 的免费试用，使用户在做出购买决定之前可以测试其功能和能力。

Curtis Chau

立即与工程团队聊天

技术作家

Curtis Chau 拥有卡尔顿大学的计算机科学学士学位，专注于前端开发，精通 Node.js、TypeScript、JavaScript 和 React。他热衷于打造直观且美观的用户界面，喜欢使用现代框架并创建结构良好、视觉吸引力强的手册。

除了开发之外，Curtis 对物联网 (IoT) 有浓厚的兴趣，探索将硬件和软件集成的新方法。在空闲时间，他喜欢玩游戏和构建 Discord 机器人，将他对技术的热爱与创造力相结合。

准备开始了吗？

Nuget 下载 6,151,372 | 版本: 2026.7 刚刚发布

查看许可证

还在滚动吗？

想快速获得证据？ PM > Install-Package IronOcr
运行示例观看您的图像变成可搜索文本。

查看许可证

客户亮点：

开发者焦点：

网络研讨会：

开始免费 30 天试用

本页内容

使用 IronOCR 在 C# 中读取扫描文档

使用 NuGet 包管理器安装 https://www.nuget.org/packages/IronOcr

复制并运行这段代码。

部署到您的生产环境中进行测试

最小工作流程（5 个步骤）

如何从扫描文档中提取文本？

输入文档是什么样的？

我如何实现OCR代码？

我可以从 OCR 处理中期待什么结果？

高级文档处理选项

处理多页文档

优化 OCR 性能

创建可搜索的 PDF 文件

处理不同的文档类型

处理遗留文档

语言支持

文档扫描的最佳实践

ABCpdf 常见问题和解决方案

下一步

常见问题解答

如何用 C# 从扫描的 PDF 中提取文本？

OCR 库支持哪些文件格式的文本提取？

我需要为 OCR 功能安装额外的软件包吗？

我能否从扫描图像和 PDF 中提取文本？

OCR 如何帮助处理不可搜索的 PDF 文档？

OCR 文本提取的主要商业应用是什么？

IronOCR可以集成到现有应用程序中吗？

使用IronOCR进行文档管理有什么好处？

IronOCR如何提高数据准确性？

IronOCR 有免费试用版吗？

还在滚动吗？

您的许可证密钥已发送到您的收件箱

您的演示请求已提交。

钢铁支援团队

开始免费 30 天试用

本页内容

使用 IronOCR 在 C# 中读取扫描文档

使用 NuGet 包管理器安装 https://www.nuget.org/packages/IronOcr

复制并运行这段代码。

部署到您的生产环境中进行测试

最小工作流程（5 个步骤）

如何从扫描文档中提取文本？

输入文档是什么样的？

我如何实现OCR代码？

我可以从 OCR 处理中期待什么结果？

高级文档处理选项

处理多页文档

优化 OCR 性能

创建可搜索的 PDF 文件

处理不同的文档类型

处理遗留文档

语言支持

文档扫描的最佳实践

ABCpdf 常见问题和解决方案

下一步

常见问题解答

如何用 C# 从扫描的 PDF 中提取文本？

OCR 库支持哪些文件格式的文本提取？

我需要为 OCR 功能安装额外的软件包吗？

我能否从扫描图像和 PDF 中提取文本？

OCR 如何帮助处理不可搜索的 PDF 文档？

OCR 文本提取的主要商业应用是什么？

IronOCR可以集成到现有应用程序中吗？

使用IronOCR进行文档管理有什么好处？

IronOCR如何提高数据准确性？

IronOCR 有免费试用版吗？

还在滚动吗？

免费获取

下一步：开始免费 30 天试用

Thank You

下一步：开始免费 30 天试用

想免费将 IronSuite 部署到实际项目中吗？

包括什么？

您的许可证密钥已发送到您的收件箱

您的演示请求已提交。

深受全球数百万工程师信赖

钢铁支援团队