如何在 C# 中读取扫描文档 | IronOCR

使用 IronOCR 在 C# 中读取扫描文档

This article was translated from English: Does it need improvement?
Translated
View the article in English

许多 PDF 文件包含无法搜索的、基于图像的文本。 IronOCR 可以将其转换为可搜索的内容,从而更容易找到特定信息并提高文档的可访问性,尤其对于有视力障碍的人来说更是如此。

自动提取无需手动复制或重新创建文本和图像,从而确保准确性和效率。 这对于研究、法律文件和内容创作尤其有用,因为在这些领域重复使用 PDF 的特定部分很常见。

企业可以从 PDF 文件中提取关键数据进行分析或系统集成,从而简化工作流程。 设计师和营销人员还可以提取图像,以便在各种项目中进行增强和重复使用。

在本教程中,我们将探索OcrPdfInput方法,介绍可用的选项和参数,以展示 IronOCR 如何简化 PDF 文本和图像提取,从而应用于各种应用程序。

要使用此功能,您还必须安装IronOcr.Extensions.AdvancedScan软件包。

快速入门:从扫描的 PDF 或图像中提取文本

只需几秒即可开始使用——只需一行代码,即可使用 IronOCR 的OcrInput.LoadPdfLoadImage加载扫描的 PDF 或图像,并通过ReadDocument立即提取文本。 非常适合希望快速启动并运行 OCR 功能的开发人员。

Nuget Icon立即开始使用 NuGet 创建 PDF 文件:

  1. 使用 NuGet 包管理器安装 IronOCR

    PM > Install-Package IronOcr

  2. 复制并运行这段代码。

    var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text;
  3. 部署到您的生产环境中进行测试

    立即开始在您的项目中使用 IronOCR,免费试用!
    arrow pointer

读取扫描文档示例

要从文档中的所有图像中提取文本,请使用ReadDocument方法。 此方法处理文档并返回一个包含提取文本的对象,可以通过 Text 属性访问该对象。 下面的示例演示了如何使用此方法处理示例 TIFF文件。

[{i:(

  • 目前该方法仅适用于英语、中文、日语、韩语和拉丁字母。
  • 在 .NET Framework 上使用高级扫描功能需要项目在 x64 架构上运行。 @@--bracket-close--@@@

输入

input

代码

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");

// Perform OCR
OcrResult result = ocr.ReadDocument(input);

Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate OCR engine
Private ocr = New IronTesseract()

' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")

' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)

Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

输出

output

如果您需要对 PDF 文件执行 OCR,只需将LoadImage方法替换为LoadPdf即可。 这样,IronOCR 就可以用同样的方法处理和提取扫描 PDF 中的文本。

常见问题解答

如何使用 C# 阅读扫描的文档?

你可以在 C# 中使用 IronOCR 阅读扫描的文档。首先,从 NuGet 下载 C# 库,然后使用 LoadImage 方法导入您的图片格式扫描文档或使用 LoadPdf 方法导入 PDF 格式文档。最后,使用 ReadDocument 方法提取文本。

将 PDF 中基于图像的文本转换为可搜索内容的目的是什么?

通过 IronOCR 将 PDF 中的图像型文本转换为可搜索内容,增强了可访问性,使得查找特定信息更简单,并帮助有视力障碍的人士。

我能从图像和 PDF 中提取文本吗?

是的,IronOCR 允许从图像和 PDF 中提取文本。使用 LoadImage 方法处理图像,使用 LoadPdf 方法处理 PDF,然后通过 ReadDocument 方法进行提取。

IronOCR的语言支持能力如何?

IronOCR 支持英语、中文、日语、韩语和拉丁字母的文本提取,使其在多语言文档处理时具有多功能性。

使用 IronOCR 的高级扫描功能需要什么样的架构?

要在 .NET Framework 上使用 IronOCR 的高级扫描功能,项目必须运行在 x64 架构上。

如何在业务应用中使用 IronOCR 进行自动化文本提取?

IronOCR 可以通过导入扫描文档,使用 LoadPdfLoadImage 方法来进行自动化文本提取,并使用 ReadDocument 方法提取文本。这简化了工作流程,使企业能够高效地分析和整合关键数据。

使用 IronOCR 从扫描的 PDF 中提取文本涉及哪些步骤?

要使用 IronOCR 从扫描的 PDF 中提取文本,下载库,使用 LoadPdf 方法导入 PDF,然后使用 ReadDocument 方法提取文本。随后可根据需要保存或导出提取的文本。

IronOCR 如何为设计师和市场人员带来好处?

IronOCR 使设计师和市场人员能够从 PDF 中提取图像和文本,进行增强和在各种项目中重用,从而提高了效率和创造可能性。

使用 IronOCR 的高级功能需要安装什么包?

要访问 IronOCR 的高级功能,需要从 NuGet 安装 IronOcr.Extensions.AdvancedScan 包。

Curtis Chau
技术作家

Curtis Chau 拥有卡尔顿大学的计算机科学学士学位,专注于前端开发,精通 Node.js、TypeScript、JavaScript 和 React。他热衷于打造直观且美观的用户界面,喜欢使用现代框架并创建结构良好、视觉吸引力强的手册。

除了开发之外,Curtis 对物联网 (IoT) 有浓厚的兴趣,探索将硬件和软件集成的新方法。在空闲时间,他喜欢玩游戏和构建 Discord 机器人,将他对技术的热爱与创造力相结合。

准备开始了吗?
Nuget 下载 5,167,857 | Version: 2025.11 刚刚发布