PDF OCR文字提取
Iron Tesseract 支持读取多种图像格式以及 PDF 文档。 常规的免费 Tesseract 引擎无法实现此功能。
OcrInput 提供了一项功能,可在扫描质量不佳时自动修正 PDF 的属性。
开发者可指定读取整个 PDF、选定页面或单个裁剪区域。
如何在 C# 中对 PDF 文件进行 OCR 处理
- 下载 C# 库以对 PDF 文件进行 OCR 处理
- 使用
AddPdf方法添加 PDF 文档 - 使用
AddPdfPages方法 - 请使用
Read方法对添加的 PDF 文件进行 OCR 处理 - 查看QR码值
Barcodes属性中。访问 Text 属性以获取 OCR 结果
C# PDF OCR
许多 OCR 工具在理想条件下运行良好,但当您需要一款能在任何条件下都具备更高稳定性和准确性的工具时,IronOCR 文本提取解决方案正是您的理想之选。
IronOCR 是一款专为文本提取而从零构建的工具,能够以 99% 的准确率转换真实图像。
IronTesseract,我们的原生 C# OCR 库,能够以近乎人类的方式从现实世界中的图像中识别字符,即使这些图像质量未必理想,甚至有时存在倾斜。
若扫描质量较差,我们的OCR功能可自动修正PDF或图像的特征。
随着我为您介绍目前业界顶尖的OCR解决方案,您将亲眼见证其卓越性能。
为何选择 IronOCR 进行图像或 PDF 文字识别?
若考量 IronOCR 解决方案在 Tesseract 管理方面的独特能力,选择它显然是明智之选,其优势包括:
- IronOCR 这款用于 PDF 文本识别的引擎,在纯 .NET 环境中开箱即用
- 它不需要在您的计算机上安装 Tesseract。
- 它与最新版本的引擎配合得非常出色:Tesseract 5(以及 Tesseract 4 和 3)。
- 适用于任何 .NET 项目:.NET Framework 4.5 及以上版本、.NET Standard 2 及以上版本,以及 .NET Core 2、3 和 5!
- 与其他开源 Tesseract 版本相比,其准确性和速度均有所提升。
- IronOCR 支持 Xamarin、Mono、Azure 和 Docker 开发平台。
- 您可以通过 NuGet 包管理复杂的 Tesseract 词典系统。
- 它能够从 PDF、多帧 TIFF 以及所有主流图像文件中提取文本,无需任何额外操作。
- 它能够修正质量低劣或倾斜的图像扫描件,从而在文本提取项目中获得最佳效果。
您有质量较差的扫描件吗? 没问题!
在OCR任务方面,IronOCR表现尤为出色。 实际上,许多同类产品仅针对机器打印的高分辨率完美文本或图像进行了优化,因此在实际应用中往往会出现不准确或无法正常运行的情况。 然而,IronOCR 并非如此。
IronOCR 在修正质量欠佳的文档方面表现出色。 它能够校正倾斜的扫描图像并增强低质量照片,使其成为可搜索的 PDF 文档或图像。 这正是我们的产品脱颖而出的原因。
根据您的工作流程调整 IronOCR 的性能
借助 Iron Software 的 OCR 解决方案,您可以调整文本提取任务的性能,从而为工作流程找到最佳平衡点。 我们深知这对许多用户和开发者至关重要,因此我们构建的OCR解决方案具备可调节的性能和高度的灵活性。
例如,影响 OCR 任务速度的一个非常重要的因素是输入图像的质量。 当背景噪音较少且图像分辨率较高(200 dpi 是一个较佳范围)时,OCR 处理速度越快,识别结果也越准确。 不过,借助 IronOCR 的性能调优功能,即使是图像质量较低的任务也能迅速完成。
此外,选择数字噪点较少的输入图像或扫描文本格式(如 PNG 或 TIFF),通常比 JPEG 等低质量图像格式能更快地获得结果。
安装 IronOCR 解决方案非常简单
Iron Software 套件非常易于安装和运行。 该工具支持主流开发平台。 我们的解决方案支持跨平台运行,涵盖 Windows、Linux、macOS、Azure、AWS 和 Docker —— 正因如此,C# 才使其成为开发者最青睐的 Tesseract OCR 引擎。
支持超过 125 种国际语言
对于OCR任务,当软件支持多种语言时,其实用性会显著提升。 IronOCR 解决方案之所以不可或缺,是因为它支持 125 种国际语言。 这些语言可通过以 DLL 文件形式分发的语言包进行安装。 用户可从本网站或 Visual Studio 的 NuGet 包管理器下载这些工具。
如何安装 OCR 语言包
支持 120 种语言。 您可以通过以下两种方法下载其他 OCR 语言包:
安装 NuGet 包
在 NuGet 中搜索 IronOCR 语言。
使用 OCR 数据方法
下载 ocrdata 文件,并将其添加到您的 .NET 项目或程序文件中。
轻松将扫描文件或图像转换为可搜索文档
我们引以为豪的一项功能是,我们的 Tesseract 软件能够根据输入的图像或扫描的 PDF 文件,生成可搜索的 PDF 文档或可搜索的文本。您可以在 C# 和 VB.NET 中将 OCR 结果导出为可搜索的 PDF 文档。 这对于企业和政府机构在数据库填充、搜索引擎优化(SEO)以及PDF处理方面大有裨益。
善用最佳 OCR 工具的强大功能
IronOCR 是从图像和文档中提取文本的业界领先工具。 它具备多种特性、功能和解决方案,让您在完成 OCR 任务时体验轻松顺畅。
我们的 OCR Tesseract C# 库可帮助您在 C# 和 .NET 应用程序等开发环境中,从图像和扫描文档中提取文本。
借助 IronOCR,您甚至可以轻松打开受密码保护的 PDF 文档,并流畅地提取文本。
此外,该翻译还应具备以下特点:
- 无需可执行文件或 C# 代码
- 全面支持 PDF OCR
- 兼容 MVC、Web 应用、桌面应用、控制台应用及服务器应用
- 全面支持 .NET Core、Standard 和 Framework
- 请使用
C#和VB阅读 .NET 内容 - 读取QR码和BarCode
- 将OCR结果导出为XHTML或可搜索的PDF文档
- 支持多线程
- 提取图片、坐标、统计数据、字体等丰富内容
迈出向 IronOCR 进军的坚定一步
考虑到这款卓越的OCR解决方案所具备的各项功能,如果您决定尝试IronOCR,绝对不会错。
只需点击几下,即可使用我们的软件。 首先安装 IronOCR —— 这非常简单。 此外,我们还提供了极其实用且详细的分步指南,介绍如何使用我们的任何工具,以及各类操作教程;更不用说我们资源丰富的支持中心,会尽快(几乎是即时)回复您的咨询。
不要犹豫——立即选择 IronOCR。 这是学习如何在 C# 中读取 PDF 文件的第一步,也是最重要的一步。
如果您仍有任何疑虑,我们的免费试用许可证正是您的理想选择。 它能帮助您充分发掘最新版 IronOCR 的全部潜力,且无需支付任何费用。 这有助于您确定哪种软件许可证最适合您。 如有疑问,无论您身处何地,请随时联系我们的专家团队。

