PDF光学字符识别文本提取
Iron Tesseract可以识别多种图像格式,也可以读取PDF文档。 此功能无法通过常规的免费Tesseract引擎实现。
OcrInput
提供了一个选项,可以在扫描质量不佳时自动纠正PDF的特性。
开发者可以指定读取整个PDF、选择的页面或单个裁剪区域。
如何在 C&num 中 OCR PDF 文件;
- 下载用于 OCR PDF 文件的 C# 库
- 使用
AddPdf
方法添加 PDF 文档 - 使用以下功能添加 PDF 文档的某些页面
添加 PDF 页
方法 - 利用
读取
方法 to perform OCR on added PDF - 查看所有二维码值
条形码
属性访问 文本 属性来检索 OCR 结果
C# PDF OCR
许多OCR工具在最佳条件下工作得很好,但当您需要在任何条件下都能以更高的稳定性和准确性完成工作时,IronOCR文本提取解决方案正是您所需要的。
IronOCR 用于文本提取是从头开始构建的,并且能够以 99% 的准确度转换现实世界中的图像。
IronTesseract
,我们的本地C# OCR库,能够以近乎人类的方式识别出实际图片中的字符,这些图片质量可能不是很好,有时还会倾斜。
我们的OCR能够自动纠正PDF或图像特性,以便改善扫描质量较差的情况。
当我向您介绍目前可用的最佳 OCR 解决方案时,您将能亲自看到。
为什么选择IronOCR进行图像或PDF OCR文本提取?
选择IronOCR解决方案进行Tesseract管理是显而易见的选择,因为它具有以下独特功能:
- IronOCR for PDF的OCR文本提取引擎在纯.NET中即可开箱即用。
- 无需在您的计算机上安装Tesseract。
- 它与最新的引擎(如 Tesseract 5)表现出色。(以及魔方 4 和 3).
- 适用于任何 .NET 项目:.NET Framework 4.5 +、.NET Standard 2 + 和 .NET Core 2、3 和 5!
- 它的准确性和速度比其他开源Tesseract更高。
- IronOCR 支持 Xamarin、Mono、Azure 和 Docker 开发平台。
- 您可以使用NuGet包管理复杂的Tesseract字典系统。
- 它可以从PDF、多帧Tiff和所有主要图像文件中提取文本,无需任何额外操作。
它可以纠正低质量和倾斜的图像扫描,以从您的文本提取项目中获得最佳结果。
查看我们关于IronOCR解决方案的完整教程。这里。
你的扫描质量低吗?
没问题!
IronOCR 在 OCR 任务中表现出色。 实际上,许多类似的产品都是为了与机器印刷的、高分辨率的、完美的文本或图像良好配合而设计的,因此在现实世界的应用中它们会变得不准确或失败。 然而,IronOCR并非如此。
IronOCR擅长纠正不完美的文件。 它可以矫正歪斜的扫描图像并增强低质量照片,使它们变成可搜索的PDF文档或图像。 这就是我们的产品与众不同的地方。
调整IronOCR性能以适应您的工作流程
使用 Iron Software OCR 解决方案,您可以调整文本提取任务的性能,以获得适合您工作流程的正确平衡。 我们知道这对许多用户和开发者来说非常重要,因此我们构建了我们的OCR解决方案,使其性能可调和灵活。
例如,影响OCR任务速度的一个非常重要的因素是输入图像的质量。 当背景噪音较少且同时具有更高的dpi时(200 dpi 是一个不错的范围),越快产出,OCR结果越精确。 然而,借助IronOCR的性能调优功能,即使是低质量图像的任务也可以迅速完成。
此外,选择输入图像或扫描文本格式时,选择数字噪声较小的格式,如PNG或TIFF,也可以比选择质量较低的图像格式如JPEG获得更快的结果。
安装IronOCR解决方案非常简单
Iron Software套件非常容易安装和运行。 它适用于最流行的开发平台。 我们的解决方案支持跨平台,包括Windows、Linux、macOS、Azure、AWS和Docker——这就是为什么C#使其成为开发者中最受欢迎的Tesseract OCR引擎的原因。
支持超过125种国际语言
对于OCR任务,当软件支持多种语言时,它会变得更加有用。 IronOCR 解决方案之所以不可或缺,是因为它支持 125 种国际语言。 这些语言可以通过分发为 DLL 文件的语言包来安装。 他们可以从这个网站或Visual Studio的NuGet包管理器下载。
如何安装OCR语言包
一百二十种语言得到支持。 您可以下载任何附加 OCR 语言包使用两种方法:
安装 NuGet 包
在 NuGet 上搜索 IronOCR Languages。
使用OCR数据方法
下载“ocrdata”文件并将其添加到您的 .NET 项目或程序文件中。
Set CopyToOutputDirectory = CopyIfNewer
Set CopyToOutputDirectory = CopyIfNewer
轻松地将扫描文件或图像转换为可搜索的文档。
我们非常自豪的一个功能是我们的Tesseract软件能够从输入图像或扫描的PDF文件创建可搜索的PDF文档或可搜索的文本。您可以将您的OCR结果导出为PDF,该PDF将在C#和VB.NET中成为一个可搜索的PDF文档。 这对于帮助企业和政府进行数据库填充、搜索引擎优化和PDF处理非常有帮助。
利用最佳OCR工具的力量
IronOCR是从图像和文档中提取文本的最佳工具。 它提供了许多功能和解决方案,让您在完成OCR任务时体验轻松顺畅。
我们的OCR Tesseract C#库可以帮助您在C#和.NET应用程序等开发环境中从图像和扫描文档中提取文本。
使用IronOCR,您可以轻松打开受密码保护的PDF文档,并且可以顺畅地提取文本。
它还具有以下特点:
- 不需要可执行文件或C++代码
- 完整的 PDF OCR 支持
- MVC、Web应用程序、桌面、控制台和服务器应用程序兼容
- 完整的 .NET Core、Standard 和 Framework 支持
- 使用 C# 和 VB .NET 读取
- 读取QR码和条形码
- 将OCR导出为XHTML或可搜索的PDF文档。
- 支持多线程
- 提取图像、坐标、统计数据、字体等。
向 IronOCR 迈出大胆的一步
考虑到这个令人难以置信的OCR解决方案的功能,如果你决定尝试使用IronOCR,你不会后悔的。
使用我们的软件只需点击几下。 首先安装 IronOCR —— 这是一项非常简单的任务。 此外,这些非常有帮助和详细的分步指南使用我们的任何工具和操作指南更不用说我们资源丰富的支持中心会尽快回复您的询问了。(几乎马上).
不要犹豫 — 今天就选择IronOCR。 这是学习如何在C#中读取PDF文件的第一步也是最重要的一步。
如果您心中还有任何疑问,我们的免费试用许可密钥非常适合您。 它可以帮助您无任何财务条件地探索最新版本的IronOCR的全部潜力。 它可以帮助您决定哪种软件许可证最适合您。 如果您不确定,请随时联系我们的专家团队,无论您身在何处。