OCR工具

适用于 Mac 的最佳 OCR [免费在线工具]

发布 2023年八月29日
分享:

1.0 引言

由于 OCR 技术的出现,扫描文件在当代数字环境中的使用发生了革命性的变化。 (光学字符识别) 技术。这项技术使计算机能够从各种来源(包括扫描的 PDF 文档)中识别和提取文本,让我们能够快速编辑 PDF 文档并与之交互。使用光学字符识别技术,从扫描文件中提取文本并将其转换为可编辑的 PDF 或可搜索的基于图像的 PDF 既快捷又简单 (光学字符识别) 软件,如 Adobe Acrobat。

通过将 Tesseract 和 IronOCR 等 OCR 库提供的强大工具和 API 与机器学习技术相结合,开发人员可以利用最先进的算法,从而充分利用光学字符识别技术。这些库可以实现准确的文本识别,使新创建文档和已扫描文档的组织和提取有用数据变得更加简单。利用 OCR 最大限度地发挥扫描文档和页面图像的潜力,可实现无缝内容分析,并支持个人和企业生产力优化。OCR 扫描将图像转化为可搜索的 PDF,使 OCR 成为当代技术的重要工具。它可用于将纸质记录数字化、从发票中提取数据以及提高文档的可访问性。

2.0 OCR 工具

在本文中,我们将讨论一些最适合 Mac 用户使用的 OCR 软件工具。它们包括

1.Adobe Acrobat Pro DC

2.ABBYY FineReader PDF

3.Readiris 17

4.IronOCR

2.1 Adobe Acrobat Pro DC

最初的文档扫描 OCR 程序,也是我们 2023 年 Mac OCR 软件的首选,就是 Adobe Acrobat Pro。Adobe Acrobat Pro 是 Mac 上唯一一款可用于创建和编辑 PDF 文档以及将 PDF 文件转换为可编辑或可搜索格式的程序,这一点不足为奇。PDF 格式最初是由 Adobe 开发的。虽然现在市场上有许多其他产品能够处理各种 PDF 任务,但 Adobe Acrobat Pro DC 仍然异常强大。尽管有 Adobe Document Cloud 可用于在线访问 Adobe Acrobat Pro DC,但 Mac 桌面客户端仍有其卓越之处。值得注意的是,Adobe Acrobat 是唯一与最新的 M1 和 M2 Mac 兼容的 OCR 程序,这进一步增强了它的吸引力。

1.首先,启动 Acrobat 并打开 PDF 文件。

2.在右侧窗口中,选择编辑 PDF 工具。在自动执行光学字符识别后,Acrobat 会迅速将文档转换为完全可编辑的 PDF 副本。 (光学字符识别) 扫描。

图 1 - 在 Adobe Acrobat 中打开的带有 第 1 页 的 PDF。

要编辑元素,请单击该元素。您提供的任何附加文本都将与原始字体的样式相匹配。要保存新更改的文档,请选择文件 > 另存为。

有关 Adobe Acrobat DC 安装的更多信息,请访问 Adobe Acrobat 网站.

2.2 ABBYY FineReader PDF For Mac

适用于 Mac 的 ABBYY FineReader PDF OCR 软件已有近 20 年的历史,不过在这期间的大部分时间里,它的品牌是 ABBYY FineReader Pro。随着 macOS Big Sur 的推出,ABBYY 更新了 FineReader 产品线,推出了 FineReader PDF。遗憾的是,它只能在英特尔 Mac 上运行。ABBYY FineReader PDF for Mac 兼容 M1 和 M2 Mac,但只能与 Rosetta(macOS 中的一个程序,可将为英特尔处理器设计的软件转换为在苹果硅芯片上运行)一起使用。目前还没有与 M1/M2 芯片原生兼容的 Mac 版 FineReader PDF。尽管如此,适用于 Mac 和 PC 的最佳桌面 OCR 程序之一仍然是 ABBYY FineReader PDF。

虽然原始文档的质量会影响准确率,但 FineReader PDF 的 OCR 文本识别能力非常出色,无疑是市场上最好的。扫描文档的原始格式,包括文字大小、字体样式、照片、表格和布局,都会被保留下来。它还能快速、准确地识别文本。以下是执行 OCR 的步骤:

1.启动 ABBYY FineReader PDF。

2.选择 "可搜索的 PDF "选项,打开 PDF 并将其转换为可搜索的 PDF。您还可以保存转换后的 PDF 文件。

图 2 - ABBYY FineReader 的源代码对话框。

要了解有关 ABBYY FineReader 的更多信息,请访问他们的 网站.

2.3 Readiris 17

Mac 用户可以使用 ReadIris 17 作为 OCR 解决方案。尽管 ReadIris 主要用于 Windows 系统,但它还是为 Mac 用户开发了具有 OCR 功能的 PDF 阅读器和编辑器。

有了 ReadIris 17,用户可以轻松地合并、分割、保护和签署 PDF。这款离线 Mac OCR 软件可将 PDF 文件转换为 Word、Excel、可搜索 PDF 或 PowerPoint,同时保留文档格式。不过,免费版本对一次扫描的页数有限制。

最佳 OCR for Mac,图 3 - ReadIris 17 中的 PDF,文本为 Hello world!。

我在软件中输入了一张图片,并尝试从中提取文字。此外,它还捕捉了屏幕上可见的元素。可能需要进行一些后期处理。

要了解更多信息,请参阅 鸢尾花网站.

2.4 IronOCR

IronOCR 与标准 Tesseract 库相比,该控件增强了 Tesseract,提供了一个本地 C# OCR 库,其准确性、性能和稳定性都得到了提高。它能使用 .NET 工具和网站从 PDF 和图像中提取文本。IronOCR 支持多种外语,可以输出纯文本或结构化数据。它还能读取嵌入文本的条形码和图像。用 Dot NET 控制台、Web、MVC 和桌面开发的应用程序可以利用 Iron Software OCR 库。开发团队为商业部署提供直接支持。IronOCR 与最新版本的 Visual Studio 兼容。

IronOCR 的优势

1.利用现代 Tesseract 5 引擎,IronOCR 可以扫描各种图像或 PDF 文件中的纸质文档、条形码和 QR 码。该软件包简化了将 OCR 集成到桌面、控制台和网络应用程序的过程。

2.在 IronOCR 的协助下,我们可以执行 OCR,将扫描的 PDF 转换为可搜索的 PDF。

3.IronOCR 支持全球 127 种不同语言,此外还支持自定义语言和单词表。

4.该软件可读取 20 多种不同类型的条形码和 QR 码。

5.IronOCR 可提供条形码数据和纯文本输出。开发人员可以通过另一种结构化数据对象范例访问所有内容,以便直接输入系统。这包括在线应用程序中逻辑有序的标题、段落、行、单词和字符。

更多信息,请参阅 IronOCR 网站.

使用 IronOCR 进行 OCR 处理

IronOCR 是一个强大的 OCR 库,可实现 PDF 文档的转换和数据访问。它有助于转换成机器可读文本,以便在不损害数据隐私的情况下进行高效分析和处理。下面是一个如何利用 IronOCR 从图像中提取 OCR 文本的示例:

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

using (OcrInput ocrInput = new OcrInput("Demo.gif"))
{
    OcrResult ocrResult = Ocr.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

using (OcrInput ocrInput = new OcrInput("Demo.gif"))
{
    OcrResult ocrResult = Ocr.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5

Using ocrInput As New OcrInput("Demo.gif")
	Dim ocrResult As OcrResult = Ocr.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
VB   C#

在提供的代码片段中,我们增强了 Iron Tesseract 的功能。我们创建了一个 OcrInput 对象,以简化添加一个或多个图像文件的操作。使用 OcrInput 对象的添加方法时,请在代码中指定图片的路径。您可以根据需要使用任意数量的发票照片。通过解析图像文件并将结果提取到 OCR 结果中,我们利用之前构建的 IronOCR 对象的 "读取 "功能来访问图像。它可以从图像中提取文本并将其转换为字符串。

图 4 - 在 Adobe Acrobat 中打开的 PDF,文本为 Hello world!。

下面的输出显示了从提供的图像中提取的文本,确认提取正确无误。IronOCR 还支持多种输出格式来保存结果。

图 5 - 命令行上显示文本 Hello world!。

结论

市场上有多种 OCR 工具可以处理发票数据。对图像进行 OCR 处理可以从提供的图像中翻译出文本数据。前两种 OCR 工具可通过处理发票数据实现自动扫描和数据验证,而无需手动输入数据。这些工具往往价格昂贵,而且通常需要激活互联网连接,因此只能在特定环境下使用。

另一方面,IronOCR 支持各种 .NET 项目,包括 .NET Framework Standard 2、.NET Framework 4.5 和 .NET Core 2、3 和 5。它还能与 Xamarin、Azure、MAC 和 Mono 等现代技术配合使用。IronOCR 可增强 Tesseract 的输出,并使用 IronOCR 方法纠正不准确的扫描字词或图像。复杂的 Tesseract 字典系统由 NuGet 软件包管理。Iron OCR 库用于创建 OCR 工具。因此,IronOCR 是一款理想的发票 OCR 软件,能以最少的编码实现发票自动化和数据提取。

IronOCR 支持多种图像格式、PDF 文件和多帧 TIFF,提供无缝体验,无需额外设置。除光学字符识别功能外,它还提供条形码识别功能,可从包含条形码的图像中提取数据。IronOCR 经济实惠的开发版可免费试用,购买 IronOCR 捆绑软件还可获得终身许可证。IronOCR 捆绑软件具有极高的价值,因为它提供了涵盖多个系统的单一定价。有关 IronOCR 成本的更多详情,请访问 IronOCR 网站.

< 前一页
机器学习软件(开发人员更新列表)
下一步 >
如何使用OCR文本识别(初学者教程)

准备开始了吗? 版本: 2024.9 刚刚发布

免费NuGet下载 总下载量: 2,353,651 查看许可证 >