OCR工具

适用于 Mac 的最佳 OCR [免费在线工具]

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

坎那帕·乌东攀

2023年八月29日

1.0 简介

由于光学字符识别（OCR）技术的出现，扫描文档在当代数字环境中的使用发生了革命性的变化。该技术使计算机能够识别和提取各种来源的文本，包括扫描的 PDF 文档，从而使我们能够快速编辑 PDF 文档并与之交互。使用如Adobe Acrobat等光学字符识别（OCR）软件，从扫描文档中提取文本并将其转换为可编辑的PDF或可搜索的基于图像的PDF既快速又简单。

开发人员可以利用尖端算法，通过将 Tesseract 和 IronOCR 等 OCR 库提供的强大工具和 API 与机器学习技术相结合，充分利用光学字符识别技术。这些库可以实现准确的文本识别，使新创建文档和已扫描文档的组织和提取有用数据变得更加简单。利用 OCR 最大限度地发挥扫描文档和页面图像的潜力，可实现无缝内容分析，并支持个人和企业生产力优化。 OCR 扫描将图像转化为可搜索的 PDF，使 OCR 成为当代技术的重要工具。它可用于纸质记录的数字化、从发票中提取数据以及提高文档的可访问性。

2.0 OCR 工具

在本文中，我们将讨论一些最适合 Mac 用户使用的 OCR 软件工具。它们包括：

Adobe Acrobat Pro DC
ABBYY FineReader PDF
Readiris 17
IronOCR

2.1 Adobe Acrobat Pro DC

最初的文档扫描 OCR 程序，也是我们 2023 年 Mac OCR 软件的首选，是 Adobe Acrobat Pro。 Adobe Acrobat Pro 是 Mac 上唯一一款可用于创建和编辑 PDF 文档以及将 PDF 文件转换为可编辑或可搜索格式的程序，这一点不足为奇。 PDF 格式最初由 Adobe 开发。虽然现在市场上有许多其他产品能够处理各种 PDF 任务，但 Adobe Acrobat Pro DC 仍然异常强大。尽管有 Adobe Document Cloud 可用于在线访问 Adobe Acrobat Pro DC，但 Mac 桌面客户端仍有其卓越之处。值得注意的是，Adobe Acrobat 是唯一与最新的 M1 和 M2 Mac 兼容的 OCR 程序，这进一步增强了它的吸引力。

首先，启动 Acrobat 并打开一个 PDF 文件。
在右侧窗口中，选择编辑 PDF 工具。 Acrobat在对您的PDF进行自动光学字符识别（OCR）扫描后，迅速将您的文档转换为可完全编辑的副本。
要编辑元素，请单击该元素。您提供的任何附加文本都将与原字体风格保持一致。要保存新更改的文档，请选择文件 > 另存为。
您可以在Adobe Acrobat 网站上了解有关 Adobe Acrobat DC 安装的更多信息。

2.2 ABBYY FineReader PDF for Mac

适用于 Mac 的 ABBYY FineReader PDF OCR 软件已推出近 20 年，但在大部分时间里，它的品牌是 ABBYY FineReader Pro。随着 macOS Big Sur 的推出，ABBYY 更新了 FineReader 产品线，推出了 FineReader PDF。遗憾的是，它只能在英特尔 Mac 上运行。 ABBYY FineReader PDF for Mac 兼容 M1 和 M2 Mac，但只能与 Rosetta（macOS 中的一个程序，可将为英特尔处理器设计的软件转换为在苹果硅芯片上运行）一起使用。目前还没有与 M1/M2 芯片原生兼容的 Mac 版 FineReader PDF。尽管如此，适用于 Mac 和 PC 的最佳桌面 OCR 程序之一仍然是 ABBYY FineReader PDF。

虽然原始文档的质量会影响准确率，但 FineReader PDF 的 OCR 文本识别能力非常出色，无疑是市场上最好的。保留扫描文档的原始格式，包括文字大小、字体样式、照片、表格和布局。它还必须能够快速、准确地识别文本。以下是执行 OCR 的步骤：

启动 ABBYY FineReader PDF。
选择 "可搜索的 PDF "选项，您可以打开 PDF 并将其转换为可搜索的 PDF。您还可以保存转换后的 PDF 文件。
要了解更多关于ABBYY FineReader的信息，请访问他们的网站。

2.3 Readiris 17

Mac 用户可以使用 ReadIris 17 作为 OCR 解决方案。尽管 ReadIris 主要用于 Windows 系统，但它也为 Mac 用户开发了支持 OCR 的 PDF 阅读器和编辑器。

有了 ReadIris 17，用户可以轻松地合并、分割、保护和签署 PDF。离线 Mac OCR 软件可将 PDF 文件转换为 Word、Excel、可搜索 PDF 或 PowerPoint，同时保留文档格式。不过，免费版本对一次可扫描的页面数量有限制。

适用于 Mac 的最佳 OCR，图 3 - 在 ReadIris 17 中的 PDF，其中包含文本“Hello world!”。

我在软件中输入了一张图片，并尝试从中提取文字。此外，还要捕捉屏幕上可见的元素。可能需要进行一些后期处理。

要了解更多信息，请参阅Iris 网站。

2.4 IronOCR

IronOCR 在与标准 Tesseract 库的比较中增强了 Tesseract，提供了一个本地 C# OCR 库，具有更高的精确度、性能和稳定性。它可以使用 .NET 工具和网站从 PDF 和图像中提取文本。 IronOCR 支持多种外语，可以输出纯文本或结构化数据。它能够读取嵌入文本的 BarCode 和图像。用 Dot NET 控制台、Web、MVC 和桌面开发的应用程序可以利用 Iron Software OCR 库。开发团队为商业部署提供直接支持。 IronOCR 兼容 Visual Studio 的最新版本。

IronOCR 的优势

IronOCR 利用现代 Tesseract 5 引擎，可以扫描各种图像或 PDF 文件中的纸质文档、条形码和 QR 码。该软件包简化了将 OCR 集成到桌面、控制台和网络应用程序的过程。
在 IronOCR 的协助下，我们可以执行 OCR，将扫描的 PDF 转换为可搜索的 PDF。
IronOCR 支持全球 127 种不同语言，此外还支持自定义语言和单词表。
该软件可读取 20 多种不同类型的 BarCode 和 QR 码。
IronOCR 同时提供条形码数据和纯文本输出。开发人员可以通过另一种结构化数据对象范例访问所有内容，以便直接输入系统。这包括在线应用程序中逻辑清晰的标题、段落、行、单词和字符。
有关更多信息，请参阅IronOCR网站。

使用 IronOCR 进行 OCR 处理

IronOCR 是一个强大的 OCR 库，可以实现 PDF 文档的转换和数据访问。它便于转换为机器可读文本，以便在不损害数据隐私的情况下进行高效分析和处理。下面是一个如何利用 IronOCR 从图像中使用 OCR 提取文本的示例：

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

using (OcrInput ocrInput = new OcrInput("Demo.gif"))
{
    OcrResult ocrResult = Ocr.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

using (OcrInput ocrInput = new OcrInput("Demo.gif"))
{
    OcrResult ocrResult = Ocr.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5

Using ocrInput As New OcrInput("Demo.gif")
	Dim ocrResult As OcrResult = Ocr.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using

$vbLabelText $csharpLabel

在提供的代码片段中，我们增强了 Iron Tesseract 的功能。创建 OcrInput 对象是为了简化添加一个或多个图像文件的过程。使用 OcrInput 对象的 Add 方法时，请在代码中指定图片的路径。您可以根据需要使用任意数量的发票照片。通过解析图像文档并将结果提取到 OCR 结果中，我们利用之前构建的 IronOCR 对象的 "读取 "功能来访问图像。它可以从图像中提取文本并将其转换为字符串。

适用于Mac的最佳OCR，图4 - 在Adobe Acrobat中打开的PDF，带有文本“Hello world！”。

下面的输出显示了从提供的图片中提取的文本，确认提取正确无误。 IronOCR 还支持各种输出格式以保存结果。

适用于 Mac 的最佳 OCR，图 5 - 命令行上显示文字 Hello world!。

结论

市场上有多种 OCR 工具可以对发票进行数据处理。通过对图像进行 OCR 处理，可以翻译所提供图像中的文本数据。前两个 OCR 工具无需手动输入数据即可处理发票数据，从而实现自动扫描和数据验证。这些工具往往价格昂贵，而且通常需要激活互联网连接，因此只能在特定环境下使用。

另一方面，IronOCR 支持各种 .NET 项目，包括 .NET Framework Standard 2、.NET Framework 4.5 和 .NET Core 2、3 和 5。它还能与 Xamarin、Azure、MAC 和 Mono 等现代技术配合使用。IronOCR 可增强 Tesseract 的输出，并使用 IronOCR 方法纠正不准确的扫描文字或图像。复杂的 Tesseract 词典系统由 NuGet 软件包管理。利用 Iron OCR 库创建 OCR 工具。因此，IronOCR 是一款理想的发票 OCR 软件，可实现发票自动化，并以最少的编码提取数据。

IronOCR 支持多种图像格式、PDF 文件和多帧 TIFF，可提供无缝体验，无需额外设置。它超越了光学字符识别的范围，提供了条形码识别功能，可从包含条形码的图像中提取数据。 IronOCR 经济实惠的开发版可免费试用，购买 IronOCR 套装还可获得终身许可。 IronOCR 捆绑包提供了涵盖多个系统的单一定价，因此具有极高的价值。有关IronOCR费用的更多详细信息，请访问IronOCR网站。

坎那帕·乌东攀

立即与工程团队聊天

软件工程师

在成为软件工程师之前，Kannapat 从日本北海道大学完成了环境资源博士学位。在攻读学位期间，Kannapat 还成为了生物生产工程系车辆机器人实验室的成员。2022年，他利用自己的 C# 技能加入了 Iron Software 的工程团队，专注于 IronPDF。Kannapat 珍视他的工作，因为他能直接向编写 IronPDF 大部分代码的开发者学习。除了同伴学习，Kannapat 还享受在 Iron Software 工作的社交方面。不写代码或文档时，Kannapat 通常在 PS5 上玩游戏或重看《最后生还者》。

< 前一页
机器学习软件（开发者更新列表）

下一步 >
如何使用OCR文本识别（初学者教程）