OCR工具

安装Tesseract(带图片的分步教程)

发布 2023年一月27日
分享:

什么是魔方 OCR?

Tesseract 是一个开源软件 librawry,根据 Apache 许可协议发布。它最初由惠普公司于 20 世纪 80 年代开发。它是一种文本识别工具,主要用于识别和提取图像中的文本。Tesseract OCR 提供了一个命令提示符界面来执行该功能。

如何在 Windows 中下载 Tesseract OCR

1.下载 Windows 版 Tesseract 安装程序

2.安装 Tesseract OCR

3.在环境变量中添加安装路径

4.运行 Tesseract OCR

1.下载 Windows 版 Tesseract 安装程序

要在 Windows 上使用 Tesseract 命令,我们首先需要下载 Tesseract OCR 二进制 .exe Windows 安装程序。

有很多地方可以下载最新版本的 Tesseract OCR。其中一个地方是 曼海姆大学分叉自 tesseract-ocr/tesseract (主存储库).

Install Tesseract, Figure 1: 魔方维基

魔方维基

下载 tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 位) Windows 安装程序。

在 macOS 上,可使用以下任一命令在 Python 提示下安装 Tesseract:

brew install tesseract
sudo port install tesseract

2.安装 Tesseract OCR

接下来,我们将使用上一步下载的 .exe 文件安装 Tesseract。启动 .exe 安装程序,开始安装 Tesseract。

安装程序语言

安装解压完成后,会出现安装程序的语言数据对话框。你可以通过选择额外的语言包来安装 Tesseract 以使用多种语言,但这里我们只安装英语的语言数据。

Install Tesseract, Figure 2: 魔方安装程序

魔方安装程序

单击 "确定",Tesseract OCR 的安装程序语言即已设置。

Tesseract OCR 设置

接下来会出现安装向导。该安装向导将指导 Windows 版 Tesseract 的安装。

安装 Tesseract,图 3:Tesseract OCR

Tesseract OCR 设置向导

单击 "下一步 "继续安装。

接受许可协议

Tesseract OCR 采用 Apache License Version 2.0 许可。由于它是开源和免费使用的,因此您可以重新发布和修改 Tesseract 版本,而无需担心任何忠诚度问题。

安装 Tesseract,图 4:Tesseract 许可证

Tesseract OCR 采用 Apache License v2.0 许可。请接受此许可以继续安装。

点击 我同意,继续安装。

选择用户

您可以选择为多个用户或单个用户安装 Tesseract。

安装 Tesseract,图 5:Tesseract 选择用户

选择为当前用户(您)或所有用户账户安装 Tesseract OCR

单击 "下一步 "选择要与 Tesseract 一起安装的组件。

选择组件

在要安装的组件列表中,ScrollView、培训工具、快捷方式创建和语言数据都被默认选中。我们将保留所有默认选项。您可以根据需要选择或跳过任何组件。通常所有组件都需要安装。

安装 Tesseract,图 6:Tesseract 组件

在此,您可以选择包含或排除 Tesseract OCR 组件。为获得最佳效果,请选择默认组件继续安装。

单击 "下一步 "选择安装位置。

选择安装地点

接下来,我们将选择安装 Tesseract 的位置。确保复制了目标文件夹路径。稍后我们将需要用它把安装位置添加到机器的路径环境变量中。

安装 Tesseract,图 7:Tesseract 安装位置

选择 Tesseract OCR 库的安装位置,并记住该位置以备后用。

单击 "下一步 "进一步设置 Tesseract 的安装。

选择开始菜单文件夹

这是最后一步,我们将在开始菜单中创建快捷方式。你可以给文件夹起任何名字,但我保持了默认的名字。

安装 Tesseract,图 8:Tesseract 启动菜单

选择 Tesseract OCR 开始菜单文件夹的名称

现在,点击安装,等待安装完成。安装完成后,会出现以下界面。单击 "完成",即可在 Windows 中成功安装 Tesseract OCR。

安装 Tesseract,图 9:Tesseract 安装程序

Tesseract OCR 安装现已完成。

3.在系统环境变量中添加安装路径

现在,我们将把 Tesseract 的安装路径添加到 Windows 的环境变量中。

在 "开始 "菜单中输入 "环境变量"或 "高级系统设置"。

安装 Tesseract,图 10:系统路径变量

Windows 系统属性对话框

系统属性

打开 "系统属性 "对话框后,单击 "高级",然后单击屏幕右下方的 "环境变量 "按钮。

环境变量对话框就会显示出来。

环境变量

系统变量下,点击路径变量。

安装 Tesseract,图 11:环境变量

访问 Windows 系统环境变量

现在,点击编辑。

在环境变量中添加Tesseract OCR for Windows安装目录

编辑环境变量对话框中,单击新建。粘贴第二步中复制的安装位置路径,然后单击确定。

安装 Tesseract,图 12:编辑环境变量

编辑 Windows 路径系统环境变量,添加包含 Tesseract OCR 安装绝对路径的条目

就是这样! 我们已经在 Windows 机器上成功下载、安装并设置了 Tesseract OCR 的环境变量。

4.运行 Tesseract OCR

要检查 Windows 版 Tesseract OCR 是否已成功安装并添加到环境变量中,请打开命令提示符 (cmd) 然后运行 "tesseract " 命令。如果一切正常,则必须显示快速使用说明指南,其中包含 OCR 和单一选项(如 Tesseract 版本)。

安装 Tesseract,图 13:编辑环境变量

运行 魔方 命令,以确保上述安装步骤正确无误。控制台输出是 Windows 安装成功的预期结果。

祝贺! 我们已成功安装了 Windows 版 Tesseract OCR。

IronOCR 库

IronOCR 是一个基于 Tesseract 的 C# 库,允许 .NET 软件开发人员从图像和 PDF 文档中识别和提取文本。它完全由.NET构建,使用了目前已知的最先进的Tesseract引擎。

使用 NuGet 软件包管理器安装

在 Visual Studio 或使用 NuGet 包管理器命令行安装 IronOCR 非常简单。在 Visual Studio 中,用以下命令导航到菜单选项:

工具 > NuGet 包管理器 > 包管理器控制台

然后在命令行中键入以下命令:

Install-Package IronOcr

这样就可以轻松安装 IronOCR,现在就可以充分发挥它的潜力了。

您还可以下载适用于不同平台的其他 IronOCR NuGet 包

使用魔方 5 的 IronOCR

下面的示例代码显示了使用 IronOCR Tesseract 从图像中读取文本并使用 C# 执行 OCR 是多么容易。

string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
Dim Text As String = (New IronTesseract()).Read("test-files/redacted-employmentapp.png").Text
Console.WriteLine(Text) ' Printed text
VB   C#

如果您想要更强大的代码,下面的内容应该可以帮助您完成同样的任务:

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddImage("test-files/redacted-employmentapp.png")
	' you can add any number of images
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

输入图像

安装 Tesseract,图 14:输入图像

用于 IronOCR 处理的输入图像样本

输出图像

在控制台中的输出打印为

安装 Tesseract,图 15:输出图像

在样本图像上执行 IronOCR 后返回的控制台。

为什么选择 IronOCR?

IronOCR 安装非常简单。它提供了一个完整的、文档齐全的 .NET 软件库。

IronOCR 实现了99.8%的文本检测准确率,无需其他第三方库或网络服务。

它还提供多线程支持。 最重要的是,IronOCR 可以使用超过 125 种国际语言。

结论

在本教程中,我们学习了如何在 Windows 机器上下载和安装 Tesseract OCR。对于 C++ 开发人员来说,Tesseract OCR 是一款出色的软件,但它也有一些局限性。它没有完全针对.NET开发。扫描的图像文件或拍摄的图像需要处理并标准化为高分辨率,使其不含数字噪音。只有这样,Tesseract 才能准确地处理它们。

相比之下,IronOCR 只需一行代码就能处理扫描或拍摄的任何图像。IronOCR 也使用 Tesseract 作为其内部 OCR 引擎,但它经过了非常精细的调整,以获得 Tesseract 的最佳性能,特别是为 C# 而构建的高性能和改进功能。

您可以从以下网址下载 IronOCR 软件产品链接.

< 前一页
Microsoft OCR工具(C#替代方案)
下一步 >
从PDF进行OCR(免费在线工具)

准备开始了吗? 版本: 2024.9 刚刚发布

免费NuGet下载 总下载量: 2,319,721 查看许可证 >