OCR工具

安装Tesseract(带图片的分步教程)

Kannaopat Udonpant
坎那帕·乌东攀
2023年一月27日
分享:

什么是 Tesseract OCR?

Tesseract 是一个开源软件库,遵循 Apache 许可协议发布。 它最初由惠普公司于 20 世纪 80 年代开发。 这是一款文本识别工具,主要用于识别和提取图像中的文本。 Tesseract OCR 提供了一个命令提示符界面来执行此功能。

如何在 Windows 中下载 Tesseract OCR

  1. 下载 Windows 版 Tesseract 安装程序

  2. 安装 Tesseract OCR

  3. 在环境变量中添加安装路径

  4. 运行 Tesseract OCR

1.下载 Windows 版 Tesseract 安装程序

要在 Windows 上使用 Tesseract 命令,我们首先需要下载 Tesseract OCR 二进制 .exe Windows 安装程序。

有很多地方可以下载最新版本的 Tesseract OCR。 这样的地方之一是来自 tesseract-ocr/tesseract(主库)

Install Tesseract, Figure 1: 魔方维基

魔方维基

下载tesseract-ocr-w64-setup-5.3.0.20221222.exe(64位)Windows安装程序。

可以使用以下任一命令在 macOS 的 Python 提示符下安装 Tesseract:

brew install tesseract
sudo port install tesseract

2.安装 Tesseract OCR

接下来,我们将使用上一步下载的 .exe 文件安装 Tesseract。启动 .exe 安装程序,开始安装 Tesseract。

安装程序语言

安装解压完成后,将出现安装程序的语言数据对话框。 您可以通过选择额外的语言包来安装 Tesseract 以使用多种语言,但这里我们只安装英语的语言数据。

Install Tesseract, Figure 2: 魔方安装程序

魔方安装程序

单击 "确定",Tesseract OCR 的安装程序语言即已设置。

Tesseract OCR 设置

接下来,将出现设置向导。 该安装向导将指导 Windows 版 Tesseract 的安装。

安装 Tesseract,图 3:Tesseract OCR

Tesseract OCR 设置向导

单击 "下一步 "继续安装。

接受许可协议

Tesseract OCR 采用 Apache License Version 2.0 许可。由于它是开源和免费使用的,您可以重新发布和修改 Tesseract 版本,而无需担心任何忠诚度问题。

安装 Tesseract,图 4:Tesseract 许可证

Tesseract OCR 采用 Apache License v2.0 许可。请接受此许可以继续安装。

单击我同意以继续安装。

选择用户

您可以选择为多个用户或单个用户安装 Tesseract。

安装 Tesseract,图 5:Tesseract 选择用户

选择为当前用户(您)或所有用户账户安装 Tesseract OCR

单击 "下一步 "选择要与 Tesseract 一起安装的组件。

选择组件

在要安装的组件列表中,ScrollView、培训工具、快捷方式创建和语言数据都被默认选中。 我们将保留所有默认的选定选项。 您可以根据需要选择或跳过任何组件。 通常都需要安装。

安装 Tesseract,图 6:Tesseract 组件

在此,您可以选择包含或排除 Tesseract OCR 组件。为获得最佳效果,请选择默认组件继续安装。

单击 "下一步 "选择安装位置。

选择安装位置

接下来,我们将选择安装 Tesseract 的位置。 确保复制目标文件夹路径。 稍后,我们将需要它将安装位置添加到机器的路径环境变量中。

安装 Tesseract,图 7:Tesseract 安装位置

选择 Tesseract OCR 库的安装位置,并记住该位置以备后用。

单击 "下一步 "进一步设置 Tesseract 的安装。

选择开始菜单文件夹

这是最后一步,我们将在 "开始 "菜单中创建快捷方式。 您可以为文件夹命名任何名称,但我保持了默认名称不变。

安装 Tesseract,图 8:Tesseract 启动菜单

选择 Tesseract OCR 开始菜单文件夹的名称

现在,点击安装,等待安装完成。 安装完成后,将出现以下屏幕。 单击 "完成",即可在 Windows 中成功安装 Tesseract OCR。

安装 Tesseract,图 9:Tesseract 安装程序

Tesseract OCR 安装现已完成。

3.在系统环境变量中添加安装路径

现在,我们将把 Tesseract 的安装路径添加到 Windows 的环境变量中。

在开始菜单中,输入 "环境变量" 或 "高级系统设置"

安装 Tesseract,图 10:系统路径变量

Windows 系统属性对话框

系统属性

打开 "系统属性 "对话框后,单击 "高级",然后单击屏幕右下方的 "环境变量 "按钮。

您将看到环境变量对话框。

环境变量

系统变量下,单击Path变量。

安装 Tesseract,图 11:环境变量

访问 Windows 系统环境变量

现在,点击编辑。

在环境变量中添加 Tesseract OCR for Windows 安装目录

编辑环境变量对话框中,点击新建。粘贴在第二步中复制的安装位置路径,然后点击确定。

安装 Tesseract,图 12:编辑环境变量

编辑 Windows 路径系统环境变量,添加包含 Tesseract OCR 安装绝对路径的条目

就是这样! 我们已在 Windows 机器上成功下载、安装并设置了 Tesseract OCR 的环境变量。

4.运行 Tesseract OCR

要检查 Tesseract OCR for Windows 是否成功安装并添加到环境变量,请在 Windows 机器上打开命令提示符(cmd),然后运行 "tesseract" 命令。 如果一切顺利,则必须通过 OCR 和单一选项(如 Tesseract 版本)显示快速解释使用指南。

安装 Tesseract,图 13:编辑环境变量

在 Windows 命令行(或 Windows Powershell)中运行tesseract命令,以确保上述安装步骤已正确完成。控制台输出是 Windows 成功安装的预期结果。

恭喜! 我们已成功安装了 Windows 版 Tesseract OCR。

IronOCR 库

IronOCR 是一个基于 Tesseract 的 C# 库,允许 .NET 软件开发人员从图像和 PDF 文档中识别和提取文本。 它完全由 .NET 构建,使用了目前已知最先进的 Tesseract 引擎。

通过NuGet包管理器安装

在 Visual Studio 中安装 IronOCR 或使用 NuGet 软件包管理器的命令行安装都非常简单。 在 Visual Studio 中,用以下命令导航到菜单选项:

工具 > NuGet 包管理器 > 包管理器控制台

然后在命令行中键入以下命令:

Install-Package IronOcr

这样就可以轻松安装 IronOCR,现在您就可以使用它来充分挖掘其潜力了。

您还可以下载适用于不同平台的其他IronOCR NuGet 包

IronOCR 与 Tesseract 5

下面的示例代码显示了使用 IronOCR Tesseract 从图像中读取文本并使用 C# 执行 OCR 是多么容易。

string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
Dim Text As String = (New IronTesseract()).Read("test-files/redacted-employmentapp.png").Text
Console.WriteLine(Text) ' Printed text
$vbLabelText   $csharpLabel

如果您想要更强大的代码,下面的内容应该可以帮助您完成同样的任务:

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddImage("test-files/redacted-employmentapp.png")
	' you can add any number of images
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

输入图像

安装 Tesseract,图 14:输入图像

用于 IronOCR 处理的输入图像样本

输出图像

输出结果在控制台上打印为

安装 Tesseract,图 15:输出图像

在样本图像上执行 IronOCR 后返回的控制台。

为什么选择IronOCR?

IronOCR 的安装非常简单。 它提供了一个完整且文档齐全的 .NET 软件库。

IronOCR 实现了99.8%的文本检测准确率,无需其他第三方库或网络服务。

它还提供多线程支持。 最重要的是,IronOCR 可以处理超过 125 种国际语言。

结论

在本教程中,我们学习了如何为 Windows 机器下载和安装 Tesseract OCR。Tesseract OCR 对于 C# 开发人员来说是一款优秀的软件,但它也有一些局限性。 本翻译尚未完全针对 .NET 开发。 扫描的图像文件或拍摄的图像需要经过处理并标准化为高分辨率,使其不含数字噪音。只有这样,Tesseract 才能准确地处理它们。

相比之下,IronOCR 可以处理提供的任何图像,无论是扫描的还是拍摄的,只需一行代码即可完成。 IronOCR 也使用 Tesseract 作为其内部 OCR 引擎,但它进行了非常精细的调整,以充分发挥 Tesseract 特别为 C# 而建的高性能和改进功能。

您可以从这个链接下载IronOCR软件产品。

Kannaopat Udonpant
坎那帕·乌东攀
软件工程师
在成为软件工程师之前,Kannapat 从日本北海道大学完成了环境资源博士学位。在攻读学位期间,Kannapat 还成为了生物生产工程系车辆机器人实验室的成员。2022年,他利用自己的 C# 技能加入了 Iron Software 的工程团队,专注于 IronPDF。Kannapat 珍视他的工作,因为他能直接向编写 IronPDF 大部分代码的开发者学习。除了同伴学习,Kannapat 还享受在 Iron Software 工作的社交方面。不写代码或文档时,Kannapat 通常在 PS5 上玩游戏或重看《最后生还者》。
< 前一页
Microsoft OCR工具(C#替代方案)
下一步 >
从PDF进行OCR(免费在线工具)