OCR工具

安装Tesseract(带图片的分步教程)

发布 2023年一月27日
分享:

什么是 Tesseract OCR?

Tesseract 是一个开源软件 librawry,根据 Apache 许可协议发布。 它最初由惠普公司于 20 世纪 80 年代开发。 这是一款文本识别工具,主要用于识别和提取图像中的文本。 Tesseract OCR 提供了一个命令提示符界面来执行此功能。

如何在 Windows 中下载 Tesseract OCR

  1. 下载 Windows 版 Tesseract 安装程序

  2. 安装 Tesseract OCR

  3. 在环境变量中添加安装路径

  4. 运行 Tesseract OCR

1.下载 Windows 版 Tesseract 安装程序

要在 Windows 上使用 Tesseract 命令,我们首先需要下载 Tesseract OCR 二进制 .exe Windows 安装程序。

有很多地方可以下载最新版本的 Tesseract OCR。 一旦从 曼海姆大学分叉自 tesseract-ocr/tesseract (主存储库).

安装Tesseract,图1:Tesseract Wiki

魔方维基

下载 tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 位)Windows 安装程序。

可以使用以下任一命令在 macOS 的 Python 提示符下安装 Tesseract:

brew install tesseract
sudo port install tesseract

2.安装 Tesseract OCR

接下来,我们将使用上一步下载的 .exe 文件安装 Tesseract。启动 .exe 安装程序,开始安装 Tesseract。

安装程序语言

安装解压完成后,将出现安装程序的语言数据对话框。 您可以通过选择额外的语言包来安装 Tesseract 以使用多种语言,但这里我们只安装英语的语言数据。

安装Tesseract,图2:Tesseract安装程序

魔方安装程序

单击 "确定",Tesseract OCR 的安装程序语言即已设置。

Tesseract OCR 设置

接下来,将出现设置向导。 该安装向导将指导 Windows 版 Tesseract 的安装。

安装 Tesseract,图 3:Tesseract OCR

Tesseract OCR 设置向导

单击 "下一步 "继续安装。

接受许可协议

Tesseract OCR 采用 Apache License Version 2.0 许可。由于它是开源和免费使用的,您可以重新发布和修改 Tesseract 版本,而无需担心任何忠诚度问题。

安装 Tesseract,图 4:Tesseract 许可证

Tesseract OCR 采用 Apache License v2.0 许可。请接受此许可以继续安装。

点击 我同意,继续安装。

选择用户

您可以选择为多个用户或单个用户安装 Tesseract。

安装 Tesseract,图 5:Tesseract 选择用户

选择为当前用户(您)或所有用户账户安装 Tesseract OCR

单击 "下一步 "选择要与 Tesseract 一起安装的组件。

选择组件

在要安装的组件列表中,ScrollView、培训工具、快捷方式创建和语言数据都被默认选中。 我们将保留所有默认的选定选项。 您可以根据需要选择或跳过任何组件。 通常都需要安装。

安装 Tesseract,图 6:Tesseract 组件

在此,您可以选择包含或排除 Tesseract OCR 组件。为获得最佳效果,请选择默认组件继续安装。

单击 "下一步 "选择安装位置。

选择安装位置

接下来,我们将选择安装 Tesseract 的位置。 确保复制目标文件夹路径。 稍后,我们将需要它将安装位置添加到机器的路径环境变量中。

安装 Tesseract,图 7:Tesseract 安装位置

选择 Tesseract OCR 库的安装位置,并记住该位置以备后用。

单击 "下一步 "进一步设置 Tesseract 的安装。

选择开始菜单文件夹

这是最后一步,我们将在 "开始 "菜单中创建快捷方式。 您可以为文件夹命名任何名称,但我保持了默认名称不变。

安装 Tesseract,图 8:Tesseract 启动菜单

选择 Tesseract OCR 开始菜单文件夹的名称

现在,点击安装,等待安装完成。 安装完成后,将出现以下屏幕。 单击 "完成",即可在 Windows 中成功安装 Tesseract OCR。

安装 Tesseract,图 9:Tesseract 安装程序

Tesseract OCR 安装现已完成。

3.在系统环境变量中添加安装路径

现在,我们将把 Tesseract 的安装路径添加到 Windows 的环境变量中。

在开始菜单中键入 "环境变量"或 "高级系统设置"。

安装 Tesseract,图 10:系统路径变量

Windows 系统属性对话框

系统属性

打开 "系统属性 "对话框后,单击 "高级",然后单击屏幕右下方的 "环境变量 "按钮。

您将看到环境变量对话框。

环境变量

系统变量下,点击路径变量。

安装 Tesseract,图 11:环境变量

访问 Windows 系统环境变量

现在,点击编辑。

在环境变量中添加 Tesseract OCR for Windows 安装目录

编辑环境变量对话框中,单击新建。粘贴第二步中复制的安装位置路径,然后单击确定。

安装 Tesseract,图 12:编辑环境变量

编辑 Windows 路径系统环境变量,添加包含 Tesseract OCR 安装绝对路径的条目

就是这样! 我们已在 Windows 机器上成功下载、安装并设置了 Tesseract OCR 的环境变量。

4.运行 Tesseract OCR

要检查 Windows 版 Tesseract OCR 是否已成功安装并添加到环境变量,请打开命令提示符(cmd)在 Windows 机器上运行 "tesseract " 命令。 如果一切顺利,则必须通过 OCR 和单一选项(如 Tesseract 版本)显示快速解释使用指南。

安装 Tesseract,图 13:编辑环境变量

运行 魔方 命令,以确保上述安装步骤正确无误。控制台输出是 Windows 安装成功的预期结果。

祝贺! 我们已成功安装了 Windows 版 Tesseract OCR。

IronOCR 库

IronOCR是一个基于 Tesseract 的 C# 库,允许 .NET 软件开发人员从图像和 PDF 文档中识别和提取文本。 它完全由 .NET 构建,使用了目前已知最先进的 Tesseract 引擎。

通过NuGet包管理器安装

在 Visual Studio 中安装 IronOCR 或使用 NuGet 软件包管理器的命令行安装都非常简单。 在 Visual Studio 中,用以下命令导航到菜单选项:

工具 > NuGet 包管理器 > 包管理器控制台

然后在命令行中键入以下命令:

Install-Package IronOcr

这样就可以轻松安装 IronOCR,现在您就可以使用它来充分挖掘其潜力了。

您还可以下载适用于不同平台的其他 IronOCR NuGet 包

IronOCR 与 Tesseract 5

下面的示例代码显示了使用 IronOCR Tesseract 从图像中读取文本并使用 C# 执行 OCR 是多么容易。

string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
Dim Text As String = (New IronTesseract()).Read("test-files/redacted-employmentapp.png").Text
Console.WriteLine(Text) ' Printed text
VB   C#

如果您想要更强大的代码,下面的内容应该可以帮助您完成同样的任务:

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddImage("test-files/redacted-employmentapp.png")
	' you can add any number of images
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

输入图像

安装 Tesseract,图 14:输入图像

用于 IronOCR 处理的输入图像样本

输出图像

输出结果在控制台上打印为

安装 Tesseract,图 15:输出图像

在样本图像上执行 IronOCR 后返回的控制台。

为什么选择IronOCR?

IronOCR 的安装非常简单。 它提供了一个完整且文档齐全的 .NET 软件库。

IronOCR 的文本检测准确率达到99.8%,无需使用其他第三方库或网络服务。

它还提供多线程支持。 最重要的是,IronOCR 可以处理超过 125 种国际语言。

结论

在本教程中,我们学习了如何为 Windows 机器下载和安装 Tesseract OCR。Tesseract OCR 对于 C# 开发人员来说是一款优秀的软件,但它也有一些局限性。 本翻译尚未完全针对 .NET 开发。 扫描的图像文件或拍摄的图像需要经过处理并标准化为高分辨率,使其不含数字噪音。只有这样,Tesseract 才能准确地处理它们。

相比之下,IronOCR 可以处理提供的任何图像,无论是扫描的还是拍摄的,只需一行代码即可完成。 IronOCR 也使用 Tesseract 作为其内部 OCR 引擎,但它进行了非常精细的调整,以充分发挥 Tesseract 特别为 C# 而建的高性能和改进功能。

您可以从以下网址下载 IronOCR 软件产品链接.

< 前一页
Microsoft OCR工具(C#替代方案)
下一步 >
从PDF进行OCR(免费在线工具)

准备开始了吗? 版本: 2024.11 刚刚发布

免费NuGet下载 总下载量: 2,791,504 查看许可证 >