在实际环境中测试
在生产中测试无水印。
随时随地为您服务。
Tesseract 是一个开源软件 librawry,根据 Apache 许可协议发布。它最初由惠普公司于 20 世纪 80 年代开发。它是一种文本识别工具,主要用于识别和提取图像中的文本。Tesseract OCR 提供了一个命令提示符界面来执行该功能。
1.下载 Windows 版 Tesseract 安装程序
2.安装 Tesseract OCR
3.在环境变量中添加安装路径
4.运行 Tesseract OCR
要在 Windows 上使用 Tesseract 命令,我们首先需要下载 Tesseract OCR 二进制 .exe Windows 安装程序。
有很多地方可以下载最新版本的 Tesseract OCR。其中一个地方是 曼海姆大学分叉自 tesseract-ocr/tesseract (主存储库).
下载 tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 位) Windows 安装程序。
在 macOS 上,可使用以下任一命令在 Python 提示下安装 Tesseract:
brew install tesseract
sudo port install tesseract
接下来,我们将使用上一步下载的 .exe 文件安装 Tesseract。启动 .exe 安装程序,开始安装 Tesseract。
安装解压完成后,会出现安装程序的语言数据对话框。你可以通过选择额外的语言包来安装 Tesseract 以使用多种语言,但这里我们只安装英语的语言数据。
单击 "确定",Tesseract OCR 的安装程序语言即已设置。
接下来会出现安装向导。该安装向导将指导 Windows 版 Tesseract 的安装。
单击 "下一步 "继续安装。
Tesseract OCR 采用 Apache License Version 2.0 许可。由于它是开源和免费使用的,因此您可以重新发布和修改 Tesseract 版本,而无需担心任何忠诚度问题。
点击 我同意,继续安装。
您可以选择为多个用户或单个用户安装 Tesseract。
单击 "下一步 "选择要与 Tesseract 一起安装的组件。
在要安装的组件列表中,ScrollView、培训工具、快捷方式创建和语言数据都被默认选中。我们将保留所有默认选项。您可以根据需要选择或跳过任何组件。通常所有组件都需要安装。
单击 "下一步 "选择安装位置。
接下来,我们将选择安装 Tesseract 的位置。确保复制了目标文件夹路径。稍后我们将需要用它把安装位置添加到机器的路径环境变量中。
单击 "下一步 "进一步设置 Tesseract 的安装。
这是最后一步,我们将在开始菜单中创建快捷方式。你可以给文件夹起任何名字,但我保持了默认的名字。
现在,点击安装,等待安装完成。安装完成后,会出现以下界面。单击 "完成",即可在 Windows 中成功安装 Tesseract OCR。
现在,我们将把 Tesseract 的安装路径添加到 Windows 的环境变量中。
在 "开始 "菜单中输入 "环境变量"或 "高级系统设置"。
打开 "系统属性 "对话框后,单击 "高级",然后单击屏幕右下方的 "环境变量 "按钮。
环境变量对话框就会显示出来。
在系统变量下,点击路径变量。
现在,点击编辑。
在编辑环境变量对话框中,单击新建。粘贴第二步中复制的安装位置路径,然后单击确定。
就是这样! 我们已经在 Windows 机器上成功下载、安装并设置了 Tesseract OCR 的环境变量。
要检查 Windows 版 Tesseract OCR 是否已成功安装并添加到环境变量中,请打开命令提示符 (cmd) 然后运行 "tesseract " 命令。如果一切正常,则必须显示快速使用说明指南,其中包含 OCR 和单一选项(如 Tesseract 版本)。
祝贺! 我们已成功安装了 Windows 版 Tesseract OCR。
IronOCR 是一个基于 Tesseract 的 C# 库,允许 .NET 软件开发人员从图像和 PDF 文档中识别和提取文本。它完全由.NET构建,使用了目前已知的最先进的Tesseract引擎。
在 Visual Studio 或使用 NuGet 包管理器命令行安装 IronOCR 非常简单。在 Visual Studio 中,用以下命令导航到菜单选项:
工具 > NuGet 包管理器 > 包管理器控制台
然后在命令行中键入以下命令:
Install-Package IronOcr
这样就可以轻松安装 IronOCR,现在就可以充分发挥它的潜力了。
您还可以下载适用于不同平台的其他 IronOCR NuGet 包:
下面的示例代码显示了使用 IronOCR Tesseract 从图像中读取文本并使用 C# 执行 OCR 是多么容易。
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
Dim Text As String = (New IronTesseract()).Read("test-files/redacted-employmentapp.png").Text
Console.WriteLine(Text) ' Printed text
如果您想要更强大的代码,下面的内容应该可以帮助您完成同样的任务:
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/redacted-employmentapp.png");
// you can add any number of images
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/redacted-employmentapp.png");
// you can add any number of images
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddImage("test-files/redacted-employmentapp.png")
' you can add any number of images
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
在控制台中的输出打印为
IronOCR 安装非常简单。它提供了一个完整的、文档齐全的 .NET 软件库。
IronOCR 实现了99.8%的文本检测准确率,无需其他第三方库或网络服务。
它还提供多线程支持。 最重要的是,IronOCR 可以使用超过 125 种国际语言。
在本教程中,我们学习了如何在 Windows 机器上下载和安装 Tesseract OCR。对于 C++ 开发人员来说,Tesseract OCR 是一款出色的软件,但它也有一些局限性。它没有完全针对.NET开发。扫描的图像文件或拍摄的图像需要处理并标准化为高分辨率,使其不含数字噪音。只有这样,Tesseract 才能准确地处理它们。
相比之下,IronOCR 只需一行代码就能处理扫描或拍摄的任何图像。IronOCR 也使用 Tesseract 作为其内部 OCR 引擎,但它经过了非常精细的调整,以获得 Tesseract 的最佳性能,特别是为 C# 而构建的高性能和改进功能。
您可以从以下网址下载 IronOCR 软件产品链接.