在实际环境中测试
在生产中测试无水印。
随时随地为您服务。
Tesseract 是一个开源软件 librawry,根据 Apache 许可协议发布。 它最初由惠普公司于 20 世纪 80 年代开发。 这是一款文本识别工具,主要用于识别和提取图像中的文本。 Tesseract OCR 提供了一个命令提示符界面来执行此功能。
下载 Windows 版 Tesseract 安装程序
安装 Tesseract OCR
在环境变量中添加安装路径
要在 Windows 上使用 Tesseract 命令,我们首先需要下载 Tesseract OCR 二进制 .exe Windows 安装程序。
有很多地方可以下载最新版本的 Tesseract OCR。 一旦从 曼海姆大学分叉自 tesseract-ocr/tesseract (主存储库).
下载 tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 位)Windows 安装程序。
可以使用以下任一命令在 macOS 的 Python 提示符下安装 Tesseract:
brew install tesseract
sudo port install tesseract
接下来,我们将使用上一步下载的 .exe 文件安装 Tesseract。启动 .exe 安装程序,开始安装 Tesseract。
安装解压完成后,将出现安装程序的语言数据对话框。 您可以通过选择额外的语言包来安装 Tesseract 以使用多种语言,但这里我们只安装英语的语言数据。
单击 "确定",Tesseract OCR 的安装程序语言即已设置。
接下来,将出现设置向导。 该安装向导将指导 Windows 版 Tesseract 的安装。
单击 "下一步 "继续安装。
Tesseract OCR 采用 Apache License Version 2.0 许可。由于它是开源和免费使用的,您可以重新发布和修改 Tesseract 版本,而无需担心任何忠诚度问题。
点击 我同意,继续安装。
您可以选择为多个用户或单个用户安装 Tesseract。
单击 "下一步 "选择要与 Tesseract 一起安装的组件。
在要安装的组件列表中,ScrollView、培训工具、快捷方式创建和语言数据都被默认选中。 我们将保留所有默认的选定选项。 您可以根据需要选择或跳过任何组件。 通常都需要安装。
单击 "下一步 "选择安装位置。
接下来,我们将选择安装 Tesseract 的位置。 确保复制目标文件夹路径。 稍后,我们将需要它将安装位置添加到机器的路径环境变量中。
单击 "下一步 "进一步设置 Tesseract 的安装。
这是最后一步,我们将在 "开始 "菜单中创建快捷方式。 您可以为文件夹命名任何名称,但我保持了默认名称不变。
现在,点击安装,等待安装完成。 安装完成后,将出现以下屏幕。 单击 "完成",即可在 Windows 中成功安装 Tesseract OCR。
现在,我们将把 Tesseract 的安装路径添加到 Windows 的环境变量中。
在开始菜单中键入 "环境变量"或 "高级系统设置"。
打开 "系统属性 "对话框后,单击 "高级",然后单击屏幕右下方的 "环境变量 "按钮。
您将看到环境变量对话框。
在系统变量下,点击路径变量。
现在,点击编辑。
在编辑环境变量对话框中,单击新建。粘贴第二步中复制的安装位置路径,然后单击确定。
就是这样! 我们已在 Windows 机器上成功下载、安装并设置了 Tesseract OCR 的环境变量。
要检查 Windows 版 Tesseract OCR 是否已成功安装并添加到环境变量,请打开命令提示符(cmd)在 Windows 机器上运行 "tesseract " 命令。 如果一切顺利,则必须通过 OCR 和单一选项(如 Tesseract 版本)显示快速解释使用指南。
祝贺! 我们已成功安装了 Windows 版 Tesseract OCR。
IronOCR是一个基于 Tesseract 的 C# 库,允许 .NET 软件开发人员从图像和 PDF 文档中识别和提取文本。 它完全由 .NET 构建,使用了目前已知最先进的 Tesseract 引擎。
在 Visual Studio 中安装 IronOCR 或使用 NuGet 软件包管理器的命令行安装都非常简单。 在 Visual Studio 中,用以下命令导航到菜单选项:
工具 > NuGet 包管理器 > 包管理器控制台
然后在命令行中键入以下命令:
Install-Package IronOcr
这样就可以轻松安装 IronOCR,现在您就可以使用它来充分挖掘其潜力了。
您还可以下载适用于不同平台的其他 IronOCR NuGet 包:
下面的示例代码显示了使用 IronOCR Tesseract 从图像中读取文本并使用 C# 执行 OCR 是多么容易。
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
Dim Text As String = (New IronTesseract()).Read("test-files/redacted-employmentapp.png").Text
Console.WriteLine(Text) ' Printed text
如果您想要更强大的代码,下面的内容应该可以帮助您完成同样的任务:
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/redacted-employmentapp.png");
// you can add any number of images
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/redacted-employmentapp.png");
// you can add any number of images
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddImage("test-files/redacted-employmentapp.png")
' you can add any number of images
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
输出结果在控制台上打印为
IronOCR 的安装非常简单。 它提供了一个完整且文档齐全的 .NET 软件库。
IronOCR 的文本检测准确率达到99.8%,无需使用其他第三方库或网络服务。
它还提供多线程支持。 最重要的是,IronOCR 可以处理超过 125 种国际语言。
在本教程中,我们学习了如何为 Windows 机器下载和安装 Tesseract OCR。Tesseract OCR 对于 C# 开发人员来说是一款优秀的软件,但它也有一些局限性。 本翻译尚未完全针对 .NET 开发。 扫描的图像文件或拍摄的图像需要经过处理并标准化为高分辨率,使其不含数字噪音。只有这样,Tesseract 才能准确地处理它们。
相比之下,IronOCR 可以处理提供的任何图像,无论是扫描的还是拍摄的,只需一行代码即可完成。 IronOCR 也使用 Tesseract 作为其内部 OCR 引擎,但它进行了非常精细的调整,以充分发挥 Tesseract 特别为 C# 而建的高性能和改进功能。
您可以从以下网址下载 IronOCR 软件产品链接.