OCR 工具 安装 Tesseract(带图片的逐步教程) Kannapat Udonpant 已更新:八月 20, 2025 下载 IronOCR NuGet 下载 DLL 下载 Windows 安装程序 免费试用 法学硕士副本 法学硕士副本 将页面复制为 Markdown 格式,用于 LLMs 在 ChatGPT 中打开 向 ChatGPT 咨询此页面 在双子座打开 向 Gemini 询问此页面 在双子座打开 向 Gemini 询问此页面 打开困惑 向 Perplexity 询问有关此页面的信息 分享 在 Facebook 上分享 分享到 X(Twitter) 在 LinkedIn 上分享 复制链接 电子邮件文章 什么是 Tesseract OCR? Tesseract 是一个开源软件库,根据 Apache 许可协议发布。 它最初是由惠普公司在 20 世纪 80 年代开发的。 它是一款文本识别工具,主要用于识别和提取图像中的文本。 Tesseract OCR 提供了一个命令行界面来执行此功能。 IronOCR基于 Tesseract 构建。只需几行代码(无需依赖外部 Web 服务),即可从图像和 PDF 中读取文本,准确率高达 99.8%。IronOCR 还能从低质量图像和扫描件中提取内容。告别繁琐的性能调优和冗长的预处理工作。当速度、准确性和易用性至关重要时,IronOCR 是您值得信赖的选择。了解更多IronOCR 的功能或立即注册试用! 如何在 Windows 系统中下载 Tesseract OCR 下载适用于 Windows 的 Tesseract 安装程序 安装 Tesseract OCR 将安装路径添加到环境变量中 运行 Tesseract OCR 1. 下载适用于 Windows 的 Tesseract 安装程序 要在 Windows 上使用 Tesseract 命令,我们首先需要下载 Tesseract OCR 二进制文件 .exe Windows 安装程序。 有很多地方可以下载最新版本的 Tesseract OCR。 One such place is from UB Mannheim, which is forked from tesseract-ocr/tesseract (Main Repository). Tesseract Wiki Download the tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 bit) Windows Installer. 对于 macOS 用户,可以使用以下任一命令在终端中安装 Tesseract: brew install tesseract brew install tesseract SHELL sudo port install tesseract sudo port install tesseract SHELL 2. 安装 Tesseract OCR 接下来,我们将使用上一步下载的 .exe 文件安装 Tesseract。运行 .exe 安装程序以开始 Tesseract 安装。 安装程序语言 安装程序解压完成后,将出现安装程序的语言数据对话框。 你可以通过选择额外的语言包来安装 Tesseract 以使用多种语言,但在这里我们只安装英语的语言数据。 Tesseract 安装程序 单击"确定",Tesseract OCR 的安装程序语言就设置好了。 Tesseract OCR 设置 接下来,将出现安装向导。 此安装向导将指导您在 Windows 系统上安装 Tesseract。 Tesseract OCR 设置向导 点击"下一步"继续安装。 接受许可协议 Tesseract OCR 采用 Apache License Version 2.0 许可。由于它是开源且免费使用的,您可以重新分发和修改 Tesseract 的各个版本,而无需担心版税问题。 Tesseract OCR 采用 Apache License v2.0 许可。请接受此许可以继续安装。 点击"我同意"继续安装。 选择用户 您可以选择为多个用户安装 Tesseract,也可以选择为单个用户安装 Tesseract。 选择为当前用户(您)或所有用户帐户安装 Tesseract OCR 单击"下一步"选择要与 Tesseract 一起安装的组件。 选择组件 在要安装的组件列表中,ScrollView、培训工具、快捷方式创建和语言数据默认全部被选中。 我们将保留所有默认选中的选项。 您可以根据需要选择或跳过任何组件。 通常情况下,所有这些都是安装所必需的。 您可以在此处选择包含或排除 Tesseract OCR 组件。为获得最佳效果,请选择默认组件继续安装。 点击"下一步"选择安装位置。 选择安装位置 接下来,我们将选择 Tesseract 的安装位置。 请务必复制目标文件夹路径。 稍后我们需要用到它,以便将安装位置添加到机器的路径环境变量中。 选择 Tesseract OCR 库的安装位置,并记住此位置以备后用。 点击"下一步"继续设置 Tesseract 的安装。 选择"开始"菜单文件夹 这是我们在"开始"菜单中创建快捷方式的最后一步。 你可以随意命名文件夹,但我保留了默认名称。 选择 Tesseract OCR 的开始菜单文件夹名称 现在,点击"安装",等待安装完成。 安装完成后,将出现以下屏幕。 点击"完成",我们就成功完成了在 Windows 系统中安装 Tesseract OCR 的操作。 Tesseract OCR 安装现已完成。 3. 将安装路径添加到系统环境变量中 现在,我们将把 Tesseract 安装路径添加到 Windows 环境变量中。 在"开始"菜单中,键入"环境变量"或"高级系统设置"。 Windows 系统属性对话框 系统属性 打开"系统属性"对话框后,单击"高级"选项卡,然后单击屏幕右下角的"环境变量"按钮。 系统将弹出"环境变量"对话框。 环境变量 在"系统变量"下,单击"路径"变量。 访问Windows系统环境变量 现在,点击"编辑"。 将 Tesseract OCR for Windows 安装目录添加到环境变量。 在"编辑环境变量"对话框中,单击"新建"。粘贴在第二步中复制的安装位置路径,然后单击"确定"。 编辑 Windows 系统环境变量 Path,添加一个条目,其中包含 Tesseract OCR 安装的绝对路径。 就是这样! 我们已成功在 Windows 机器上下载、安装并设置了 Tesseract OCR 的环境变量。 4. 运行 Tesseract OCR 要检查 Tesseract OCR for Windows 是否已成功安装并添加到环境变量中,请在 Windows 计算机上打开命令提示符 ( cmd ),然后运行" tesseract"命令。 如果一切运行正常,则必须显示快速使用指南,其中包含 OCR 和其他单一选项,例如 Tesseract 版本。 在 Windows 命令行(或 Windows PowerShell)中运行tesseract命令,以确保上述安装步骤正确完成。控制台输出是 Windows 安装成功的预期结果。 祝贺您! 我们已成功安装适用于 Windows 的 Tesseract OCR。 IronOCR库 IronOCR是一个基于 Tesseract 的 C# 库,它允许 .NET 软件开发人员识别和提取图像和 PDF 文档中的文本。 它完全使用 .NET 构建,并采用了目前已知最先进的 Tesseract 引擎。 使用 NuGet 包管理器进行安装 在 Visual Studio 中安装 IronOCR 或使用 NuGet 包管理器通过命令行安装 IronOCR 都很简单。 在 Visual Studio 中,导航到菜单选项: 工具 > NuGet 程序包管理器 > 程序包管理器控制台 然后在命令行中,输入以下命令: Install-Package IronOcr 这样就能轻松安装 IronOCR,现在你可以充分利用它的全部功能了。 您还可以下载适用于不同平台的其他IronOCR NuGet 程序包: Windows: https://www.nuget.org/packages/IronOcr Linux: https://www.nuget.org/packages/IronOcr.Linux MacOS: https://www.nuget.org/packages/IronOcr.MacOs MacOS ARM: https://www.nuget.org/packages/IronOcr.MacOs.ARM IronOCR 与 Tesseract 5 下面的示例代码展示了使用 IronOCR Tesseract 从图像中读取文本并使用 C# 执行 OCR 是多么容易。 // Import the IronOCR library using IronOcr; // Create an instance of IronTesseract var Ocr = new IronTesseract(); string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text; // Output the extracted text to the console Console.WriteLine(Text); // Printed text // Import the IronOCR library using IronOcr; // Create an instance of IronTesseract var Ocr = new IronTesseract(); string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text; // Output the extracted text to the console Console.WriteLine(Text); // Printed text ' Import the IronOCR library Imports IronOcr ' Create an instance of IronTesseract Private Ocr = New IronTesseract() Private Text As String = Ocr.Read("test-files/redacted-employmentapp.png").Text ' Output the extracted text to the console Console.WriteLine(Text) ' Printed text $vbLabelText $csharpLabel 如果您想要更健壮的代码,那么以下内容应该可以帮助您实现相同的目标: // Import the IronOCR library using IronOcr; // Create an instance of IronTesseract var Ocr = new IronTesseract(); // Using the OcrInput class to handle multiple images using (var Input = new OcrInput()){ // Add an image to the input collection Input.AddImage("test-files/redacted-employmentapp.png"); // You can add any number of images // Read the OCR text from the input var Result = Ocr.Read(Input); // Output the extracted text to the console Console.WriteLine(Result.Text); } // Import the IronOCR library using IronOcr; // Create an instance of IronTesseract var Ocr = new IronTesseract(); // Using the OcrInput class to handle multiple images using (var Input = new OcrInput()){ // Add an image to the input collection Input.AddImage("test-files/redacted-employmentapp.png"); // You can add any number of images // Read the OCR text from the input var Result = Ocr.Read(Input); // Output the extracted text to the console Console.WriteLine(Result.Text); } ' Import the IronOCR library Imports IronOcr ' Create an instance of IronTesseract Private Ocr = New IronTesseract() ' Using the OcrInput class to handle multiple images Using Input = New OcrInput() ' Add an image to the input collection Input.AddImage("test-files/redacted-employmentapp.png") ' You can add any number of images ' Read the OCR text from the input Dim Result = Ocr.Read(Input) ' Output the extracted text to the console Console.WriteLine(Result.Text) End Using $vbLabelText $csharpLabel 输入图像 IronOCR处理的示例输入图像 输出图像 输出结果会打印在控制台上,如下所示: 控制台已完成对示例图像的 IronOCR 执行。 为什么选择 IronOCR? IronOCR安装起来非常容易。 它提供了一个完整且文档齐全的 .NET 软件库。 IronOCR 无需其他第三方库或网络服务,即可实现99.8% 的文本检测准确率。 它还提供多线程支持。 最重要的是,IronOCR 可以处理超过 125 种国际语言。 从 NuGet 安装 IronOCR,即可在您的下一个 OCR 项目中体验其全部功能。试用许可证提供 30 天的免费、无限制使用 IronOCR 全部功能的机会。 结论 在本教程中,我们学习了如何在 Windows 系统上下载并安装 Tesseract OCR。Tesseract OCR 是一款优秀的 C++ 开发人员软件,但它也存在一些局限性。 它尚未完全针对 .NET 开发。 扫描的图像文件或拍摄的图像需要经过处理和标准化,达到高分辨率,并去除数字噪声。只有这样,Tesseract 才能准确地处理它们。 相比之下,IronOCR 只需一行代码即可处理任何提供的图像,无论是扫描的还是拍摄的。 IronOCR 也使用 Tesseract 作为其内部 OCR 引擎,但它经过精细调整,以充分发挥 Tesseract 的优势,专为 C# 构建,具有高性能和改进的功能。 您可以从此链接下载 IronOCR 软件产品。 Kannapat Udonpant 立即与工程团队聊天 软件工程师 在成为软件工程师之前,Kannapat 在日本北海道大学完成了环境资源博士学位。在攻读学位期间,Kannapat 还成为了车辆机器人实验室的成员,隶属于生物生产工程系。2022 年,他利用自己的 C# 技能加入 Iron Software 的工程团队,专注于 IronPDF。Kannapat 珍视他的工作,因为他可以直接从编写大多数 IronPDF 代码的开发者那里学习。除了同行学习外,Kannapat 还喜欢在 Iron Software 工作的社交方面。不撰写代码或文档时,Kannapat 通常可以在他的 PS5 上玩游戏或重温《最后生还者》。 相关文章 已更新六月 22, 2025 Power Automate OCR(开发者教程) 光学字符识别技术在文档数字化、自动化PDF数据提取和录入、发票处理和使扫描的 PDF 可搜索的应用中得到了应用。 阅读更多 已更新六月 22, 2025 Easyocr 与 Tesseract(OCR 功能比较) 流行的 OCR 工具和库,如 EasyOCR、Tesseract OCR、Keras-OCR 和 IronOCR,通常用于将此功能集成到现代应用程序中。 阅读更多 已更新六月 22, 2025 如何将图片转化为文本 在当前的数字时代,将基于图像的内容转化为易于阅读的可编辑、可搜索文本 阅读更多 Microsoft OCR 工具(C# 替代)从 PDF 提取 OCR(免费在线...
已更新六月 22, 2025 Power Automate OCR(开发者教程) 光学字符识别技术在文档数字化、自动化PDF数据提取和录入、发票处理和使扫描的 PDF 可搜索的应用中得到了应用。 阅读更多
已更新六月 22, 2025 Easyocr 与 Tesseract(OCR 功能比较) 流行的 OCR 工具和库,如 EasyOCR、Tesseract OCR、Keras-OCR 和 IronOCR,通常用于将此功能集成到现代应用程序中。 阅读更多