OCR工具

如何在Python中构建OCR

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

坎那帕·乌东攀

2023年十一月22日

世界充斥着大量的文本信息。有大量有价值的内容，如果更易获取，将会非常有用。

这就是光学字符识别 (OCR) 技术发挥作用的地方。想象一下，计算机能够像人类一样从图像中 "读取 "文字，这就是计算机视觉，它代表了计算机科学的一个分支，我们可以训练计算机识别和辨认图像中的不同主体。

在本教程中，我们将指导您使用 Python 构建自己的 OCR 系统，Python 是一种以简单和多用途著称的编程语言。借助像 Tesseract、IronOCR 和 OpenCV 这样的库，您将很快能够开发从文档图像中提取、操控和处理文本的潜力。

OCR 引擎（光学字符识别）的先决条件

在我们深入细致地构建 OCR 系统之前，您还需要一些东西：

Python：确保您的计算机上安装了 Python。您可以从Python 官方网站下载。
安装 Tesseract OCR：Tesseract OCR 是由 Google 开发的开源 OCR 引擎。这是一个功能强大的工具，我们将在项目中使用它。您可以从GitHub下载 Tesseract 库，并阅读有关 Tesseract OCR 安装过程的介绍。
Python 库：我们将在这个项目中使用两个重要的 Python 库 pytesseract 和 opencv 库。您可以在命令行提示符或终端中使用以下命令安装它们：

    :InstallCmd  pip install pytesseract opencv-python

    :InstallCmd  pip install pytesseract opencv-python

SHELL

如何在 Python 中构建 OCR：图 1

构建 OCR 系统的步骤

借助 Python OCR 库和简单的 Python 脚本，您可以使用 Python 代码轻松构建 OCR。

步骤 1 导入库

首先，您需要导入必要的库：

import cv2 
import pytesseract

py

PYTHON

步骤 2 `读取和处理图像`

使用 OpenCV 加载图像并进行预处理，以提高 OCR 的准确性：

# Load the image using OpenCV 
image = cv2.imread('sample_image.png') 
# Convert the image to grayscale 
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) 
# Apply thresholding or other preprocessing techniques if needed

py

PYTHON

步骤 3：使用 Tesseract 进行 OCR 识别

现在是使用 Tesseract OCR 引擎对处理过的图像进行 OCR 的时候了：

# Use pytesseract to perform OCR on the grayscale image 
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'
text = pytesseract.image_to_string(gray_image)

py

PYTHON

步骤 4：显示结果

如果您想将原始图像和提取的文本可视化，可以使用 OpenCV 显示它们：

# Display the original image 
cv2.imshow('Original Image', image) 
cv2.waitKey(0) 
# Display the extracted text
    print("Extracted Text:", text) 
cv2.waitKey(0) 
cv2.destroyAllWindows()

py

PYTHON

原始图片

如何在Python中构建OCR：图2

摘录文本

如何在Python中构建OCR：图3

正如您所见，结果很差，因为在使用它执行 OCR 以提取包含表格的文本图像之前，我们需要对其进行训练（就像我们训练机器学习一样）。

IronOCR

在一个数据泛滥的世界中，能够轻松地将印刷文本转换为机器可读内容是一种变革性的能力。

进入 IronOCR——这是一项先进技术，使开发人员能够轻松地将强大的光学字符识别（OCR）功能集成到他们的应用程序中。

无论您是要从扫描文档中提取数据、实现数据录入自动化，还是要提高可访问性，IronOCR 都能提供超越传统文本识别界限的全面解决方案。

在这次探索中，我们深入 IronOCR 的领域，发掘其多功能特性，突出其在物理世界和数字世界之间架起桥梁的潜力。

安装 IronOCR

您可以使用 NuGet 软件包管理器控制台轻松安装 IronOCR，只需运行以下命令即可。

Install-Package IronOcr

IronOCR 也可以在官方 NuGet 网站上下载。

使用 IronOCR 从图像中提取文本

在本节中，我们将了解如何使用 IronOCR 从图像中轻松提取文本。以下是从图片中提取文本的源代码。

using IronOcr;
using System;
var ocr = new IronTesseract();
using (var input = new OcrInput())
{
    input.AddImage("r3.png");
    OcrResult result = ocr.Read(input);
    string text = result.Text;
    Console.WriteLine(result.Text);
}

using IronOcr;
using System;
var ocr = new IronTesseract();
using (var input = new OcrInput())
{
    input.AddImage("r3.png");
    OcrResult result = ocr.Read(input);
    string text = result.Text;
    Console.WriteLine(result.Text);
}

Imports IronOcr
Imports System
Private ocr = New IronTesseract()
Using input = New OcrInput()
	input.AddImage("r3.png")
	Dim result As OcrResult = ocr.Read(input)
	Dim text As String = result.Text
	Console.WriteLine(result.Text)
End Using

$vbLabelText $csharpLabel

输出

如何在Python中构建OCR：图4

结论

在本教程中，我们探讨了在Python中构建光学字符识别（OCR）系统的过程，揭示了能够轻松从图像中提取文本的能力。

通过利用 Tesseract 和 OpenCV 等库，我们完成了从加载和预处理图像到利用 Tesseract OCR 引擎提取文本等基本步骤。

我们还谈到了潜在的挑战，如准确性限制，而 IronOCR 等先进的解决方案旨在解决这些问题。

无论您是选择 DIY 还是采用先进的工具，OCR 的世界都在向您招手，它承诺将图像转化为可操作的文本、简化数据录入并提高可访问性。有了这些新发现的知识，您就可以开始一段将视觉领域和数字领域完美融合的旅程了。

要开始使用IronOCR，请访问以下链接。要查看有关如何从图像中提取文本的完整教程，请访问此处。

如果您想今天免费试用IronOCR，请确保选择IronOCR提供的试用，以便在商业环境中探索其所有用法和潜力，且不会有水印。要在15天过后继续使用，只需购买许可证。

坎那帕·乌东攀

立即与工程团队聊天

软件工程师

在成为软件工程师之前，Kannapat 从日本北海道大学完成了环境资源博士学位。在攻读学位期间，Kannapat 还成为了生物生产工程系车辆机器人实验室的成员。2022年，他利用自己的 C# 技能加入了 Iron Software 的工程团队，专注于 IronPDF。Kannapat 珍视他的工作，因为他能直接向编写 IronPDF 大部分代码的开发者学习。除了同伴学习，Kannapat 还享受在 Iron Software 工作的社交方面。不写代码或文档时，Kannapat 通常在 PS5 上玩游戏或重看《最后生还者》。

< 前一页
阿拉伯语文本识别工具：提高准确性

下一步 >
如何在C#中扫描为可编辑文本