OCR工具

如何将书写内容扫描成文本(初学者教程)

发布 2023年十一月29日
分享:

Introduction

在数字信息的世界里,将扫描文件中的手写或打印文本转换为可编辑和可搜索格式的能力已变得至关重要。光学字符识别 (光学字符识别) 技术在这一过程中发挥了关键作用,使从图像中提取文本信息成为可能。

在本文中,我们将探讨使用开源 OCR 引擎 Tesseract 将扫描书写转换为文本的基本原理,随后将介绍 IronOCR 作为一种功能强大的替代方案,它具有将手写文字、数字文本和扫描文档转换为可编辑文本的高级功能,并附有代码示例。

了解 OCR 技术

OCR 技术利用复杂的算法来识别和解释图像中印刷或手写字符的模式。它在物理世界和数字世界之间架起了一座桥梁,使我们能够从各种来源(包括扫描文档、扫描手写体、PDF、扫描图像文件甚至识别手写体)捕捉文本并将其数字化。

Tesseract:开源 OCR 解决方案

了解魔方

Tesseract是一个开源 OCR 引擎,广泛用于将各种类型的扫描文档(包括手写文本、扫描图像和 PDF 文档)转换为机器可读的可编辑文本。它支持多种语言,因其准确性和多功能性而广受欢迎。让我们深入了解使用 Tesseract 扫描书写文本的主要功能和步骤。

魔方的主要功能

1.多功能性:Tesseract 支持多种输入格式,适用于各种应用,包括扫描文件、图像和 PDF。

2.语言支持:Tesseract 可识别多种语言的文本,因此对于在不同语言环境下处理文档的国际用户和开发人员来说,它是一种灵活的解决方案。

3.开源社区:Tesseract 的开源特性使其拥有一个由开发人员组成的强大社区,他们为改进 Tesseract 做出了贡献。定期更新和改进可确保 Tesseract 始终是具有竞争力的 OCR 解决方案。

4.OCR 精确度:Tesseract 以其识别文本的准确性而著称,即使在字体、样式和图像质量各不相同的复杂情况下也是如此。

使用魔方的步骤

在 Windows 中使用 Tesseract OCR 转换手写笔记或破译难以辨认的手写体需要几个步骤。以下是基本指南:

1.安装 Tesseract OCR:

* 从 GitHub UB Mannheim 官方仓库下载 Windows 版 Tesseract 安装程序: [魔方 OCR exe](https://github.com/UB-Mannheim/tesseract/wiki).

* 运行安装程序,按照屏幕上的说明完成安装。

![使用 Tesseract OCR 安装程序安装 Tesseract。](/static-assets/ocr/blog/scan-writing-into-text-tutorial/scan-writing-into-text-tutorial-1.webp)

* 选择位置并记住安装路径,因为稍后将使用它在路径变量中进行设置。

![选择在系统中安装 Tesseract 的目标文件夹位置。](/static-assets/ocr/blog/scan-writing-into-text-tutorial/scan-writing-into-text-tutorial-2.webp)

2.设置环境变量

* 将 Tesseract 安装目录添加到系统的 PATH 环境变量中。这可确保从任何命令提示符窗口都能访问 Tesseract 可执行文件。

![在系统属性中,将 Tesseract 安装目录路径添加到系统的 PATH 环境变量中。这样就能确保从任何命令提示符窗口都能访问 Tesseract 可执行文件。](/static-assets/ocr/blog/scan-writing-into-text-tutorial/scan-writing-into-text-tutorial-3.webp)![单击 "环境变量 "按钮。在环境变量窗口中,点击 "编辑 "系统变量。](/static-assets/ocr/blog/scan-writing-into-text-tutorial/scan-writing-into-text-tutorial-4.webp)![在 "编辑环境变量 "选项卡中,点击 "新建 "按钮和 Tesseract 目录路径位置。点击 "确定"。](/static-assets/ocr/blog/scan-writing-into-text-tutorial/scan-writing-into-text-tutorial-5.webp)

3.命令行用法

* 打开命令提示符窗口并导航到包含图像或扫描手写文件的目录。

* 使用以下命令对图像执行 OCR 并将结果输出到文本文件:
    tesseract input_image.png output_text.txt
    tesseract input_image.png output_text.txt
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'tesseract input_image.png output_text.txt
VB   C#

将 input_image.png 替换为图像文件的名称,将 output_text.txt 替换为输出文本文件的名称。

4.后期处理:根据要求,可能需要后处理步骤来完善提取的文本,例如删除不必要的字符或格式。

虽然 Tesseract 是一款功能强大的工具,但开发人员通常会寻求其他工具,以提供更多的功能、定制选项,并易于集成到他们的应用程序中。这就是 IronOCR 开始发挥作用。

介绍 IronOCR:将扫描写作提升为文本

了解 IronOCR

IronOCR IronOCR 是一个 .NET OCR 库,它超越了 Tesseract 的功能,为开发人员提供了高级功能和自定义选项。无论是处理扫描文档、图像还是扫描 PDF,IronOCR 都能为准确提取文本提供强大的解决方案。让我们探讨一下 IronOCR 的主要功能以及它如何增强扫描书写到文本的过程。

IronOCR 的主要功能

1.准确性:IronOCR 采用最先进的 OCR 算法,确保文本识别的高准确性。它在低质量图像或复杂字体等具有挑战性的场景中表现出色。

2.多功能性:IronOCR 支持包括图像和 PDF 文件在内的各种输入格式,能适应各种使用情况,是开发人员的多功能选择。

3.语言支持:IronOCR 支持多种国际语言,确保对不同语言环境下的文档进行有效的 OCR 处理,从而满足全球用户的需求。

4.易于集成:IronOCR 的突出特点之一是与 .NET 应用程序的无缝集成。开发人员可以轻松地将 IronOCR 整合到他们的项目中,从而高效地实现 OCR 功能。

IronOCR:代码示例

让我们用一个简单的 钢铁魔方 5 在 .NET 应用程序中使用 IronOCR 的代码片段:

using IronOcr;

class Program
{
    static void Main()
    {
        var ocrTesseract = new IronTesseract();

    // This is done by default and can be omitted:
    // ocrTesseract.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

    using (var ocrInput = new OcrInput(@"images\image.png"))
    {
        var ocrResult = ocrTesseract.Read(ocrInput);
        Console.WriteLine(ocrResult.Text);
    }
    }
}
using IronOcr;

class Program
{
    static void Main()
    {
        var ocrTesseract = new IronTesseract();

    // This is done by default and can be omitted:
    // ocrTesseract.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

    using (var ocrInput = new OcrInput(@"images\image.png"))
    {
        var ocrResult = ocrTesseract.Read(ocrInput);
        Console.WriteLine(ocrResult.Text);
    }
    }
}
Imports IronOcr

Friend Class Program
	Shared Sub Main()
		Dim ocrTesseract = New IronTesseract()

	' This is done by default and can be omitted:
	' ocrTesseract.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

	Using ocrInput As New OcrInput("images\image.png")
		Dim ocrResult = ocrTesseract.Read(ocrInput)
		Console.WriteLine(ocrResult.Text)
	End Using
	End Sub
End Class
VB   C#

在本示例中,IronOCR 提供了一种更直接和面向对象的方法,允许开发人员使用高效的 IronTesseract 5 OCR 引擎直接从图像中读取打印或手写文本。更多详细信息,请访问 文献资料 page.

Conclusion

尽管 Tesseract 仍然是一个强大的开源 OCR 引擎、 IronOCR Tesseract 和 IronOCR 为在 .NET 生态系统中工作的开发人员提供了增强的功能、定制选项和易于集成的特性。要在 Tesseract 和 IronOCR 之间做出选择,取决于项目的具体要求和对 OCR 过程所需的控制水平。随着从扫描文档中准确提取文本的需求不断增长,IronOCR 等 OCR 工具在塑造未来信息可访问性和数字文档管理方面发挥着举足轻重的作用。

IronOCR 提供了 免费试用 让用户体验其先进的 OCR 功能,而商用 许可证 专业和商业用途需要使用 IronOCR。要充分发掘 IronOCR 的潜力,请直接从以下网址下载软件库 官方网站.

< 前一页
阿拉伯文字识别(免费及在线工具)
下一步 >
如何在Python中构建OCR

准备开始了吗? 版本: 2024.9 刚刚发布

免费NuGet下载 总下载量: 2,319,721 查看许可证 >