OCR工具

如何将书写内容扫描成文本（初学者教程）

发布 2023年十一月29日

简介

在数字信息的世界里，将扫描文件中的手写或打印文本转换为可编辑和可搜索格式的能力已变得至关重要。光学字符识别(光学字符识别)技术在这一过程中发挥了关键作用，可以从图像中提取文本信息。

在本文中，我们将探讨使用开源 OCR 引擎 Tesseract 将书写扫描为文本的基本原理，随后介绍IronOCR作为一种功能强大的替代方案，它具有将手写文字、数字文本和扫描文档转换为可编辑文本的高级功能，并附有代码示例。

了解 OCR 技术

OCR 技术利用复杂的算法来识别和解释图像中印刷或手写字符的模式。它在物理世界和数字世界之间架起了一座桥梁，使我们能够从各种来源（包括扫描文档、扫描手写体、PDF、扫描图像文件甚至识别手写体）捕捉文本并将其数字化。

Tesseract：开源 OCR 解决方案

了解 Tesseract

Tesseract由 Google 开发的 OCR 是一种开源 OCR 引擎，广泛用于将各种类型的扫描文档（包括手写文本、扫描图像和 PDF 文档）转换为机器可读的可编辑文本。它支持多种语言，因其准确性和通用性而广受欢迎。让我们深入了解使用 Tesseract 将扫描写作转换为文本的主要功能和步骤。

Tesseract 的主要功能

多功能性：Tesseract 支持多种输入格式，适用于各种应用，包括扫描文档、图像和 PDF。
语言支持：Tesseract 可识别多种语言的文本，因此对于在不同语言环境下处理文档的国际用户和开发人员而言，它是一种灵活的解决方案。
开源社区：由于 Tesseract 的开源性质，开发人员组成了一个强大的社区，为改进 Tesseract 做出贡献。定期更新和改进可确保 Tesseract 始终是具有竞争力的 OCR 解决方案。
OCR 精确度：Tesseract 以其识别文本的准确性而著称，即使在字体、样式和图像质量各不相同的复杂场景中也不例外。

使用 Tesseract 的步骤

使用 Tesseract OCR 转换手写笔记或在 Windows 中破译难以辨认的手写体涉及几个步骤。以下是基本指南：

安装 Tesseract OCR：
- 从 GitHub UB Mannheim 官方仓库下载 Windows 版 Tesseract 安装程序：魔方 OCR exe.
- 运行安装程序并按照屏幕上的说明完成安装。
- 选择位置并记住安装路径，因为稍后将使用它在路径变量中进行设置。
设置环境变量：
- 将 Tesseract 安装目录添加到系统的 PATH 环境变量中。这将确保可以从任何命令提示符窗口访问 Tesseract 可执行文件。
命令行用法：
- 打开一个命令提示符窗口，并导航到包含您的图像或扫描手写文档的目录。
- 使用以下命令对图像执行 OCR 并将结果输出到文本文件：

    tesseract input_image.png output_text.txt

    tesseract input_image.png output_text.txt

'INSTANT VB TODO TASK: The following line uses invalid syntax:
'tesseract input_image.png output_text.txt

VB C#

将 input_image.png 替换为图像文件的名称，output_text.txt 替换为输出文本文件的名称。

后期处理：根据要求，可能需要采取后处理步骤来完善提取的文本，例如删除不必要的字符或格式。
虽然 Tesseract 是一款功能强大的工具，但开发人员通常会寻求其他工具，以提供更多的功能、定制选项以及与应用程序集成的便捷性。这就是IronOCR开始发挥作用。

介绍 IronOCR：将扫描写作提升为文本

了解 IronOCR

IronOCRTesseract 是一个 .NET OCR 库，它超越了 Tesseract 的功能，为开发人员提供了高级功能和定制选项。无论是处理扫描文档、图像还是扫描 PDF，IronOCR 都能为准确提取文本提供强大的解决方案。让我们来探讨一下 IronOCR 的主要功能，以及它如何增强扫描写作到文本的过程。

IronOCR 的主要功能

准确性：IronOCR 采用最先进的 OCR 算法，确保文本识别的高准确性。它在低质量图像或复杂字体等具有挑战性的场景中表现出色。
多功能性：IronOCR 支持各种输入格式，包括图像和 PDF 文件，能够适应各种使用情况，是开发人员的多功能选择。
语言支持：IronOCR 支持多种国际语言，确保在不同语言环境下对文档进行有效的 OCR 处理，从而满足全球受众的需求。
易于集成：IronOCR 的突出特点之一是与 .NET 应用程序的无缝集成。开发人员可以轻松地将 IronOCR 整合到他们的项目中，从而高效地实现 OCR 功能。

IronOCR: 代码示例

我们来做一个简单的钢铁魔方 5在 .NET 应用程序中使用 IronOCR 的代码片段：

using IronOcr;

class Program
{
    static void Main()
    {
        var ocrTesseract = new IronTesseract();

    // This is done by default and can be omitted:
    // ocrTesseract.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

    using (var ocrInput = new OcrInput(@"images\image.png"))
    {
        var ocrResult = ocrTesseract.Read(ocrInput);
        Console.WriteLine(ocrResult.Text);
    }
    }
}

using IronOcr;

class Program
{
    static void Main()
    {
        var ocrTesseract = new IronTesseract();

    // This is done by default and can be omitted:
    // ocrTesseract.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

    using (var ocrInput = new OcrInput(@"images\image.png"))
    {
        var ocrResult = ocrTesseract.Read(ocrInput);
        Console.WriteLine(ocrResult.Text);
    }
    }
}

Imports IronOcr

Friend Class Program
	Shared Sub Main()
		Dim ocrTesseract = New IronTesseract()

	' This is done by default and can be omitted:
	' ocrTesseract.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

	Using ocrInput As New OcrInput("images\image.png")
		Dim ocrResult = ocrTesseract.Read(ocrInput)
		Console.WriteLine(ocrResult.Text)
	End Using
	End Sub
End Class

VB C#

在本示例中，IronOCR 提供了一种更直接和面向对象的方法，允许开发人员使用高效的 IronTesseract 5 OCR 引擎直接从图像中读取打印或手写文本。更多详细信息，请访问文献资料page.

结论

Tesseract 仍然是一个强大的开源 OCR 引擎、IronOCR.NET.NET "为在 .NET 生态系统中工作的开发人员提供了增强的功能、自定义选项和易于集成的特性。如何在 Tesseract 和 IronOCR 之间做出选择，取决于项目的具体要求和对 OCR 过程的预期控制水平。随着对从扫描文档中准确提取文本的需求不断增长，IronOCR 等 OCR 工具在塑造未来信息无障碍和数字文档管理方面发挥着举足轻重的作用。

IronOCR 提供了免费试用让用户体验其先进的 OCR 功能，而商用许可证要求译文用于专业和商业用途。要探索 IronOCR 的全部潜力，请直接从以下网址下载软件库官方网站.

< 前一页
阿拉伯语文本识别工具：提高准确性

下一步 >
如何在Python中构建OCR