白皮书

使用机器学习软件从图像中提取文本

更新 2023年二月28日
技术
分享:

利用机器学习从捕获的文本图像或扫描文档中提取文本是计算机视觉和自然语言处理交叉领域的一个新兴领域。这项技术利用先进的机器学习、对象识别算法、先进的图形软件、深网和暗网以及神经网络架构,从图像和扫描的纸质文档中准确识别和提取文本信息,范围从手写笔记和印刷文本到不同背景下的复杂排版。通过采用各种机器学习技术,如光学字符识别 (光学字符识别) 它通过深度学习技术,实现了将视觉场景文本检测自动高效地转换为其中可编辑和可搜索的结构化数据以及对象检测。

在这种不断发展的形势下,研究人员和从业人员不断努力提高准确性、速度和多功能性,使图像、机器可读数据和扫描文档中的文本检测和提取成为印刷文档数字化、内容索引、翻译和可访问性增强等应用中的关键组成部分。

在本文中,我们将讨论如何使用以下工具从图像中提取文本 IronOCR文本提取是一种由强大的机器学习算法和文本相关功能提供支持的 OCR 库。文本提取(也称关键词提取)基于机器学习,可从非结构化数据或公司的中央数据库中自动扫描并提取相关或基本的单词和短语。

如何利用机器学习从图像中提取文字?

1.下载用于从图像中提取文本的 C# 库。

2.通过实例化OcrInput对象加载特定图像,进行场景文本识别。

3.使用 ocrTesseract.Read 方法从图像中提取数据。

4.使用 Console.WriteLine 方法在控制台中打印提取的文本。

5.使用 CropRectangle 对象***对图像区域执行 OCR。

IronOCR- OCR(光学字符识别) 图书馆

IronOCR 是一款杰出而先进的光学字符识别软件。 (光学字符识别) 软件,站在了从图像和文档中提取文本技术的最前沿。这款功能强大的 OCR 引擎由 Iron Software 开发,旨在准确、高效地将扫描图像、PDF 甚至文本照片转换为可编辑、可搜索的数字内容。IronOCR 善于使用机器学习算法和神经网络,可为各种应用提供强大的解决方案,包括数据提取、内容索引和需要精确文本识别的自动化流程。

IronOCR 能够处理多种语言和各种字体,因此对于在软件和应用程序中寻求简化文本识别算法提取功能的开发人员和企业来说,它是一种多功能工具。您可以使用 IronOCR 自动扫描文本,采用常见的文本识别技术,利用文本提取算法将非结构化数据转换为完美的扫描页面。

安装 IronOCR

可以使用 NuGet 包管理器安装 IronOCR,以下是安装 IronOCR 的步骤。

1.首先创建一个新的 C# Visual Studio 项目或打开一个现有项目。

Visual Studio

2.创建项目后,进入顶部菜单的 "工具",选择 "NuGet 包管理器",然后选择 "解决方案的 NuGet 包管理器"。

工具菜单

3.屏幕上将出现一个新窗口。转到 "浏览 "选项卡,在搜索栏中写入 IronOCR。

4.此时会出现 IronOCR 软件包列表,选择最新的软件包并点击安装。

IronOCR

5.之后,IronOCR 就可以在 C# 项目中使用了。

从图像到可编辑和可搜索数据的文本检测

使用 IronOCR,你可以利用图像处理技术和机器学习轻松提取文本。在本节中,我们将讨论如何使用 IronOCR 从图像中提取文本。

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()
Using ocrInput As New OcrInput("images\image.png")
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
VB   C#

这段 C# 代码演示了光学字符识别库 IronOCR 的用法 (光学字符识别).下面是逐步说明:

  1. 导入图书馆

使用 IronOcr;

使用 System;

代码首先要导入必要的库,包括提供 OCR 功能的 IronOcr 和用于一般功能的 System 命名空间。

  1. 初始化钢铁魔方并加载图像

var ocrTesseract = new IronTesseract();

这一行将创建一个 IronTesseract 实例,它是 IronOCR 提供的 OCR 引擎。

using (var ocrInput = new OcrInput(@"images\image.png"))
using (var ocrInput = new OcrInput(@"images\image.png"))
Using ocrInput As New OcrInput("images\image.png")
VB   C#

一个 OcrInput 对象被实例化,其中包含要处理的图像的路径。在本例中,图像文件是 "images "目录下的 "image.png"。

  1. 执行 OCR 和提取文本

var ocrResult = ocrTesseract.Read(ocrInput);

这一行调用 IronTesseract 实例的 Read 方法,并传入 OcrInput 对象。该方法将对提供的图像执行 OCR 并提取文本。

  1. 显示提取的文本

Console.WriteLine(ocrResult.Text);

最后,使用 Console.WriteLine 将提取的文本打印到控制台,显示从图像获得的 OCR 结果。

本代码段使用 IronOCR 对指定图像的文本识别执行 OCR,并将提取的文本输出到控制台。

输入图像

发票

输出

客户发票输出

对图像上的指定区域执行 OCR 识别

您还可以使用 IronOCR 对图像上的特定区域执行 OCR,下面是一个代码示例。


使用 IronOcr;

使用 IronSoftware.Drawing.Drawing.Drawing.Drawing.Drawing.Drawing.Drawing.Drawing.Drawing.Drawing

使用 System.Drawing

var ocrTesseract = new IronTesseract();

使用 (var ocrInput = new OcrInput())

{

    var ContentArea = new CropRectangle(x: 20, y: 20, width: 400, height: 50);

    ocrInput.AddImage("r3.png", ContentArea);

    var ocrResult = ocrTesseract.Read(ocrInput);

    Console.WriteLine(ocrResult.Text);

}

该 C# 代码利用 IronOCR 库进行光学字符识别 (光学字符识别).它首先导入必要的库,包括 IronOCR 和 System。然后创建 OCR 引擎 IronTesseract 实例。代码会在图像中设置一个要使用裁剪矩形(CropRectangle)处理的特定内容区域(ContentArea),并将重点放在定义的区域上。图像 ("r3.png") 然后,该指定区域内的文本将被添加到 OCR 处理程序中。OCR 引擎会读取指定的内容区域,提取文本,并使用 Console.WriteLine 将提取的文本打印到控制台。

输出

输出

结论

通过机器学习,特别是利用光学字符识别,从图像中提取文字 (光学字符识别) 像 IronOCR 这样的图书馆,标志着计算机视觉和自然语言处理技术在十字路口上迈出了变革性的一步。这项技术由先进的机器学习算法和神经网络提供支持,可以从手写、印刷文本和复杂的排版等各种图像类型中准确地解译和提取文本。OCR 技术和深度学习技术在将可视文本有效转换为可编辑和可搜索数据方面发挥着关键作用,可用于文档数字化、内容索引和可访问性增强等重要目的。

作为一个著名的 OCR 库,IronOCR 充分体现了这种融合的潜力,在将扫描图像和 PDF 文件精确转换为数字、可编辑、跨语言和字体风格的内容方面表现出色。它与 C# 等编程语言的无缝集成允许简化实施,进一步扩大了从众多应用和领域的图像中提取文本的变革影响。

了解更多 IronOCR 以及所有相关功能,请访问此链接 这里.从图像中提取文字的完整教程可从以下网址获取 链接.IronOCR 许可证可从此处购买。 链接.

< 前一页
人寿保险索赔处理软件
下一步 >
活动门票打印软件

获取您的 免费白皮书

谢谢,

下载链接的电子邮件将很快发送给您。