白皮书

使用机器学习软件从图像中提取文本

更新 2023年二月28日
技术
分享:

使用机器学习从捕获或扫描的文档中提取文本图像是计算机视觉和自然语言处理交叉领域中的一个新兴领域。 这项技术利用高级机器学习、对象识别算法、高级图形软件、深网和暗网以及神经网络架构,准确识别和提取图像和扫描纸质文件中的文本信息,包括从手写笔记和印刷文字到复杂排版在内的多种情境中的文本。 通过使用各种机器学习技术,如光学字符识别(光学字符识别)并结合深度学习,它实现了将视觉场景文本检测自动高效转换为其中的可编辑和可搜索的结构化数据以及对象检测。

在这个不断变化的领域中,研究人员和从业者不断努力提高准确性、速度和多功能性,使文本检测和从图像、机器可读数据和扫描文档中提取文本成为印刷文件数字化、内容索引、翻译和可访问性增强等应用中的关键组成部分。

在这篇文章中,我们将讨论如何使用IronOCR,一个由强大的机器学习算法和文本相关功能驱动的OCR库。 文本提取,也称为关键词提取,基于机器学习自动扫描和提取来自非结构化数据或公司中央数据库的相关或基本词语和短语。

如何使用机器学习从图像中提取文本?

  1. 下载用于从图像中提取文本的C#库。
  2. 实例化 OcrInput 对象以加载特定图像进行场景文本识别。
  3. 使用 ocrTesseract.Read 方法从图像中提取数据。
  4. 使用 Console.WriteLine 方法在控制台中打印提取的文本。
  5. 使用 CropRectangle 对象对图像区域执行 OCR。

IronOCR- 一个OCR(光学字符识别)库

IronOCR,一种杰出且复杂的光学字符识别(光学字符识别)软件位于从图像和文件中提取文本技术的前沿。 由Iron Software开发的这款强大的OCR引擎旨在准确高效地将扫描图像、PDF文件或甚至文本照片转换为可编辑和可搜索的数字内容。 凭借其对机器学习算法和神经网络的熟练使用,IronOCR为包括数据提取、内容索引和需要精确文本识别的自动化流程等多种应用提供了强大的解决方案。

它能够处理多种语言和不同字体,使其成为开发人员和企业寻求在其软件和应用程序中实现流畅的文本识别算法提取功能的多功能工具。 您可以使用IronOCR自动扫描文本,该技术采用常见的文本识别技术,通过文本提取算法将非结构化数据转换为完美扫描的页面。

安装 IronOCR

IronOCR 可以通过 NuGet 包管理器进行安装,以下是安装 IronOCR 的步骤。

  1. 首先创建一个新的C# Visual Studio项目或打开一个现有的项目。

    Visual Studio

  2. 创建项目后,转到顶部菜单中的工具,选择NuGet包管理器,然后选择解决方案的NuGet包管理器。

    工具菜单

  3. 将会有一个新窗口出现在屏幕上。 转到“浏览”选项卡,在搜索栏中输入IronOCR。
  4. 将显示IronOCR包的列表,请选择最新的一个,然后点击安装。

    IronOCR

  5. 根据您的互联网速度,几秒钟后IronOCR即可在您的C#项目中使用。

从图像到可编辑和可搜索数据的文本检测

使用IronOCR,您可以通过图像处理技术和机器学习轻松提取文本。 在本节中,我们将讨论如何使用IronOCR从图像中提取文本。

using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
IRON VB CONVERTER ERROR developers@ironsoftware.com
VB   C#

这段 C# 代码演示了光学字符识别库 IronOCR 的用法(光学字符识别). 以下是分步说明:

  1. 导入库: ``` 使用 IronOcr; 使用 System;

代码首先导入必要的库,包括提供OCR功能的IronOcr,以及用于常规功能的System命名空间。

  1. 初始化 IronTesseract 并加载图像: ``` var ocrTesseract = new IronTesseract();

这行代码创建了一个IronTesseract的实例,这是由IronOCR提供的OCR引擎。

using (var ocrInput = new OcrInput(@"images\image.png"))
using (var ocrInput = new OcrInput(@"images\image.png"))
Using ocrInput As New OcrInput("images\image.png")
VB   C#

使用要处理的图像的路径实例化一个OcrInput对象。 在这种情况下,图像文件是“images”目录中的“image.png”。

  1. 执行OCR和提取文本var ocrResult = ocrTesseract.Read(ocrInput); 这行代码调用了 IronTesseract 实例的 Read 方法,传入了 OcrInput 对象。 此方法对提供的图像执行OCR并提取文本。
  2. 显示提取的文本: ``` Console.WriteLine(ocrResult.Text);

最后,使用 Console.WriteLine 将提取的文本打印到控制台,显示从图像中获得的OCR结果。

此代码片段使用IronOCR来执行指定图像的文本识别的OCR,并将提取的文本输出到控制台。

输入图像

发票

输出

客户发票输出

在图像上指定区域执行OCR

您也可以使用IronOCR对图像上的特定区域执行OCR,以下是一个代码示例。 ``` 使用 IronOcr; 使用 IronSoftware.Drawing; 使用 System; var ocrTesseract = new IronTesseract(); using(var ocrInput = new OcrInput()) { var ContentArea = new CropRectangle(x: 20, y: 20, width: 400, height: 50); ocrInput.AddImage("r3.png", ContentArea); var ocrResult = ocrTesseract.Read(ocrInput); Console.WriteLine(ocrResult.Text); }



此C#代码利用IronOCR库进行光学字符识别(光学字符识别). 首先导入必要的库,包括IronOCR和System。 创建了一个 IronTesseract 实例,即 OCR 引擎。 该代码设置在图像中使用CropRectangle处理特定的ContentArea,专注于一个定义的区域。 图像("r3.png")在此指定区域内的内容随后将用于OCR处理。 OCR引擎读取指定的内容区域,提取文本,然后使用Console.WriteLine将结果文本打印到控制台。

### 输出

![输出](/static-assets/ironsoftware/white-papers/text-extraction-from-image-using-machine-learning/text-extraction-from-image-using-machine-learning-6.webp)

## 结论

通过机器学习从图像中提取文本,尤其是使用光学字符识别(光学字符识别)像IronOCR这样的库,在计算机视觉和自然语言处理的交叉点上标志着一次变革性的进步。 这项技术采用先进的机器学习算法和神经网络,能够准确解读并提取各种图像类型中的文本,包括手写文字、印刷文字和复杂的印刷体。 OCR技术和深度学习技术在高效地将视觉文本转换为可编辑和可搜索的数据中发挥关键作用,服务于文件数字化、内容索引和可访问性增强等重要目的。

IronOCR 作为一个杰出的 OCR 库,展示了这种融合的潜力,在将扫描的图像和 PDF 准确转换为数字化、可编辑内容方面表现出色,支持多种语言和字体样式。 它的无缝集成到像C#这样的编程语言中,允许流畅的实施,进一步增强了从图像中提取文本在众多应用程序和领域中的变革性影响。

了解更多[IronOCR](https://ironsoftware.com/csharp/ocr/)以及所有相关功能,请访问此链接[这里](https://ironsoftware.com/csharp/ocr/features/). 完整的从图像中提取文本的教程可在以下位置找到:[链接](https://ironsoftware.com/csharp/ocr/tutorials/how-to-read-text-from-an-image-in-csharp-net/). IronOCR许可证可以从这里购买。[链接](https://ironsoftware.com/csharp/ocr/licensing/).
< 前一页
人寿保险索赔处理软件
下一步 >
活动门票打印软件

获取您的 免费白皮书

谢谢,

下载链接的电子邮件将很快发送给您。