OCR工具

Power Automate OCR(开发人员教程)

发布 2024年十二月15日
分享:

介绍

光学字符识别是一种技术,可从图像、扫描文档和PDF文档中扫描文本,将其转换为机器可读的文本。 光学字符识别使计算机能够识别各种格式(书籍、收据、表格和照片),这些格式可以数字化并自动提取 PDF 数据。 它可以分析图像中的字符和模式,然后将它们与文本对应起来。 该光学字符识别技术可应用于文档数字化、自动 PDF 数据提取和输入、发票处理以及使扫描的 PDF 可搜索。

OCR 已经有了显著的进步,可以识别和阅读不同的语言,而如今的语言在版面理解方面非常复杂,例如表格和列。 高级 OCR 功能软件还使用了图像预处理技术。 它包括去噪和对比度调整,提高 OCR 软件读取低质量图像的准确性。 最受欢迎的三种 OCR 工具是 Tesseract OCR 引擎、Power Automate 和 IronOCR,它们具有很高的准确性和灵活性。 OCR 已成为企业、研究人员和开发人员外包文档管理和文本识别不可或缺的工具。

什么是 Microsoft Power Automate OCR?

光学字符识别微软 Power Automate:使用该功能,企业可以使自己具备足够的能力,自动从图像、扫描文件和 PDF 中提取文本,并将其转换为易于编辑和机器可读的格式。 作为 Microsoft Power Platform 的一部分,Power Automate 桌面版和在线版为用户提供了创建流程的能力,而无需任何编码能力。 这些工具可以将繁琐的数据录入自动化、处理发票,并通过在工作流程中集成 OCR 将文档数字化。

这将为他们节省更多时间,并最大限度地减少错误。 这的确是一个功能强大的搜索工具,可用于在 Power Automate 的 OCR 功能中提供对多种不同格式和语言的支持,该功能使用 AI Builder 构建,支持在多个行业中使用文本识别功能。 它可以与 Excel、SharePoint 和 OneDrive 等其他微软服务无缝集成,实现从扫描文档到存储甚至共享文档的端到端自动化。 在这方面,它可以帮助组织提高效率、简化文档管理并提高其活动的操作准确性。

在 Power Automate 中实施 OCR 的优势

在 Power Automate 中实施 OCR 有以下优势:

省时省力: 文档文本提取的自动化可节省大量时间和精力,否则这些时间和精力将用于手动输入数据。

Cost-Effective: 由于用户界面友好且易于使用,因此几乎不需要昂贵的定制软件解决方案。

集成: Microsoft Power Automate 可与 SharePoint、OneDrive 甚至 Excel 等其他 Microsoft 365 服务无缝集成。

可扩展性: 能够一次性处理数千份文件,其可行性使其适用于大型企业。

减少错误: 因为它实现了数据录入过程的自动化,所以人为错误发生的几率降到了最低。

如何在 Power Automate 中使用 OCR

Power Automate 通过几个不同的连接支持 OCR 功能,包括 AI Builder 和 OneDrive。以下是如何在线获取 Power Automate 的分步指南,我们也可以使用 Power Automate 桌面创建支持 OCR 的工作流程:

1.设置 Power Automate

要开始工作,您需要登录 Power Automate 账户,如果没有账户,也可以注册。 Power Automate 是 Microsoft 365 的一部分,这意味着如果您正在使用 Office 365 或 Dynamics 365,就已经可以访问 Power Automate。

2: 制作新流程

打开 "创建 "选项卡,然后单击 "即时流程",创建一个可手动启动的新流程。

为您的流程命名。 例如,将其命名为 "审批前",并选择以下触发器:文件夹中创建文件时(SharePoint 或 OneDrive)或手动触发流程。

我们创建了一个 New Power 自动化流程,如下所示。

Power Automate OCR(开发人员教程):图 5 - 新的自动化流程

3: 将文件上传到 OneDrive 或 SharePoint

添加上传文档的操作(图像或其他 PDF 文件)如:OneDrive for Business 或 SharePoint。 此操作将触发 OCR 流程以提取数据。 在本演示中,我们使用的是 SharePoint 文档库。

Power Automate OCR(开发人员教程):图 6 - 上传文件

4.利用 AI 生成器的 OCR 功能

利用 AI 生成器开发从图像中提取文本的操作。 AI 生成器是 Power Automate 中深度集成的机器学习功能,具有预训练的 OCR 模型,用户可以轻松识别图像或 PDF 中的文本。

Power Automate OCR(开发人员教程):图 7 - AI 生成器

选择要提取文本的图像文件。

Power Automate OCR(开发人员教程):图 8 - 选择图像

5.处理提取的数据

一旦语言数据被 OCR 提取为文本,就可以进行进一步处理。 例如

将提取的文本存储为 Excel格式 使用添加行操作将提取的文本添加到 Excel 文件中。

通过电子邮件传递文本: 使用发送电子邮件的操作,将提取的文本转发给特定收件人。

在数据库中存储: 使用连接器将数据推送到 SQL Server、SharePoint 列表或其他数据库中进行存储。

什么是IronOCR?

IronOCR该工具是一个功能强大的 .NET OCR 库,可帮助您从图像、PDF 和扫描件中正确提取 OCR 文本。 它将在其他库因图像质量差或图像嘈杂而导致文本识别失败的情况下大显身手,而且它支持 125 种以上的语言,非常适合具有多样性的多语言用例。 IronOCR 囊括了大量高级功能,如自动检测语言、图像预处理、去噪和斜度校正,就像排版文档一样,包括所有样式和结构细节,以及图像到文本和 PDF 到文本的可搜索 PDF。

Power Automate OCR(开发人员教程):图 9 - IronOCR

该产品可通过简单的 .NET 项目 API 轻松集成,使开发人员能够在其开发的应用程序中使用 OCR。当涉及到文档数字化、数据录入的自动化工作流程以及高准确性和可扩展性的企业级应用文本提取任务时,该库非常方便。 当库易于使用并具有强大的 OCR 功能时,它的优势就体现出来了。

IronOCR 的功能

  • 即使是从低分辨率图像和嘈杂的扫描文档中提取的文本,它也具有出色的精确度。
  • 它支持超过 125 种语言,具有自动语言检测功能,因此可以在不同的语言环境中进行 OCR 识别。
  • 对图像进行预处理需要使用降噪、倾斜校正、增强对比度和锐化等工具,所有这些工具都能提高不完美图像的性能。
  • 创建可全文检索的 PDF。 扫描的纸质文件或图像将被转换为完全可搜索的 PDF 文件,并保留原始布局,以便于搜索和组织。
  • 保留布局和格式: 该工具可保留源文件的结构、字体和格式,因为表格和列等布局非常复杂,必须在数字化过程中予以保留。
  • 批量处理: 可在一次操作中批量处理多个图像或文档。 该技术支持大量文件的处理。
  • 易于与 .NET 集成: 由于它支持简单的 API,因此可以很容易地与 .NET 应用程序集成,从而使 OCR 成为一种易于实施的机制,而无需开发人员付出任何大规模的努力。

    执行 OCR 的示例代码

using IronOcr;
class Program
{
    static void Main(string[] args)
    {
        // Initialize Iron Tesseract OCR engine variable
        var Ocr = new IronTesseract();
        // Add multiple languages
        Ocr.Language = OcrLanguage.English;
        // Image file path
        var inputFile = @"path\to\your\image.png";
        // Read the image and perform OCR
        using (var input = new OcrInput(inputFile))
        {
            // Perform OCR
            var result = Ocr.Read(input);
            // Display the result
            Console.WriteLine("Text:");
            Console.WriteLine(result.Text);
        }
    }
}
using IronOcr;
class Program
{
    static void Main(string[] args)
    {
        // Initialize Iron Tesseract OCR engine variable
        var Ocr = new IronTesseract();
        // Add multiple languages
        Ocr.Language = OcrLanguage.English;
        // Image file path
        var inputFile = @"path\to\your\image.png";
        // Read the image and perform OCR
        using (var input = new OcrInput(inputFile))
        {
            // Perform OCR
            var result = Ocr.Read(input);
            // Display the result
            Console.WriteLine("Text:");
            Console.WriteLine(result.Text);
        }
    }
}
Imports IronOcr
Friend Class Program
	Shared Sub Main(ByVal args() As String)
		' Initialize Iron Tesseract OCR engine variable
		Dim Ocr = New IronTesseract()
		' Add multiple languages
		Ocr.Language = OcrLanguage.English
		' Image file path
		Dim inputFile = "path\to\your\image.png"
		' Read the image and perform OCR
		Using input = New OcrInput(inputFile)
			' Perform OCR
			Dim result = Ocr.Read(input)
			' Display the result
			Console.WriteLine("Text:")
			Console.WriteLine(result.Text)
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

结论

虽然 IronOCR 和 Power Automate OCR 在文本识别方面都非常强大,但 IronOCR 的解决方案更为强大和通用,可以满足任何开发人员或企业在 Power Automate OCR 支持的简单情况之外对 OCR 功能的需求。 相比之下,Power Automate 的 OCR 引擎是为简单的工作流程而构建的,可能需要额外订阅。

相比之下,IronOCR 的突出特点是即使在处理低质量的输入图像时,也能提供非常高质量的结果。 它支持超过 125 种语言,具有强大的格式和布局保存功能。 其复杂的文档处理和大批量操作非常适合高级图像预处理功能。 不过,有时在 .NET 应用程序中,它还是具有很强的定制性。

Power Automate OCR 可以满足较小的自动化或严格建立在微软基础上的集成要求,而 IronOcr 则通过用户的控制量、最高准确性,甚至支持多种格式的可搜索 PDF 创建等功能摘得桂冠。

可能正在寻找功能关键、可定制且不受平台限制的 OCR 解决方案的组织、IronOCR. Iron Software 向开发人员提供各种类型的库,请查看库套件页面了解更多信息。

雷根·彭

雷根·彭

软件工程师

 LinkedIn

Regan毕业于雷丁大学,拥有电子工程学士学位。在加入Iron Software之前,他的前工作职位要求他专注于单一任务;他在Iron Software最喜欢的是能进行多种工作,无论是增加销售价值、技术支持、产品开发还是营销。他喜欢了解开发人员如何使用Iron Software的库,并利用这些知识不断改进文档和开发产品。
下一步 >
Easyocr 与 Tesseract(OCR 功能比较)