OCR工具

Power Automate OCR(开发人员教程)

Kannaopat Udonpant
坎那帕·乌东攀
2024年十二月15日
分享:

介绍

光学字符识别是一种技术,可从图像、扫描文档和PDF文档中扫描文本,将其转换为机器可读的文本。 OCR使计算机能够识别各种格式——书籍、收据、表格和照片——这些可以被数字化和自动化,以进行PDF数据提取。 它可以分析图像中的字符和模式,然后将它们与文本对应起来。 该光学字符识别技术可应用于文档数字化、自动 PDF 数据提取和输入、发票处理以及使扫描的 PDF 可搜索。

OCR 已经有了显著的进步,可以识别和阅读不同的语言,而如今的语言在版面理解方面非常复杂,例如表格和列。 高级 OCR 功能软件还使用了图像预处理技术。 它包括去噪和对比度调整,提高 OCR 软件读取低质量图像的准确性。 最受欢迎的三种 OCR 工具是 Tesseract OCR 引擎、Power Automate 和 IronOCR,它们具有很高的准确性和灵活性。 OCR 已成为企业、研究人员和开发人员外包文档管理和文本识别不可或缺的工具。

什么是 Microsoft Power Automate OCR?

Microsoft Power Automate提供的光学字符识别:使用此功能,企业可以具备将图像、扫描文档和PDF中的文本提取为易于编辑和机器可读格式的自动化能力。 作为 Microsoft Power Platform 的一部分,Power Automate 桌面版和在线版为用户提供了创建流程的能力,而无需任何编码能力。 这些工具可以将繁琐的数据录入自动化、处理发票,并通过在工作流程中集成 OCR 将文档数字化。

-->

这将为他们节省更多时间,并最大限度地减少错误。 这的确是一个功能强大的搜索工具,可用于在 Power Automate 的 OCR 功能中提供对多种不同格式和语言的支持,该功能使用 AI Builder 构建,支持在多个行业中使用文本识别功能。 它可以与 Excel、SharePoint 和 OneDrive 等其他微软服务无缝集成,实现从扫描文档到存储甚至共享文档的端到端自动化。 在这方面,它可以帮助组织提高效率、简化文档管理并提高其活动的操作准确性。

在 Power Automate 中实施 OCR 的优势

在 Power Automate 中实施 OCR 有以下优势:

节省时间和劳动力: 文档文本提取的自动化节省了大量时间和精力,否则将花费在手动输入数据上。

具成本效益: 由于其用户友好且易于访问,因此几乎不需要昂贵的定制软件解决方案。

集成: Microsoft Power Automate 提供与其他 Microsoft 365 服务(如 SharePoint、OneDrive 甚至 Excel)的无缝集成。

可扩展性:由于能够同时处理数千份文档,其可行性使其适合大型企业。

减少错误: 由于自动化了数据输入过程,发生人为错误的机会降到最低。

如何在 Power Automate 中使用 OCR

Power Automate 通过几个不同的连接支持 OCR 功能,包括 AI Builder 和 OneDrive。以下是如何在线获取 Power Automate 的分步指南,我们也可以使用 Power Automate 桌面创建支持 OCR 的工作流程:

1.设置 Power Automate

要开始工作,您需要登录 Power Automate 账户,如果没有账户,也可以注册。 Power Automate 是 Microsoft 365 的一部分,这意味着如果您正在使用 Office 365 或 Dynamics 365,就已经可以访问 Power Automate。

-->

2: 制作新流程

打开 "创建 "选项卡,然后单击 "即时流程",创建一个可手动启动的新流程。

-->

为您的流程命名。 例如,将其命名为“审批前”,并选择以下触发器:文件在文件夹中创建时(SharePoint或OneDrive)或手动触发流程。

-->

我们创建了一个 New Power 自动化流程,如下所示。

Power Automate OCR(开发者教程):图5 - 新的自动化流程

3: 将文件上传到 OneDrive 或 SharePoint

添加一个操作,将您的文档(图像或其他PDF文件)上传到OneDrive for Business或SharePoint。 此操作将触发 OCR 流程以提取数据。 在本演示中,我们使用的是 SharePoint 文档库。

Power Automate OCR(开发者教程):图6 - 上传文件

4.利用 AI 生成器的 OCR 功能

利用 AI 生成器开发从图像中提取文本的操作。 AI 生成器是 Power Automate 中深度集成的机器学习功能,具有预训练的 OCR 模型,用户可以轻松识别图像或 PDF 中的文本。

Power Automate OCR(开发者教程):图 7 - AI Builder

选择要提取文本的图像文件。

Power Automate OCR(开发者教程):图8 - 选择图像

5.处理提取的数据

一旦语言数据被 OCR 提取为文本,就可以进行进一步处理。 例如

将提取的文本存储在 Excel 格式中使用“添加行”操作将提取的文本添加到 Excel 文件中。

通过电子邮件发送文本: 使用此操作发送电子邮件,以将提取的文本转发给特定的收件人。

存储在数据库中:使用连接器将数据推送到SQL Server、SharePoint列表或其他数据库进行存储。

什么是IronOCR?

IronOCR 是一个强大的 .NET OCR 库,使您能够从图像、PDF 和扫描文件中正确提取文本。 它将在其他库因图像质量差或图像嘈杂而导致文本识别失败的情况下大显身手,而且它支持 125 种以上的语言,非常适合具有多样性的多语言用例。 IronOCR 囊括了大量高级功能,如自动检测语言、图像预处理、去噪和斜度校正,就像排版文档一样,包括所有样式和结构细节,以及图像到文本和 PDF 到文本的可搜索 PDF。

Power Automate OCR(开发人员教程):图 9 - IronOCR

该产品可通过简单的 .NET 项目 API 轻松集成,使开发人员能够在其开发的应用程序中使用 OCR。当涉及到文档数字化、数据录入的自动化工作流程以及高准确性和可扩展性的企业级应用文本提取任务时,该库非常方便。 当库易于使用并具有强大的 OCR 功能时,它的优势就体现出来了。

IronOCR 的功能

  • 即使是从低分辨率图像和嘈杂的扫描文档中提取的文本,它也具有出色的精确度。
  • 它支持125种语言以上,具备自动语言检测功能,从而能够在不同的语言环境中进行OCR。
  • 对图像进行预处理需要使用降噪、倾斜校正、增强对比度和锐化等工具,所有这些工具都能提高不完美图像的性能。
  • 创建全文可搜索的PDF。 扫描的纸质文件或图像将被转换为完全可搜索的 PDF 文件,并保留原始布局,以便于搜索和组织。
  • 保持布局和格式: 该工具在数字化过程中会保持源文档的结构、字体及格式,因为诸如表格和列之类的布局复杂且必须被保留。
  • 批量处理:这使得可以在一次操作中批量处理多个图像或文档。 该技术支持大量文件的处理。
  • 与 .NET 的轻松集成:由于它支持简单的 API,可以轻松集成到 .NET 应用程序中,为实现 OCR 提供了一种易于实施的机制,而无需开发人员付出大规模的努力。

    执行 OCR 的示例代码

using IronOcr;
class Program
{
    static void Main(string[] args)
    {
        // Initialize Iron Tesseract OCR engine variable
        var Ocr = new IronTesseract();
        // Add multiple languages
        Ocr.Language = OcrLanguage.English;
        // Image file path
        var inputFile = @"path\to\your\image.png";
        // Read the image and perform OCR
        using (var input = new OcrInput(inputFile))
        {
            // Perform OCR
            var result = Ocr.Read(input);
            // Display the result
            Console.WriteLine("Text:");
            Console.WriteLine(result.Text);
        }
    }
}
using IronOcr;
class Program
{
    static void Main(string[] args)
    {
        // Initialize Iron Tesseract OCR engine variable
        var Ocr = new IronTesseract();
        // Add multiple languages
        Ocr.Language = OcrLanguage.English;
        // Image file path
        var inputFile = @"path\to\your\image.png";
        // Read the image and perform OCR
        using (var input = new OcrInput(inputFile))
        {
            // Perform OCR
            var result = Ocr.Read(input);
            // Display the result
            Console.WriteLine("Text:");
            Console.WriteLine(result.Text);
        }
    }
}
Imports IronOcr
Friend Class Program
	Shared Sub Main(ByVal args() As String)
		' Initialize Iron Tesseract OCR engine variable
		Dim Ocr = New IronTesseract()
		' Add multiple languages
		Ocr.Language = OcrLanguage.English
		' Image file path
		Dim inputFile = "path\to\your\image.png"
		' Read the image and perform OCR
		Using input = New OcrInput(inputFile)
			' Perform OCR
			Dim result = Ocr.Read(input)
			' Display the result
			Console.WriteLine("Text:")
			Console.WriteLine(result.Text)
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

结论

虽然 IronOCR 和 Power Automate OCR 在文本识别方面都非常强大,但 IronOCR 的解决方案更为强大和通用,可以满足任何开发人员或企业在 Power Automate OCR 支持的简单情况之外对 OCR 功能的需求。 相比之下,Power Automate 的 OCR 引擎是为简单的工作流程而构建的,可能需要额外订阅。

相比之下,IronOCR 的突出特点是即使在处理低质量的输入图像时,也能提供非常高质量的结果。 它支持超过 125 种语言,具有强大的格式和布局保存功能。 其复杂的文档处理和大批量操作非常适合高级图像预处理功能。 不过,有时在 .NET 应用程序中,它还是具有很强的定制性。

Power Automate OCR 可以满足较小的自动化或严格建立在微软基础上的集成要求,而 IronOcr 则通过用户的控制量、最高准确性,甚至支持多种格式的可搜索 PDF 创建等功能摘得桂冠。

在可能正在寻找无平台限制的高效、可定制OCR解决方案的组织中,IronOCR。 Iron Software为开发人员提供了各种类型的库,请查看库套件页面以了解更多信息。

Kannaopat Udonpant
坎那帕·乌东攀
软件工程师
在成为软件工程师之前,Kannapat 从日本北海道大学完成了环境资源博士学位。在攻读学位期间,Kannapat 还成为了生物生产工程系车辆机器人实验室的成员。2022年,他利用自己的 C# 技能加入了 Iron Software 的工程团队,专注于 IronPDF。Kannapat 珍视他的工作,因为他能直接向编写 IronPDF 大部分代码的开发者学习。除了同伴学习,Kannapat 还享受在 Iron Software 工作的社交方面。不写代码或文档时,Kannapat 通常在 PS5 上玩游戏或重看《最后生还者》。
下一步 >
Easyocr 与 Tesseract(OCR 功能比较)