跳至页脚内容
OCR 工具

Power Automate OCR(开发者教程)

光学字符识别 (OCR) 是一种技术,它可以从图像、扫描文档和 PDF 中扫描文本,并将其转换为机器可读的文本。 OCR 使计算机能够识别各种格式的书籍、收据、表格和照片,这些都可以数字化并自动化用于 PDF 数据提取。 它分析图像中的字符及其模式,然后将它们对应于文本。 这种光学字符识别技术被应用于文档数字化、自动 PDF 数据提取和录入、发票处理以及使扫描的 PDF 可搜索。

OCR 技术已经有了显著改善,能够识别和读取不同语言,现今在理解布局方面已变得更加复杂,例如表格和列。 先进的 OCR 功能软件也使用预处理技术来处理图像。 这些包括去噪和对比度调整,改善 OCR 软件读取低质量图像的准确性。 三种最流行的 OCR 工具为 Tesseract OCR 引擎、Power Automate 和 IronOCR,拥有高准确性和灵活性。 OCR 已成为企业、研究人员和开发人员不可或缺的工具,用于外包文档管理和文本识别。

什么是 Microsoft Power Automate OCR?

通过 Microsoft Power Automate 进行光学字符识别:通过此功能,企业可以自动化从图像、扫描文档和 PDF 中提取文本到可轻松编辑和机读的格式。 作为 Microsoft Power 平台的一部分,Power Automate 桌面和在线版为用户提供了无需编程能力就能创建流程的能力。 它们可以通过在工作流中集成 OCR 来自动化繁琐的数据录入、处理发票和数字化文档。

这节省了时间并最大程度地减少错误。 这确实是一个强大的搜索工具,可以在 Power Automate 的 OCR 功能中支持许多不同格式和语言。 基于 AI Builder 构建,支持多个行业使用文本识别。 它无缝集成到其他 Microsoft 服务中,包括 Excel、SharePoint 和 OneDrive,允许端到端的自动化从扫描文档到存储甚至共享。 这有助于组织提高效率,简化文档管理,并增强运营活动的准确性。

在 Power Automate 中实现 OCR 的好处

在 Power Automate 中实施 OCR 有以下优点:

节省时间和劳力:文档文本提取的自动化节省了大量本会用于手动数据录入的时间和精力。

具有成本效益:用户友好且易于访问,因此无需昂贵的定制软件解决方案。

集成: Microsoft Power Automate 提供与其他 Microsoft 365 服务的无缝集成,如 SharePoint、OneDrive,甚至 Excel。

可扩展性:它可以一次处理成千上万的文档,非常适合大型企业。

减少错误:自动化数据录入流程减少了人为错误的机会。

如何在 Power Automate 中使用 OCR

Power Automate 通过几个不同的连接支持 OCR 功能,包括 AI Builder 和 OneDrive。以下是使用 Power Automate 在线或桌面创建启用 OCR 的工作流的分步指南:

1. 设置 Power Automate

首先,登录您的 Power Automate 帐户或在没有帐户的情况下注册。 Power Automate 是 Microsoft 365 的一部分,这意味着如果您正在使用 Office 365 或 Dynamics 365,您已经可以访问。

2. 创建新流程

打开创建选项卡,点击即时流程,创建一个可以手动启动的新流程。

给您的流程命名。 例如,命名为"审批前",然后选择以下触发器:当文件在文件夹中创建(SharePoint 或 OneDrive)或手动触发流程时。

一个新的 Power Automate 流程已经创建,类似于下图所示。

Power Automate OCR (开发者教程):图 5 - 新的自动化流程

3. 将文件上传到 OneDrive 或 SharePoint

添加一个操作,将您的文档(图像或 PDF)上传到 OneDrive for Business 或 SharePoint。 此操作将触发 OCR 过程以提取数据。 在此演示中,我们使用 SharePoint 文档库。

Power Automate OCR (开发者教程):图 6 - 上传文件

4. 使用 AI Builder 的 OCR 操作

使用 AI Builder 开发"从图像中提取文本"操作。 AI Builder 是 Power Automate 中机器学习的一个深度集成功能,具有预训练的 OCR 模型,使用户可以轻松从图像或 PDF 中识别文本。

Power Automate OCR (开发者教程):图 7 - AI Builder

选择要从中提取文本的图像文件。

Power Automate OCR (开发者教程):图 8 - 选择图像

5. 处理提取的数据

一旦 OCR 提取了文本,就可以进一步处理。 例如:

将提取的文本存储为 Excel 格式:使用"添加行"操作将提取的文本插入 Excel 文件中。

通过电子邮件传递文本:使用"发送电子邮件"操作将提取的文本转发给指定接收者。

存储在数据库中:使用连接器将数据推送到 SQL Server、SharePoint 列表或其他数据库中进行存储。

什么是 IronOCR?

IronOCR 是一个强大的 .NET OCR 库,允许您从图像、PDF 和扫描中准确提取文本。 它在其他图书馆可能由于图像质量差或图像噪声而难以进行文本识别的情况下表现出色,并支持超过 125 种语言,非常适用于多语言用例。 IronOCR 包含高级功能,例如自动语言检测、图像预处理、去噪、倾斜校正,以及将文档转换为可搜索的 PDF,同时保留原始布局。

Power Automate OCR (开发者教程):图 9 - IronOCR

该产品可以通过简单的 .NET 项目 API 轻松集成,使开发人员能够在他们开发的应用程序中实现 OCR。该库特别适用于文档数字化、数据录入自动化工作流以及具有高精度和可扩展性的文本提取任务,适用于企业级应用程序。 其易用性和强大的 OCR 能力是其优势。

IronOCR的特点

  • 卓越的文本提取精度,甚至从低分辨率图像和噪声扫描文档中提取。
  • 支持 125 多种语言,并且能够自动检测语言,以便在不同语言环境中使用。
  • 提供图像预处理工具,例如去噪、倾斜校正、对比度增强和锐化,以改善在不完美图像上的性能。
  • 创建全文可搜索的 PDF,将扫描文档或图像转换为完整可搜索的 PDF,并保留原始布局。
  • 保留布局和格式,维护源文档的结构、字体和格式,对于带有表格和列的复杂文档至关重要。
  • 批处理:支持在一次操作中批量处理多个图像或文档,适合大批量文档处理。
  • 与 .NET 轻松集成:支持简单的 API,以便与 .NET 应用程序轻松集成,使开发人员无需花费太多精力即可实现 OCR。

执行 OCR 的示例代码

using IronOcr;

class Program
{
    static void Main(string[] args)
    {
        // Initialize Iron Tesseract OCR engine
        var Ocr = new IronTesseract();

        // Set language
        Ocr.Language = OcrLanguage.English;

        // Path to the image file
        var inputFile = @"path\to\your\image.png";

        // Read the image and perform OCR
        using (var Input = new OcrInput(inputFile))
        {
            // Perform OCR
            var Result = Ocr.Read(Input);

            // Display the extracted text in the console
            Console.WriteLine("Extracted Text:");
            Console.WriteLine(Result.Text);
        }
    }
}
using IronOcr;

class Program
{
    static void Main(string[] args)
    {
        // Initialize Iron Tesseract OCR engine
        var Ocr = new IronTesseract();

        // Set language
        Ocr.Language = OcrLanguage.English;

        // Path to the image file
        var inputFile = @"path\to\your\image.png";

        // Read the image and perform OCR
        using (var Input = new OcrInput(inputFile))
        {
            // Perform OCR
            var Result = Ocr.Read(Input);

            // Display the extracted text in the console
            Console.WriteLine("Extracted Text:");
            Console.WriteLine(Result.Text);
        }
    }
}
Imports IronOcr

Friend Class Program
	Shared Sub Main(ByVal args() As String)
		' Initialize Iron Tesseract OCR engine
		Dim Ocr = New IronTesseract()

		' Set language
		Ocr.Language = OcrLanguage.English

		' Path to the image file
		Dim inputFile = "path\to\your\image.png"

		' Read the image and perform OCR
		Using Input = New OcrInput(inputFile)
			' Perform OCR
			Dim Result = Ocr.Read(Input)

			' Display the extracted text in the console
			Console.WriteLine("Extracted Text:")
			Console.WriteLine(Result.Text)
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

结论

虽然 IronOCR 和 Power Automate OCR 在文本识别方面都非常强大,但 IronOCR 在提供解决方案上显得更加健壮和多才多艺,适合需要超出 Power Automate OCR 简单用例的开发人员或企业。 Power Automate 的 OCR 引擎设计用于简单的工作流程,可能需要额外订阅。

相反, IronOCR 通过即使在处理低质量输入图像时也能提供高质量结果而脱颖而出。 它支持超过 125 种语言,并且很好地保留了格式和布局。 其处理复杂文档和大型批量操作的能力得到了高级图像预处理选项的良好支持。 它在 .NET 应用程序中高度可定制。

Power Automate OCR 足以用于在 Microsoft 生态系统内进行的小型自动化或集成,而 IronOCR 以最高的准确性和控制力脱颖而出,支持可搜索 PDF 创建等多格式功能。

对于寻求不受平台限制的强大、可定制的 OCR 解决方案的组织,推荐使用IronOCR。 Iron Software 为开发人员提供多种库选项。 查看库套件页面以获取更多详细信息。

Kannaopat Udonpant
软件工程师
在成为软件工程师之前,Kannapat 在日本北海道大学完成了环境资源博士学位。在攻读学位期间,Kannapat 还成为了车辆机器人实验室的成员,隶属于生物生产工程系。2022 年,他利用自己的 C# 技能加入 Iron Software 的工程团队,专注于 IronPDF。Kannapat 珍视他的工作,因为他可以直接从编写大多数 IronPDF 代码的开发者那里学习。除了同行学习外,Kannapat 还喜欢在 Iron Software 工作的社交方面。不撰写代码或文档时,Kannapat 通常可以在他的 PS5 上玩游戏或重温《最后生还者》。