OCR 工具

Power Automate OCR(開發者教程)

Kannaopat Udonpant
坎納帕特·烏頓潘
2024年12月15日
分享:

介紹

光學字元辨識是一種技術,它可以從影像、掃描文件和 PDF 文件中掃描文字,並將其轉換為機器可讀取的文字。 OCR 使電腦能夠識別各種格式 - 書籍、發票、表單和照片 - 這些都可以數位化並自動化以進行 PDF 數據提取。 它分析圖像中的字符和模式,然後將它們對應為文本。 這種光學字符識別技術應用於文件數字化、PDF數據自動提取和輸入、發票處理,以及使掃描的PDF可搜索。

OCR 技術已經大幅提升,如今可以辨識和讀取不同語言的內容,這些語言在版面結構上變得更加複雜,例如表格和欄位。 進階OCR功能的軟體也使用圖像的預處理技術。 它包括去除噪音和調整對比度,提高OCR軟體在閱讀低品質圖像時的準確性。 三個最受歡迎的光學字符識別工具是 Tesseract OCR 引擎、Power Automate 和 IronOCR,具有高精確度和靈活性。 OCR 已經成為企業、研究人員和開發人員不可或缺的工具,能夠外包管理文件和文字識別的工作。

什麼是 Microsoft Power Automate OCR?

使用Microsoft Power Automate的光學字元識別:通過使用此功能,企業可以自動提取圖像、掃描文件和PDF中的文本,並將其轉換為易於編輯和機器可讀的格式,以提高自身的競爭力。 作為 Microsoft Power Platform 的一部分,Power Automate 桌面版和線上版讓使用者能夠在不需要任何編碼能力的情況下創建流程。 他們可以通過在工作流程中整合 OCR 自動化繁瑣的數據輸入、處理發票以及將文件數位化。

這可以節省他們更多的時間並減少錯誤。 這確實是一個強大的搜尋工具,可用於在 Power Automate 的 OCR 功能中提供對多種不同格式和語言的支持,該功能是使用 AI Builder 構建的,支持多個行業中的文字識別。 它可無縫整合其他 Microsoft 服務,包括 Excel、SharePoint 和 OneDrive,讓從掃描文件開始的端到端自動化,然後儲存或甚至共享。 在這方面,它協助組織提高效率、簡化文件管理,並在其活動中增強運營準確性。

在 Power Automate 中實施 OCR 的好處

在 Power Automate 中實施 OCR 具有以下優點:

節省時間和勞力: 文檔文字提取的自動化節省了大量時間和精力,否則這些時間和精力將用於手動輸入數據。

具成本效益:由於它既易於使用又具可及性,因此幾乎不需要昂貴的定製軟體解決方案。

整合:Microsoft Power Automate 提供與其他 Microsoft 365 服務的無縫整合,比如 SharePoint、OneDrive,甚至是 Excel。

可擴展性:其能一次處理數千份文檔的能力,使其適合大型企業。

減少錯誤:由於它自動化了資料輸入流程,發生人為錯誤的機會大幅減少。

如何在 Power Automate 中使用 OCR

Power Automate 支援透過多種不同的連接來進行 OCR 功能,包括 AI Builder 和 OneDrive。以下是如何獲得 Power Automate 線上服務或我們可以使用 Power Automate 桌面版來創建支持 OCR 的工作流程的逐步指南:

1. 設定 Power Automate

首先,您需要登入您的 Power Automate 帳戶,或者如果您沒有帳戶則需要註冊。 Microsoft Power Automate 是 Microsoft 365 的一部分,這意味著如果您正在使用 Office 365 或 Dynamics 365,您將已經可以使用它。

2: 建立新流程

開啟建立標籤頁,然後點擊即時流程以建立可手動啟動的新流程。

命名您的流程。 例如,將其命名為「Before approval」,然後選擇以下觸發器:當檔案在資料夾(SharePoint 或 OneDrive)中創建時或手動觸發流程。

新建了一個如下面所示的 Power 自動化流程。

Power Automate OCR(開發者教程):圖 5 - 新的自動化流程

3:上傳檔案到 OneDrive 或 SharePoint

將上傳文件(圖像或其他 PDF 文件)的操作添加到 OneDrive for Business 或 SharePoint。 此操作將觸發 OCR 過程以提取數據。 在此示範中,我們使用的是 SharePoint 文件庫。

Power Automate OCR(開發者教程):圖 6 - 上傳文件

4. 使用 AI Builder 的 OCR 動作

利用 AI Builder 開發從影像中提取文字的動作。 AI Builder 是 Power Automate 中深度整合的機器學習功能,具有預先訓練的 OCR 模型,使用戶可以輕鬆從圖片或 PDF 中識別文字。

Power Automate OCR(開發者教程):圖 7 - AI Builder

選擇圖片檔案以提取文字。

Power Automate OCR(開發人員教程):圖 8 - 選擇圖像

5. 處理提取的數據

一旦語言數據由OCR提取為文本,就可以進行進一步處理。 例如:

將提取的文本存儲在 Excel 格式中 使用添加行操作將提取的文本添加到 Excel 文件中。

通過電子郵件傳送文本: 使用此操作將提取的文本通過電子郵件發送給特定收件人。

儲存至資料庫:使用連接器將資料推送至 SQL Server、SharePoint 清單或其他資料庫進行儲存。

什麼是IronOCR?

IronOCR 是一個強大的 .NET OCR 庫,使您能夠從圖像、PDF 和掃描中正確地提取文字。 由於其他庫在圖像品質差或圖像噪點多的情況下無法進行文字識別,IronOCR 將在此方面表現出色。它支援超過 125 種語言,使其非常適合於多語種的多樣性使用情境。 IronOCR 包含許多先進功能,如自動語言檢測和圖片預處理噪音去除以及傾斜校正,就像相同的佈局文件,包括所有樣式及結構細節與圖片轉文字及 PDF 轉文字,並支持可搜尋的 PDF。

Power Automate OCR (開發者教程):圖 9 - IronOCR

該產品可以通過簡單的 .NET 項目 API 輕鬆整合,這使得開發人員能夠在他們開發的應用程式中使用 OCR。該庫在文件數字化、自動化數據輸入工作流程和高精度文本提取任務方面非常實用,並且具備企業級應用的可擴展性。 其優勢在於該程式庫易於使用並提供強大的 OCR 功能。

IronOCR 的功能

  • 即使是從低解析度圖像和嘈雜的掃描文件中提取文字,它也具有出色的精準度。
  • 它支持超過125種語言,並具備自動語言檢測功能,因此能在多語環境中進行OCR。
  • 圖像的預處理需要使用一些工具,例如降噪、傾斜校正、對比度增強和銳化,所有這些都能提高在不完美圖像上的性能。
  • 創建可全文搜索的PDF。 掃描的紙質文件或圖像被轉換為完全可搜尋的 PDF,保留原始佈局,以便於搜尋和組織。
  • 保留佈局和格式:該工具保持源文件的結構、字體以及格式,因為像表格和欄這樣的佈局是複雜的,必須在數位化過程中保留下來。
  • 批次處理: 這使得在一個操作中能批次處理多個圖像或文件。 該技術支持大容量文件處理。
  • 與 .NET 的輕鬆整合: 由於支援簡單的 API,可以輕鬆地與 .NET 應用程式整合,為開發人員提供了一種易於實現的 OCR 機制,而不需要大規模的努力。

    執行 OCR 的範例代碼

using IronOcr;
class Program
{
    static void Main(string[] args)
    {
        // Initialize Iron Tesseract OCR engine variable
        var Ocr = new IronTesseract();
        // Add multiple languages
        Ocr.Language = OcrLanguage.English;
        // Image file path
        var inputFile = @"path\to\your\image.png";
        // Read the image and perform OCR
        using (var input = new OcrInput(inputFile))
        {
            // Perform OCR
            var result = Ocr.Read(input);
            // Display the result
            Console.WriteLine("Text:");
            Console.WriteLine(result.Text);
        }
    }
}
using IronOcr;
class Program
{
    static void Main(string[] args)
    {
        // Initialize Iron Tesseract OCR engine variable
        var Ocr = new IronTesseract();
        // Add multiple languages
        Ocr.Language = OcrLanguage.English;
        // Image file path
        var inputFile = @"path\to\your\image.png";
        // Read the image and perform OCR
        using (var input = new OcrInput(inputFile))
        {
            // Perform OCR
            var result = Ocr.Read(input);
            // Display the result
            Console.WriteLine("Text:");
            Console.WriteLine(result.Text);
        }
    }
}
Imports IronOcr
Friend Class Program
	Shared Sub Main(ByVal args() As String)
		' Initialize Iron Tesseract OCR engine variable
		Dim Ocr = New IronTesseract()
		' Add multiple languages
		Ocr.Language = OcrLanguage.English
		' Image file path
		Dim inputFile = "path\to\your\image.png"
		' Read the image and perform OCR
		Using input = New OcrInput(inputFile)
			' Perform OCR
			Dim result = Ocr.Read(input)
			' Display the result
			Console.WriteLine("Text:")
			Console.WriteLine(result.Text)
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

結論

儘管 IronOCR 和 Power Automate OCR 在文字識別方面都非常強大,但 IronOCR 在為需要超越 Power Automate OCR 所支持簡單案例的開發人員或企業提供解決方案時,顯得更加健全和多樣化。 相比之下,Power Automate 的OCR引擎是為簡單工作流程而設計的,可能需要額外的訂閱。

相比之下,IronOCR 即使面對低質量的輸入圖片,也能提供非常高品質的結果。 它支持超過125種語言,提供強大的格式化和排版保護。 其複雜的文件處理和大型批量操作非常適合具備先進的圖像預處理功能。 但是,有時在 .NET 應用程式中,它具有高度的自訂性。

雖然 Power Automate OCR 足以應付較小的自動化任務或專為 Microsoft 所建構的整合,IronOCR 则因用戶擁有的控制權、最高準確性,甚至包括支持多種格式的可搜索 PDF 創建等特性而脫穎而出。

在那些可能尋求一個無平臺限制的高效自訂化 OCR 解決方案的組織中,IronOCR。 Iron Software向開發人員提供各種類型的函式庫,請檢查函式庫套件頁面以了解更多資訊。

Kannaopat Udonpant
坎納帕特·烏頓潘
軟體工程師
在成為軟體工程師之前,Kannapat 在日本北海道大學完成了環境資源博士學位。在攻讀學位期間,Kannapat 也成為了車輛機器人實驗室的成員,該實驗室隸屬於生物生產工程學系。2022 年,他利用自己的 C# 技能,加入了 Iron Software 的工程團隊,專注於 IronPDF 的開發。Kannapat 珍視這份工作,因為他可以直接向負責撰寫大部分 IronPDF 程式碼的開發人員學習。除了同儕學習外,Kannapat 還享受在 Iron Software 工作的社交方面。當他不在撰寫程式碼或文件時,Kannapat 通常會在 PS5 上玩遊戲或重看《最後生還者》。
下一個 >
Easyocr 與 Tesseract (OCR 功能比較)