跳過到頁腳內容
OCR 工具

Mac 上的最佳 OCR【免費線上工具】

1.0 引言

由於光學字元辨識 (OCR) 技術,掃描文件在當代數位環境中的使用發生了革命性的變化。 這項技術使電腦能夠識別和提取來自各種來源(包括掃描的 PDF 文件)的文本,從而使我們能夠快速編輯 PDF 文件並與之互動。 使用 Adobe Acrobat 等光學字元辨識 (OCR) 軟體,可以快速輕鬆地從掃描文件中提取文本,並將其轉換為可編輯的 PDF 或可搜尋的圖像 PDF。

開發人員可以利用尖端演算法,將 Tesseract 和 IronOCR 等 OCR 庫提供的強大工具和 API 與機器學習技術相結合,從而充分利用光學字元辨識技術。 這些程式庫能夠實現精確的文字識別,從而更輕鬆地組織和提取新建立的文件以及已掃描文件中的有用資料。 利用 OCR 技術最大限度地發揮掃描文件和頁面影像的潛力,可以實現無縫的內容分析,並支援個人和企業生產力的最佳化。 OCR掃描可以將影像轉換為可搜尋的PDF,這使得OCR成為現代技術中至關重要的工具。 它用於將紙本記錄數位化、從發票中提取資料以及提高文件的可訪問性。

2.0 OCR 工具

在本文中,我們將討論一些適用於 Mac 用戶的最佳 OCR 軟體工具。 這些工具包括

  1. Adobe Acrobat Pro DC
  2. ABBYY FineReader PDF
  3. Readiris 17
  4. 鐵氧體

2.1 Adobe Acrobat Pro DC

Adobe Acrobat Pro 是最初的文件掃描 OCR 程序,也是我們 2023 年選出的 Mac OCR 軟體最佳選擇。 Adobe Acrobat Pro 是 Mac 上唯一能夠建立和編輯 PDF 文檔,以及將 PDF 文件轉換為可編輯或可搜尋格式的程序,這不足為奇。 PDF格式最初是由Adobe公司開發的。 雖然市面上有許多其他產品也能處理各種 PDF 任務,但 Adobe Acrobat Pro DC 仍然非常強大。儘管可以透過 Adobe Document Cloud 在線存取 Adobe Acrobat Pro DC,但其 Mac 桌面用戶端的卓越效能依然脫穎而出。 值得注意的是,Adobe Acrobat 是唯一與最新的 M1 和 M2 Mac 相容的 OCR 程序,這進一步增強了它的吸引力。

  1. 首先,啟動 Acrobat 並開啟一個 PDF 檔案。
  2. 在右側視窗中,選擇"編輯 PDF"工具。 Acrobat 會在自動對文件進行光學字元辨識 (OCR) 掃描後,迅速將其轉換為完全可編輯的 PDF 副本。

Mac 最佳 OCR,圖 1 - 在 Adobe Acrobat 中開啟的"第 1 頁"PDF 檔案。

要編輯某個元素,請點擊它。 您提供的任何附加文字都將與原始字體樣式保持一致。 若要儲存您新修改的檔案,請選擇"檔案">"另存為"。

您可以在AdAdobe Acrobat 網站上了解更多關於 Adobe Acrobat DC 安裝的資訊。

2.2 ABBYY FineReader PDF for Mac

ABBYY FineReader PDF OCR Mac 軟體已經問世近 20 年了,儘管在大部分時間裡,它的品牌名稱是 ABBYY FineReader Pro。 隨著 macOS Big Sur 的發布,ABBYY 更新了 FineReader 產品線,推出了 FineReader PDF。 可惜的是,它只能在 Intel Mac 上原生運作。 ABBYY FineReader PDF for Mac 與 M1 和 M2 Mac 相容,但僅當與 Rosetta 一起使用時才相容。 Rosetta 是 macOS 中的一個程序,可以將為 Intel 處理器設計的軟體轉換為可在 Apple Silicon 晶片上運行的軟體。 目前還沒有與 M1/M2 晶片原生相容的 Mac 版 FineReader PDF。 儘管如此,ABBYY FineReader PDF 仍然是 Mac 和 PC 上最好的桌面 OCR 程式之一。

雖然原始文件的品質會影響準確率,但 FineReader PDF 的 OCR 文字辨識能力非常出色,無疑是市場上最好的。 掃描文件的原始格式,包括文字大小、字體樣式、照片、表格和佈局,均得以保留。 它在快速、準確地識別文本方面也表現出色。 以下是執行 OCR 的步驟:

  1. 啟動 ABBYY FineReader PDF。
  2. 選擇"可搜尋 PDF"選項,即可開啟 PDF 並將其轉換為可搜尋的 PDF。 您也可以儲存轉換後的PDF檔案。

Mac 最佳 OCR,圖 2 - ABBYY FineReader 來源對話框。

要了解更多關於 ABBYY FineReader 的信息,請訪問他們的網站

2.3 Readiris 17

Mac 用戶可以使用 ReadIris 17 作為 OCR 解決方案。 儘管 ReadIris 主要針對 Windows 用戶,但它也為 Mac 用戶開發了一款具有 OCR 功能的 PDF 閱讀器和編輯器。

使用 ReadIris 17,使用者可以輕鬆合併、分割、保護和簽署 PDF 文件。 這款離線 Mac OCR 軟體可將 PDF 檔案轉換為 Word、Excel、可搜尋 PDF 或 PowerPoint,同時保留文件格式。 但是,免費增值版本對一次可掃描的頁數有限制。

Mac 最佳 OCR,圖 3 - ReadIris 17 中帶有文字"Hello world!"的 PDF。

我將一張圖片輸入軟體,並嘗試從中提取文字。 此外,它還捕捉到了螢幕上可見的元素。 可能需要進行一些後製。

欲了解更多信息,請訪問Iris 網站

2.4 IronOCR

與標準 Tesseract 函式庫相比, IronOCR增強了 Tesseract 的功能,提供了一個具有更高準確性、效能和穩定性的原生 C# OCR 函式庫。 它能夠使用 .NET 工具和網站從 PDF 和圖像中提取文字。 IronOCR 支援多種外語,可輸出純文字或結構化資料。 它能夠讀取條碼和帶有嵌入式文字的圖像。 使用 Dot NET 控制台、Web、MVC 和桌面開發的應用程式可以利用 Iron Software OCR 程式庫。 開發團隊為商業部署提供直接支援。 IronOCR 與最新版本的 Visual Studio 相容。

IronOCR的優勢

  1. IronOCR 利用現代 Tesseract 5 引擎,可以掃描各種影像或 PDF 檔案中的紙本文件、條碼和二維碼。 該軟體包簡化了將 OCR 整合到桌面、控制台和 Web 應用程式中的過程。 2.借助 IronOCR,我們可以執行 OCR,將掃描的 PDF 轉換為可搜尋的 PDF。
  2. IronOCR 支援全球 125 種不同的語言,此外還支援自訂語言和單字清單。
  3. 軟體可以讀取 20 多種不同類型的條碼和二維碼。
  4. IronOCR 提供條碼資料和純文字輸出。 開發者可以透過另一個結構化資料物件範式存取所有內容,以便直接輸入到系統中。 這包括線上應用程式中邏輯組織有序的標題、段落、行、單字和字元。

更多信息,請訪問IronOCR 網站

使用 IronOCR 進行 OCR 處理

IronOCR 是一個強大的 OCR 庫,可以轉換 PDF 文件並存取資料。 它有助於將資料轉換為機器可讀文本,以便進行高效的分析和處理,同時又不損害資料隱私。 以下範例展示如何使用 IronOCR 透過 OCR 技術從影像中擷取文字:

// Instantiate IronTesseract object to use IronOCR capabilities
var Ocr = new IronTesseract();

// Specify the language to use for OCR
Ocr.Language = OcrLanguage.EnglishBest;

// Define the Tesseract version to use
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

// Use an OcrInput object to add images for OCR processing
using (OcrInput ocrInput = new OcrInput("Demo.gif"))
{
    // Perform OCR and obtain the result containing extracted text
    OcrResult ocrResult = Ocr.Read(ocrInput);

    // Print the extracted text to the console
    Console.WriteLine(ocrResult.Text);
}
// Instantiate IronTesseract object to use IronOCR capabilities
var Ocr = new IronTesseract();

// Specify the language to use for OCR
Ocr.Language = OcrLanguage.EnglishBest;

// Define the Tesseract version to use
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

// Use an OcrInput object to add images for OCR processing
using (OcrInput ocrInput = new OcrInput("Demo.gif"))
{
    // Perform OCR and obtain the result containing extracted text
    OcrResult ocrResult = Ocr.Read(ocrInput);

    // Print the extracted text to the console
    Console.WriteLine(ocrResult.Text);
}
' Instantiate IronTesseract object to use IronOCR capabilities
Dim Ocr = New IronTesseract()

' Specify the language to use for OCR
Ocr.Language = OcrLanguage.EnglishBest

' Define the Tesseract version to use
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5

' Use an OcrInput object to add images for OCR processing
Using ocrInput As New OcrInput("Demo.gif")
	' Perform OCR and obtain the result containing extracted text
	Dim ocrResult As OcrResult = Ocr.Read(ocrInput)

	' Print the extracted text to the console
	Console.WriteLine(ocrResult.Text)
End Using
$vbLabelText   $csharpLabel

在提供的程式碼片段中, IronTesseract增強了 OCR 功能。 OcrInput物件創建了一個簡單的接口,用於添加圖像以進行文字提取。 指定的圖像路徑用於初始化 OCR 過程, IronOCR讀取圖像並將文字提取為字串格式。

Mac 最佳 OCR,圖 4 - 在 Adobe Acrobat 中開啟的 PDF 文件,其中包含文字"Hello world!"。

下面的輸出顯示了從提供的圖像中提取的文本,確認已正確執行提取。 IronOCR 也支援多種輸出格式以儲存結果。

Mac 最佳 OCR,圖 5 - 命令列上顯示文字"Hello world!"。

結論

市面上有許多OCR工具可以用來處理發票資料。 光學字元辨識(OCR)技術能夠將提供的影像中的文字資料轉換成文字。 前兩款 OCR 工具無需手動輸入數據即可處理發票數據,從而實現自動掃描和數據驗證。 這些工具往往價格昂貴,而且通常需要穩定的互聯網連接,因此其使用範圍僅限於特定環境。

另一方面,IronOCR 支援多種 .NET 項目,包括 .NET Framework Standard 2、.NET Framework 4.5 以及 .NET Core 2、3 和 5。它還兼容 Xamarin、Azure、MAC 和 Mono 等現代技術。 IronOCR 可增強 Tesseract 的輸出,並使用 IronOCR 方法校正掃描不準確的文字或影像。 複雜的 Tesseract 字典系統由 NuGet 套件管理。 Iron OCR 庫用於建立 OCR 工具。 因此,IronOCR 是實現發票自動化和資料提取的理想發票 OCR 軟體,只需極少的編碼即可完成。

IronOCR 支援多種影像格式、PDF 檔案和多幀 TIFF,無需額外設定即可提供無縫體驗。 它超越了光學字元識別,提供了條碼識別功能,可以從包含條碼的圖像中提取資料。 IronOCR 提供價格實惠的開發版免費試用,購買 IronOCR 套裝即可獲得終身許可證。 IronOCR 套裝物超所值,因為它以單一價格涵蓋多個系統。 有關 IronOCR 費用的更多詳細信息,請訪問IronOCR 網站

Kannaopat Udonpant
軟體工程師
在成為软件工程師之前,Kannapat 從日本北海道大學完成了環境資源博士學位。在追逐學位期间,Kannapat 還成為了生產工程系一部份——汽車机器人实验室的成員。2022 年,他利用他的 C# 技能加入 Iron Software 的工程團隊, 專注於 IronPDF。Kannapat 珍惜他的工作,因为他直接向编写大部分 IronPDF 使用的代码的开发者学习。除了同行学习,Kannapat 还喜欢在 Iron Software 工作的社交十环。当他不编写代码或文档时,Kannapat 通常在他的 PS5 上打游戏或重看《The Last of Us》。