跳過到頁腳內容
OCR 工具

Mac 上的最佳 OCR【免費線上工具】

1.0 簡介

感謝OCR(光學字符識別)技術,當代數位環境中對掃描文件的使用發生了革命性的變化。 這項技術使電腦可以識別並提取來自各種來源的文本,包括掃描的PDF文件,讓我們能夠快速編輯和互動PDF文件。 使用例如Adobe Acrobat的光學字符識別(OCR)軟體,從掃描文件中提取文本,並將其轉換為可編輯的PDF或可搜索的基於圖像的PDF既快捷又簡單。

開發人員可以利用領先的算法,通過將如Tesseract和IronOCR提供的OCR庫的強大工具和API與機器學習技術結合,充分發揮光學字符識別技術的潛力。 這些庫支持精確的文本識別,使組織並從新創建和已掃描的文件中提取有用的數據變得更簡單。 通過OCR最大化掃描文件和頁面圖像的潛力,能夠實現無縫的內容分析,並支持個人和商業生產力的優化。 OCR掃描將圖像轉換為可搜索的PDF,使OCR成為當代技術中的重要工具。 它用於數位化紙質記錄、從發票中提取數據並增強文件的可訪問性。

2.0 OCR工具

在這篇文章中,我們將討論一些適合Mac用戶使用的最佳OCR軟體工具。 它們包括:

  1. Adobe Acrobat Pro DC
  2. ABBYY FineReader PDF
  3. Readiris 17
  4. IronOCR

2.1 Adobe Acrobat Pro DC

最初的文件掃描OCR程式,也是我們2023年Mac OCR軟體的首選,是Adobe Acrobat Pro。 不難預見,Adobe Acrobat Pro 是唯一一個可供Mac使用的程式,能夠創建和編輯PDF文件,以及將PDF文件轉換為可編輯或可搜索格式。 PDF格式最初由Adobe開發。 儘管現在市場上有許多其他能處理各種PDF操作的產品,Adobe Acrobat Pro DC仍然非常強大。儘管有Adobe Document Cloud可供線上訪問Adobe Acrobat Pro DC,Mac桌面客戶端仍然卓越出色。 值得注意的是,Adobe Acrobat 是唯一兼容最新M1和M2 Mac的OCR程式,這進一步提升了其吸引力。

  1. 首先,啟動Acrobat並打開PDF文件。
  2. 在右側窗口中選擇編輯PDF工具。 Acrobat在自動完成光學字符識別(OCR)掃描後不久,就迅速將您的文件轉變為PDF的完全可編輯副本。

最佳Mac用OCR,圖1 - 在Adobe Acrobat中打開的包含“Page 1”的PDF。

若想編輯一個元素,點擊它。 您提供的任何額外文本將匹配原字體的樣式。 要保存您剛修改的文件,選擇文件 > 另存為。

您可以在Adobe Acrobat網站了解有關Adobe Acrobat DC安裝的更多信息。

2.2 ABBYY FineReader PDF For Mac

ABBYY FineReader PDF OCR軟體適用於Mac已經推出將近20年,縱觀大部分時間,它以ABBYY FineReader Pro的名義銷售。 ABBYY更新了FineReader產品線,隨著macOS Big Sur的推出,引入了FineReader PDF。 不幸的是,它僅原生支持Intel Mac。 ABBYY FineReader PDF for Mac兼容M1和M2 Mac,但僅在使用Rosetta進行時才可,該程式在macOS中將專為Intel處理器設計的軟件轉換為能在Apple Silicon芯片上運行的軟體。 沒有本身與M1/M2芯片兼容的FineReader PDF Mac版本。 儘管如此,其中仍然最佳的桌面OCR程序之一,適用于Mac和PC的仍然是ABBYY FineReader PDF。

雖然原文件的質量會影響精確度,但FineReader PDF的OCR文本識別能力非常出色,毫無疑問是市場上最佳的。 掃描文件的原始格式,包括文本大小、字體樣式、照片、表格和佈局等,均可保留。 它在快速和精確識別文本方面也表現出色。 以下是執行OCR的步驟:

  1. 啟動ABBYY FineReader PDF。
  2. 選擇“可搜索的PDF”選項,該選項允許您打開PDF並將其轉換為可搜索的PDF。 您也可以保存轉換後的PDF文件。

最佳Mac用OCR,圖2 - ABBYY FineReader源對話框。

如需瞭解更多資訊請訪問他們的網站

2.3 Readiris 17

Mac用戶可以使用ReadIris 17作為OCR解決方案。 雖然其主要用於Windows,ReadIris開發了一個適用於Mac用戶的支持OCR功能的PDF閱讀器和編輯器。

通過ReadIris 17,使用者可以輕鬆合併、分割、保護和簽署PDF文件。 離線Mac OCR軟體允許將PDF文件轉換為Word、Excel、可搜索的PDF或PowerPoint,同時保持文檔格式。 然而,免費版本限制了每次可以掃描的頁數。

最佳Mac用OCR,圖3 - 在Readiris 17中打開包含“Hello world!”文本的PDF。

我將圖像輸入軟體中,並嘗試從中提取文本。 此外,它還捕獲了屏幕上的可見元素。 可能需要進行一些後期處理。

如需了解更多,請參閱Iris網站

2.4 IronOCR

IronOCR在對比標準Tesseract庫的場景下提升了Tesseract,提供了一個精准度更高、性能更佳、穩定性更好的原生C# OCR庫。 它能通過.NET工具和網站從PDF和圖像中提取文本。 支持多種外語,IronOCR可以輸出純文字或結構化數據。 它能讀取帶有嵌入文字的條碼和圖像。 在Dot NET控制台、Web、MVC和桌面開發的應用程序可以使用Iron Software OCR庫。 開發團隊為商業部署提供直接支持。 IronOCR兼容Visual Studio的最新版本。

IronOCR的優勢

  1. 利用現代Tesseract 5引擎,IronOCR可以從各種圖像或PDF文件中掃描紙質文件、條碼和QR碼。 這個程序包簡化了將OCR整合到桌面、控制台和Web應用中的過程。
  2. 在IronOCR的幫助下,我們可以執行OCR,將掃描的PDF轉換為可搜索的PDF。
  3. IronOCR支持全球125種不同語言,並提供自定義語言和詞彙表功能。
  4. 該軟體能讀取超過20種類型的條碼和QR碼。
  5. IronOCR提供條碼數據和純文字輸出。 開發人員可以通過替代的結構化數據物件範式訪問所有內容,用於本地輸入系統。 這包括在在線應用中邏輯化的標題、段落、行、詞和字符。

更多資訊,請參閱IronOCR網站

使用IronOCR進行OCR處理

IronOCR是一個強大的OCR庫,支持PDF文件的轉換和數據訪問。 它支持將內容轉換為機器可讀文本,以便進行有效的分析和處理,同時不妥協數據隱私。 以下是一個利用IronOCR從圖像中提取文本的示例:

// Instantiate IronTesseract object to use IronOCR capabilities
var Ocr = new IronTesseract();

// Specify the language to use for OCR
Ocr.Language = OcrLanguage.EnglishBest;

// Define the Tesseract version to use
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

// Use an OcrInput object to add images for OCR processing
using (OcrInput ocrInput = new OcrInput("Demo.gif"))
{
    // Perform OCR and obtain the result containing extracted text
    OcrResult ocrResult = Ocr.Read(ocrInput);

    // Print the extracted text to the console
    Console.WriteLine(ocrResult.Text);
}
// Instantiate IronTesseract object to use IronOCR capabilities
var Ocr = new IronTesseract();

// Specify the language to use for OCR
Ocr.Language = OcrLanguage.EnglishBest;

// Define the Tesseract version to use
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

// Use an OcrInput object to add images for OCR processing
using (OcrInput ocrInput = new OcrInput("Demo.gif"))
{
    // Perform OCR and obtain the result containing extracted text
    OcrResult ocrResult = Ocr.Read(ocrInput);

    // Print the extracted text to the console
    Console.WriteLine(ocrResult.Text);
}
' Instantiate IronTesseract object to use IronOCR capabilities
Dim Ocr = New IronTesseract()

' Specify the language to use for OCR
Ocr.Language = OcrLanguage.EnglishBest

' Define the Tesseract version to use
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5

' Use an OcrInput object to add images for OCR processing
Using ocrInput As New OcrInput("Demo.gif")
	' Perform OCR and obtain the result containing extracted text
	Dim ocrResult As OcrResult = Ocr.Read(ocrInput)

	' Print the extracted text to the console
	Console.WriteLine(ocrResult.Text)
End Using
$vbLabelText   $csharpLabel

在提供的代碼片段中,IronTesseract提升了OCR功能。 OcrInput對象創建了一個簡單的界面,用於添加圖像進行文本提取。 指定的圖像路徑用於初始化OCR過程,使用IronOCR讀取圖像並將文本提取為字串格式。

最佳Mac用OCR,圖4 - 在Adobe Acrobat中打開的PDF,含有“Hello world!”文本。

以下輸出顯示了從提供的圖像中提取的文本,確認進行了正確的提取。 IronOCR還支持多種輸出格式以保存結果。

最佳Mac用OCR,圖5 - 命令行中顯示的文本“Hello world!”。

結論

市場上多种OCR工具能夠利用發票進行數據處理。 影像的OCR處理允許將提供的圖像中的文本數據進行翻譯。 前兩個OCR工具支持通過處理發票數據,進行自動掃描和數據驗證,而无需手動數據輸入。 這些工具往往價格昂貴,且通常要求活躍的網路連接,這限制了它們在特定環境中的可用性。

另一方面,IronOCR支持多種.NET專案,包括.NET Framework Standard 2、.NET Framework 4.5以及.NET Core 2,3,5,還適用於現代技術如Xamarin、Azure、MAC和Mono。IronOCR增強了Tesseract的輸出,並通過IronOCR方法糾正了不準確的掃描單詞或圖像。 NuGet Package管理著複雜的Tesseract詞典系統。 Iron OCR Library被用於創建OCR工具。 因此,IronOCR是理想的發票OCR軟件,用於自動化發票並以最小的代碼量提取數據。

支持眾多的圖像格式、PDF文件和MultiFrame TIFF,IronOCR提供無需其他設置的流暢體驗。 它超越了光學字符識別,提供條碼識別功能,以從包含條碼的圖像中提取數據。 可免費試用IronOCR的經濟開發版,並在購買IronOCR合輯時附帶終身許可。 IronOCR合輯提供卓越的價值,因為其單一價格涵蓋多個系統。 有關IronOCR成本的更多細節,請訪問IronOCR網站

Kannaopat Udonpant
軟體工程師
在成為软件工程師之前,Kannapat 從日本北海道大學完成了環境資源博士學位。在追逐學位期间,Kannapat 還成為了生產工程系一部份——汽車机器人实验室的成員。2022 年,他利用他的 C# 技能加入 Iron Software 的工程團隊, 專注於 IronPDF。Kannapat 珍惜他的工作,因为他直接向编写大部分 IronPDF 使用的代码的开发者学习。除了同行学习,Kannapat 还喜欢在 Iron Software 工作的社交十环。当他不编写代码或文档时,Kannapat 通常在他的 PS5 上打游戏或重看《The Last of Us》。