OCR 工具

Mac最佳OCR [免費線上工具]

發佈 2023年8月29日
分享:

1.0 引言

多虧了OCR,掃描文件在當代數位環境中的使用發生了革命性的變化 (光學字符識別) 技術。這項技術使電腦能夠識別和提取來自各種來源的文本,包括掃描的PDF文件,使我們能夠快速編輯和與PDF文件互動。使用光學字符識別技術,可以快速簡單地從掃描文檔中提取文本,並將其轉換為可編輯的PDF或可搜索的基於圖像的PDF。 (光學字符識別) 像 Adobe Acrobat 的軟體。

開發人員可以利用先進的算法,結合 OCR 庫如 Tesseract 和 IronOCR 所提供的強大工具和 API,加上機器學習技術,充分發揮光學字符識別技術的潛力。這些庫能夠實現精準的文本識別,使得整理並提取新創建的文件和已掃描文件中的有用數據變得更簡單。通過 OCR 將掃描的文檔和頁面圖像的潛力最大化,可實現無縫的內容分析,並支持個人和企業的生產力優化。OCR 掃描將圖像轉換為可檢索的 PDF,使得 OCR 成為當今技術中的一個重要工具。它被用來數字化基於紙質的記錄,提取發票中的數據,並提高文件的可訪問性。

2.0 OCR 工具

在本文中,我們將討論一些適合 Mac 用戶的最佳 OCR 軟體工具。它們包括:

  1. Adobe Acrobat Pro DC
  2. ABBYY FineReader PDF
  3. Readiris 17
  4. IronOCR

2.1 Adobe Acrobat Pro DC

最初的文件掃描 OCR 程序,我們在 2023 年 Mac OCR 軟件中的首選是 Adobe Acrobat Pro。這並不奇怪,因為 Adobe Acrobat Pro 是 Mac 上唯一能夠創建和編輯 PDF 文件以及將 PDF 文件轉換為可編輯或可搜索格式的程序。PDF 格式最初是由 Adobe 開發的。雖然現在市場上有許多其他產品能夠處理各種 PDF 任務,但 Adobe Acrobat Pro DC 仍然非常強大。儘管 Adobe Document Cloud 可用於在線訪問 Adobe Acrobat Pro DC,但 Mac 桌面客戶端在質量上仍然脫穎而出。值得注意的是,Adobe Acrobat 是唯一與最新的 M1 和 M2 Mac 兼容的 OCR 程序,這進一步增加了它的吸引力。

  1. 首先,啟動 Acrobat 並打開 PDF 文件。
  2. 在右側窗口中,選擇「編輯 PDF」工具。Acrobat 很快自動執行光學字符識別後,將您的文件轉換為完全可編輯的 PDF 副本。 (光學字符識別) 掃描它。

適用於 Mac 的最佳 OCR,圖 1 - 用 Adobe Acrobat 打開的帶有「第 1 頁」的 PDF。

要編輯元素,請點擊它。任何您提供的額外文字都會匹配原始字體的樣式。要保存您新修改的文件,請選擇文件 > 另存為。

您可以了解有關 Adobe Acrobat DC 安裝的更多信息在 Adobe Acrobat 網站.

2.2 ABBYY FineReader PDF 适用于 Mac

ABBYY FineReader PDF OCR 軟體適用於 Mac 已有近 20 年的歷史,雖然大部分時間內,它都被品牌為 ABBYY FineReader Pro。隨著 macOS Big Sur 的推出,ABBYY 更新了 FineReader 產品線,推出了 FineReader PDF。不幸的是,它僅能在 Intel Macs 上本地運行。ABBYY FineReader PDF 适用于 Mac 與 M1 和 M2 Macs 兼容,但僅在利用 Rosetta 的情況下可以使用,這是 macOS 中的一個程序,能夠將為 Intel 處理器設計的軟體轉換為可在 Apple Silicon 芯片上運行。並沒有適用於 M1/M2 芯片的本地兼容 Mac 版 FineReader PDF。儘管如此,ABBYY FineReader PDF 仍是 Mac 和 PC 最佳的桌面 OCR 程式之一。

儘管原始文件的質量會影響準確率,FineReader PDF 的 OCR 文字識別能力卓越,無疑是市場上最好的。它保留了掃描文檔的原始格式,包括文字大小、字體樣式、照片、表格和佈局。它還在快速和準確識別文字方面表現出色。以下是執行 OCR 的步驟:

  1. 啟動 ABBYY FineReader PDF。

  2. 選擇「可搜尋 PDF」選項,這樣可以讓你開啟一個 PDF 並將其轉換為可搜尋的 PDF。你也可以將轉換後的 PDF 文件保存下來。

Mac上最佳OCR, 圖2 - ABBYY FineReader源對話框。

若要了解更多有關ABBYY FineReader的資訊,請造訪他們的 網站.

2.3 Readiris 17

Mac 使用者可以使用 ReadIris 17 作為 OCR 解決方案。雖然主要用於 Windows,但 ReadIris 為 Mac 使用者開發了一款具備 OCR 功能的 PDF 閱讀器和編輯器。

有了 ReadIris 17,使用者可以輕鬆地合併、分割、保護和簽署 PDF。這款離線 Mac OCR 軟體可以將 PDF 文件轉換為 Word、Excel、可搜尋 PDF 或 PowerPoint,同時保留文件格式。然而,免費版本在一次能掃描的頁數上有限制。

Mac 上最佳的 OCR,圖 3 - 一個在 ReadIris 17 中的 PDF,包含文字 Hello world!。

我將圖像輸入軟體並嘗試從中提取文字。此外,它還捕捉到屏幕上可見的元素。可能需要進行一些後期處理。

如需了解更多,請參見 Iris 網站.

2.4 IronOCR

IronOCR 相比於標準的Tesseract庫,IronOCR增強了Tesseract,提供了一個本地的C# OCR庫,具有更高的準確性、性能和穩定性。它允許使用 .NET 工具和網站從PDF和圖像中提取文字。IronOCR支援廣泛的外國語言,可以輸出純文本或結構化數據。它能夠讀取條碼和嵌入文字的圖像。使用 Dot NET 主控台、網頁、MVC 和桌面應用程序都可以利用 Iron Software 的OCR庫。開發團隊提供商業部署的直接支持。IronOCR 與最新版本的 Visual Studio 相容。

IronOCR的優勢

  1. IronOCR利用現代Tesseract 5引擎,可以從各種圖像或PDF文件中掃描紙質文件、條形碼和QR碼。這個套件簡化了將OCR集成到桌面、控制台和網頁應用中的過程。

  2. 在IronOCR的幫助下,我們可以執行OCR,將掃描的PDF轉換為可搜尋的PDF。

  3. IronOCR支持全球127種不同的語言,此外還支持自定義語言和詞彙表。

  4. 該軟件可以讀取超過20種不同類型的條形碼和QR碼。

  5. IronOCR提供條形碼數據和純文字輸出。開發人員可以通過另一種結構化數據對象範式直接訪問所有內容,以便在線應用中直接輸入到系統。這包括邏輯組織的標題、段落、行、詞語和字符。

欲了解更多信息,請參見 IronOCR 網站.

使用 IronOCR 進行OCR處理

IronOCR 是一個強大的OCR庫,使PDF文件的轉換和數據訪問變得簡單。它能將PDF轉換成機器可讀的文本,以便進行高效的分析和處理,同時不會影響數據隱私。以下是一個使用 IronOCR 從圖片中提取文本的示例:

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

using (OcrInput ocrInput = new OcrInput("Demo.gif"))
{
    OcrResult ocrResult = Ocr.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

using (OcrInput ocrInput = new OcrInput("Demo.gif"))
{
    OcrResult ocrResult = Ocr.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5

Using ocrInput As New OcrInput("Demo.gif")
	Dim ocrResult As OcrResult = Ocr.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
VB   C#

在提供的代碼片段中,我們增強了Iron Tesseract的功能。OcrInput物件被創建以簡化添加一個或多個圖像文件。當使用OcrInput物件的Add方法時,在代碼中指定圖像的路徑。您可以根據需要使用任意多的發票照片。通過解析圖像文件並將結果提取到OCR結果中,我們利用先前構建的IronOCR物件的“Read”功能來訪問圖像。它可以從圖像中提取文字並將其轉換為字符串。

最佳 Mac OCR,圖 4 - 在 Adobe Acrobat 中開啟的 PDF,裡面有“Hello world!”的文字。

以下輸出的文字顯示從提供的圖像中提取的文字,確認提取正確無誤。IronOCR還支持各種輸出格式以保存結果。

適用於 Mac 最佳 OCR,圖 5 - 命令行中顯示文字 Hello world!。

結論

市場上有多種OCR工具可以用於處理發票數據。對圖像進行OCR處理可以將所提供圖像中的文字數據進行轉換。前兩個OCR工具通過處理發票數據實現自動掃描和數據驗證,無需手動數據輸入。然而,這些工具往往價格昂貴且需要活躍的網絡連接,使其在特定環境中的可用性受到限制。

另一方面,IronOCR支持各種 .NET 項目,包括 .NET Framework Standard 2, .NET Framework 4.5, 和 .NET Core 2, 3, 和 5。它還可以與現代技術如 Xamarin, Azure, MAC, 和 Mono 一起工作。IronOCR通過其方法增強Tesseract的輸出並修正掃描錯誤的單詞或圖像。複雜的Tesseract詞典系統由NuGet包管理。Iron OCR Library被用來創建一個OCR工具。因此,IronOCR是用於自動化發票和提取數據的理想發票OCR軟件,且所需代碼量非常少。

支持多種圖像格式、PDF文件和MultiFrame TIFF,IronOCR提供了一種無縫體驗,無需額外設置。它不僅僅提供光學字符識別,還通過條形碼識別功能從包含條形碼的圖像中提取數據。IronOCR的經濟實惠的開發版提供了免費試用,並且購買IronOCR套件還包括終身許可。IronOCR套件提供了極好的價值,因為它提供了涵蓋多個系統的單一定價。如需了解更多關於IronOCR價格的詳細信息,請訪問 IronOCR 網站.

< 上一頁
機器學習軟體(供開發人員使用的更新列表)
下一個 >
如何使用 OCR 文字識別(初學者教程)

準備開始了嗎? 版本: 2024.10 剛剛發布

免費 NuGet 下載 總下載次數: 2,433,305 查看許可證 >