OCR 工具

Mac最佳OCR [免費線上工具]

發佈 2023年8月29日
分享:

1.0 介紹

由於OCR,掃描文件在當代數位環境中的使用經歷了一場革命性的變化。(光學字符識別)科技。 該技術使電腦能夠識別並從各種來源(包括掃描的 PDF 文件)中提取文本,從而讓我們能夠快速編輯和與 PDF 文件互動。 利用光學字符識別從掃描文件中提取文字,並將其轉換為可編輯的PDF或可搜索的基於圖像的PDF既快速又簡單。(光學字符識別)像 Adobe Acrobat 這樣的軟體。

開發人員可以利用先進的演算法,透過結合 OCR 函式庫如 Tesseract 和 IronOCR 提供的強大工具及 API 與機器學習技術,充分發揮光學字元辨識技術的潛力。 這些函式庫能夠實現精準的文字識別,使得組織和提取新創建文件和已掃描文件中的有用數據變得更加簡單。 透過光學字符識別(OCR)最大化掃描文件和頁面圖像的潛力,實現無縫的內容分析,並支持個人和企業的生產力優化。 OCR 掃描將圖像轉換為可搜索的 PDF,使得 OCR 成為當代技術中的重要工具。 它用於數位化紙質記錄、從發票中提取數據,以及提高文件的可及性。

2.0 OCR 工具

在本文中,我們將討論一些適用於 Mac 用戶的最佳 OCR 軟體工具。 它們包括:

Adobe Acrobat Pro DC

  1. ABBYY FineReader PDF

  2. Readiris 17

  3. IronOCR

2.1 Adobe Acrobat Pro DC

原始文件掃描OCR程式以及我們在2023年對Mac OCR軟體的首選是Adobe Acrobat Pro。 不難想像,Adobe Acrobat Pro 是 Mac 上唯一可用的程式,能夠實現創建和編輯 PDF 文件,以及將 PDF 文件轉換為可編輯或可搜尋格式的功能。 PDF 格式最初由 Adobe 開發。 雖然市場上現在有許多其他產品能處理多種 PDF 任務,但 Adobe Acrobat Pro DC 依然非常強大。儘管可以在線訪問 Adobe Acrobat Pro DC 的 Adobe Document Cloud 已經出現,Mac 桌面客戶端仍以其卓越表現而脫穎而出。 值得注意的是,Adobe Acrobat 是唯一與最新的 M1 和 M2 Mac 相容的光學字符辨識(OCR)程式,這進一步提升了它的吸引力。

  1. 首先,啟動 Acrobat 並打開 PDF 文件。

  2. 在右側窗口中,選擇編輯 PDF 工具。 Acrobat 在自動執行光學字元辨識後不久,迅速將您的文件轉換為可完全編輯的 PDF 複本。(光學字符識別)掃描。

    適用於 Mac 的最佳 OCR,圖 1 - 用 Adobe Acrobat 打開的帶有「第 1 頁」的 PDF。

    若要編輯元素,請點選它。 您提供的任何其他文字將會匹配原始字體的風格。 要保存您新更改的文件,請選擇文件 > 另存新檔。

    您可以在以下位置了解有關 Adobe Acrobat DC 安裝的更多信息Adobe Acrobat 網站.

2.2 ABBYY FineReader PDF For Mac

ABBYY FineReader PDF OCR 軟體在 Mac 上已經空出近 20 年了,雖然在大部分時間裡,它被品牌為 ABBYY FineReader Pro。 ABBYY 隨著 macOS Big Sur 的推出更新了 FineReader 產品線,推出了 FineReader PDF。 不幸的是,它僅能在 Intel Mac 上原生運行。 ABBYY FineReader PDF for Mac 與 M1 和 M2 Macs 相容,但僅在使用 Rosetta 時有效。Rosetta 是 macOS 中的一個程序,可將為 Intel 處理器設計的軟體轉換為可在 Apple Silicon 晶片上運行的軟體。 FineReader PDF 沒有原生相容於 M1/M2 晶片的 Mac 版本。 儘管如此,ABBYY FineReader PDF 仍然是適用於 Mac 和 PC 的最佳桌面 OCR 程式之一。

雖然原始文件的質量會影響準確率,但FineReader PDF的OCR文字識別能力非常出色,無疑是市場上最好的。 掃描文件的原始格式,包括文字大小、字體風格、照片、表格和版面設計,均被保留。 它還在快速且準確地識別文字方面表現出色。 以下是執行OCR的步驟:

  1. 啟動 ABBYY FineReader PDF。

  2. 選擇“可搜索 PDF”選項,這使您能夠打開 PDF 並將其轉換為可搜索的 PDF。 您還可以保存轉換後的PDF文件。

    Mac上最佳OCR, 圖2 - ABBYY FineReader源對話框。

    若要了解更多有關 ABBYY FineReader 的資訊,請造訪其網站。網站.

2.3 Readiris 17

Mac 使用者可以使用 ReadIris 17 作為 OCR 解決方案。 儘管主要用於 Windows,ReadIris 已經為 Mac 使用者開發了具備 OCR 功能的 PDF 閱讀器和編輯器。

使用 ReadIris 17,使用者可以輕鬆合併、分割、保護和簽署 PDF。 離線 Mac OCR 軟體允許將 PDF 文件轉換為 Word、Excel、可搜尋的 PDF 或 PowerPoint,同時保留文件格式。 然而,免費版本對一次可掃描的頁數有一定的限制。

Mac 上最佳的 OCR,圖 3 - 一個在 ReadIris 17 中的 PDF,包含文字 Hello world!。

我將圖像輸入到軟體中並嘗試從中提取文字。 此外,它捕捉到了可见的屏幕元素。 可能需要一些後期處理。

了解更多,請參見Iris 網站.

2.4 IronOCR

IronOCR相比標準的Tesseract庫,增強了Tesseract,提供了一個本地的C# OCR庫,具有更高的準確性、性能和穩定性。 它使用 .NET 工具和網站將文字從 PDF 和圖像中提取出來。 支援多種外語,IronOCR 可以輸出純文字或結構化資料。 它能夠讀取條碼和內嵌文字的圖像。 在 .NET 控制台、網路、MVC 和桌面開發的應用程式可以利用 Iron Software 的 OCR 程式庫。 開發團隊為商業部署提供直接支持。 IronOCR 與最新版本的 Visual Studio 相容。

IronOCR 的優勢

  1. 使用現代的 Tesseract 5 引擎,IronOCR 可以從各種圖像或 PDF 文件中掃描紙質文件、條碼和 QR 碼。 此套件簡化了 OCR 與桌面、控制台和網路應用程式的整合。

  2. 在 IronOCR 的協助下,我們可以執行 OCR,將掃描的 PDF 轉換為可搜尋的 PDF。

  3. IronOCR 支援全球 127 種不同的語言,此外還有自訂語言和詞彙表。

  4. 該軟體可以讀取超過20種不同類型的條碼和QR碼。

  5. IronOCR 提供條碼數據和純文本輸出。 開發人員可以通過替代的結構化數據對象範式直接將所有內容輸入系統。 這包括在線應用程式中邏輯組織的標題、段落、行、單詞和字符。

    欲了解更多信息,请参阅IronOCR 網站.

使用 IronOCR 的光學字符識別處理

IronOCR,一個強大的光學字符識別庫,使PDF文檔的轉換和數據訪問成為可能。 它促進轉換為機器可讀的文本以進行有效的分析和處理,而不會損害數據隱私。 以下是使用 IronOCR 從圖像中提取文字的 OCR 示例:

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

using (OcrInput ocrInput = new OcrInput("Demo.gif"))
{
    OcrResult ocrResult = Ocr.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

using (OcrInput ocrInput = new OcrInput("Demo.gif"))
{
    OcrResult ocrResult = Ocr.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5

Using ocrInput As New OcrInput("Demo.gif")
	Dim ocrResult As OcrResult = Ocr.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
VB   C#

在提供的程式碼片段中,我們為 Iron Tesseract 增強功能。 OcrInput 物件被創建以簡化添加一個或多個圖像檔案的過程。 使用 OcrInput 對象的 Add 方法時,請在程式碼中指定圖像的路徑。 您可以根據需要使用任意多的發票照片。 通過解析影像文件並將結果提取到OCR結果中,我們利用之前構建的IronOCR物件的"Read"功能來訪問圖像。 它可以從圖像中提取文本並將其轉換為字串。

最佳 Mac OCR,圖 4 - 在 Adobe Acrobat 中開啟的 PDF,裡面有“Hello world!”的文字。

以下輸出顯示從所提供的圖像中提取的文字,確認已正確執行提取。 IronOCR 也支援將結果儲存為各種輸出格式。

適用於 Mac 最佳 OCR,圖 5 - 命令行中顯示文字 Hello world!。

結論

市面上有多種OCR工具可用於處理發票的數據。 影像的OCR處理能夠翻譯來自所提供影像的文字資料。 前兩個OCR工具通過處理發票數據來實現自動掃描和數據驗證,無需手動數據輸入。 這些工具往往價格昂貴,並且經常需要連接到網際網路,以至於其可用性被限制在特定環境中。

另一方面,IronOCR 支援各種 .NET 專案,包括 .NET Framework Standard 2、.NET Framework 4.5 和 .NET Core 2、3 和 5。它也適用於當代技術,如 Xamarin、Azure、MAC 和 Mono。IronOCR 透過使用 IronOCR 方法增強 Tesseract 的輸出並校正掃描不準確的文字或圖像。 複雜的 Tesseract 字典系統由 NuGet 套件管理。 Iron OCR 庫被用於創建一個 OCR 工具。 因此,IronOCR 是自動化發票和以最少程式碼提取資料的理想發票 OCR 軟體。

支持多種圖像格式、PDF 檔案和多幀 TIFF,IronOCR 提供一個無縫的體驗,無需額外設置。 它不僅僅是光學字符識別,還提供條形碼識別功能,用於從包含條形碼的圖像中提取數據。 IronOCR 的經濟型開發版提供免費試用,並且購買 IronOCR 套件時可獲得終身授權。 IronOCR 套裝提供了極佳的價值,因為它的單一價格涵蓋多個系統。 如需了解有關 IronOCR 成本的更多詳細資訊,請造訪IronOCR 網站.

< 上一頁
機器學習軟體(供開發人員使用的更新列表)
下一個 >
如何使用 OCR 文字識別(初學者教程)

準備開始了嗎? 版本: 2024.11 剛剛發布

免費 NuGet 下載 總下載次數: 2,698,613 查看許可證 >