OCR 工具

OCR C# 開源(開發人員列表)

發佈 2023年6月20日
分享:

光學字符識別 (OCR) (光學字符識別) 是一項改變遊戲規則的技術,徹底改變了掃描文件在當今數字世界中的使用方式。它使計算機能夠識別和提取來自多種來源的文本,包括掃描的 PDF 文件,使我們能夠有效地編輯和互動 PDF 文件。光學字符識別的其中一個 (光學字符識別) 程式是Adobe Acrobat,它允許您迅速從掃描文件中提取文本,並將其轉換為可編輯的PDF和可搜尋的圖片PDF。

開發人員可以使用像Tesseract 和 IronOCR這樣的OCR庫來訪問強大的工具和API,這些工具和API利用先進的算法和機器學習方法。這些庫實現準確的文本識別,使得管理和檢索有用的資訊變得更簡單,無論是從已掃描的文件中還是從全新的文件中。OCR實現了無縫的內容分析,並幫助企業和個人通過最大化利用其掃描文件和頁面圖像來提高生產力。在當前技術中,無論是用於數位化基於紙張的記錄,從發票中提取數據,還是簡單地提高文件的可訪問性,OCR都是一個重要的工具。

Tesseract

最著名的開源 OCR 引擎叫做 Tesseract,最初由惠普公司開發。自2006年以來,Google 一直在支持這個免費軟體專案,並且該專案是根據 Apache 授權發佈的。

Tesseract OCR 引擎是目前最準確的開源和免費系統之一。Tesseract 的最新穩定版本 4.1.1 支援 116 種語言,這是基於 LSTM 技術的。

Tesseract 需要支援一個獨立的 GUI (圖形用戶界面) 當從命令列介面執行時,因為它沒有內置的介面。它可以通過其神經網路學習新資訊,並具有先進的影像預處理管道。將 OCR 功能新增至您的 .NET 應用程式的最有效方法是 Tesseract .NET SDK,這是提供文字識別功能的最佳解決方案之一。即使 Tesseract 毫無疑問是目前市場上最好的 OCR 庫。

GOCR

GNU 公共许可证用於創建 OCR (光學字符識別) 程序名為 GOCR。它將文字檔案轉化為掃描的文件圖像。在啟動程序並管理 SF 上的開發團隊後,Joerg Schulenburg 繼續處理該包。 (非常) 今天的基礎時間低。

由於 GOCR 可以與多個前端一起使用,因此將其移植到其他操作系統、網路應用程式和架構相對簡單。它可以讀取多種圖片檔案類型,並且直到2010年,其質量一直在穩步提升。

根據GOCR,它可以處理高度為20-60像素的單列無襯線字體。它報告了處理非拉丁字母、襯線字體、重疊字母、手寫文字、各種字體、噪點照片和過度傾斜角度的困難。GOCR 也能翻譯條碼。

CuneiForm

CuneiForm,一種免費和開源技術,現在也被稱為「Cognitive OpenOCR」。它具有內建的輸出和資料庫。它涵蓋23種不同語言,並執行如文字格式掃描、文件佈局分析和識別等任務。

Cognitive Technologies 開發了 OpenOCR 的授權,這些授權是免費軟體和 BSD 授權。雖然它支持跨平台使用,但 Linux 用戶沒有提供圖形介面。

為了簡化在任何 Dot NET Framework 2.0 或更高版本應用中的字符識別工作,使用了封裝庫 Puma Dot NET。它在處理數據時運行字典檢查,以提高識別質量。

CuneiForm 是一種技術,旨在自動或半自動地將紙質文件和圖像文件的電子副本轉換為可編輯的形式而不影響結構和原始文件字體。該系統包括兩部分,用於批量處理電子文件和一次處理一個文件。此外,該系統支持俄語和英語的組合。只有 Andrei Borovsky 在2009年創建的分支支持其他混合語言的識別。由於每種語言都與一個 dat 文件相關聯,而其結構和創建過程並未由開發者公開,因此教系統識別其他語言具有挑戰性。

Kraken

Kraken 是為了解決 Ocropus 的問題而開發的,而不影響其其他功能。它利用其 CLSTM 神經網路庫,並借鑑以往項目的寶貴經驗和新的數據。它需要使用某些外部庫以便在不同平臺上有效運行。借助存儲的信息,它可以對潛在的數據驗證問題做出更準確的預測。此外,其工作方法便於新模型的部署和訓練。

A9T9

A9T9是一款免費的OCR軟件,可用於從圖片文件中提取文本並轉換圖像和PDF文檔。它提供了一個圖形用戶界面 (圖形用戶介面) 適用於Tesseract OCR引擎。

該程式易於設置。最重要的是,它完全免費且開源。沒有間諜軟體和廣告軟體。

您可以開啟PDF文件或圖像,來源文件的內容將顯示在左側窗口。如果您的文件有多頁或是多頁文件,您可以使用頁面底部的箭頭在頁面之間導航。

要啟動OCR過程,只需點擊綠色的OCR按鈕,輸出內容將顯示在右側第二個窗格中。您可以選擇將輸出文字保存為文本文件和Word文檔。

IronOCR

與標準的 Tesseract 庫相比,IronOCR 擴展了 Tesseract 並提供了一個具有更高準確性、改進性能和增強穩定性的原生 C# OCR 庫。IronOCR 可用於 .NET 程式和網站,從 PDF 和圖像中提取文本。它支持多種外語並且可以生成純文本或結構化數據輸出。它能夠掃描條碼和嵌入文本的圖像。該庫可以用於為控制台、Web、MVC 和桌面開發的 .NET 應用程式。開發團隊提供商業部署的許可流程的直接協助。IronOCR 與最新版本的 Visual Studio 兼容。

IronOCR 的優勢

  • 使用最新的 Tesseract 5 引擎,IronOCR 能夠從各種圖片或 PDF 文件中讀取紙質文件、條碼 和二維碼。這個套件簡化了將 OCR 整合到桌面、控制台和 Web 應用程序中的過程。
  • IronOCR 使我們能夠執行 OCR,從而允許我們將掃描的 PDF 轉換為可搜索的 PDF。
  • 除了詞彙列表和自定義語言外,IronOCR 支援全球 127 種不同的語言。
  • IronOCR 可以掃描超過 20 種不同類型的條碼和二維碼。
  • IronOCR 可以提供純文本以及條碼數據的輸出。開發人員可以使用替代的結構化數據對象範例檢索所有內容,以便直接輸入系統。這包括 Web 應用程序中的結構化標題、段落、行、單詞和字符。

下面是我們將用於識別給定圖像中的文本內容並將其轉換為文本的示例代碼。

var Ocr = new IronTesseract();   
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())      
{          
    Input.AddImage(@"Demo.png");         
    var R = Ocr.Read(Input);       
    Console.WriteLine(R.Text);        
    Console.ReadKey();          
}
var Ocr = new IronTesseract();   
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())      
{          
    Input.AddImage(@"Demo.png");         
    var R = Ocr.Read(Input);       
    Console.WriteLine(R.Text);        
    Console.ReadKey();          
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
Using Input = New OcrInput()
	Input.AddImage("Demo.png")
	Dim R = Ocr.Read(Input)
	Console.WriteLine(R.Text)
	Console.ReadKey()
End Using
VB   C#

在上面的程式碼片段中,我們正在使用 IronTesseract 開發一個功能。首先,我們實例化了一個新的 OcrInput 對象,以便能夠新增一個或多個圖像文件。在使用 OcrInput 對象的 Add 方法時,我們可能需要在代碼中指定圖像的路徑。你可以添加任意數量的圖像。通過解析圖像文檔並將結果提取到 OCR 結果中,我們可以使用之前建立的對象上的 Read 功能來訪問這些圖像。它具有從圖像中提取文本並將其轉換為字串的能力。

下面的輸出顯示了從之前提供的圖像中提取的文字,證明了文本成功從圖像中提取。

OCR C# 開源(開發者列表)圖 1 - 輸出

看這個 發佈 詳盡的IronOCR指南。

結論

開源的 OCR 工具允許我們使用其源代碼來構建我們自己的程序。然而,一些工具沒有官方庫或專門的團隊來在出現編碼問題時提供支持。Tesseract 的文檔也缺乏常見使用場景的示例代碼或教程,使初學者難以理解代碼和庫。

IronOCR 支援各種 .NET 專案,例如 .NET Framework Standard 2、.NET Framework 4.5 和 .NET Core 2、3 和 5。它也適用於如 Mono、Xamarin 和 Azure 這樣的新技術。通過利用 IronOCR 技術,我們可以增強 Tesseract 的結果並修正掃描錯誤的文件或圖像。複雜的 Tesseract 字典系統是通過 NuGet 包管理的。我們利用 Iron OCR Library 開發了一個 OCR 工具。

使用 IronOCR,我們不需要任何額外配置就能使用該程序,並且它支援 PDF 文件、多幀 TIFF 以及所有常見的圖像格式。它還提供條形碼識別功能,允許我們從圖像中提取條形碼數據並讀取條形碼值。IronOCR 提供了一個具成本效益的開發版和免費試用,終身許可證包含在 IronOCR 捆綁包中且無需額外費用。IronOCR 捆綁包只需一次支付即可覆蓋多個平台。關於 IronOCR 價格的更多資訊,請參見此處。 頁面.

< 上一頁
最佳日文OCR(開發者更新列表)
下一個 >
如何使用Tesseract從圖像中提取文本

準備開始了嗎? 版本: 2024.10 剛剛發布

免費 NuGet 下載 總下載次數: 2,433,305 查看許可證 >