OCR 工具

OCR C# 開源(開發人員列表)

發佈 2023年6月20日
分享:

光學字符識別 (OCR)(光學字符識別)是一項顛覆性的技術,徹底改變了掃描文件在當今數位世界中的使用方式。 它使電腦能夠識別並從各種來源提取文本,包括掃描的 PDF 文件,使我們能夠有效地編輯和互動 PDF 文件。 光學字符識別之一(光學字符識別)程式包括 Adobe Acrobat,它可以快速從掃描文件中提取文本,並將其轉換為可編輯的 PDF 和可搜索的圖片 PDF。

開發人員可以通過使用像 Tesseract 和 IronOCR 這樣的 OCR 庫來訪問強大的工具和 API,這些工具和 API 利用了先進的算法和機器學習方法。 這些庫支持準確的文字識別,使得從既有掃描的文件和全新的文件中更簡單地管理和檢索有用的信息。 光學字符識別(OCR)使內容分析變得更加流暢,幫助企業和個人充分利用其掃描文件和頁面影像,從而最大化生產力。 OCR 是當前科技中的一個重要工具,無論是用於將紙質記錄數位化,從發票中提取資料,還是僅僅提升文件的可存取性。

Tesseract

最著名的開源 OCR 引擎叫做 Tesseract,最初是由惠普公司開發的。 自2006年以來,Google一直支持該免費軟體專案,該專案是根據Apache許可證發布的。

最準確的開源和免費系統之一是 Tesseract OCR 引擎。Tesseract 現在的最新穩定版本 4.1.1 支持 116 種語言,基於 LSTM。

Tesseract 需要來自單獨 GUI 的支持(圖形用戶界面)因為它沒有內建介面,所以從命令列介面執行時。 它可以使用其神經網絡學習新信息,並具有先進的圖像預處理管道。將 OCR 能力添加到您的 .NET 應用程式最有效的技術是 Tesseract .NET SDK,這是提供文字識別能力的最佳解決方案之一。 儘管Tesseract無疑是目前市場上最好的OCR庫。

GOCR

GNU公共许可证被用來創建OCR(光學字符識別)稱為 GOCR 的程序。 它將文本檔案轉換回文件的掃描圖像。 在啟動程式並管理SF上的開發團隊後,Joerg Schulenburg 繼續負責該套件,在一個(非常)今天低時間基準。

由於GOCR可以與多個前端一起使用,因此將其移植到其他操作系統、網絡應用程式和架構相對簡單。 它可以讀取各種類型的圖片文件,並在2010年之前,其品質持續提升。

根據GOCR,它可以處理高度為20至60像素的單列無襯線字體。 它報告了用非拉丁字母書寫的文本、襯線字體、重疊字母、手寫文本、各種字體、噪點照片和過度傾斜角度的困難。 GOCR 也能夠翻譯條碼。

CuneiForm

CuneiForm,一項免費且開源的技術,如今也被稱為「Cognitive OpenOCR」。它具有內建輸出和資料庫。 它涵蓋了23種不同的語言,還執行諸如文本格式掃描、文件布局分析和識別等任務。

Cognitive Technologies 開發了 OpenOCR 的許可證,這些許可證是免費軟體和 BSD。 雖然支援跨平臺使用,但 Linux 使用者未提供圖形介面。

若要在任何 .NET Framework 2.0 或更新版本的應用程式中簡化字符識別工作,可以使用封裝庫 Puma Dot NET。 它在處理數據時運行字典檢查,以提高識別質量。

CuneiForm是一項技術,旨在自動或半自動地將電子副本的紙質文件和圖像文件轉換為可編輯的形式,而不影響結構和原始文件的字體。 系統由兩個部分組成,用於批量處理電子文件以及逐份處理文件。此外,系統支持俄文和英文的組合。 只有Andrei Borovsky在2009年創建的分支支持其他混合語言的識別。 教導系統辨識其他語言是具挑戰性的,因為每種語言都與一個 dat 檔案相關聯,其結構和創建過程並未由開發人員公開。

Kraken

Kraken 的開發是為了解決 Ocropus 的問題,而不影響其其他功能。 它利用其 CLSTM 神經網路庫,並結合從先前項目獲得的寶貴經驗和新數據。 它需要使用某些外部庫以便能夠在不同平台上有效運行。 借助存儲的信息,它可以更準確地預測潛在的數據驗證問題。 此外,其工作方法有助於新模型的輕鬆部署和訓練。

A9T9

A9T9 是一款免費的 OCR 軟體,可以用來從圖片文件中提取文字,並轉換圖像和 PDF 文件。 它提供圖形用戶介面(圖形用戶介面)適用於 Tesseract OCR 引擎。

該程式易於設定。最重要的是,它是完全免費且開源的。 它沒有間諜軟體和廣告軟體。

您可以打開 PDF 文件或圖像,源文件的內容將顯示在左側窗口。 如果您的文件有多頁或者是多頁文件,您可以使用頁面底部的箭頭在頁面之間導航。

要啟動 OCR 過程,只需點擊綠色 OCR 按鈕,然後輸出將出現在右側的第二個窗格中。 您可以將輸出文本保存為文字檔案和 Word 文件。

IronOCR

與標準的 Tesseract 程式庫相比,IronOCR 擴充了 Tesseract,並提供了一個本地 C# OCR 程式庫,具備更高的準確性、改良的性能和增強的穩定性。 IronOCR 可用於 .NET 程式和網站,從 PDF 和影像中提取文本。 它支持多種外語,並能生成純文字或結構化數據輸出。 它能夠掃描條碼和內嵌文字的圖像。 該函式庫可以在使用 .NET 開發的應用程式中使用,包括控制台、網路、MVC 和桌面應用程式。開發團隊提供商業部署的授權流程的直接支持。 IronOCR 與最新版本的 Visual Studio 相容。

IronOCR 的優勢

  • 使用最新的Tesseract 5引擎,IronOCR能夠從各種圖片或PDF文件中讀取紙質文件、條碼和QR碼。 此套件簡化了 OCR 在桌面、控制台和網路應用程式中的整合。
  • IronOCR 使我們能夠執行 OCR,這樣可以將掃描的 PDF 轉換為可搜尋的 PDF。
  • 除了單詞表和自定義語言外,IronOCR 支援全球 127 種不同的語言。
  • IronOCR 可以掃描超過20種不同類型的條碼和QR碼。
  • IronOCR 可以提供純文字和條碼數據的輸出。 開發人員可以使用替代的結構化數據物件範式,將所有內容直接輸入系統。 這包括在 web 應用程式中結構化的標題、段落、行、單詞和字符。

    以下是我們將用來識別給定圖像中的文字內容並將其轉換為文本的範例代碼。

var Ocr = new IronTesseract();   
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())      
{          
    Input.AddImage(@"Demo.png");         
    var R = Ocr.Read(Input);       
    Console.WriteLine(R.Text);        
    Console.ReadKey();          
}
var Ocr = new IronTesseract();   
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())      
{          
    Input.AddImage(@"Demo.png");         
    var R = Ocr.Read(Input);       
    Console.WriteLine(R.Text);        
    Console.ReadKey();          
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
Using Input = New OcrInput()
	Input.AddImage("Demo.png")
	Dim R = Ocr.Read(Input)
	Console.WriteLine(R.Text)
	Console.ReadKey()
End Using
VB   C#

在上面的程式碼片段中,我們正在使用 IronTesseract 開發一個功能。 首先,我們實例化一個新的 OcrInput 物件,以便能夠添加一個或多個圖像文件。 在使用 OcrInput 物件的 Add 方法時,我們可能需要在程式碼中指定圖像的路徑。 您可以添加任意數量的圖像。 通過解析圖像文檔並將結果提取到OCR結果中,我們可以使用先前創建的對象上的Read功能來訪問圖像。 它具有從圖像中提取文字並將其轉換為字串的功能。

以下輸出顯示從先前提供的圖像中提取的文本,證明文本已成功從圖像中提取。

OCR C# 開源(開發者列表)圖 1 - 輸出

看到这个發佈詳盡的IronOCR指南。

結論

OCR 開源工具允許我們使用其源代碼構建自己的程式。 然而,有些工具沒有官方的庫或專門的團隊來提供程式編碼問題的支持。 Tesseract 的文件也缺乏常見使用情境的範例代碼或教程,這使得初學者難以理解代碼和庫。

IronOCR 支援各種 .NET 專案,例如 .NET Framework Standard 2、.NET Framework 4.5 和 .NET Core 2、3 和 5。它也能與更新的技術如 Mono、Xamarin 和 Azure 一同運作。 通過利用IronOCR技術,我們可以提升Tesseract的結果並校正掃描不準確的文件或圖像。 複雜的Tesseract字典系統通過NuGet套件進行管理。 我們利用 Iron OCR Library 開發一個 OCR 工具。

使用 IronOCR,我們可以在不進行任何額外配置的情況下使用這個程式,並且支持 PDF 文件、多框架 TIFF 及所有常見的影像格式。 它還提供條碼識別功能,讓我們可以從圖像中提取條碼數據並讀取條碼值。 IronOCR 提供具成本效益的開發版本和免費試用版,終身授權包含在 IronOCR 套件中,無需額外費用。IronOCR 套件僅需一次性付款即可支援多個平台。 如需有關 IronOCR 定價的更多資訊,請參閱此內容。頁面.

< 上一頁
最佳日文OCR(開發者更新列表)
下一個 >
如何使用Tesseract從圖像中提取文本

準備開始了嗎? 版本: 2024.11 剛剛發布

免費 NuGet 下載 總下載次數: 2,698,613 查看許可證 >