在實際環境中測試
在生產環境中測試無浮水印。
在任何需要的地方都能運作。
Tesseract 是一個開源軟體程式庫,根據 Apache 許可協議發佈。 最初由惠普公司於1980年代開發。 這是一個文字識別工具,主要用於從圖像中識別和提取文字。 Tesseract OCR 提供命令提示介面來執行此功能。
下載適用於 Windows 的 Tesseract 安裝程式
安裝 Tesseract OCR
將安裝路徑添加到環境變量
要在 Windows 上使用 Tesseract 命令,我們首先需要下載 Tesseract OCR 二進位文件 .exe Windows 安裝程式。
有很多地方可以下載最新版本的 Tesseract OCR。 來自這樣一個地方 曼海姆大學,從......派生 tesseract-ocr/tesseract (主儲存庫).
下載 tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 位元)Windows 安裝程式。
可以使用以下任一命令在 macOS 的 Python 提示中安裝 Tesseract:
brew install tesseract
sudo port install tesseract
接下來,我們將使用在上一步下載的 .exe 文件安裝 Tesseract。啟動 .exe 安裝程式以開始安裝 Tesseract。
一旦完成設定的解壓縮,安裝程式的語言資料對話框將出現。 您可以通過選擇其他語言包來安裝 Tesseract 以使用多種語言,但在這裡我們只會安裝英語的語言數據。
按「確定」,Tesseract OCR 的安裝程式語言已設置。
接下來,安裝精靈將會顯示。 此安裝精靈將指導您在 Windows 上安裝 Tesseract。
點擊“下一步”以繼續安裝。
Tesseract OCR 授權於 Apache License Version 2.0。由於它是開源且免費使用的,您可以重新分發和修改 Tesseract 的版本,而不必擔心版稅問題。
點擊 我同意 以繼續安裝。
您可以選擇為多位使用者或單一使用者安裝 Tesseract。
按下一步選擇要與Tesseract一起安裝的元件。
從要安裝的組件清單中,ScrollView、訓練工具、快捷方式創建和語言數據都被默認選中。 我們將保留所有預設選擇的選項。 您可以根據需要選擇或跳過任何組件。 通常所有這些都是必要安裝的。
點選下一步來選擇安裝位置。
接下來,我們將選擇安裝 Tesseract 的位置。 請確保您複製目的資料夾路徑。 我們稍後將需要這個來將安裝位置添加到機器的路徑環境變數中。
點擊下一步以繼續設置 Tesseract 的安裝。
這是我們在「開始」選單中建立捷徑的最後一步。 您可以將資料夾命名為任何名稱,但我保持預設不變。
現在,點擊安裝並等待安裝完成。 安裝完成後,會出現以下畫面。 點擊完成,我們已成功在 Windows 中安裝 Tesseract OCR。
現在,我們將 Tesseract 安裝路徑添加到 Windows 的環境變數中。
在開始菜單中,鍵入 "環境變數" 或 "高級系統設定"
當系統屬性對話框打開時,點擊「進階」,然後點擊螢幕右下方的「環境變數」按鈕。
您將會看到環境變數對話框。
在 系統變數 下,點擊 Path 變數。
現在,點擊編輯。
從 編輯環境變數 對話框中,點擊 新建。 貼上在第二步中複製的安裝位置路徑,然後點擊確定。
就是這樣! 我們已成功在 Windows 機器上下載、安裝並設定 Tesseract OCR 的環境變數。
若要檢查 Tesseract OCR for Windows 是否成功安裝並添加到環境變數中,請開啟命令提示字元(cmd)在您的 Windows 機器上,然後運行 "tesseract" 命令。 如果一切運行正常,則應顯示一個快速說明使用指南,包含如 Tesseract 版本等 OCR 和單一選項。
恭喜! 我們已成功安裝 Tesseract OCR for Windows。
IronOCR是一個基於 Tesseract 的 C# 函式庫,允許 .NET 軟體開發人員從影像和 PDF 文件中識別並擷取文字。 它完全建立在.NET中,使用了最先進的Tesseract引擎。
在 Visual Studio 中安裝 IronOCR 或使用命令行與 NuGet 套件管理器非常容易。 在 Visual Studio 中,導航至選單選項:
工具 > NuGet 套件管理員 > 套件管理主控台
然後在命令行中,輸入以下命令:
Install-Package IronOcr
這將輕鬆安裝IronOCR,現在您可以利用其全部潛力。
您還可以下載適用於不同平台的其他 IronOCR NuGet Packages:
以下範例代碼展示了使用 IronOCR Tesseract 從圖像中讀取文本並使用 C# 執行 OCR 是多麼簡單。
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
Dim Text As String = (New IronTesseract()).Read("test-files/redacted-employmentapp.png").Text
Console.WriteLine(Text) ' Printed text
如果你想要更健壯的代碼,那麼以下應該可以幫助你完成相同的任務:
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/redacted-employmentapp.png");
// you can add any number of images
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/redacted-employmentapp.png");
// you can add any number of images
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddImage("test-files/redacted-employmentapp.png")
' you can add any number of images
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
輸出結果在主控台上列印為:
IronOCR 非常容易安裝。 它提供了一個完整且文件詳盡的 .NET 軟體庫。
IronOCR 在不需要其他第三方庫或網路服務的情況下,實現了 99.8% 的文字檢測準確率。
它還提供多線程支持。 最重要的是,IronOCR 能夠支持超過 125 種國際語言。
在本教程中,我們學習了如何下載和安裝 Tesseract OCR 於 Windows 機器上。Tesseract OCR 是一個出色的 C++ 開發者軟體,但它仍然有一些限制。 尚未完全為 .NET 開發。 掃描圖像文件或拍攝的圖像需要處理並標準化為高解析度,保持無數位噪音。只有如此,Tesseract 才能準確處理它們。
相較之下,IronOCR 可以處理任何提供的圖像,無論是掃描或是拍攝的,只需要一行代碼即可。 IronOCR 也使用 Tesseract 作為其內部 OCR 引擎,但它經過非常精細的調整,以最大化利用 Tesseract,特別是為 C# 構建,具有高性能和改進的功能。
您可以從此下載IronOCR軟體產品連結.