在實際環境中測試
在生產環境中測試無浮水印。
在任何需要的地方都能運作。
Tesseract 是一個開源軟體庫,根據 Apache 許可協議發佈。它最初是由惠普公司在1980年代開發的。它是一個主要用於從圖片中識別和提取文本的文本識別工具。Tesseract OCR 提供了一個命令提示介面來執行這些功能。
下載 Tesseract 安裝程式適用於 Windows
安裝 Tesseract OCR
將安裝路徑添加到環境變量
要在 Windows 上使用 Tesseract 命令,我們首先需要下載 Tesseract OCR 二進制文件 .exe Windows 安裝程式。
有很多地方可以下載最新版本的 Tesseract OCR。你可以從以下地方下載 曼海姆大學,從......派生 tesseract-ocr/tesseract (主儲存庫).
下載 tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 位元) Windows 安裝程式。
可以使用以下任一命令在 macOS 的 Python 提示符中安裝 Tesseract:
brew install tesseract
sudo port install tesseract
接下來,我們將使用在上一步下載的 .exe 文件來安裝 Tesseract。啟動 .exe 安裝程序開始安裝 Tesseract。
當設置的解壓縮完成後,安裝程序的語言數據對話框將會出現。你可以通過選擇額外的語言包來安裝 Tesseract 以使用多種語言,但在這裡我們只會安裝英文的語言數據。
按「確定」,Tesseract OCR 的安裝程式語言已設置。
接下來,安裝精靈將會顯示。此安裝精靈將會引導您在 Windows 上安裝 Tesseract。
點擊“下一步”以繼續安裝。
Tesseract OCR 採用 Apache 2.0 版許可證。由於它是開源且免費使用的,您可以在不受任何忠誠度問題的情況下重新分發和修改 Tesseract 的版本。
點擊 我同意 以繼續安裝。
您可以選擇為多個使用者或單一使用者安裝 Tesseract。
按下一步選擇要與Tesseract一起安裝的元件。
從要安裝的元件列表中,ScrollView、訓練工具、快捷方式創建和語言數據都是預設選中的。我們將保留所有預設選項。您可以根據需求選擇或跳過任何元件。通常所有元件都是必要安裝的。
點選下一步來選擇安裝位置。
接下來,我們將選擇安裝 Tesseract 的位置。請確保您複製目標文件夾的路徑。我們稍後需要將此安裝位置添加到機器的路徑環境變量中。
點擊下一步以繼續設置 Tesseract 的安裝。
這是最後一步,我們將在開始選單中創建捷徑。您可以將資料夾命名為任何名字,但我保留了默認名稱。
現在,點擊「安裝」,並等待安裝完成。安裝完成後,將出現以下畫面。點擊「完成」,我們就成功在 Windows 中安裝了 Tesseract OCR。
現在,我們將 Tesseract 的安裝路徑添加到 Windows 的環境變量中。
在開始菜單中,輸入 "環境變量" 或 "高級系統設置"
當系統屬性對話框打開後,點擊高級選項,然後點擊屏幕右下角的環境變數按鈕。
環境變數對話框將呈現給你。
在系統變數下,點擊Path變數。
現在,點擊編輯。
在 編輯環境變數 對話框中,點擊 新建。 粘貼在第二步中複製的安裝位置路徑,然後點擊確定。
就是這樣! 我們已成功下載、安裝並在 Windows 機器上設置了 Tesseract OCR 的環境變數。
要檢查 Tesseract OCR for Windows 是否成功安裝並添加到環境變數,請打開命令提示字元 (cmd) 在您的 Windows 機器上,然後運行 "tesseract" 命令。如果一切正常,則必須顯示一個快速說明使用指南,並帶有 OCR 和單個選項(如 Tesseract 版本)。
恭喜! 我們已成功安裝 Tesseract OCR for Windows。
IronOCR 是一個基於Tesseract的C#函式庫,允許.NET軟體開發人員從影像和PDF文件中識別並提取文字。它完全是使用最先進的Tesseract引擎在.NET中構建的。
在 Visual Studio 中或使用 NuGet 套件管理器的命令行安裝 IronOCR 是非常簡單的。在 Visual Studio 中,導航到以下選單選項:
工具 > NuGet 套件管理器 > 套件管理器控制台
然後在命令行中輸入以下命令:
Install-Package IronOcr
這將輕鬆安裝IronOCR,現在你可以使用它來發揮其全部潛力。
你也可以下載適用於不同平台的IronOCR NuGet Packages:
MacOS ARM https://www.nuget.org/packages/IronOcr.MacOs.ARM
以下範例程式碼顯示了使用 IronOCR Tesseract 從影像中讀取文字並使用 C# 進行光學字符辨識(OCR)是多麼容易。
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
Dim Text As String = (New IronTesseract()).Read("test-files/redacted-employmentapp.png").Text
Console.WriteLine(Text) ' Printed text
如果你想要更健壯的代碼,那麼以下應該可以幫助你完成相同的任務:
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/redacted-employmentapp.png");
// you can add any number of images
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/redacted-employmentapp.png");
// you can add any number of images
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddImage("test-files/redacted-employmentapp.png")
' you can add any number of images
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
輸出在控制台上顯示為:
IronOCR 非常容易安裝。它提供了一個完整且文件齊全的 .NET 軟體庫。
IronOCR 在不需要其他第三方庫或網絡服務的情況下,實現了 99.8% 的文字識別準確率。
它還提供多線程支持。最重要的是,IronOCR 可以支持超過 125 種國際語言。
在本文教學中,我們學習了如何在 Windows 電腦下載和安裝 Tesseract OCR。Tesseract OCR 是一款非常出色的 C++ 開發者軟體,但它也有一些限制。它並未完全開發用於 .NET。掃描的圖像文件或拍攝的圖像需要處理和標準化至高分辨率,以保持其免受數位噪音的影響。只有這樣,Tesseract 才能準確處理這些圖像。
相比之下,IronOCR 可以處理任何提供的圖像,無論是掃描還是拍攝,只需一行代碼。IronOCR 也使用 Tesseract 作為其內部的 OCR 引擎,但它經過非常精細的調整,特別為 C# 開發,具有高性能和改進的功能,以便獲得 Tesseract 的最佳效果。
您可以從這裡下載 IronOCR 軟體產品連結.