OCR 工具

安裝 Tesseract(帶圖片的逐步教學)

發佈 2023年1月27日
分享:

什麼是 Tesseract OCR?

Tesseract 是一個開源軟體程式庫,根據 Apache 許可協議發佈。 最初由惠普公司於1980年代開發。 這是一個文字識別工具,主要用於從圖像中識別和提取文字。 Tesseract OCR 提供命令提示介面來執行此功能。

如何在 Windows 中下載 Tesseract OCR

  1. 下載適用於 Windows 的 Tesseract 安裝程式

  2. 安裝 Tesseract OCR

  3. 將安裝路徑添加到環境變量

  4. 運行 Tesseract OCR

下載適用於 Windows 的 Tesseract 安裝程式

要在 Windows 上使用 Tesseract 命令,我們首先需要下載 Tesseract OCR 二進位文件 .exe Windows 安裝程式。

有很多地方可以下載最新版本的 Tesseract OCR。 來自這樣一個地方 曼海姆大學,從......派生 tesseract-ocr/tesseract (主儲存庫).

安裝 Tesseract,圖 1:Tesseract 維基

Tesseract 維基

下載 tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 位元)Windows 安裝程式。

可以使用以下任一命令在 macOS 的 Python 提示中安裝 Tesseract:

brew install tesseract
sudo port install tesseract

2. 安裝 Tesseract OCR

接下來,我們將使用在上一步下載的 .exe 文件安裝 Tesseract。啟動 .exe 安裝程式以開始安裝 Tesseract。

安裝程式語言

一旦完成設定的解壓縮,安裝程式的語言資料對話框將出現。 您可以通過選擇其他語言包來安裝 Tesseract 以使用多種語言,但在這裡我們只會安裝英語的語言數據。

安裝 Tesseract,圖 2:Tesseract 安裝程式

Tesseract 安裝程式

按「確定」,Tesseract OCR 的安裝程式語言已設置。

Tesseract OCR 設置

接下來,安裝精靈將會顯示。 此安裝精靈將指導您在 Windows 上安裝 Tesseract。

安裝 Tesseract, 圖 3: Tesseract OCR

Tesseract OCR 安裝嚮導

點擊“下一步”以繼續安裝。

接受許可協議

Tesseract OCR 授權於 Apache License Version 2.0。由於它是開源且免費使用的,您可以重新分發和修改 Tesseract 的版本,而不必擔心版稅問題。

安裝 Tesseract,圖 4:Tesseract 授權條款

Tesseract OCR 授權採用 Apache License v2.0。請接受此授權以繼續安裝。

點擊 我同意 以繼續安裝。

選擇用戶

您可以選擇為多位使用者或單一使用者安裝 Tesseract。

安裝Tesseract,圖5:選擇Tesseract使用者

選擇為當前使用者(你)或所有使用者帳戶安裝 Tesseract OCR

按下一步選擇要與Tesseract一起安裝的元件。

選擇元件

從要安裝的組件清單中,ScrollView、訓練工具、快捷方式創建和語言數據都被默認選中。 我們將保留所有預設選擇的選項。 您可以根據需要選擇或跳過任何組件。 通常所有這些都是必要安裝的。

安裝 Tesseract,圖 6:Tesseract 組件

在這裡,您可以選擇是否包含或排除 Tesseract OCR 組件。為了獲得最佳效果,請繼續安裝已選擇的默認組件。

點選下一步來選擇安裝位置。

選擇安裝位置

接下來,我們將選擇安裝 Tesseract 的位置。 請確保您複製目的資料夾路徑。 我們稍後將需要這個來將安裝位置添加到機器的路徑環境變數中。

安裝 Tesseract,圖7:Tesseract 安裝位置

選擇 Tesseract OCR 庫的安裝位置,並記住這個位置以便日後使用。

點擊下一步以繼續設置 Tesseract 的安裝。

選擇開始功能表資料夾

這是我們在「開始」選單中建立捷徑的最後一步。 您可以將資料夾命名為任何名稱,但我保持預設不變。

安裝 Tesseract,圖 8:Tesseract 開始選單

選擇 Tesseract OCR 的開始菜單文件夾名稱

現在,點擊安裝並等待安裝完成。 安裝完成後,會出現以下畫面。 點擊完成,我們已成功在 Windows 中安裝 Tesseract OCR。

安裝 Tesseract, 圖 9: Tesseract 安裝程序

Tesseract OCR 安裝現已完成。

3. 將安裝路徑添加到系統環境變數

現在,我們將 Tesseract 安裝路徑添加到 Windows 的環境變數中。

在開始菜單中,鍵入 "環境變數" 或 "高級系統設定"

安裝Tesseract,圖10:系統環境變數路径

Windows 系統屬性對話框

系統屬性

當系統屬性對話框打開時,點擊「進階」,然後點擊螢幕右下方的「環境變數」按鈕。

您將會看到環境變數對話框。

環境變數

系統變數 下,點擊 Path 變數。

安裝 Tesseract,第 11 圖:環境變數

存取 Windows 系統環境變數

現在,點擊編輯。

將 Tesseract OCR Windows 安裝目錄添加到環境變數

編輯環境變數 對話框中,點擊 新建。 貼上在第二步中複製的安裝位置路徑,然後點擊確定。

安裝 Tesseract,圖 12:編輯環境變數

通過添加包含 Tesseract OCR 安裝絕對路徑的條目來編輯 Windows 的系統環境變量 Path

就是這樣! 我們已成功在 Windows 機器上下載、安裝並設定 Tesseract OCR 的環境變數。

4. 運行 Tesseract OCR

若要檢查 Tesseract OCR for Windows 是否成功安裝並添加到環境變數中,請開啟命令提示字元(cmd)在您的 Windows 機器上,然後運行 "tesseract" 命令。 如果一切運行正常,則應顯示一個快速說明使用指南,包含如 Tesseract 版本等 OCR 和單一選項。

安裝Tesseract,圖13:編輯環境變數

運行 Tesseract 在 Windows 命令提示符(或 Windows Powershell)中輸入以下命令,確保以上安裝步驟已正確完成。控制台輸出的結果是 Windows 成功安裝的預期結果。

恭喜! 我們已成功安裝 Tesseract OCR for Windows。

IronOCR 庫

IronOCR是一個基於 Tesseract 的 C# 函式庫,允許 .NET 軟體開發人員從影像和 PDF 文件中識別並擷取文字。 它完全建立在.NET中,使用了最先進的Tesseract引擎。

使用 NuGet 套件管理器安裝

在 Visual Studio 中安裝 IronOCR 或使用命令行與 NuGet 套件管理器非常容易。 在 Visual Studio 中,導航至選單選項:

工具 > NuGet 套件管理員 > 套件管理主控台

然後在命令行中,輸入以下命令:

Install-Package IronOcr

這將輕鬆安裝IronOCR,現在您可以利用其全部潛力。

您還可以下載適用於不同平台的其他 IronOCR NuGet Packages

IronOCR 與 Tesseract 5

以下範例代碼展示了使用 IronOCR Tesseract 從圖像中讀取文本並使用 C# 執行 OCR 是多麼簡單。

string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
Dim Text As String = (New IronTesseract()).Read("test-files/redacted-employmentapp.png").Text
Console.WriteLine(Text) ' Printed text
VB   C#

如果你想要更健壯的代碼,那麼以下應該可以幫助你完成相同的任務:

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddImage("test-files/redacted-employmentapp.png")
	' you can add any number of images
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

輸入圖片

安裝 Tesseract,圖 14:輸入圖像

IronOCR處理的示範輸入影像

輸出圖像

輸出結果在主控台上列印為:

安裝 Tesseract,圖 15:輸出圖像

控制台從樣本圖像上執行IronOCR返回的結果。

為什麼選擇IronOCR?

IronOCR 非常容易安裝。 它提供了一個完整且文件詳盡的 .NET 軟體庫。

IronOCR 在不需要其他第三方庫或網路服務的情況下,實現了 99.8% 的文字檢測準確率。

它還提供多線程支持。 最重要的是,IronOCR 能夠支持超過 125 種國際語言。

結論

在本教程中,我們學習了如何下載和安裝 Tesseract OCR 於 Windows 機器上。Tesseract OCR 是一個出色的 C++ 開發者軟體,但它仍然有一些限制。 尚未完全為 .NET 開發。 掃描圖像文件或拍攝的圖像需要處理並標準化為高解析度,保持無數位噪音。只有如此,Tesseract 才能準確處理它們。

相較之下,IronOCR 可以處理任何提供的圖像,無論是掃描或是拍攝的,只需要一行代碼即可。 IronOCR 也使用 Tesseract 作為其內部 OCR 引擎,但它經過非常精細的調整,以最大化利用 Tesseract,特別是為 C# 構建,具有高性能和改進的功能。

您可以從此下載IronOCR軟體產品連結.

< 上一頁
Microsoft OCR 工具(C# 替代方案)
下一個 >
從PDF進行OCR(免費線上工具)

準備開始了嗎? 版本: 2024.11 剛剛發布

免費 NuGet 下載 總下載次數: 2,698,613 查看許可證 >