OCR 工具

安裝 Tesseract(帶圖片的逐步教學)

發佈 2023年1月27日
分享:

什麼是 Tesseract OCR?

Tesseract 是一個開源軟體庫,根據 Apache 許可協議發佈。它最初是由惠普公司在1980年代開發的。它是一個主要用於從圖片中識別和提取文本的文本識別工具。Tesseract OCR 提供了一個命令提示介面來執行這些功能。

如何在 Windows 上下載 Tesseract OCR

  1. 下載 Tesseract 安裝程式適用於 Windows

  2. 安裝 Tesseract OCR

  3. 將安裝路徑添加到環境變量

  4. 運行 Tesseract OCR

1. 下載適用於 Windows 的 Tesseract 安裝程式

要在 Windows 上使用 Tesseract 命令,我們首先需要下載 Tesseract OCR 二進制文件 .exe Windows 安裝程式。

有很多地方可以下載最新版本的 Tesseract OCR。你可以從以下地方下載 曼海姆大學,從......派生 tesseract-ocr/tesseract (主儲存庫).

Install Tesseract, Figure 1: Tesseract 維基

Tesseract 維基

下載 tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 位元) Windows 安裝程式。

可以使用以下任一命令在 macOS 的 Python 提示符中安裝 Tesseract:

brew install tesseract
sudo port install tesseract

2. 安裝 Tesseract OCR

接下來,我們將使用在上一步下載的 .exe 文件來安裝 Tesseract。啟動 .exe 安裝程序開始安裝 Tesseract。

安裝程序語言

當設置的解壓縮完成後,安裝程序的語言數據對話框將會出現。你可以通過選擇額外的語言包來安裝 Tesseract 以使用多種語言,但在這裡我們只會安裝英文的語言數據。

Install Tesseract, Figure 2: Tesseract 安裝程式

Tesseract 安裝程式

按「確定」,Tesseract OCR 的安裝程式語言已設置。

Tesseract OCR 安裝

接下來,安裝精靈將會顯示。此安裝精靈將會引導您在 Windows 上安裝 Tesseract。

安裝 Tesseract, 圖 3: Tesseract OCR

Tesseract OCR 安裝嚮導

點擊“下一步”以繼續安裝。

接受許可協議

Tesseract OCR 採用 Apache 2.0 版許可證。由於它是開源且免費使用的,您可以在不受任何忠誠度問題的情況下重新分發和修改 Tesseract 的版本。

安裝 Tesseract,圖 4:Tesseract 授權條款

Tesseract OCR 授權採用 Apache License v2.0。請接受此授權以繼續安裝。

點擊 我同意 以繼續安裝。

選擇使用者

您可以選擇為多個使用者或單一使用者安裝 Tesseract。

安裝Tesseract,圖5:選擇Tesseract使用者

選擇為當前使用者(你)或所有使用者帳戶安裝 Tesseract OCR

按下一步選擇要與Tesseract一起安裝的元件。

選擇元件

從要安裝的元件列表中,ScrollView、訓練工具、快捷方式創建和語言數據都是預設選中的。我們將保留所有預設選項。您可以根據需求選擇或跳過任何元件。通常所有元件都是必要安裝的。

安裝 Tesseract,圖 6:Tesseract 組件

在這裡,您可以選擇是否包含或排除 Tesseract OCR 組件。為了獲得最佳效果,請繼續安裝已選擇的默認組件。

點選下一步來選擇安裝位置。

選擇安裝位置

接下來,我們將選擇安裝 Tesseract 的位置。請確保您複製目標文件夾的路徑。我們稍後需要將此安裝位置添加到機器的路徑環境變量中。

安裝 Tesseract,圖7:Tesseract 安裝位置

選擇 Tesseract OCR 庫的安裝位置,並記住這個位置以便日後使用。

點擊下一步以繼續設置 Tesseract 的安裝。

選擇開始選單資料夾

這是最後一步,我們將在開始選單中創建捷徑。您可以將資料夾命名為任何名字,但我保留了默認名稱。

安裝 Tesseract,圖 8:Tesseract 開始選單

選擇 Tesseract OCR 的開始菜單文件夾名稱

現在,點擊「安裝」,並等待安裝完成。安裝完成後,將出現以下畫面。點擊「完成」,我們就成功在 Windows 中安裝了 Tesseract OCR。

安裝 Tesseract, 圖 9: Tesseract 安裝程序

Tesseract OCR 安裝現已完成。

3. 將安裝路徑添加到系統環境變量中

現在,我們將 Tesseract 的安裝路徑添加到 Windows 的環境變量中。

在開始菜單中,輸入 "環境變量" 或 "高級系統設置"

安裝Tesseract,圖10:系統環境變數路径

Windows 系統屬性對話框

系統屬性

當系統屬性對話框打開後,點擊高級選項,然後點擊屏幕右下角的環境變數按鈕。

環境變數對話框將呈現給你。

環境變數

系統變數下,點擊Path變數。

安裝 Tesseract,第 11 圖:環境變數

存取 Windows 系統環境變數

現在,點擊編輯。

將 Tesseract OCR for Windows 安裝目錄添加到環境變數

編輯環境變數 對話框中,點擊 新建。 粘貼在第二步中複製的安裝位置路徑,然後點擊確定。

安裝 Tesseract,圖 12:編輯環境變數

通過添加包含 Tesseract OCR 安裝絕對路徑的條目來編輯 Windows 的系統環境變量 Path

就是這樣! 我們已成功下載、安裝並在 Windows 機器上設置了 Tesseract OCR 的環境變數。

4. 執行 Tesseract OCR

要檢查 Tesseract OCR for Windows 是否成功安裝並添加到環境變數,請打開命令提示字元 (cmd) 在您的 Windows 機器上,然後運行 "tesseract" 命令。如果一切正常,則必須顯示一個快速說明使用指南,並帶有 OCR 和單個選項(如 Tesseract 版本)。

安裝Tesseract,圖13:編輯環境變數

運行 Tesseract 在 Windows 命令提示符(或 Windows Powershell)中輸入以下命令,確保以上安裝步驟已正確完成。控制台輸出的結果是 Windows 成功安裝的預期結果。

恭喜! 我們已成功安裝 Tesseract OCR for Windows。

IronOCR 資料庫

IronOCR 是一個基於Tesseract的C#函式庫,允許.NET軟體開發人員從影像和PDF文件中識別並提取文字。它完全是使用最先進的Tesseract引擎在.NET中構建的。

使用 NuGet 套件管理器安裝

在 Visual Studio 中或使用 NuGet 套件管理器的命令行安裝 IronOCR 是非常簡單的。在 Visual Studio 中,導航到以下選單選項:

工具 > NuGet 套件管理器 > 套件管理器控制台

然後在命令行中輸入以下命令:

Install-Package IronOcr

這將輕鬆安裝IronOCR,現在你可以使用它來發揮其全部潛力。

你也可以下載適用於不同平台的IronOCR NuGet Packages

MacOS ARM https://www.nuget.org/packages/IronOcr.MacOs.ARM

使用 Tesseract 5 的 IronOCR

以下範例程式碼顯示了使用 IronOCR Tesseract 從影像中讀取文字並使用 C# 進行光學字符辨識(OCR)是多麼容易。

string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
Dim Text As String = (New IronTesseract()).Read("test-files/redacted-employmentapp.png").Text
Console.WriteLine(Text) ' Printed text
VB   C#

如果你想要更健壯的代碼,那麼以下應該可以幫助你完成相同的任務:

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddImage("test-files/redacted-employmentapp.png")
	' you can add any number of images
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

輸入圖片

安裝 Tesseract,圖 14:輸入圖像

IronOCR處理的示範輸入影像

輸出影像

輸出在控制台上顯示為:

安裝 Tesseract,圖 15:輸出圖像

控制台從樣本圖像上執行IronOCR返回的結果。

為什麼選擇 IronOCR?

IronOCR 非常容易安裝。它提供了一個完整且文件齊全的 .NET 軟體庫。

IronOCR 在不需要其他第三方庫或網絡服務的情況下,實現了 99.8% 的文字識別準確率。

它還提供多線程支持。最重要的是,IronOCR 可以支持超過 125 種國際語言。

結論

在本文教學中,我們學習了如何在 Windows 電腦下載和安裝 Tesseract OCR。Tesseract OCR 是一款非常出色的 C++ 開發者軟體,但它也有一些限制。它並未完全開發用於 .NET。掃描的圖像文件或拍攝的圖像需要處理和標準化至高分辨率,以保持其免受數位噪音的影響。只有這樣,Tesseract 才能準確處理這些圖像。

相比之下,IronOCR 可以處理任何提供的圖像,無論是掃描還是拍攝,只需一行代碼。IronOCR 也使用 Tesseract 作為其內部的 OCR 引擎,但它經過非常精細的調整,特別為 C# 開發,具有高性能和改進的功能,以便獲得 Tesseract 的最佳效果。

您可以從這裡下載 IronOCR 軟體產品連結.

< 上一頁
Microsoft OCR 工具(C# 替代方案)
下一個 >
從PDF進行OCR(免費線上工具)

準備開始了嗎? 版本: 2024.10 剛剛發布

免費 NuGet 下載 總下載次數: 2,433,305 查看許可證 >