OCRツール

Tesseractのインストール(画像付きステップバイステップチュートリアル)

公開済み 2023年1月27日
共有:

Tesseract OCRとは何ですか?

Tesseractは、Apacheライセンス契約のもとでリリースされたオープンソースのソフトウェアライブラリです。 それは元々、1980年代にヒューレット・パッカードによって開発されました。 これは、主に画像からテキストを識別および抽出するために使用されるテキスト認識ツールです。 Tesseract OCRは、この機能を実行するためのコマンドプロンプトインターフェースを提供します。

WindowsでTesseract OCRをダウンロードする方法

  1. Windows用Tesseractインストーラーをダウンロード

  2. Tesseract OCRをインストール

  3. 環境変数にインストールパスを追加

  4. Tesseract OCRを実行する

1. Windows用Tesseractインストーラーをダウンロード

WindowsでTesseractコマンドを使用するには、まずTesseract OCRバイナリ.exe Windowsインストーラーをダウンロードする必要があります。

最新バージョンのTesseract OCRをダウンロードできる場所はたくさんあります。 次のような場所は マンハイム大学フォークから tesseract-ocr/tesseract (メインリポジトリ).

Tesseractをインストールする、図1: Tesseract Wiki

テッセラクトウィキ

ダウンロード tesseract-ocr-w64-setup-5.3.0.20221222.exe (64ビット)Windows インストーラー

macOSでは、以下のコマンドのいずれかを使用してTesseractをPythonプロンプトにインストールできます:

brew install tesseract
sudo port install tesseract

2. テッセラクトOCRをインストールする

次に、前のステップでダウンロードした .exe ファイルを使用して Tesseract をインストールします。Tesseract のインストールを開始するには、.exe インストーラーを起動します。

インストーラー言語

セットアップの解凍が完了すると、インストーラーの言語データダイアログが表示されます。 複数の言語を使用するために追加の言語パックを選択することでTesseractをインストールできますが、ここでは英語の言語データのみをインストールします。

Tesseractをインストール、図2: Tesseractインストーラー

テッセラクト インストーラー

「OK」をクリックすると、Tesseract OCRのインストーラーの言語が設定されます。

Tesseract OCR セットアップ

次に、セットアップウィザードが表示されます。 このセットアップウィザードは、Windows用のTesseractインストールをガイドします。

テッセラクトのインストール  図 3: Tesseract OCR

Tesseract OCR セットアップ ウィザード

次へをクリックしてインストールを続行してください。

ライセンス契約に同意する

Tesseract OCRは、Apache License Version 2.0の下でライセンスされています。オープンソースで無料で使用できるため、ロイヤリティの心配なくTesseractのバージョンを再配布および修正することができます。

Tesseractのインストール, 図4: Tesseractライセンス

Tesseract OCRは、Apache License v2.0の下でライセンスされています。インストールを続行するには、このライセンスを受け入れてください。

インストールを続行するには、同意するをクリックしてください。

ユーザーを選択

Tesseractを複数のユーザーまたは単一のユーザーのためにインストールすることができます。

インストールTesseract、図5: Tesseractユーザーの選択

現在のユーザー(あなた)のため、またはすべてのユーザーアカウントのためにTesseract OCRをインストールすることを選択してください。

次へをクリックして、Tesseractと一緒にインストールするコンポーネントを選択してください。

コンポーネントを選択

インストールするコンポーネントリストから、ScrollView、トレーニングツール、ショートカット作成、および言語データがデフォルトで選択されています。 デフォルトで選択されているオプションをすべて保持します。 ニーズに応じて、任意のコンポーネントを選択するか、スキップすることができます。 通常、すべてをインストールする必要があります。

Tesseractをインストールする、図6:Tesseractコンポーネント

ここでは、Tesseract OCRコンポーネントを含めるか除外するかを選択できます。最高の結果を得るためには、デフォルトで選択されているコンポーネントを使用してインストールを続行してください。

次へをクリックしてインストール場所を選択します。

インストール場所を選択

次に、Tesseractをインストールする場所を選択します。 宛先フォルダのパスをコピーしてください。 後でインストール場所をマシンのパス環境変数に追加するためにこれが必要になります。

のインストール Tesseract, 図7: Tesseract インストール場所

Tesseract OCRライブラリのインストール場所を選択し、後で使用するためにこの場所を覚えておいてください。

次へをクリックして、Tesseractのインストールをさらに設定してください。

「スタートメニューフォルダを選択」

これが最後のステップで、スタートメニューにショートカットを作成します。 フォルダーは任意の名前に設定できますが、デフォルトのままにしてあります。

テッセラクトのインストール、図8:テッセラクト スタートメニュー

Tesseract OCRのスタートメニューフォルダーの名前を選択してください

今すぐ「インストール」をクリックし、インストールが完了するまで待ちます。 インストールが完了すると、次の画面が表示されます。 「完了」をクリックすると、WindowsへのTesseract OCRのインストールが無事終了します。

Tesseractをインストールする, 図9: Tesseractインストーラー

Tesseract OCR のインストールが完了しました。

3. インストールパスをシステム環境変数に追加する

次に、TesseractのインストールパスをWindowsの環境変数に追加します。

スタートメニューで「環境変数」または「システムの詳細設定」と入力してください

テッセラクトのインストール, 図10: システムパス変数

ウィンドウズ システム プロパティ ダイアログ ボックス

システムプロパティ

システムのプロパティ ダイアログ ボックスが開いたら、[詳細設定] をクリックし、画面の右下にある [環境変数] ボタンをクリックします。

環境変数のダイアログボックスが表示されます。

環境変数

「システム変数」内で、「Path」変数をクリックします。

Tesseractのインストール、図11:環境変数

Windows のシステム環境変数にアクセスする

それでは、編集をクリックしてください。

環境変数にTesseract OCR for Windowsのインストールディレクトリを追加する

環境変数の編集 ダイアログボックスから、新規 をクリックします。第2ステップでコピーされたインストール場所パスを貼り付け、OKをクリックします。

テッセラクトをインストールする、図 12: 環境変数を編集

Tesseract OCRのインストール先の絶対パスを含むエントリを追加して、WindowsのPathシステム環境変数を編集します。

以上です! WindowsマシンでTesseract OCRをダウンロード、インストールし、環境変数を設定することに成功しました。

4. Tesseract OCRを実行する

Tesseract OCR for Windows が正常にインストールされ、環境変数に追加されたことを確認するには、コマンドプロンプトを開いてください。(cmd(コマンドプロンプト))Windowsマシンで「tesseract」コマンドを実行してください。 すべてが正常に動作した場合、OCRやTesseractバージョンなどの単一オプションを含む簡単な使用ガイドが表示されるはずです。

Tesseractのインストール、図13: 環境変数の編集

次のプログラムを実行 テッセラクト 次のインストール手順が正しく行われたことを確認するために、Windowsコマンドライン(またはWindows Powershell)でコマンドを実行してください。コンソール出力は、Windowsのインストールが成功した場合に期待される結果です。

おめでとうございます! Tesseract OCRをWindowsに正常にインストールしました。

IronOCRライブラリ

IronOCRは、TesseractベースのC#ライブラリであり、.NETソフトウェア開発者が画像やPDFドキュメントからテキストを識別し、抽出することを可能にします。 それは .NET で完全に構築されており、どこでも知られている最も先進的な Tesseract エンジンを使用しています。

NuGetパッケージマネージャーでインストール

Visual Studio に IronOCR をインストールするか、NuGet Package Manager を使用してコマンドラインからインストールするのは非常に簡単です。 Visual Studio で、メニューオプションに移動します:

ツール > NuGet パッケージマネージャー > パッケージマネージャーコンソール

次に、コマンドラインで以下のコマンドを入力してください:

Install-Package IronOcr

これでIronOCRを簡単にインストールでき、これからその機能を最大限に引き出すことができます。

また、他のプラットフォーム向けのIronOCR NuGetパッケージもダウンロードできます。

IronOCRとTesseract 5

以下のサンプルコードは、IronOCR Tesseractを使用して画像からテキストを読み取り、C#でOCRを実行することがいかに簡単であるかを示しています。

string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
Dim Text As String = (New IronTesseract()).Read("test-files/redacted-employmentapp.png").Text
Console.WriteLine(Text) ' Printed text
VB   C#

より堅牢なコードを求めるのであれば、以下の内容が同じタスクの達成に役立つでしょう:

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddImage("test-files/redacted-employmentapp.png")
	' you can add any number of images
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

入力画像

Tesseractのインストール、図14:入力画像

IronOCRの処理用サンプル入力画像

出力画像

出力はコンソールに次のように表示されます:

Tesseractのインストール、図15:出力画像

サンプル画像に対して IronOCR の実行からコンソールが返されました。

なぜIronOCRを選ぶのか?

IronOCRのインストールは非常に簡単です。 それは、完全で詳細に文書化された.NETソフトウェアライブラリを提供します。

IronOCRは、他のサードパーティライブラリやウェブサービスを必要とせずに、99.8%の文字検出精度を達成します。

また、マルチスレッドサポートも提供しています。 最も重要なことは、IronOCRは125以上の国際言語に対応できることです。

結論

このチュートリアルでは、Tesseract OCRをWindowsマシンにダウンロードおよびインストールする方法を学びました。Tesseract OCRはC++ 開発者にとって優れたソフトウェアですが、いくつかの制限があります。 それは .NET 用に完全に開発されているわけではありません。 スキャンされた画像ファイルや撮影された画像は、高解像度に処理・標準化され、デジタルノイズが除去されている必要があります。その状態で初めて、Tesseractは正確に動作できます。

対照的に、IronOCRはスキャンされたものでも撮影されたものでも、提供された任意の画像に対して、たった一行のコードで動作できます。 IronOCR は内部OCRエンジンとしてTesseractを使用していますが、特にC#向けに構築されており、Tesseractのパフォーマンスを最大限に引き出すために非常に細かく調整されています。これにより、高いパフォーマンスと改善された機能が提供されます。

このリンクからIronOCRソフトウェア製品をダウンロードできますリンク.

< 以前
Microsoft OCRツール(C#の代替ツール)
次へ >
PDFからのOCR(無料オンラインツール)