フッターコンテンツにスキップ
OCRツール
C#でWindowsにTesseract OCRをインストールする方法

Tesseractのインストール(画像付きステップバイステップチュートリアル)

Tesseract OCRとは何ですか?

TesseractはApacheライセンス契約の下で公開されたオープンソースソフトウェアライブラリです。 それは元々1980年代にヒューレット・パッカードによって開発されました。 これは主に画像からテキストを識別して抽出するためのテキスト認識ツールです。 Tesseract OCRは、この機能を実行するためのコマンドプロンプトインターフェースを提供します。

WindowsでTesseract OCRをダウンロードする方法

  1. Windows用Tesseractインストーラーをダウンロードします
  2. Tesseract OCRをインストールします
  3. 環境変数にインストールパスを追加します
  4. Tesseract OCRを実行します

1. Windows用Tesseractインストーラーをダウンロード

WindowsでTesseractコマンドを使用するためには、最初にTesseract OCRバイナリ.exe Windowsインストーラーをダウンロードする必要があります。

Tesseract OCRの最新バージョンをダウンロードできる場所はたくさんあります。 One such place is from UB Mannheim, which is forked from tesseract-ocr/tesseract (Main Repository).

Install Tesseract, Figure 1: テッセラクト ウィキ

テッセラクト ウィキ

Download the tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 bit) Windows Installer.

macOSユーザーの場合、以下のいずれかのコマンドを使用してターミナルでTesseractをインストールできます。

brew install tesseract
brew install tesseract
SHELL
sudo port install tesseract
sudo port install tesseract
SHELL

2. Tesseract OCRをインストール

次に、前のステップでダウンロードした.exeファイルを使用してTesseractをインストールします。Tesseractインストールを開始するには.exeインストーラーを起動します。

インストーラーの言語

セットアップの解凍が完了すると、インストーラーの言語データダイアログが表示されます。 複数の言語を使用するために追加言語パックを選択してTesseractをインストールすることができますが、ここでは英語の言語データだけをインストールします。

Install Tesseract, Figure 2: Tesseractインストーラー

Tesseractインストーラー

OKをクリックすると、Tesseract OCRのインストーラー言語が設定されます。

Tesseract OCR セットアップ

次に、セットアップウィザードが表示されます。 このセットアップウィザードは、WindowsのためのTesseractインストールをガイドします。

Install Tesseract, Figure 3: Tesseract OCR

Tesseract OCR セットアップウィザード

インストールを続行するには次へをクリックします。

ライセンス契約の承諾

Tesseract OCRはApache License Version 2.0の下でライセンスされています。それはオープンソースであり、無料で使用できるため、ロイヤルティの懸念なしにTesseractのバージョンを再配布および変更することができます。

Install Tesseract, Figure 4: Tesseract License

Tesseract OCRはApache License v2.0に基づいてライセンスされています。インストールを続行するには、このライセンスに同意してください。

I Agreeをクリックしてインストールを続行してください。

ユーザーの選択

複数のユーザーまたは単一のユーザーのいずれかに対してTesseractをインストールすることを選択できます。

Install Tesseract, Figure 5: Tesseract Choose Users

現在のユーザー(あなた)またはすべてのユーザーアカウントにTesseract OCRをインストールすることを選択します

Tesseractと一緒にインストールするコンポーネントを選択するには次へをクリックします。

コンポーネントの選択

インストールするコンポーネントリストから、ScrollView、Training Tools、ショートカットの作成、言語データがデフォルトで選択されています。 デフォルトで選択されたオプションをすべて保持します。 必要に応じてどのコンポーネントでも選択したりスキップしたりできます。 通常、すべてをインストールする必要があります。

Install Tesseract, Figure 6: Tesseract Components

ここで、Tesseract OCRコンポーネントを含めるか除外するかを選択できます。最適な結果を得るには、デフォルトのコンポーネントを選択してインストールを続行してください。

次をクリックしてインストール場所を選択します。

インストール場所の選択

次に、Tesseractをインストールする場所を選択します。 宛先フォルダーのパスをコピーしておいてください。 これを後でマシンのパス環境変数にインストール場所を追加するために使用します。

Install Tesseract, Figure 7: Tesseract Install Location

Tesseract OCR ライブラリのインストール場所を選択し、後で使用するためにこの場所を覚えておきます。

次をクリックしてさらにTesseractのインストールを設定します。

スタートメニューフォルダーの選択

これは、スタートメニューにショートカットを作成する最後のステップです。 フォルダの名前は何でもかまいませんが、私はデフォルトのままにしました。

Install Tesseract, Figure 8: Tesseract Start Menu

Tesseract OCRのスタートメニューフォルダの名前を選択します

今、インストールをクリックして、インストールが完了するのを待ちます。 インストールが完了すると、次の画面が表示されます。 完了をクリックすると、WindowsにTesseract OCRを正常にインストールしたことになります。

Install Tesseract, Figure 9: Tesseractインストーラー

Tesseract OCRのインストールが完了しました。

3. インストールパスをシステム環境変数に追加

次に、TesseractのインストールパスをWindowsの環境変数に追加します。

スタートメニューに"環境変数"または"詳細なシステム設定"と入力します。

Install Tesseract, Figure 10: System Path Variables

Windows のシステム プロパティ ダイアログ ボックス

システムプロパティ

システムプロパティダイアログボックスが開いたら、[詳細設定]タブをクリックし、画面の右下にある環境変数ボタンをクリックします。

環境変数ダイアログボックスが表示されます。

環境変数

システム変数の下で、Path 変数をクリックします。

Install Tesseract, Figure 11: Environment Variables

Windowsのシステム環境変数にアクセスする

今、編集をクリックします。

WindowsインストールディレクトリへのTesseract OCRの追加

環境変数の編集 ダイアログボックスから、新規をクリックします。2番目のステップでコピーしたインストール場所パスを貼り付け、OKをクリックします。

Install Tesseract, Figure 12: Edit Environment Variable

WindowsのPathシステム環境変数を編集し、Tesseract OCRインストールへの絶対パスを含むエントリを追加します。

それだけです! これで、WindowsマシンにおけるTesseract OCRのダウンロード、インストール、および環境変数の設定が成功しました。

4. Tesseract OCRを実行します

WindowsでTesseract OCRが正常にインストールされ、環境変数に追加されたことを確認するために、Windowsマシンでコマンドプロンプト(cmd)を開き、"tesseract"コマンドを実行します。 すべてが正常に動作した場合、OCRやTesseractのバージョンなどの単一オプションを含む簡単な使用ガイドが表示される必要があります。

Install Tesseract, Figure 13: Edit Environment Variable

Windows コマンドライン(または Windows Powershell)で`tesseract`コマンドを実行し、上記のインストール手順が正しく実行されたことを確認します。コンソール出力は、Windows インストールが成功した場合の期待される結果です。

おめでとうございます! Windows用Tesseract OCRが正常にインストールされました。

IronOCRライブラリ

IronOCRは、画像やPDFドキュメントからテキストを識別して抽出することができる、Tesseractを基にしたC#ライブラリです。 それは.NETで純粋に構築されており、どこでも知られている最も高度なTesseractエンジンを使用しています。

NuGetパッケージマネージャでインストール

Visual StudioまたはNuGetパッケージマネージャーを使用してコマンドラインでIronOCRをインストールするのは簡単です。 Visual Studioでメニューオプションへ移動します:

ツール > NuGetパッケージマネージャ > パッケージマネージャコンソール

それから、コマンドラインで次のコマンドを入力します。

Install-Package IronOcr

これで簡単にIronOCRをインストールでき、IronOCRの真価を引き出すことができます。

異なるプラットフォーム向けに他のIronOCR NuGetパッケージをダウンロードすることもできます:

IronOCRとTesseract 5

以下のサンプルコードは、C#を使用してIronOCR Tesseractを使用して画像からテキストを読み取ってOCRを実行するのがいかに簡単かを示しています。

// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;

// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;

// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
$vbLabelText   $csharpLabel

より堅牢なコードを希望する場合は、以下のコードがお役に立ちます:

// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
    // Add an image to the input collection
    Input.AddImage("test-files/redacted-employmentapp.png");
    // You can add any number of images

    // Read the OCR text from the input
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
    // Add an image to the input collection
    Input.AddImage("test-files/redacted-employmentapp.png");
    // You can add any number of images

    // Read the OCR text from the input
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
$vbLabelText   $csharpLabel

入力画像

Install Tesseract, Figure 14: Input Image

IronOCR処理のサンプル入力画像

出力画像

出力はコンソールに次のように表示されます:

Install Tesseract, Figure 15: Output Image

サンプル画像に対して IronOCR を実行して返されたコンソール。

IronOCRを選ぶ理由

IronOCRはインストールが非常に簡単です。 完全でよく文書化された.NETソフトウェアライブラリを提供します。

IronOCRは、他のサードパーティライブラリやウェブサービスを必要とせずに99.8%のテキスト検出精度を達成します。

また、マルチスレッドサポートも提供します。 最も重要なのは、IronOCRは125以上の国際言語に対応できることです。

結論

このチュートリアルでは、Windowsマシン用にTesseract OCRをダウンロードしてインストールする方法を学びました。Tesseract OCRはC++開発者には優れたソフトウェアですが、いくつかの制限があります。 .NET向けには完全に開発されたわけではありません。 スキャンされた画像ファイルや写真に撮られた画像は、高解像度に標準化し、デジタルノイズを含まないように処理する必要があります。そうして初めてTesseractは正確に作業を行うことができます。

それに対して、IronOCRは、スキャンされても写真に撮られていても、提供されるいかなる画像にも、コード1行で対応します。 IronOCRもその内部OCRエンジンとしてTesseractを使用していますが、特にC#用に高性能で改良された機能を備え、Tesseractの長所を最大限に引き出すように微調整されています。

このリンクからIronOCRをダウンロードすることができます。

Kannaopat Udonpant
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、Kannapatは北海道大学で環境資源の博士号を修了しました。博士号を追求する間に、彼はバイオプロダクションエンジニアリング学科の一部である車両ロボティクスラボラトリーのメンバーになりました。2022年には、C#のスキルを活用してIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。Kannapatは、IronPDFの多くのコードを執筆している開発者から直接学んでいるため、この仕事を大切にしています。同僚から学びながら、Iron Softwareでの働く社会的側面も楽しんでいます。コードやドキュメントを書いていない時は、KannapatはPS5でゲームをしたり、『The Last of Us』を再視聴したりしていることが多いです。

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me