フッターコンテンツにスキップ
OCRツール
C#でWindowsにTesseract OCRをインストールする方法

Tesseractのインストール(画像付きステップバイステップチュートリアル)

Tesseract OCRとは何ですか?

Tesseractは、Apacheライセンス契約のもとでリリースされたオープンソースのソフトウェアライブラリです。 これはもともと1980年代にヒューレット・パッカードによって開発されました。 これは主に画像からテキストを特定し抽出するために使用されるテキスト認識ツールです。 Tesseract OCRは、この機能を実行するためのコマンドプロンプトインターフェースを提供します。

WindowsでTesseract OCRをダウンロードする方法

  1. Windows用のTesseractインストーラーをダウンロード
  2. Tesseract OCRをインストール
  3. インストールパスを環境変数に追加
  4. Tesseract OCRを実行

1. Windows用のTesseractインストーラーをダウンロード

WindowsでTesseractコマンドを使用するには、まずTesseract OCRバイナリ.exe Windowsインストーラーをダウンロードする必要があります。

Tesseract OCRの最新バージョンをダウンロードできる場所は数多くあります。 One such place is from UB Mannheim, which is forked from tesseract-ocr/tesseract (Main Repository).

Install Tesseract, Figure 1: Tesseract Wiki

Tesseract Wiki

Download the tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 bit) Windows Installer.

macOSユーザーの場合、以下のコマンドのどちらかを使用してターミナルでTesseractをインストールできます:

brew install tesseract
brew install tesseract
SHELL
sudo port install tesseract
sudo port install tesseract
SHELL

2. Tesseract OCRをインストール

次に、前のステップでダウンロードした.exeファイルを使用してTesseractをインストールします。.exeインストーラーを起動してTesseractのインストールを開始します。

インストーラーの言語

セットアップの解凍が完了すると、インストーラーの言語データダイアログが表示されます。 追加の言語パックを選択してTesseractを複数の言語で使用することができますが、ここでは英語の言語データのみをインストールします。

Install Tesseract, Figure 2: Tesseractインストーラー

Tesseractインストーラー

OKをクリックすると、Tesseract OCRのインストーラー言語が設定されます。

Tesseract OCRセットアップ

次にセットアップウィザードが表示されます。 このセットアップウィザードは、Windows用のTesseractインストールをガイドします。

Install Tesseract, Figure 3: Tesseract OCR

Tesseract OCRセットアップウィザード

インストールを続行するには次へをクリックしてください。

ライセンス契約を承諾する

Tesseract OCRはApacheライセンスバージョン2.0のもとでライセンスされています。それはオープンソースで無料で使用できるため、ロイヤリティの心配なくTesseractのバージョンを再頒布および変更できます。

Install Tesseract, Figure 4: Tesseract License

Tesseract OCRはApache License v2.0のもとでライセンスされています。インストールを続行するにはこのライセンスを承諾してください。

同意するをクリックしてインストールを進める。

ユーザーを選択する

Tesseractを複数のユーザーまたは単一のユーザーのためにインストールすることを選択できます。

Install Tesseract, Figure 5: Tesseract Choose Users

Tesseract OCRを現在のユーザー(あなた)またはすべてのユーザーアカウント用にインストールすることを選択する

Tesseractをインストールするコンポーネントを選択するために次へをクリックします。

コンポーネントを選択する

インストールするコンポーネントリストから、スクロールビュー、トレーニングツール、ショートカット作成、言語データはすべてデフォルトで選択されています。 すべてのデフォルトの選択オプションを維持します。 ニーズに基づいて、任意のコンポーネントを選択またはスキップできます。 通常、すべてをインストールする必要があります。

Install Tesseract, Figure 6: Tesseract Components

ここでは、Tesseract OCRコンポーネントを含めたり除外したりすることができます。最良の結果を得るために、デフォルトのコンポーネントが選択された状態でインストールを続行してください。

インストール場所を選択するために次へをクリックします。

インストール場所を選択する

次に、Tesseractをインストールする場所を選択します。 宛先フォルダのパスをコピーしてください。 これを後で、マシンの環境変数パスに追加するために必要です。

Install Tesseract, Figure 7: Tesseract Install Location

Tesseract OCRライブラリのインストール場所を選択し、後でこの場所を覚えておいてください。

さらにTesseractのインストールを設定するために次へをクリックします。

スタートメニューフォルダを選択する

これはスタートメニューにショートカットを作成する最後のステップです。 フォルダの名前は何でも良いですが、私はデフォルトのままにしておきました。

Install Tesseract, Figure 8: Tesseract Start Menu

Tesseract OCRのスタートメニューフォルダの名前を選択

今すぐインストールをクリックし、インストールが完了するのを待ってください。 インストールが完了すると、次の画面が表示されます。 完了をクリックし、これでWindowsでのTesseract OCRのインストールが正常に完了しました。

Install Tesseract, Figure 9: Tesseractインストーラー

Tesseract OCRインストールが完了しました。

3. インストールパスをシステム環境変数に追加する

次に、TesseractのインストールパスをWindowsの環境変数に追加します。

スタートメニューで環境変数またはシステムの詳細設定と入力します。

Install Tesseract, Figure 10: System Path Variables

Windowsシステムプロパティダイアログボックス

システムプロパティ

システムプロパティダイアログボックスが開いたら、画面右下にある環境変数ボタンをクリックし、詳細設定タブをクリックします。

環境変数ダイアログボックスが表示されます。

環境変数

システム変数の下で、Path変数をクリックします。

Install Tesseract, Figure 11: Environment Variables

Windowsのシステム環境変数にアクセスする

今すぐ編集をクリック。

Tesseract OCR for Windowsインストールディレクトリを環境変数に追加する

環境変数の編集ダイアログボックスから、新規をクリック。インストール場所のパスを第2ステップでコピーし、OKをクリックします。

Install Tesseract, Figure 12: Edit Environment Variable

Tesseract OCRインストールへの絶対パスを含むエントリを追加し、Windowsのパスシステム環境変数を編集する

それで終わりです! WindowsマシンでTesseract OCRを正常にダウンロード、インストールし、環境変数を設定しました。

4. Tesseract OCRを実行する

Windows用Tesseract OCRが正常にインストールされ、環境変数に追加されたことを確認するために、お使いのWindowsマシンでコマンドプロンプト(cmd)を開き、tesseractコマンドを実行します。 すべてがうまくいくと、OCRやTesseractバージョンなど、単一オプションとともにクイック使用ガイドが表示される必要があります。

Install Tesseract, Figure 13: Edit Environment Variable

tesseractコマンドをWindowsコマンドライン(またはWindows Powershell)で実行して、上記のインストール手順が正しく行われたかを確認してください。コンソール出力は、正常なWindowsインストールの期待される結果です。

おめでとうございます! Windows用Tesseract OCRを正常にインストールしました。

IronOCRライブラリ

IronOCRは、.NETソフトウェア開発者が画像やPDFドキュメントからテキストを特定し抽出するためのTesseractベースのC#ライブラリです。 これは.netで純粋に構築されており、どこにでも知られている最も先進的なTesseractエンジンを使用しています。

NuGetパッケージマネージャーでインストール

Visual StudioまたはコマンドラインでNuGetパッケージマネージャを使用してIronOCRをインストールするのは簡単です。 Visual Studioのメニューオプションに移動します:

ツール > NuGetパッケージマネージャ > パッケージマネージャコンソール

次にコマンドラインで次のコマンドを入力します:

Install-Package IronOcr

これでIronOCRが簡単にインストールされ、今すぐその最大のポテンシャルを引き出すことができます。

さまざまなプラットフォーム向けに他のIronOCR NuGetパッケージもダウンロードできます:

IronOCRとTesseract 5

以下のサンプルコードは、IronOCR Tesseractを使用して画像からテキストを読み取り、C#を使用してOCRを実行するのがいかに簡単かを示しています。

// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;

// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;

// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
' Import the IronOCR library
Imports IronOcr

' Create an instance of IronTesseract
Private Ocr = New IronTesseract()

Private Text As String = Ocr.Read("test-files/redacted-employmentapp.png").Text

' Output the extracted text to the console
Console.WriteLine(Text) ' Printed text
$vbLabelText   $csharpLabel

より堅牢なコードが必要な場合は、以下の方法で同じタスクを達成するのに役立ちます:

// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
    // Add an image to the input collection
    Input.AddImage("test-files/redacted-employmentapp.png");
    // You can add any number of images

    // Read the OCR text from the input
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
    // Add an image to the input collection
    Input.AddImage("test-files/redacted-employmentapp.png");
    // You can add any number of images

    // Read the OCR text from the input
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
' Import the IronOCR library
Imports IronOcr

' Create an instance of IronTesseract
Private Ocr = New IronTesseract()

' Using the OcrInput class to handle multiple images
Using Input = New OcrInput()
	' Add an image to the input collection
	Input.AddImage("test-files/redacted-employmentapp.png")
	' You can add any number of images

	' Read the OCR text from the input
	Dim Result = Ocr.Read(Input)

	' Output the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

修正済み社員データ

Install Tesseract, Figure 14: Input Image

IronOCR処理のためのサンプル入力画像

出力画像

出力は次のようにコンソールに印刷されます:

Install Tesseract, Figure 15: Output Image

サンプル画像に対するIronOCRの実行から返されたコンソール

なぜIronOCRを選ぶべきなのか?

IronOCRは非常に簡単にインストールできます。 これは完全でよく文書化された.NETソフトウェアライブラリを提供します。

IronOCRは、他のサードパーティライブラリやWebサービスを必要とせずに、99.8%のテキスト検出正確率を達成します。

また、マルチスレッドサポートも提供します。 最も重要なのは、IronOCRが125を超える国際言語で動作することです。

結論

このチュートリアルでは、Windowsマシン用のTesseract OCRをダウンロードしてインストールする方法を学びました。Tesseract OCRはC++開発者にとって優れたソフトウェアですが、いくつかの制限があります。 それは.NETのために完全には開発されていません。 スキャンされた画像ファイルや写真撮影された画像は、デジタルノイズが取り除かれていることを確認し、高解像度に処理し標準化する必要があります。その上でのみ、Tesseractはそれらを正確に処理することができます。

対照的に、IronOCRは提供された画像がスキャンされたものであろうと写真であろうと、たった1行のコードで動作します。 IronOCRもTesseractを内部OCRエンジンとして使用していますが、特にC#のために高性能と改善された機能を備えたTesseractの最良の部分を引き出すように微調整されています。

このリンクからIronOCRソフトウェア製品をダウンロードできます。

Kannaopat Udonpant
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、Kannapatは北海道大学で環境資源の博士号を修了しました。博士号を追求する間に、彼はバイオプロダクションエンジニアリング学科の一部である車両ロボティクスラボラトリーのメンバーになりました。2022年には、C#のスキルを活用してIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。Kannapatは、IronPDFの多くのコードを執筆している開発者から直接学んでいるため、この仕事を大切にしています。同僚から学びながら、Iron Softwareでの働く社会的側面も楽しんでいます。コードやドキュメントを書いていない時は、KannapatはPS5でゲームをしたり、『The Last of Us』を再視聴したりしていることが多いです。