フッターコンテンツにスキップ
OCRツール
C#でWindowsにTesseract OCRをインストールする方法

Tesseractのインストール(画像付きステップバイステップチュートリアル)

Tesseract OCRとは何ですか?

TesseractはApacheライセンス契約の下で公開されたオープンソースソフトウェアライブラリです。 それは元々1980年代にヒューレット・パッカードによって開発されました。 これは主に画像からテキストを識別して抽出するためのテキスト認識ツールです。 Tesseract OCRは、この機能を実行するためのコマンドプロンプトインターフェースを提供します。

role="alert">IronOCRはTesseractをベースに構築されています。コード数行だけで画像やPDFから99.8%の精度でテキストを読み取ります(外部のウェブサービスに依存せず)。IronOCRは低品質の画像やスキャンからもコンテンツを抽出します。煩わしいパフォーマンスの調整や面倒な事前処理作業に別れを告げましょう。速度、精度、使いやすさが重要なときに素早く作業をこなすIronOCRを信頼してください。

IronOCRの機能について詳しく学ぶか、トライアルにサインアップしましょう!

WindowsでTesseract OCRをダウンロードする方法

  1. Windows用Tesseractインストーラーをダウンロードします
  2. Tesseract OCRをインストールします
  3. 環境変数にインストールパスを追加します
  4. Tesseract OCRを実行します

1. Windows用Tesseractインストーラーをダウンロードします

WindowsでTesseractコマンドを使用するためには、最初にTesseract OCRバイナリ.exe Windowsインストーラーをダウンロードする必要があります。

Tesseract OCRの最新バージョンをダウンロードできる場所はたくさんあります。 One such place is from UB Mannheim, which is forked from tesseract-ocr/tesseract (Main Repository).

class="content-img-align-center">
class="center-image-wrapper">Install Tesseract, Figure 1: Tesseract Wiki

class="content__image-caption">Tesseract Wiki

Download the tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 bit) Windows Installer.

macOSユーザーの場合、以下のいずれかのコマンドを使用してターミナルでTesseractをインストールできます。

brew install tesseract
brew install tesseract
SHELL
sudo port install tesseract
sudo port install tesseract
SHELL

2. Tesseract OCRをインストールします

次に、前のステップでダウンロードした.exeファイルを使用してTesseractをインストールします。Tesseractインストールを開始するには.exeインストーラーを起動します。

インストーラーの言語

セットアップの解凍が完了すると、インストーラーの言語データダイアログが表示されます。 複数の言語を使用するために追加言語パックを選択してTesseractをインストールすることができますが、ここでは英語の言語データだけをインストールします。

class="content-img-align-center">
class="center-image-wrapper">Install Tesseract, Figure 2: Tesseract Installer

class="content__image-caption">Tesseractインストーラー

OKをクリックすると、Tesseract OCRのインストーラー言語が設定されます。

Tesseract OCR セットアップ

次に、セットアップウィザードが表示されます。 このセットアップウィザードは、WindowsのためのTesseractインストールをガイドします。

class="content-img-align-center">
class="center-image-wrapper">Install Tesseract, Figure 3: Tesseract OCR

class="content__image-caption">Tesseract OCRセットアップウィザード

インストールを続行するには次へをクリックします。

ライセンス契約の承諾

Tesseract OCRはApache License Version 2.0の下でライセンスされています。それはオープンソースであり、無料で使用できるため、ロイヤルティの懸念なしにTesseractのバージョンを再配布および変更することができます。

class="content-img-align-center">
class="center-image-wrapper">Install Tesseract, Figure 4: Tesseract License

class="content__image-caption">Tesseract OCRはApache License v2.0の下でライセンスされています。このライセンスを受け入れてインストールを続行してください。

I Agreeをクリックしてインストールを続行してください。

ユーザーの選択

複数のユーザーまたは単一のユーザーのいずれかに対してTesseractをインストールすることを選択できます。

class="content-img-align-center">
class="center-image-wrapper">Install Tesseract, Figure 5: Tesseract Choose Users

class="content__image-caption">現在のユーザー(あなた)またはすべてのユーザーアカウント用にTesseract OCRをインストールすることを選択します

Tesseractと一緒にインストールするコンポーネントを選択するには次へをクリックします。

コンポーネントの選択

インストールするコンポーネントリストから、ScrollView、Training Tools、ショートカットの作成、言語データがデフォルトで選択されています。 デフォルトで選択されたオプションをすべて保持します。 必要に応じてどのコンポーネントでも選択したりスキップしたりできます。 通常、すべてをインストールする必要があります。

class="content-img-align-center">
class="center-image-wrapper">Install Tesseract, Figure 6: Tesseract Components

class="content__image-caption">ここで、Tesseract OCRコンポーネントを含めるか除外するかを選択できます。最良の結果を得るには、デフォルトのコンポーネントを選択したままインストールを続行してください。

次をクリックしてインストール場所を選択します。

インストール場所の選択

次に、Tesseractをインストールする場所を選択します。 宛先フォルダーのパスをコピーしておいてください。 これを後でマシンのパス環境変数にインストール場所を追加するために使用します。

class="content-img-align-center">
class="center-image-wrapper">Install Tesseract, Figure 7: Tesseract Install Location

class="content__image-caption">Tesseract OCRライブラリのインストール先を選び、後でこの場所を覚えておいてください。

次をクリックしてさらにTesseractのインストールを設定します。

スタートメニューフォルダーの選択

これは、スタートメニューにショートカットを作成する最後のステップです。 フォルダの名前は何でもかまいませんが、私はデフォルトのままにしました。

class="content-img-align-center">
class="center-image-wrapper">Install Tesseract, Figure 8: Tesseract Start Menu

class="content__image-caption">Tesseract OCRのスタートメニューフォルダの名前を選択

今、インストールをクリックして、インストールが完了するのを待ちます。 インストールが完了すると、次の画面が表示されます。 終了をクリックすると、無事にWindowsにTesseract OCRをインストール完了します。

class="content-img-align-center">
class="center-image-wrapper">Install Tesseract, Figure 9: Tesseract Installer

class="content__image-caption">Tesseract OCRのインストールが完了しました。

3. インストールパスをシステム環境変数に追加

次に、TesseractのインストールパスをWindowsの環境変数に追加します。

スタートメニューで、「環境変数」または「システムの詳細設定」と入力します

class="content-img-align-center">
class="center-image-wrapper">Install Tesseract, Figure 10: System Path Variables

class="content__image-caption">Windowsのシステムプロパティダイアログボックス

システムプロパティ

システムプロパティダイアログボックスが開いたら、[詳細設定]タブをクリックし、画面の右下にある環境変数ボタンをクリックします。

環境変数ダイアログボックスが表示されます。

環境変数

システム変数の下で、Path 変数をクリックします。

class="content-img-align-center">
class="center-image-wrapper">Install Tesseract, Figure 11: Environment Variables

class="content__image-caption">Windowsのシステム環境変数にアクセスする

今、編集をクリックします。

WindowsインストールディレクトリへのTesseract OCRの追加

環境変数の編集 ダイアログボックスから、新規をクリックします。2番目のステップでコピーしたインストール場所パスを貼り付け、OKをクリックします。

class="content-img-align-center">
class="center-image-wrapper">Install Tesseract, Figure 12: Edit Environment Variable

class="content__image-caption">Tesseract OCRインストールへの絶対パスを含むエントリを追加してWindowsのPathシステム環境変数を編集

それだけです! これで、WindowsマシンにおけるTesseract OCRのダウンロード、インストール、および環境変数の設定が成功しました。

4. Tesseract OCRを実行します

WindowsでTesseract OCRが正常にインストールされ、環境変数に追加されたことを確認するために、Windowsマシンでコマンドプロンプト(cmd)を開き、"tesseract"コマンドを実行します。 すべてが順調であれば、OCRおよびTesseractバージョンなどのシングルオプションを含む簡単な使用ガイドが表示されるはずです。

class="content-img-align-center">
class="center-image-wrapper">Install Tesseract, Figure 13: Edit Environment Variable

class="content__image-caption">上記のインストール手順が正しく行われたことを確認するためにWindowsコマンドライン(またはWindows Powershell)でtesseractコマンドを実行します。コンソールの出力は、成功したWindowsインストールの予想結果です。

ドキュメントのフォーマットが完全に変更されました。 Windows用Tesseract OCRが正常にインストールされました。

IronOCRライブラリ

IronOCRは、画像やPDFドキュメントからテキストを識別して抽出することができる、Tesseractを基にしたC#ライブラリです。 それは.NETで純粋に構築されており、どこでも知られている最も高度なTesseractエンジンを使用しています。

NuGetパッケージマネージャでインストール

Visual StudioまたはNuGetパッケージマネージャーを使用してコマンドラインでIronOCRをインストールするのは簡単です。 Visual Studioでメニューオプションへ移動します:

ツール > NuGetパッケージマネージャ > パッケージマネージャコンソール

それから、コマンドラインで次のコマンドを入力します。

Install-Package IronOcr

これで簡単にIronOCRをインストールでき、IronOCRの真価を引き出すことができます。

異なるプラットフォーム向けに他のIronOCR NuGetパッケージをダウンロードすることもできます:

IronOCRとTesseract 5

以下のサンプルコードは、C#を使用してIronOCR Tesseractを使用して画像からテキストを読み取ってOCRを実行するのがいかに簡単かを示しています。

// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;

// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;

// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
' Import the IronOCR library
Imports IronOcr

' Create an instance of IronTesseract
Private Ocr = New IronTesseract()

Private Text As String = Ocr.Read("test-files/redacted-employmentapp.png").Text

' Output the extracted text to the console
Console.WriteLine(Text) ' Printed text
$vbLabelText   $csharpLabel

より堅牢なコードを希望する場合は、以下のコードがお役に立ちます:

// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
    // Add an image to the input collection
    Input.AddImage("test-files/redacted-employmentapp.png");
    // You can add any number of images

    // Read the OCR text from the input
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
    // Add an image to the input collection
    Input.AddImage("test-files/redacted-employmentapp.png");
    // You can add any number of images

    // Read the OCR text from the input
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
' Import the IronOCR library
Imports IronOcr

' Create an instance of IronTesseract
Private Ocr = New IronTesseract()

' Using the OcrInput class to handle multiple images
Using Input = New OcrInput()
	' Add an image to the input collection
	Input.AddImage("test-files/redacted-employmentapp.png")
	' You can add any number of images

	' Read the OCR text from the input
	Dim Result = Ocr.Read(Input)

	' Output the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel
class="content-img-align-center"> ![Redacted Employee Data](/static-assets/ocr/blog/aws-ocr-alternatives/aws-ocr-alternatives-10.webp)
class="content-img-align-center">
class="center-image-wrapper">Install Tesseract, Figure 14: Input Image

class="content__image-caption">IronOCR処理用の入力画像のサンプル

#### 出力画像 出力はコンソールに次のように表示されます:
class="content-img-align-center">
class="center-image-wrapper">Install Tesseract, Figure 15: Output Image

class="content__image-caption">IronOCRがサンプル画像に対して実行されたときのコンソール出力。

## IronOCRを選ぶ理由 IronOCRはインストールが非常に簡単です。 完全でよく文書化された.NETソフトウェアライブラリを提供します。 IronOCRは、他のサードパーティライブラリやウェブサービスを必要とせずに**99.8%**のテキスト検出精度を達成します。 また、マルチスレッドサポートも提供します。 何よりも重要なのは、IronOCRが125を超える国際言語で動作することができることです。
role="alert">NuGetからIronOCRをインストールして次のOCRプロジェクトでその完全な機能を自分自身で体験してください。トライアルライセンスにより、IronOCRの完全な機能を30日間無料で無制限に利用することができます。
## 結論 このチュートリアルでは、Windowsマシン用にTesseract OCRをダウンロードしてインストールする方法を学びました。Tesseract OCRはC++開発者には優れたソフトウェアですが、いくつかの制限があります。 .NET向けには完全に開発されたわけではありません。 スキャンされた画像ファイルや写真に撮られた画像は、高解像度に標準化し、デジタルノイズを含まないように処理する必要があります。そうして初めてTesseractは正確に作業を行うことができます。 それに対して、IronOCRは、スキャンされても写真に撮られていても、提供されるいかなる画像にも、コード1行で対応します。 IronOCRもその内部OCRエンジンとしてTesseractを使用していますが、特にC#用に高性能で改良された機能を備え、Tesseractの長所を最大限に引き出すように微調整されています。 この[リンク](/csharp/ocr/)からIronOCRをダウンロードすることができます。
Kannaopat Udonpant
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、Kannapatは北海道大学で環境資源の博士号を修了しました。博士号を追求する間に、彼はバイオプロダクションエンジニアリング学科の一部である車両ロボティクスラボラトリーのメンバーになりました。2022年には、C#のスキルを活用してIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。Kannapatは、IronPDFの多くのコードを執筆している開発者から直接学んでいるため、この仕事を大切にしています。同僚から学びながら、Iron Softwareでの働く社会的側面も楽しんでいます。コードやドキュメントを書いていない時は、KannapatはPS5でゲームをしたり、『The Last of Us』を再視聴したりしていることが多いです。