OCRツール

Tesseractのインストール（画像付きステップバイステップチュートリアル）

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

カンナパット・ウドンパント

2023年1月27日

共有:

Tesseract OCRとは何ですか？

Tesseractは、Apacheライセンス契約のもとで公開されているオープンソースのソフトウェアライブラリです。それは元々、1980年代にヒューレット・パッカードによって開発されました。これは、主に画像からテキストを識別および抽出するために使用されるテキスト認識ツールです。 Tesseract OCRは、この機能を実行するためのコマンドプロンプトインターフェースを提供します。

IronOCR はTesseractの上に構築されています。外部のウェブサービスに頼ることなく、わずか数行のコードで画像やPDFから99.8%の精度でテキストを読み取ります。IronOCRは品質の低い画像やスキャンからもコンテンツを抽出します。面倒なパフォーマンスチューニングや煩雑な前処理作業にさよならを。速度、精度、使用の簡単さが重要なときは、IronOCRにお任せください。

IronOCRの特徴について詳しく知るか、してください！

WindowsでTesseract OCRをダウンロードする方法

Windows用Tesseractインストーラーをダウンロード
Tesseract OCRをインストール
環境変数にインストールパスを追加
Tesseract OCRを実行する

1. Windows用Tesseractインストーラーをダウンロード

WindowsでTesseractコマンドを使用するには、まずTesseract OCRバイナリ.exe Windowsインストーラーをダウンロードする必要があります。

最新バージョンのTesseract OCRをダウンロードできる場所はたくさんあります。 tesseract-ocr/tesseract (Main Repository) からフォークされています。

テッセラクトウィキ

tesseract-ocr-w64-setup-5.3.0.20221222.exe（64ビット）Windowsインストーラーをダウンロードしてください。

macOSでは、以下のコマンドのいずれかを使用してTesseractをPythonプロンプトにインストールできます：

brew install tesseract

sudo port install tesseract

2. テッセラクトOCRをインストールする

次に、前のステップでダウンロードした .exe ファイルを使用して Tesseract をインストールします。Tesseract のインストールを開始するには、.exe インストーラーを起動します。

インストーラー言語

セットアップの解凍が完了すると、インストーラーの言語データダイアログが表示されます。複数の言語を使用するために追加の言語パックを選択することでTesseractをインストールできますが、ここでは英語の言語データのみをインストールします。

テッセラクトインストーラー

「OK」をクリックすると、Tesseract OCRのインストーラーの言語が設定されます。

Tesseract OCR セットアップ

次に、セットアップウィザードが表示されます。このセットアップウィザードは、Windows用のTesseractインストールをガイドします。

Tesseract OCR セットアップウィザード

次へをクリックしてインストールを続行してください。

ライセンス契約に同意する

Tesseract OCRは、Apache License Version 2.0の下でライセンスされています。オープンソースで無料で使用できるため、ロイヤリティの心配なくTesseractのバージョンを再配布および修正することができます。

Tesseract OCRは、Apache License v2.0の下でライセンスされています。インストールを続行するには、このライセンスを受け入れてください。

インストールを続行するには、同意しますをクリックしてください。

ユーザーを選択

Tesseractを複数のユーザーまたは単一のユーザーのためにインストールすることができます。

現在のユーザー（あなた）のため、またはすべてのユーザーアカウントのためにTesseract OCRをインストールすることを選択してください。

次へをクリックして、Tesseractと一緒にインストールするコンポーネントを選択してください。

コンポーネントを選択

インストールするコンポーネントリストから、ScrollView、トレーニングツール、ショートカット作成、および言語データがデフォルトで選択されています。デフォルトで選択されているオプションをすべて保持します。ニーズに応じて、任意のコンポーネントを選択するか、スキップすることができます。通常、すべてをインストールする必要があります。

ここでは、Tesseract OCRコンポーネントを含めるか除外するかを選択できます。最高の結果を得るためには、デフォルトで選択されているコンポーネントを使用してインストールを続行してください。

次へをクリックしてインストール場所を選択します。

インストール場所を選択

次に、Tesseractをインストールする場所を選択します。宛先フォルダのパスをコピーしてください。後でインストール場所をマシンのパス環境変数に追加するためにこれが必要になります。

Tesseract OCRライブラリのインストール場所を選択し、後で使用するためにこの場所を覚えておいてください。

次へをクリックして、Tesseractのインストールをさらに設定してください。

「スタートメニューフォルダを選択」

これが最後のステップで、スタートメニューにショートカットを作成します。フォルダーは任意の名前に設定できますが、デフォルトのままにしてあります。

Tesseract OCRのスタートメニューフォルダーの名前を選択してください

今すぐ「インストール」をクリックし、インストールが完了するまで待ちます。インストールが完了すると、次の画面が表示されます。「完了」をクリックすると、WindowsへのTesseract OCRのインストールが無事終了します。

Tesseract OCR のインストールが完了しました。

3. インストールパスをシステム環境変数に追加する

次に、TesseractのインストールパスをWindowsの環境変数に追加します。

スタートメニューで、「環境変数」または「システムの詳細設定」と入力します。

ウィンドウズシステムプロパティダイアログボックス

システムプロパティ

システムのプロパティダイアログボックスが開いたら、[詳細設定] をクリックし、画面の右下にある [環境変数] ボタンをクリックします。

環境変数のダイアログボックスが表示されます。

環境変数

システム変数の下で、Path 変数をクリックします。

Windows のシステム環境変数にアクセスする

それでは、編集をクリックしてください。

環境変数にTesseract OCR for Windowsのインストールディレクトリを追加する

環境変数の編集ダイアログボックスから、新規をクリックします。2番目のステップでコピーしたインストール場所のパスを貼り付け、OKをクリックします。

Tesseract OCRのインストール先の絶対パスを含むエントリを追加して、WindowsのPathシステム環境変数を編集します。

以上です！ WindowsマシンでTesseract OCRをダウンロード、インストールし、環境変数を設定することに成功しました。

4. Tesseract OCRを実行する

Tesseract OCR for Windowsが正常にインストールされ、環境変数に追加されたことを確認するには、お使いのWindowsマシンでコマンドプロンプト（cmd）を開き、"tesseract"コマンドを実行します。すべてが正常に動作した場合、OCRやTesseractバージョンなどの単一オプションを含む簡単な使用ガイドが表示されるはずです。

Windowsコマンドライン（またはWindows Powershell）でtesseractコマンドを実行して、上記のインストール手順が正しく行われたことを確認してください。コンソール出力は、Windowsのインストールが成功したことを示す期待される結果です。

おめでとうございます！ Tesseract OCRをWindowsに正常にインストールしました。

IronOCRライブラリ

IronOCR は、.NET ソフトウェア開発者が画像やPDFドキュメントからテキストを識別して抽出することを可能にする、Tesseract ベースの C# ライブラリです。それは .NET で完全に構築されており、どこでも知られている最も先進的な Tesseract エンジンを使用しています。

NuGetパッケージマネージャーでインストール

Visual Studio に IronOCR をインストールするか、NuGet Package Manager を使用してコマンドラインからインストールするのは非常に簡単です。 Visual Studio で、メニューオプションに移動します:

ツール > NuGet パッケージマネージャー > パッケージマネージャーコンソール

次に、コマンドラインで以下のコマンドを入力してください:

Install-Package IronOcr

これでIronOCRを簡単にインストールでき、これからその機能を最大限に引き出すことができます。

他のプラットフォーム向けのIronOCR NuGet パッケージもダウンロードできます。

Windows: https://www.nuget.org/packages/IronOcr
Linux: https://www.nuget.org/packages/IronOcr.Linux
MacOs: https://www.nuget.org/packages/IronOcr.MacOs
MacOs ARM https://www.nuget.org/packages/IronOcr.MacOs.ARM

IronOCRとTesseract 5

以下のサンプルコードは、IronOCR Tesseractを使用して画像からテキストを読み取り、C#でOCRを実行することがいかに簡単であるかを示しています。

string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text

string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text

Dim Text As String = (New IronTesseract()).Read("test-files/redacted-employmentapp.png").Text
Console.WriteLine(Text) ' Printed text

$vbLabelText $csharpLabel

より堅牢なコードを求めるのであれば、以下の内容が同じタスクの達成に役立つでしょう：

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddImage("test-files/redacted-employmentapp.png")
	' you can add any number of images
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using

$vbLabelText $csharpLabel

入力画像

IronOCRの処理用サンプル入力画像

出力画像

出力はコンソールに次のように表示されます:

サンプル画像に対して IronOCR の実行からコンソールが返されました。

なぜIronOCRを選ぶのか?

IronOCRのインストールは非常に簡単です。それは、完全で詳細に文書化された.NETソフトウェアライブラリを提供します。

IronOCRは、他のサードパーティライブラリやウェブサービスを必要とせずに、99.8%のテキスト検出精度を達成します。

また、マルチスレッドサポートも提供しています。最も重要なことは、IronOCRは125以上の国際言語に対応できることです。

し、次のOCRプロジェクトでその全機能を自分で確認してください。によりIronOCRの全機能に30日間、無料で無制限にアクセスできます。

結論

このチュートリアルでは、Tesseract OCRをWindowsマシンにダウンロードおよびインストールする方法を学びました。Tesseract OCRはC++ 開発者にとって優れたソフトウェアですが、いくつかの制限があります。それは .NET 用に完全に開発されているわけではありません。スキャンされた画像ファイルや撮影された画像は、高解像度に処理・標準化され、デジタルノイズが除去されている必要があります。その状態で初めて、Tesseractは正確に動作できます。

対照的に、IronOCRはスキャンされたものでも撮影されたものでも、提供された任意の画像に対して、たった一行のコードで動作できます。 IronOCR は内部OCRエンジンとしてTesseractを使用していますが、特にC#向けに構築されており、Tesseractのパフォーマンスを最大限に引き出すために非常に細かく調整されています。これにより、高いパフォーマンスと改善された機能が提供されます。

こちらのリンクからIronOCRソフトウェア製品をダウンロードできます。

カンナパット・ウドンパント

今すぐエンジニアリングチームとチャット

ソフトウェアエンジニア

ソフトウェアエンジニアになる前に、カンナパットは日本の北海道大学から環境資源学の博士号を取得しました。学位を取得する過程で、カンナパットはバイオプロダクション工学部に所属する車両ロボティクス研究所のメンバーにもなりました。2022年には、C#のスキルを活かしてIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。カンナパットは、IronPDFで使用されているコードの大部分を作成した開発者から直接学べることに価値を見いだしています。同僚との学び合いに加えて、Iron Softwareで働くことの社会的側面も楽しんでいます。コードやドキュメントを書いていない時には、カンナパットは通常、PS5でゲームをしたり、『The Last of Us』を再視聴したりしています。

< 以前
Microsoft OCRツール（C#の代替ツール）

次へ >
PDFからのOCR（無料オンラインツール）