Tesseractのインストール(画像付きステップバイステップチュートリアル)
Tesseract OCRとは何ですか?
Tesseractは、Apacheライセンス契約のもとでリリースされたオープンソースのソフトウェアライブラリです。 これはもともと1980年代にヒューレット・パッカードによって開発されました。 これは主に画像からテキストを特定し抽出するために使用されるテキスト認識ツールです。 Tesseract OCRは、この機能を実行するためのコマンドプロンプトインターフェースを提供します。
IronOCRの機能についてもっと学ぶか、トライアルに登録しましょう!
WindowsでTesseract OCRをダウンロードする方法
- Windows用のTesseractインストーラーをダウンロード
- Tesseract OCRをインストール
- インストールパスを環境変数に追加
- Tesseract OCRを実行
1. Windows用のTesseractインストーラーをダウンロード
WindowsでTesseractコマンドを使用するには、まずTesseract OCRバイナリ.exe Windowsインストーラーをダウンロードする必要があります。
Tesseract OCRの最新バージョンをダウンロードできる場所は数多くあります。 One such place is from UB Mannheim, which is forked from tesseract-ocr/tesseract (Main Repository).

Tesseract Wiki
Download the tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 bit) Windows Installer.
macOSユーザーの場合、以下のコマンドのどちらかを使用してターミナルでTesseractをインストールできます:
brew install tesseractbrew install tesseractsudo port install tesseractsudo port install tesseract2. Tesseract OCRをインストール
次に、前のステップでダウンロードした.exeファイルを使用してTesseractをインストールします。.exeインストーラーを起動してTesseractのインストールを開始します。
インストーラーの言語
セットアップの解凍が完了すると、インストーラーの言語データダイアログが表示されます。 追加の言語パックを選択してTesseractを複数の言語で使用することができますが、ここでは英語の言語データのみをインストールします。

Tesseractインストーラー
OKをクリックすると、Tesseract OCRのインストーラー言語が設定されます。
Tesseract OCRセットアップ
次にセットアップウィザードが表示されます。 このセットアップウィザードは、Windows用のTesseractインストールをガイドします。

Tesseract OCRセットアップウィザード
インストールを続行するには次へをクリックしてください。
ライセンス契約を承諾する
Tesseract OCRはApacheライセンスバージョン2.0のもとでライセンスされています。それはオープンソースで無料で使用できるため、ロイヤリティの心配なくTesseractのバージョンを再頒布および変更できます。

Tesseract OCRはApache License v2.0のもとでライセンスされています。インストールを続行するにはこのライセンスを承諾してください。
同意するをクリックしてインストールを進める。
ユーザーを選択する
Tesseractを複数のユーザーまたは単一のユーザーのためにインストールすることを選択できます。

Tesseract OCRを現在のユーザー(あなた)またはすべてのユーザーアカウント用にインストールすることを選択する
Tesseractをインストールするコンポーネントを選択するために次へをクリックします。
コンポーネントを選択する
インストールするコンポーネントリストから、スクロールビュー、トレーニングツール、ショートカット作成、言語データはすべてデフォルトで選択されています。 すべてのデフォルトの選択オプションを維持します。 ニーズに基づいて、任意のコンポーネントを選択またはスキップできます。 通常、すべてをインストールする必要があります。

ここでは、Tesseract OCRコンポーネントを含めたり除外したりすることができます。最良の結果を得るために、デフォルトのコンポーネントが選択された状態でインストールを続行してください。
インストール場所を選択するために次へをクリックします。
インストール場所を選択する
次に、Tesseractをインストールする場所を選択します。 宛先フォルダのパスをコピーしてください。 これを後で、マシンの環境変数パスに追加するために必要です。

Tesseract OCRライブラリのインストール場所を選択し、後でこの場所を覚えておいてください。
さらにTesseractのインストールを設定するために次へをクリックします。
スタートメニューフォルダを選択する
これはスタートメニューにショートカットを作成する最後のステップです。 フォルダの名前は何でも良いですが、私はデフォルトのままにしておきました。

Tesseract OCRのスタートメニューフォルダの名前を選択
今すぐインストールをクリックし、インストールが完了するのを待ってください。 インストールが完了すると、次の画面が表示されます。 完了をクリックし、これでWindowsでのTesseract OCRのインストールが正常に完了しました。

Tesseract OCRインストールが完了しました。
3. インストールパスをシステム環境変数に追加する
次に、TesseractのインストールパスをWindowsの環境変数に追加します。
スタートメニューで環境変数またはシステムの詳細設定と入力します。

Windowsシステムプロパティダイアログボックス
システムプロパティ
システムプロパティダイアログボックスが開いたら、画面右下にある環境変数ボタンをクリックし、詳細設定タブをクリックします。
環境変数ダイアログボックスが表示されます。
環境変数
システム変数の下で、Path変数をクリックします。

Windowsのシステム環境変数にアクセスする
今すぐ編集をクリック。
Tesseract OCR for Windowsインストールディレクトリを環境変数に追加する
環境変数の編集ダイアログボックスから、新規をクリック。インストール場所のパスを第2ステップでコピーし、OKをクリックします。

Tesseract OCRインストールへの絶対パスを含むエントリを追加し、Windowsのパスシステム環境変数を編集する
それで終わりです! WindowsマシンでTesseract OCRを正常にダウンロード、インストールし、環境変数を設定しました。
4. Tesseract OCRを実行する
Windows用Tesseract OCRが正常にインストールされ、環境変数に追加されたことを確認するために、お使いのWindowsマシンでコマンドプロンプト(cmd)を開き、tesseractコマンドを実行します。 すべてがうまくいくと、OCRやTesseractバージョンなど、単一オプションとともにクイック使用ガイドが表示される必要があります。

tesseractコマンドをWindowsコマンドライン(またはWindows Powershell)で実行して、上記のインストール手順が正しく行われたかを確認してください。コンソール出力は、正常なWindowsインストールの期待される結果です。
おめでとうございます! Windows用Tesseract OCRを正常にインストールしました。
IronOCRライブラリ
IronOCRは、.NETソフトウェア開発者が画像やPDFドキュメントからテキストを特定し抽出するためのTesseractベースのC#ライブラリです。 これは.netで純粋に構築されており、どこにでも知られている最も先進的なTesseractエンジンを使用しています。
NuGetパッケージマネージャーでインストール
Visual StudioまたはコマンドラインでNuGetパッケージマネージャを使用してIronOCRをインストールするのは簡単です。 Visual Studioのメニューオプションに移動します:
ツール > NuGetパッケージマネージャ > パッケージマネージャコンソール
次にコマンドラインで次のコマンドを入力します:
Install-Package IronOcrこれでIronOCRが簡単にインストールされ、今すぐその最大のポテンシャルを引き出すことができます。
さまざまなプラットフォーム向けに他のIronOCR NuGetパッケージもダウンロードできます:
IronOCRとTesseract 5
以下のサンプルコードは、IronOCR Tesseractを使用して画像からテキストを読み取り、C#を使用してOCRを実行するのがいかに簡単かを示しています。
// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;
// Output the extracted text to the console
Console.WriteLine(Text); // Printed text// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;
// Output the extracted text to the console
Console.WriteLine(Text); // Printed textより堅牢なコードが必要な場合は、以下の方法で同じタスクを達成するのに役立ちます:
// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
// Add an image to the input collection
Input.AddImage("test-files/redacted-employmentapp.png");
// You can add any number of images
// Read the OCR text from the input
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
}// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
// Add an image to the input collection
Input.AddImage("test-files/redacted-employmentapp.png");
// You can add any number of images
// Read the OCR text from the input
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
}修正済み社員データ

IronOCR処理のためのサンプル入力画像
出力画像
出力は次のようにコンソールに印刷されます:

サンプル画像に対するIronOCRの実行から返されたコンソール
なぜIronOCRを選ぶべきなのか?
IronOCRは非常に簡単にインストールできます。 これは完全でよく文書化された.NETソフトウェアライブラリを提供します。
IronOCRは、他のサードパーティライブラリやWebサービスを必要とせずに、99.8%のテキスト検出正確率を達成します。
また、マルチスレッドサポートも提供します。 最も重要なのは、IronOCRが125を超える国際言語で動作することです。
結論
このチュートリアルでは、Windowsマシン用のTesseract OCRをダウンロードしてインストールする方法を学びました。Tesseract OCRはC++開発者にとって優れたソフトウェアですが、いくつかの制限があります。 それは.NETのために完全には開発されていません。 スキャンされた画像ファイルや写真撮影された画像は、デジタルノイズが取り除かれていることを確認し、高解像度に処理し標準化する必要があります。その上でのみ、Tesseractはそれらを正確に処理することができます。
対照的に、IronOCRは提供された画像がスキャンされたものであろうと写真であろうと、たった1行のコードで動作します。 IronOCRもTesseractを内部OCRエンジンとして使用していますが、特にC#のために高性能と改善された機能を備えたTesseractの最良の部分を引き出すように微調整されています。
このリンクからIronOCRソフトウェア製品をダウンロードできます。







