Tesseractのインストール(画像付きステップバイステップチュートリアル)
Tesseract OCRとは何ですか?
TesseractはApacheライセンス契約の下で公開されたオープンソースソフトウェアライブラリです。 それは元々1980年代にヒューレット・パッカードによって開発されました。 これは主に画像からテキストを識別して抽出するためのテキスト認識ツールです。 Tesseract OCRは、この機能を実行するためのコマンドプロンプトインターフェースを提供します。
IronOCR の機能について詳しく知るか、今すぐ試用版にサインアップしてください。
WindowsでTesseract OCRをダウンロードする方法
- Windows用Tesseractインストーラーをダウンロードします
- Tesseract OCRをインストールします
- 環境変数にインストールパスを追加します
- Tesseract OCRを実行します
1. Windows用Tesseractインストーラーをダウンロード
WindowsでTesseractコマンドを使用するためには、最初にTesseract OCRバイナリ.exe Windowsインストーラーをダウンロードする必要があります。
Tesseract OCRの最新バージョンをダウンロードできる場所はたくさんあります。 One such place is from UB Mannheim, which is forked from tesseract-ocr/tesseract (Main Repository).
テッセラクト ウィキ
Download the tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 bit) Windows Installer.
macOSユーザーの場合、以下のいずれかのコマンドを使用してターミナルでTesseractをインストールできます。
brew install tesseract
brew install tesseract
sudo port install tesseract
sudo port install tesseract
2. Tesseract OCRをインストール
次に、前のステップでダウンロードした.exeファイルを使用してTesseractをインストールします。Tesseractインストールを開始するには.exeインストーラーを起動します。
インストーラーの言語
セットアップの解凍が完了すると、インストーラーの言語データダイアログが表示されます。 複数の言語を使用するために追加言語パックを選択してTesseractをインストールすることができますが、ここでは英語の言語データだけをインストールします。
Tesseractインストーラー
OKをクリックすると、Tesseract OCRのインストーラー言語が設定されます。
Tesseract OCR セットアップ
次に、セットアップウィザードが表示されます。 このセットアップウィザードは、WindowsのためのTesseractインストールをガイドします。
Tesseract OCR セットアップウィザード
インストールを続行するには次へをクリックします。
ライセンス契約の承諾
Tesseract OCRはApache License Version 2.0の下でライセンスされています。それはオープンソースであり、無料で使用できるため、ロイヤルティの懸念なしにTesseractのバージョンを再配布および変更することができます。
Tesseract OCRはApache License v2.0に基づいてライセンスされています。インストールを続行するには、このライセンスに同意してください。
I Agreeをクリックしてインストールを続行してください。
ユーザーの選択
複数のユーザーまたは単一のユーザーのいずれかに対してTesseractをインストールすることを選択できます。
現在のユーザー(あなた)またはすべてのユーザーアカウントにTesseract OCRをインストールすることを選択します
Tesseractと一緒にインストールするコンポーネントを選択するには次へをクリックします。
コンポーネントの選択
インストールするコンポーネントリストから、ScrollView、Training Tools、ショートカットの作成、言語データがデフォルトで選択されています。 デフォルトで選択されたオプションをすべて保持します。 必要に応じてどのコンポーネントでも選択したりスキップしたりできます。 通常、すべてをインストールする必要があります。
ここで、Tesseract OCRコンポーネントを含めるか除外するかを選択できます。最適な結果を得るには、デフォルトのコンポーネントを選択してインストールを続行してください。
次をクリックしてインストール場所を選択します。
インストール場所の選択
次に、Tesseractをインストールする場所を選択します。 宛先フォルダーのパスをコピーしておいてください。 これを後でマシンのパス環境変数にインストール場所を追加するために使用します。
Tesseract OCR ライブラリのインストール場所を選択し、後で使用するためにこの場所を覚えておきます。
次をクリックしてさらにTesseractのインストールを設定します。
スタートメニューフォルダーの選択
これは、スタートメニューにショートカットを作成する最後のステップです。 フォルダの名前は何でもかまいませんが、私はデフォルトのままにしました。
Tesseract OCRのスタートメニューフォルダの名前を選択します
今、インストールをクリックして、インストールが完了するのを待ちます。 インストールが完了すると、次の画面が表示されます。 完了をクリックすると、WindowsにTesseract OCRを正常にインストールしたことになります。
Tesseract OCRのインストールが完了しました。
3. インストールパスをシステム環境変数に追加
次に、TesseractのインストールパスをWindowsの環境変数に追加します。
スタートメニューに"環境変数"または"詳細なシステム設定"と入力します。
Windows のシステム プロパティ ダイアログ ボックス
システムプロパティ
システムプロパティダイアログボックスが開いたら、[詳細設定]タブをクリックし、画面の右下にある環境変数ボタンをクリックします。
環境変数ダイアログボックスが表示されます。
環境変数
システム変数の下で、Path 変数をクリックします。
Windowsのシステム環境変数にアクセスする
今、編集をクリックします。
WindowsインストールディレクトリへのTesseract OCRの追加
環境変数の編集 ダイアログボックスから、新規をクリックします。2番目のステップでコピーしたインストール場所パスを貼り付け、OKをクリックします。
WindowsのPathシステム環境変数を編集し、Tesseract OCRインストールへの絶対パスを含むエントリを追加します。
それだけです! これで、WindowsマシンにおけるTesseract OCRのダウンロード、インストール、および環境変数の設定が成功しました。
4. Tesseract OCRを実行します
WindowsでTesseract OCRが正常にインストールされ、環境変数に追加されたことを確認するために、Windowsマシンでコマンドプロンプト(cmd)を開き、"tesseract"コマンドを実行します。 すべてが正常に動作した場合、OCRやTesseractのバージョンなどの単一オプションを含む簡単な使用ガイドが表示される必要があります。
Windows コマンドライン(または Windows Powershell)で`tesseract`コマンドを実行し、上記のインストール手順が正しく実行されたことを確認します。コンソール出力は、Windows インストールが成功した場合の期待される結果です。
おめでとうございます! Windows用Tesseract OCRが正常にインストールされました。
IronOCRライブラリ
IronOCRは、画像やPDFドキュメントからテキストを識別して抽出することができる、Tesseractを基にしたC#ライブラリです。 それは.NETで純粋に構築されており、どこでも知られている最も高度なTesseractエンジンを使用しています。
NuGetパッケージマネージャでインストール
Visual StudioまたはNuGetパッケージマネージャーを使用してコマンドラインでIronOCRをインストールするのは簡単です。 Visual Studioでメニューオプションへ移動します:
ツール > NuGetパッケージマネージャ > パッケージマネージャコンソール
それから、コマンドラインで次のコマンドを入力します。
Install-Package IronOcr
これで簡単にIronOCRをインストールでき、IronOCRの真価を引き出すことができます。
異なるプラットフォーム向けに他のIronOCR NuGetパッケージをダウンロードすることもできます:
IronOCRとTesseract 5
以下のサンプルコードは、C#を使用してIronOCR Tesseractを使用して画像からテキストを読み取ってOCRを実行するのがいかに簡単かを示しています。
// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;
// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;
// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
' Import the IronOCR library
Imports IronOcr
' Create an instance of IronTesseract
Private Ocr = New IronTesseract()
Private Text As String = Ocr.Read("test-files/redacted-employmentapp.png").Text
' Output the extracted text to the console
Console.WriteLine(Text) ' Printed text
より堅牢なコードを希望する場合は、以下のコードがお役に立ちます:
// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
// Add an image to the input collection
Input.AddImage("test-files/redacted-employmentapp.png");
// You can add any number of images
// Read the OCR text from the input
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
}
// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
// Add an image to the input collection
Input.AddImage("test-files/redacted-employmentapp.png");
// You can add any number of images
// Read the OCR text from the input
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
}
' Import the IronOCR library
Imports IronOcr
' Create an instance of IronTesseract
Private Ocr = New IronTesseract()
' Using the OcrInput class to handle multiple images
Using Input = New OcrInput()
' Add an image to the input collection
Input.AddImage("test-files/redacted-employmentapp.png")
' You can add any number of images
' Read the OCR text from the input
Dim Result = Ocr.Read(Input)
' Output the extracted text to the console
Console.WriteLine(Result.Text)
End Using
入力画像
IronOCR処理のサンプル入力画像
出力画像
出力はコンソールに次のように表示されます:
サンプル画像に対して IronOCR を実行して返されたコンソール。
IronOCRを選ぶ理由
IronOCRはインストールが非常に簡単です。 完全でよく文書化された.NETソフトウェアライブラリを提供します。
IronOCRは、他のサードパーティライブラリやウェブサービスを必要とせずに99.8%のテキスト検出精度を達成します。
また、マルチスレッドサポートも提供します。 最も重要なのは、IronOCRは125以上の国際言語に対応できることです。
結論
このチュートリアルでは、Windowsマシン用にTesseract OCRをダウンロードしてインストールする方法を学びました。Tesseract OCRはC++開発者には優れたソフトウェアですが、いくつかの制限があります。 .NET向けには完全に開発されたわけではありません。 スキャンされた画像ファイルや写真に撮られた画像は、高解像度に標準化し、デジタルノイズを含まないように処理する必要があります。そうして初めてTesseractは正確に作業を行うことができます。
それに対して、IronOCRは、スキャンされても写真に撮られていても、提供されるいかなる画像にも、コード1行で対応します。 IronOCRもその内部OCRエンジンとしてTesseractを使用していますが、特にC#用に高性能で改良された機能を備え、Tesseractの長所を最大限に引き出すように微調整されています。
このリンクからIronOCRをダウンロードすることができます。




