ライブ環境でテストする
ウォーターマークなしで本番環境でテストしてください。
必要な場所でいつでも動作します。
Tesseractは、Apacheライセンス契約のもとでリリースされたオープンソースのソフトウェアライブラリです。 それは元々、1980年代にヒューレット・パッカードによって開発されました。 これは、主に画像からテキストを識別および抽出するために使用されるテキスト認識ツールです。 Tesseract OCRは、この機能を実行するためのコマンドプロンプトインターフェースを提供します。
Windows用Tesseractインストーラーをダウンロード
Tesseract OCRをインストール
環境変数にインストールパスを追加
WindowsでTesseractコマンドを使用するには、まずTesseract OCRバイナリ.exe Windowsインストーラーをダウンロードする必要があります。
最新バージョンのTesseract OCRをダウンロードできる場所はたくさんあります。 次のような場所は マンハイム大学フォークから tesseract-ocr/tesseract (メインリポジトリ).
ダウンロード tesseract-ocr-w64-setup-5.3.0.20221222.exe (64ビット)Windows インストーラー
macOSでは、以下のコマンドのいずれかを使用してTesseractをPythonプロンプトにインストールできます:
brew install tesseract
sudo port install tesseract
次に、前のステップでダウンロードした .exe ファイルを使用して Tesseract をインストールします。Tesseract のインストールを開始するには、.exe インストーラーを起動します。
セットアップの解凍が完了すると、インストーラーの言語データダイアログが表示されます。 複数の言語を使用するために追加の言語パックを選択することでTesseractをインストールできますが、ここでは英語の言語データのみをインストールします。
「OK」をクリックすると、Tesseract OCRのインストーラーの言語が設定されます。
次に、セットアップウィザードが表示されます。 このセットアップウィザードは、Windows用のTesseractインストールをガイドします。
次へをクリックしてインストールを続行してください。
Tesseract OCRは、Apache License Version 2.0の下でライセンスされています。オープンソースで無料で使用できるため、ロイヤリティの心配なくTesseractのバージョンを再配布および修正することができます。
インストールを続行するには、同意するをクリックしてください。
Tesseractを複数のユーザーまたは単一のユーザーのためにインストールすることができます。
次へをクリックして、Tesseractと一緒にインストールするコンポーネントを選択してください。
インストールするコンポーネントリストから、ScrollView、トレーニングツール、ショートカット作成、および言語データがデフォルトで選択されています。 デフォルトで選択されているオプションをすべて保持します。 ニーズに応じて、任意のコンポーネントを選択するか、スキップすることができます。 通常、すべてをインストールする必要があります。
次へをクリックしてインストール場所を選択します。
次に、Tesseractをインストールする場所を選択します。 宛先フォルダのパスをコピーしてください。 後でインストール場所をマシンのパス環境変数に追加するためにこれが必要になります。
次へをクリックして、Tesseractのインストールをさらに設定してください。
これが最後のステップで、スタートメニューにショートカットを作成します。 フォルダーは任意の名前に設定できますが、デフォルトのままにしてあります。
今すぐ「インストール」をクリックし、インストールが完了するまで待ちます。 インストールが完了すると、次の画面が表示されます。 「完了」をクリックすると、WindowsへのTesseract OCRのインストールが無事終了します。
次に、TesseractのインストールパスをWindowsの環境変数に追加します。
スタートメニューで「環境変数」または「システムの詳細設定」と入力してください
システムのプロパティ ダイアログ ボックスが開いたら、[詳細設定] をクリックし、画面の右下にある [環境変数] ボタンをクリックします。
環境変数のダイアログボックスが表示されます。
「システム変数」内で、「Path」変数をクリックします。
それでは、編集をクリックしてください。
環境変数の編集 ダイアログボックスから、新規 をクリックします。第2ステップでコピーされたインストール場所パスを貼り付け、OKをクリックします。
以上です! WindowsマシンでTesseract OCRをダウンロード、インストールし、環境変数を設定することに成功しました。
Tesseract OCR for Windows が正常にインストールされ、環境変数に追加されたことを確認するには、コマンドプロンプトを開いてください。(cmd(コマンドプロンプト))Windowsマシンで「tesseract」コマンドを実行してください。 すべてが正常に動作した場合、OCRやTesseractバージョンなどの単一オプションを含む簡単な使用ガイドが表示されるはずです。
おめでとうございます! Tesseract OCRをWindowsに正常にインストールしました。
IronOCRは、TesseractベースのC#ライブラリであり、.NETソフトウェア開発者が画像やPDFドキュメントからテキストを識別し、抽出することを可能にします。 それは .NET で完全に構築されており、どこでも知られている最も先進的な Tesseract エンジンを使用しています。
Visual Studio に IronOCR をインストールするか、NuGet Package Manager を使用してコマンドラインからインストールするのは非常に簡単です。 Visual Studio で、メニューオプションに移動します:
ツール > NuGet パッケージマネージャー > パッケージマネージャーコンソール
次に、コマンドラインで以下のコマンドを入力してください:
Install-Package IronOcr
これでIronOCRを簡単にインストールでき、これからその機能を最大限に引き出すことができます。
また、他のプラットフォーム向けのIronOCR NuGetパッケージもダウンロードできます。
以下のサンプルコードは、IronOCR Tesseractを使用して画像からテキストを読み取り、C#でOCRを実行することがいかに簡単であるかを示しています。
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
Dim Text As String = (New IronTesseract()).Read("test-files/redacted-employmentapp.png").Text
Console.WriteLine(Text) ' Printed text
より堅牢なコードを求めるのであれば、以下の内容が同じタスクの達成に役立つでしょう:
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/redacted-employmentapp.png");
// you can add any number of images
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/redacted-employmentapp.png");
// you can add any number of images
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddImage("test-files/redacted-employmentapp.png")
' you can add any number of images
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
出力はコンソールに次のように表示されます:
IronOCRのインストールは非常に簡単です。 それは、完全で詳細に文書化された.NETソフトウェアライブラリを提供します。
IronOCRは、他のサードパーティライブラリやウェブサービスを必要とせずに、99.8%の文字検出精度を達成します。
また、マルチスレッドサポートも提供しています。 最も重要なことは、IronOCRは125以上の国際言語に対応できることです。
このチュートリアルでは、Tesseract OCRをWindowsマシンにダウンロードおよびインストールする方法を学びました。Tesseract OCRはC++ 開発者にとって優れたソフトウェアですが、いくつかの制限があります。 それは .NET 用に完全に開発されているわけではありません。 スキャンされた画像ファイルや撮影された画像は、高解像度に処理・標準化され、デジタルノイズが除去されている必要があります。その状態で初めて、Tesseractは正確に動作できます。
対照的に、IronOCRはスキャンされたものでも撮影されたものでも、提供された任意の画像に対して、たった一行のコードで動作できます。 IronOCR は内部OCRエンジンとしてTesseractを使用していますが、特にC#向けに構築されており、Tesseractのパフォーマンスを最大限に引き出すために非常に細かく調整されています。これにより、高いパフォーマンスと改善された機能が提供されます。
このリンクからIronOCRソフトウェア製品をダウンロードできますリンク.
9つの .NET API製品 オフィス文書用