透かしなしで本番環境でテストしてください。
必要な場所で動作します。
30日間、完全に機能する製品をご利用いただけます。
数分で稼働させることができます。
製品トライアル期間中にサポートエンジニアリングチームへの完全アクセス
Tesseractは、さまざまなオペレーティングシステムで使用できる光学文字認識エンジンです。 このソフトウェアは無償で提供され、Apacheライセンスの下でリリースされています。 このガイドでは、私がWindows 10マシンにTesseractをインストールするために行った手順を紹介します。メジャーバージョン5は現在の安定版であり、2021年11月30日にリリース5.0.0から始まりました。
言語データをインストールするには:sudo port install tesseract -<langcode>
言語コードのリストは、MacPorts TesseractページのHomebrewにあります。 Tesseract OCRをWindowsにインストールする最初のステップは、使用しているマシンのオペレーティングシステムに対応する.exeインストーラをダウンロードすることです。
次に、Tesseractのインストールを構成する必要があります。 自信があり、デフォルトの言語を英語に設定してWindows用のTesseract OCRを実行したい場合、すべてのデフォルトオプションを選択してインストール画面を進めると、問題なく実行できるはずです。
これは、ダイアログボックスと言語ヘルプ情報のための言語です。 必要に応じて、Tesseract OCR for Windowsを複数の言語で実行することができます。
Windows用Tesseract OCRのインストーラー言語
セットアップ画面では、インストールを続行する前に他のすべてのアプリケーションを閉じることを推奨しています。
Windows用Tesseract OCRのインストール画面。
次に、インストール先を選択します。 次のステップに進む前に、インストール場所を .txt ファイルにコピーしてください。インストールが完了したら、インストール場所をマシンの環境変数に追加する必要があります。
インストール場所を選択してください。
デフォルトでは、ScrollView、Training Tools、Shortcuts作成、およびLanguageデータがすべて選択されています。 特定の理由がない限り、これらすべてを選択したままにしておきます。
WindowsインストールコンポーネントのデフォルトのTesseract OCR
下にスクロールして「追加スクリプトデータ」を展開すると、追加のスクリプトデータをダウンロードおよびインストールするオプションがあることがわかります。 これは特定のスクリプト言語からのテキスト抽出の精度を向上させるのに役立ちます。 インストールするかどうかはあなた次第です。
オプションのスクリプトインストールコンポーネント。
インストールの最終ステップで、Windowsのショートカット用のTesseract OCRのスタートメニューフォルダーを選択するように求められます。 私はデフォルトの名前「Tesseract-OCR」に設定したままにしています。
Tesseract OCR for Windows ショートカット用のスタートメニューフォルダーを選択してください。
「インストール」をクリックすると、Tesseract OCR for Windowsのインストールが開始されます。 次のステップは、インストールパスをマシンの環境変数に追加することです。
インストール場所を環境変数に追加するには、スタートメニューに行き、『環境変数』を検索してください。 システム環境変数を編集するための結果が表示されるはずです。 それ以外の場合は、次の手順を使用できます: スタートメニュー > コントロールパネル > システム環境変数の編集。
'環境変数'の検索
「システムのプロパティ」ダイアログボックスが表示されたら、「詳細設定」タブがクリックされていることを確認し、画面の右下にある「環境変数」ボタンをクリックします。
システム変数の下で、編集 ボタンをクリックします。
「環境変数の編集」画面が表示されたら、新規ボタンをクリックし、ステップ2でコピーしたTesseract OCRのインストールパスを貼り付けます。これが完了したら、「OK」ボタンをクリックします。
以上です! .exeインストーラーを実行し、Tesseract OCR for Windowsのインストール場所を環境変数に追加したので、テスト画像でTesseractを実行してインストールが正常に動作しているか確認できます。
Windows向けTesseract OCRが正常にインストールされたかどうかをテストするには、マシンでコマンドプロンプトを開き、Tesseractコマンドを実行してください。 出力には、Tesseractの使用オプションに関する簡単な説明が表示されるはずです。
Windows用Tesseract OCRのインストールが成功したか確認する
おめでとうございます! Tesseract OCR for Windowsのインストールに成功しました。
IronOCRは、Mac、Windows、Linux、Azure、Docker上でTesseract OCRを提供します:
macOS用Xamarin
IronOCRは、最新のTesseract 5エンジンを使用して、すべての主要な画像とPDF形式からテキスト、バーコード、およびQRコードを読み取ります。このライブラリは、デスクトップ、コンソール、およびWebアプリケーションに数分でOCR機能を追加します。 127以上の国際言語に対応しています。 ライセンスは$749から始まります。
IronOcr DLLを直接あなたのマシンにダウンロードしてください。
また、NuGetを介してインストールすることもできます。
Install-Package IronOcr
アプリケーションの起動時にIronOCRを使用する前に、このコードを追加してください。
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01"
キーが正しくインストールされているかテストしてください。
BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0");
BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0");
BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0")
プロジェクトを始めましょう
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Hundreds of languages available
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
OcrInput.Add(@"img\example.tiff")
// Input.DeNoise(); optional
// Input.Deskew(); optional
IronOcr.OcrResult Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
// Explore the OcrResult using IntelliSense
}
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Hundreds of languages available
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
OcrInput.Add(@"img\example.tiff")
// Input.DeNoise(); optional
// Input.Deskew(); optional
IronOcr.OcrResult Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
// Explore the OcrResult using IntelliSense
}
' PM > Install-Package IronOcr
' using IronOcr;
Dim Ocr = New IronTesseract()
' Hundreds of languages available
Ocr.Language = OcrLanguage.English
Using Input = New OcrInput()
OcrInput.Add("img\example.tiff") IronOcr.OcrResult Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
' ' Explore the OcrResult using IntelliSense
End Using
NuGetパッケージマネージャーを使用して、IronOCR NuGetパッケージをVisual Studioソリューションにインストールします。
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Hundreds of languages available
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
OcrInput.Add(@"img\example.tiff")
// Input.DeNoise(); optional
// Input.Deskew(); optional
IronOcr.OcrResult Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
// Explore the OcrResult using IntelliSense
}
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Hundreds of languages available
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
OcrInput.Add(@"img\example.tiff")
// Input.DeNoise(); optional
// Input.Deskew(); optional
IronOcr.OcrResult Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
// Explore the OcrResult using IntelliSense
}
' PM > Install-Package IronOcr
' using IronOcr;
Dim Ocr = New IronTesseract()
' Hundreds of languages available
Ocr.Language = OcrLanguage.English
Using Input = New OcrInput()
OcrInput.Add("img\example.tiff") IronOcr.OcrResult Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
' ' Explore the OcrResult using IntelliSense
End Using
IronOCRでは、TesseractのインストールはすべてNuGetパッケージマネージャーを使用して行われます。
Install-Package IronOcr
現在のところ、IronTesseractは .NET Framework または Coreのための唯一知られているTesseract 5 の実装です。
// using IronOcr;
var Ocr = new IronTesseract(); // nothing to configure
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// using IronOcr;
var Ocr = new IronTesseract(); // nothing to configure
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' using IronOcr;
Dim Ocr = New IronTesseract() ' nothing to configure
Using Input = New OcrInput("images\image.png")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4
Using Input = New OcrInput("images\image.png")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Tesseractが回転している、傾いている、低DPIの画像やスキャンされた画像、または背景ノイズがある画像に遭遇すると、その画像からデータを取得することはほぼ不可能になります。 さらに、Tesseractはそのドキュメントを処理するのに非常に長い時間がかかり、その後で無意味な情報を提供することになります。
IronOCRはこの悩みを取り除きます。 利用者は、最小限の構成で99.8-100%の精度を達成することが多いです。
Leptonica PIX 画像形式のみを受け入れ、これは C# の IntPtr C++ オブジェクトです。 PIXオブジェクトは管理メモリーではありません— C#で適切に取り扱わないとメモリーリークが発生します。
画像はメモリ管理されています。 PDFとTiffに対応。 システム。 すべてのファイル形式に対して、Drawing、Stream、およびByte Arrayが含まれています。
幅広い画像サポート:
Google Tesseractは、適切に調整され、入力画像がPhotoshopやImageMagickを使用して前処理されている場合、迅速かつ正確な結果を得ることができます。
IronOCR .NET Tesseract DLLは、ほとんどの画像に対して正確かつ迅速に動作します。 私たちは、現在ほとんどのマシンで使用されているマルチコアプロセッサを活用するためにマルチスレッドを実装しました。 低解像度の画像でも、あなたのプログラムで高精度に動作することが一般的です。 PhotoShopは不要です。
無料で2つの選択肢があります:
Tesseract用の管理およびテスト済みの.NETライブラリであるIronTesseract。
IntelliSenseサポートが付いた完全なドキュメント。
100言語のみサポート。
127以上の言語に対応。
TesseractはC++開発者にとって優れたリソースですが、.NETにとって完全なOCRライブラリではありません。 スキャンされた画像や撮影された画像は、Tesseract が正確に動作できるように、直交、標準化、高解像度、およびデジタルノイズがない状態に処理される必要があります。
それに対して、IronOCRはわずか1行のコードでこれをはじめ、さらに多くのことができます。 IronOCRがその内部OCRエンジンとしてTesseractを使用しているのは事実です。それは非常に微調整されたTesseractであり、C#用に構築され、多くのパフォーマンス向上や機能が標準で追加されています。