ライブ環境でテストする
ウォーターマークなしで本番環境でテストしてください。
必要な場所でいつでも動作します。
Tesseractは、さまざまなオペレーティングシステムで使用できる光学文字認識エンジンです。 このソフトウェアは無償で提供され、Apacheライセンスの下でリリースされています。 このガイドでは、私がWindows 10マシンにTesseractをインストールするために行った手順を紹介します。メジャーバージョン5は現在の安定版であり、2021年11月30日にリリース5.0.0から始まりました。
言語データをインストールするには、次のコマンドを実行してください:sudo port install tesseract -<jp>
MacPorts TesseractページのHomebrewには言語コードのリストがあります。 Tesseract OCRをWindowsにインストールする最初のステップは、使用しているマシンのオペレーティングシステムに対応する.exeインストーラをダウンロードすることです。
次に、Tesseractのインストールを構成する必要があります。 自信があり、デフォルトの言語を英語に設定してWindows用のTesseract OCRを実行したい場合、すべてのデフォルトオプションを選択してインストール画面を進めると、問題なく実行できるはずです。
これは、ダイアログボックスと言語ヘルプ情報のための言語です。 必要に応じて、Tesseract OCR for Windowsを複数の言語で実行することができます。
Windows用Tesseract OCRのインストーラー言語
セットアップ画面では、インストールを続行する前に他のすべてのアプリケーションを閉じることを推奨しています。
Windows用Tesseract OCRのインストール画面。
次に、インストール先を選択します。 次のステップに進む前に、インストール場所を .txt ファイルにコピーしてください。インストールが完了したら、インストール場所をマシンの環境変数に追加する必要があります。
インストール場所を選択してください。
デフォルトでは、ScrollView、Training Tools、Shortcuts作成、およびLanguageデータがすべて選択されています。 特定の理由がない限り、これらすべてを選択したままにしておきます。
WindowsインストールコンポーネントのデフォルトのTesseract OCR
下にスクロールして「追加スクリプトデータ」を展開すると、追加のスクリプトデータをダウンロードおよびインストールするオプションがあることがわかります。 これは特定のスクリプト言語からのテキスト抽出の精度を向上させるのに役立ちます。 インストールするかどうかはあなた次第です。
オプションのスクリプトインストールコンポーネント。
インストールの最終ステップで、Windowsのショートカット用のTesseract OCRのスタートメニューフォルダーを選択するように求められます。 私はデフォルトの名前「Tesseract-OCR」に設定したままにしています。
Tesseract OCR for Windows ショートカット用のスタートメニューフォルダーを選択してください。
「インストール」をクリックすると、Tesseract OCR for Windowsのインストールが開始されます。 次のステップは、インストールパスをマシンの環境変数に追加することです。
インストール場所を環境変数に追加するには、スタートメニューに行き、『環境変数』を検索してください。 システム環境変数を編集するための結果が表示されるはずです。 以下の手順を使用することもできます:スタートメニュー > コントロールパネル > システム環境変数の編集。
'環境変数'の検索
「システムのプロパティ」ダイアログボックスが表示されたら、「詳細設定」タブがクリックされていることを確認し、画面の右下にある「環境変数」ボタンをクリックします。
システム変数の下にある編集ボタンをクリックします。
「環境変数の編集」画面が表示されたら、新規ボタンをクリックし、ステップ2でコピーしたTesseract OCRのインストールパスを貼り付けます。これが完了したら、‘OK’ボタンをクリックしてください。
以上です。! .exeインストーラーを実行し、Tesseract OCR for Windowsのインストール場所を環境変数に追加したので、テスト画像でTesseractを実行してインストールが正常に動作しているか確認できます。
Tesseract OCR for Windowsが正常にインストールされたことをテストするには、コンピュータでコマンドプロンプトを開き、Tesseract コマンドを実行してください。 出力には、Tesseractの使用オプションに関する簡単な説明が表示されるはずです。
Windows用Tesseract OCRのインストールが成功したか確認する
おめでとうございます! Tesseract OCR for Windowsのインストールに成功しました。
IronOCR 次のためにMac、Windows、Linux、Azure、Docker上でTesseract OCRを提供します:
.NET Core 2.0以降
.NET 5
macOS用Xamarin
IronOCRは、最新のTesseract 5エンジンを使用して、すべての主要な画像とPDF形式からテキスト、バーコード、およびQRコードを読み取ります。このライブラリは、デスクトップ、コンソール、およびWebアプリケーションに数分でOCR機能を追加します。 127以上の国際言語に対応しています。 ライセンス $749から始めます。
ダウンロード IronOCR DLL 直接あなたのマシンへ。
また、NuGetを介してインストールすることもできます。
Install-Package IronOcr
アプリケーションの起動時にIronOCRを使用する前に、このコードを追加してください。
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01"
キーが正しくインストールされているかテストしてください。
BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0");
BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0");
BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0")
プロジェクトを始めましょう
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Hundreds of languages available
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
OcrInput.Add(@"img\example.tiff")
// Input.DeNoise(); optional
// Input.Deskew(); optional
IronOcr.OcrResult Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
// Explore the OcrResult using IntelliSense
}
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Hundreds of languages available
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
OcrInput.Add(@"img\example.tiff")
// Input.DeNoise(); optional
// Input.Deskew(); optional
IronOcr.OcrResult Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
// Explore the OcrResult using IntelliSense
}
' PM > Install-Package IronOcr
' using IronOcr;
Dim Ocr = New IronTesseract()
' Hundreds of languages available
Ocr.Language = OcrLanguage.English
Using Input = New OcrInput()
OcrInput.Add("img\example.tiff") IronOcr.OcrResult Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
' ' Explore the OcrResult using IntelliSense
End Using
NuGetパッケージマネージャーを使用して、IronOCR NuGetパッケージをVisual Studioソリューションにインストールします。
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Hundreds of languages available
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
OcrInput.Add(@"img\example.tiff")
// Input.DeNoise(); optional
// Input.Deskew(); optional
IronOcr.OcrResult Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
// Explore the OcrResult using IntelliSense
}
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Hundreds of languages available
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
OcrInput.Add(@"img\example.tiff")
// Input.DeNoise(); optional
// Input.Deskew(); optional
IronOcr.OcrResult Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
// Explore the OcrResult using IntelliSense
}
' PM > Install-Package IronOcr
' using IronOcr;
Dim Ocr = New IronTesseract()
' Hundreds of languages available
Ocr.Language = OcrLanguage.English
Using Input = New OcrInput()
OcrInput.Add("img\example.tiff") IronOcr.OcrResult Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
' ' Explore the OcrResult using IntelliSense
End Using
IronOCRでは、TesseractのインストールはすべてNuGetパッケージマネージャーを使用して行われます。
Install-Package IronOcr
現在のところ、IronTesseractは .NET Framework または Coreのための唯一知られているTesseract 5 の実装です。
// using IronOcr;
var Ocr = new IronTesseract(); // nothing to configure
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// using IronOcr;
var Ocr = new IronTesseract(); // nothing to configure
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' using IronOcr;
Dim Ocr = New IronTesseract() ' nothing to configure
Using Input = New OcrInput("images\image.png")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4
Using Input = New OcrInput("images\image.png")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Tesseractが回転している、傾いている、低DPIの画像やスキャンされた画像、または背景ノイズがある画像に遭遇すると、その画像からデータを取得することはほぼ不可能になります。 さらに、Tesseractはそのドキュメントを処理するのに非常に長い時間がかかり、その後で無意味な情報を提供することになります。
IronOCRはこの悩みを取り除きます。 利用者は、最小限の構成で99.8-100%の精度を達成することが多いです。
Leptonica PIX 画像形式のみを受け入れ、これは C# の IntPtr C++ オブジェクトです。 PIXオブジェクトは管理メモリーではありません— C#で適切に取り扱わないとメモリーリークが発生します。
画像はメモリ管理されています。 PDFとTiffに対応。 システム。 すべてのファイル形式に対して、Drawing、Stream、およびByte Arrayが含まれています。
広範な画像サポート:
JPEG & JPEG2000 (ジェイペグ & ジェイペグ2000)
GIF
PNG
Google Tesseractは、適切に調整され、入力画像がPhotoshopやImageMagickを使用して前処理されている場合、迅速かつ正確な結果を得ることができます。
IronOCR .NET Tesseract DLLは、ほとんどの画像に対して、特に設定を行わなくても精度高く、かつ高速に動作します。 私たちは、現在ほとんどのマシンで使用されているマルチコアプロセッサを活用するためにマルチスレッドを実装しました。 低解像度の画像でも、あなたのプログラムで高精度に動作することが一般的です。 PhotoShopは不要です。 APIについて翻訳します。
API(Application Programming Interface)は、異なるソフトウェアアプリケーション間での通信を可能にする一連の定義およびプロトコルです。IronPDFやIronOCRなどのIron Software製品では、APIを利用してPDF操作やOCR処理などの機能をプログラム内から呼び出すことが可能です。次に、各主要製品のAPI概要を示します。
IronPDF for .NET APIを使用すると、.NETアプリケーションからPDFファイルの生成、編集、変換、保存が簡単に行えます。プログラマーは、HTMLや既存のPDFドキュメントから新しいPDFを生成したり、既存のPDFを操作したりすることができます。
IronOCR for .NET APIを使用すると、画像やPDFからテキストを抽出することができます。このAPIは、高精度な光学文字認識(OCR)機能を提供し、プログラム内での簡単なテキスト抽出を可能にします。
IronXL for .NET APIは、.NETアプリケーションからExcelファイルの読み書きを行うための強力なツールです。Excelファイルの生成、編集、ならびにデータの解析が簡単に実装できます。
IronBarcode for .NET APIを使用すると、バーコードの生成と読み取りが可能です。様々なバーコード形式をサポートし、迅速かつ正確なバーコード処理を実現します。
IronQR for .NET APIは、QRコードの生成およびデコードをするためのツールです。QRコードを簡単に作成し、それを用いてデータの共有や保存を効率化します。
IronZIP for .NET APIを利用して、ZIPファイルの作成、展開、操作を行うことができます。圧縮・解凍作業を簡潔に行えるため、ファイル管理が容易になります。
IronWord for .NET APIは、Word文書(.docx)の生成、編集、読み取りをシンプルに行うための機能を提供します。テキスト、イメージ、テーブルの操作など、多岐にわたる操作が可能です。
IronWebscraper for .NET APIを使用すると、ウェブからデータを効率的に抽出できます。ウェブスクレイピング作業を自動化し、必要な情報を迅速に収集できます。
Iron Softwareの各製品は、各言語に特化したAPIを提供しており、それらを活用することで、より効率的で高性能なアプリケーション開発が可能となります。
無料で2つの選択肢があります:
Tesseract用の管理およびテスト済みの.NETライブラリであるIronTesseract。
IntelliSenseサポートが付いた完全なドキュメント。
100言語のみサポート。
127以上の言語に対応。
TesseractはC++開発者にとって優れたリソースですが、.NETにとって完全なOCRライブラリではありません。 スキャンされた画像や撮影された画像は、Tesseract が正確に動作できるように、直交、標準化、高解像度、およびデジタルノイズがない状態に処理される必要があります。
それに対して、IronOCRはわずか1行のコードでこれをはじめ、さらに多くのことができます。 IronOCRが使用されることは事実です テッセラクト その内部OCRエンジンには、C#用に構築された非常に細かく調整されたTesseractを使用しており、標準として多くのパフォーマンス向上および機能が追加されています。
9つの .NET API製品 オフィス文書用