透かしなしで本番環境でテストしてください。
必要な場所で動作します。
30日間、完全に機能する製品をご利用いただけます。
数分で稼働させることができます。
製品トライアル期間中にサポートエンジニアリングチームへの完全アクセス
IronOCRやTesseractのようなライブラリを活用することで、開発者は画像やスキャンされたドキュメントからテキスト情報を抽出するための高度なアルゴリズムや機械学習技術にアクセスできます。 このチュートリアルでは、読者にTesseractライブラリを使用して画像からテキストを抽出する方法を紹介し、その後、IronOCRの独自のアプローチを紹介します。
1.1. Tesseractのインストール
NuGet パッケージ マネージャー コンソールを使用して、次のコマンドを入力してください。
Install-Package Tesseract
あるいは、NuGetパッケージマネージャーを通じてパッケージをダウンロードしてください。
NuGet パッケージ マネージャーで Tesseract
パッケージをインストール
NuGetパッケージをインストールした後、プロジェクトフォルダーに言語ファイルを手動でインストールして保存する必要があります。 これは、この特定のライブラリの欠点と見なすことができます。
ウェブサイトにアクセスして、言語ファイルをダウンロードしてください。 ダウンロードが完了したら、ファイルを解凍し、「tessdata」フォルダーをプロジェクトのデバッグフォルダーに追加してください。
以下のソースコードを使用して、指定された画像上でOCRを実行することができます:
using Tesseract;
var ocrEngine = new TesseractEngine(@"tessdata", "eng", EngineMode.Default);
var img = Pix.LoadFromFile("Demo.png");
var res = ocrEngine.Process(img);
Console.WriteLine(res.GetText());
Console.ReadKey();
using Tesseract;
var ocrEngine = new TesseractEngine(@"tessdata", "eng", EngineMode.Default);
var img = Pix.LoadFromFile("Demo.png");
var res = ocrEngine.Process(img);
Console.WriteLine(res.GetText());
Console.ReadKey();
Imports Tesseract
Private ocrEngine = New TesseractEngine("tessdata", "eng", EngineMode.Default)
Private img = Pix.LoadFromFile("Demo.png")
Private res = ocrEngine.Process(img)
Console.WriteLine(res.GetText())
Console.ReadKey()
まず、TerreractEngine
オブジェクトを作成し、エンジンに言語データをロードする必要があります。その後、Tesseract Pixの助けを借りて、目的の画像ファイルをロードします。 その後、この画像はTerreractEngine
に渡され、TesseractEngine
で利用可能なGetText
メソッドを使用して、正しく認識されたテキストを抽出します。 これはコードからの出力です。
画像から抽出されたテキスト
Tesseractは、バージョン3.00からテキストのフォーマット出力、OCRの位置データ、およびページレイアウト分析をサポートしています。
TesseractはWindows、Linux、Mac OS Xで利用可能です。 しかし、Tesseractは限られた開発サポートのため、WindowsおよびUbuntuでのみ意図したとおりに動作することが確認されています。
テッセラクトはモノスペーステキストとプロポーショナルスペーステキストを区別することができます。
OCRopusのようなフロントエンドを利用すると、Tesseractはバックエンドとして理想的であり、レイアウト解析のようなより困難なOCR作業に活用できます。
Tesseractの欠点のいくつか:
最新のビルドは、Windows上でコンパイルするように設計されていません。
C#でのTesseractについて詳細を知りたい方は、Tesseractチュートリアルをご覧ください。
次のコマンドをNuGetパッケージマネージャーコンソールに入力してください。
Install-Package IronOcr
NuGetパッケージマネージャーを介してIronOCRライブラリをインストールするか、他の言語向けの追加パッケージをインストールしてください。これらはシンプルで便利に使用できます。
NuGetパッケージマネージャーを通じてIronOCRおよび言語パッケージをインストール
以下は、指定された画像からテキストを認識するためのサンプルコードです。
var ocr = new IronTesseract();
ocr.Language = OcrLanguage.EnglishBest;
ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var input = new OcrInput())
{
input.LoadImage(@"Demo.png");
var result = ocr.Read(input);
Console.WriteLine(result.Text);
Console.ReadKey();
}
var ocr = new IronTesseract();
ocr.Language = OcrLanguage.EnglishBest;
ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var input = new OcrInput())
{
input.LoadImage(@"Demo.png");
var result = ocr.Read(input);
Console.WriteLine(result.Text);
Console.ReadKey();
}
Dim ocr = New IronTesseract()
ocr.Language = OcrLanguage.EnglishBest
ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
Using input = New OcrInput()
input.LoadImage("Demo.png")
Dim result = ocr.Read(input)
Console.WriteLine(result.Text)
Console.ReadKey()
End Using
上記のコードはIronTesseract
オブジェクトをインスタンス化します。 さらに、ローカルファイルパスを持つ画像ファイルを1つ以上追加するために、OcrInput
オブジェクトが作成されており、LoadImage
メソッドで行われます。 好きなだけ写真をアップロードできます。 機能 Read
はオブジェクト IronTesseract
内で画像ファイルを解析し、結果をOCRの結果として抽出します。
IronOCRライブラリを使用した抽出テキスト出力
IronOCRは、Tesseractライブラリの拡張であり、より高い安定性と精度を提供します。
IronOCRは、PDFや写真からテキストコンテンツを読み取ることができます。また、IronOCRは20種類以上のバーコードやQRコードを読み取ることもできます。
出力はプレーンテキスト、構造化データ、バーコード、またはQRコードとしてレンダリングすることができます。
ライブラリは世界中で127の言語を認識します。
IronOCRは、すべての.NET環境(コンソール、Web、デスクトップなど)で柔軟に動作し、Mono、Xamarin、Azure、およびMAUIといった最新のモバイルフレームワークもサポートしています。
IronOCRは無料トライアルを提供しており、より低価格な開発版があります。 ライセンスについて詳細を学ぶ。
詳細なIronOCRチュートリアルについては、この記事をご参照ください。C#で画像からテキストを読み取ります。