ライブ環境でテストする
ウォーターマークなしで本番環境でテストしてください。
必要な場所でいつでも動作します。
IronOCRやTesseractのようなライブラリを活用することで、開発者は画像やスキャンされたドキュメントからテキスト情報を抽出するための高度なアルゴリズムや機械学習技術にアクセスできます。 このチュートリアルでは、読者にTesseractライブラリを使用して画像からテキストを抽出する方法を紹介し、その後、IronOCRの独自のアプローチを紹介します。
1.1. Tesseractのインストール
NuGet パッケージ マネージャー コンソールを使用して、次のコマンドを入力してください。
Install-Package Tesseract
あるいは、NuGetパッケージマネージャーを通じてパッケージをダウンロードしてください。
NuGetパッケージマネージャーでTesseract
パッケージをインストールする
NuGetパッケージをインストールした後、プロジェクトフォルダーに言語ファイルを手動でインストールして保存する必要があります。 これは、この特定のライブラリの欠点と見なすことができます。
以下をご覧くださいウェブサイト言語ファイルをダウンロードするために。 ダウンロードが完了したら、ファイルを解凍し、「tessdata」フォルダーをプロジェクトのデバッグフォルダーに追加してください。
以下のソースコードを使用して、指定された画像上でOCRを実行することができます:
using Tesseract;
var ocrEngine = new TesseractEngine(@"tessdata", "eng", EngineMode.Default);
var img = Pix.LoadFromFile("Demo.png");
var res = ocrEngine.Process(img);
Console.WriteLine(res.GetText());
Console.ReadKey();
using Tesseract;
var ocrEngine = new TesseractEngine(@"tessdata", "eng", EngineMode.Default);
var img = Pix.LoadFromFile("Demo.png");
var res = ocrEngine.Process(img);
Console.WriteLine(res.GetText());
Console.ReadKey();
Imports Tesseract
Private ocrEngine = New TesseractEngine("tessdata", "eng", EngineMode.Default)
Private img = Pix.LoadFromFile("Demo.png")
Private res = ocrEngine.Process(img)
Console.WriteLine(res.GetText())
Console.ReadKey()
まず、TerreractEngine
オブジェクトを作成し、エンジンに言語データをロードする必要があります。その後、Tesseract Pixを使って、目的の画像ファイルをロードします。 次に、この画像を TerreractEngine
に渡して、TesseractEngine
に用意されている GetText
メソッドを使用して、正しい認識テキストを抽出します。 これはコードからの出力です。
画像から抽出されたテキスト
Tesseractは、バージョン3.00からテキストのフォーマット出力、OCRの位置データ、およびページレイアウト分析をサポートしています。
TesseractはWindows、Linux、Mac OS Xで利用可能です。 しかし、Tesseractは限られた開発サポートのため、WindowsおよびUbuntuでのみ意図したとおりに動作することが確認されています。
テッセラクトはモノスペーステキストとプロポーショナルスペーステキストを区別することができます。
OCRopusのようなフロントエンドを利用すると、Tesseractはバックエンドとして理想的であり、レイアウト解析のようなより困難なOCR作業に活用できます。
Tesseractの欠点のいくつか:
最新のビルドは、Windows上でコンパイルするように設計されていません。
TesseractをC#で学ぶには、こちらをご覧くださいテッセラクトのチュートリアル.
次のコマンドをNuGetパッケージマネージャーコンソールに入力してください。
Install-Package IronOcr
NuGetパッケージマネージャーを介してIronOCRライブラリをインストールするか、他の言語向けの追加パッケージをインストールしてください。これらはシンプルで便利に使用できます。
NuGetパッケージマネージャーを使用してIronOCRおよび言語パッケージをインストール
以下は、指定された画像からテキストを認識するためのサンプルコードです。
var ocr = new IronTesseract();
ocr.Language = OcrLanguage.EnglishBest;
ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var input = new OcrInput())
{
input.LoadImage(@"Demo.png");
var result = ocr.Read(input);
Console.WriteLine(result.Text);
Console.ReadKey();
}
var ocr = new IronTesseract();
ocr.Language = OcrLanguage.EnglishBest;
ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var input = new OcrInput())
{
input.LoadImage(@"Demo.png");
var result = ocr.Read(input);
Console.WriteLine(result.Text);
Console.ReadKey();
}
Dim ocr = New IronTesseract()
ocr.Language = OcrLanguage.EnglishBest
ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
Using input = New OcrInput()
input.LoadImage("Demo.png")
Dim result = ocr.Read(input)
Console.WriteLine(result.Text)
Console.ReadKey()
End Using
上記のコードは、インスタンスを作成しますIronTesseract
オブジェクト さらに、OcrInput(OCR入力)1つまたは複数の画像ファイルを追加するために、オブジェクトが作成され、ローカルファイルパスが提供されます。LoadImage
メソッド。 好きなだけ写真をアップロードできます。 機能性`読取 (読み取り)もちろん、英語のテキストを教えていただけますでしょうか?オブジェクト内IronTesseract
画像ファイルを解析し、結果をOCR結果に抽出します。
IronOCRライブラリを使用して抽出されたテキスト出力
IronOCRは、Tesseractライブラリの拡張であり、より高い安定性と精度を提供します。
IronOCRは、テキストコンテンツを読み取ることができますPDFファイル写真も含め、IronOCRは20種類以上の distinct が読めるバーコードおよびQRコード。
出力はプレーンテキスト、構造化データ、バーコード、またはQRコードとしてレンダリングすることができます。
ライブラリは認識します世界中で127言語.
IronOCRはすべての.NET環境で柔軟に動作します。(コンソール、Web、デスクトップなど)およびMonoやXamarinなどの最新のモバイルフレームワークもサポートしています。Azure (アジュール)(Azure (アジュール))、およびMAUI.
IronOCRは無料試用開発版がより低価格で提供されています。 学ぶライセンスについて詳しく知る.
詳細なIronOCRチュートリアルについては、こちらをご参照くださいこの記事では、C#で画像からテキストを読み取る方法について説明します。.
9つの .NET API製品 オフィス文書用