IronOCRの特徴
IronOCRは、開発者が画像からテキストやバーコードをスキャンして読み取ることができる.NETライブラリです。
互換性
.NET言語
- C# (チュートリアル API リファレンス
- 画像(jpg、png、gif、tiff、bmp)からテキストやバーコードをスキャンして読み取ることをC#で行います。
- VB.NET
- VB.NETで画像(jpg、png、gif、tiff、bmp)からテキストやバーコードをスキャンして読み取ります。
-
F#
- F#で画像(jpg、png、gif、tiff、bmp)からテキストやバーコードをスキャンして読み取ります。
プラットフォーム
- .NET 5, 6, 7, および 8 (チュートリアル)
- IronOCRは、.NET 5、6、7、および8に対応しています。
-
.NET Core 2 および 3 (チュートリアル)
-
IronOCRは、.NET Core 2および3で利用可能です。
- 現在のリリースは、Linux、Unix、macOSクライアントオペレーティングシステム、ならびにMono上で.NET Coreをサポートしています。
-
- 将来的なリリースでは、MAUIおよびXamarinをサポートします。
- .NET Standard 2+ (API リファレンス)
- IronOCRは.NET Standard 2およびそれ以降のバージョンと互換性があります。
-
.NET Framework 4.6.2+ (コード例 APIリファレンス
- .NET Framework 4.6.2以上で画像からテキストやバーコードをスキャンおよび読み取ります。
アプリの種類
-
コンソール、ウェブ、デスクトップ (チュートリアル API リファレンス
- IronOCR を使用して、Web、デスクトップ、およびコンソール向けのアプリを作成します。
オペレーティングシステム
IDE(統合開発環境)
- Microsoft Visual Studio (チュートリアル)
- Jetbrains ReSharper と Rider
認証
-
Microsoft Authenticode
- DigiCert Trusted G4 コードサイニング RSA4096 SHA384 2021 CA1
OCRエンジン
基盤となるOCRエンジン
- Tesseract 5 (チュートリアル コード例
- Tesseractは、Apache 2.0ライセンスの下で利用可能なオープンソースのテキスト認識(OCR)エンジンです。 C#.NET向けに最も正確で高速なライブラリの1つが利用可能です。 現在、Tesseract 5は最も安定したバージョンです。
-
詳細な構成 (コード例)
-
IronTesseract.Configuration
オブジェクトは、高度なユーザー向けにセットアップを構成するための C# / .NET における基盤となる Tesseract API へのアクセスを提供します。 -
セットアップは、OCRを実行した後の出力を改善するのに役立ちます。
- OCRの速度を向上させるには、こちらのコード例で高速OCR設定を確認してください。
-
国際的な言語
テキストとバーコード読み取り
専門文書
このメソッドは機械学習を使用してテキスト認識を強化します。
- スキャンされた文書 (方法 コード例
- スキャンされた文書やテキストが多い紙の文書の写真を読むために最適化されています。
- ドキュメント内の表 (方法 コード例
- 明確なアウトラインを備えた表を含むドキュメントに最適化されています。
- ナンバープレート (方法 コード例)
- 写真からナンバープレートを読み取るために最適化されています。
- パスポート (ハウツー コード例
- 機械読取領域(MRZ)内容をスキャンして、写真からパスポート情報を読み取り、抽出するように最適化されています。
- 写真 (方法) コード例
- 読み取りにくいテキストを含む画像の読み取りに最適化されています。
-
- スクリーンショットに含まれる読みづらいテキストの読み取りに最適化されています。
同時実行
- シングルスレッドとマルチスレッド (ハウツー コード例
- 非同期サポート (方法 APIリファレンス
- 中止トークン (コード例)
- プログラムやアプリケーションが実行中に大きな入力ファイルの読み込みで停止が発生する場合、指定されたミリ秒の間現在のスレッドを中断することをユーザーに許可します。
-
タイムアウト (コード例)
- OCR読み取りがキャンセルされるまでのオプションのタイムアウトをミリ秒単位で提供します。
コンピュータビジョン
- 高度に訓練されたモデルを基に、コンピュータビジョンを使用してテキストを検出します。 IronOCRは、OpenCVを利用して、画像内にテキストが存在する領域をコンピュータビジョンで検出します。 これは、多くのノイズが含まれている画像、異なる場所にテキストがある画像、およびテキストが湾曲している画像に役立ちます。 IronOCRでのコンピュータビジョンの使用により、テキスト領域がどこに存在するかが判定され、その領域を読み取るためにTesseractが使用されます。
OCR入力
さまざまな形式から読み取る
- 画像 (jpg, png, gif, tiff, bmp) (方法 コード例
- マルチページおよびフレームTIFFとGIFファイル (ハウツー コード例
- System.Drawing オブジェクト (方法 コード例
- ストリーム (ハウツー) コード例
- PDF (方法 コード例
フィルター
- フィルターウィザード (コード例 API リファレンス
- 画像にどのフィルターを適用すべきか分からない場合、Filter WizardはOCR入力に適したフィルターのリストを、最大の自信を持つ組み合わせを返すブルートフォース法を用いて提供します。
-
OCR画像フィルター (使い方ガイド チュートリアル コード例
-
シャープン
(API 参照)* ぼやけたOCRドキュメントを鮮明にします。 アルファチャンネルを白にフラット化します。
-
EnhanceResolution
(API リファレンス)* 低品質画像の解像度を向上させます。
-
Denoise
(APIリファレンス)* デジタルノイズを除去します。このフィルタは、ノイズが予想される場合にのみ使用する必要があります。 アルファチャンネルを白にフラット化します。
-
Dilate
(API リファレンス)* 高度な形態学。 _Dilation_は、画像内のオブジェクトの境界にピクセルを追加します。 「Erode」の反対語
Erode
(API リファレンス)
-
- 高度な形態学。 エロージョンはオブジェクトの境界上のピクセルを削除します。 拡大の反対
- OcrInputページを比例的にスケールします。
-
-
* この画像フィルターは、すべてのピクセルを白か黒に変え、中間の色を排除します。 OCRのパフォーマンスをテキストと背景のコントラストが非常に低い場合に改善する可能性があります。
-
ToGrayscale
(API リファレンス)* この画像フィルターは、すべてのピクセルをグレースケールの色調に変換します。 OCRの精度は向上しない可能性がありますが、速度は向上する場合があります。
-
Invert
(チュートリアル API リファレンス* すべての色を反転します。 例えば、白が黒になります:黒が白になります。
-
ReplaceColor
(API リファレンス)* あるしきい値で画像内の色を別の色に置き換えます。
-
SelectTextColor
(API リファレンス)* あるしきい値で画像内の色を別の色に置き換えます。
-
クロップ領域を適用
-
CropRectangle (コード例 API リファレンス
- OcrInput上の識別された座標に長方形を描く。
OCR結果
簡単なデータ出力
- .NETテキスト文字列
- バーコードとQRデータ
- 画像
構造化データ出力
- ページ
- ブロック
- 段落
- 行
- 単語
- 文字
ドキュメントのエクスポート
-
- 検索可能なPDFへの変換(コード例)
- TIFFを検索可能なPDFに変換する (コード例)
- hOCR エクスポート (使い方 チュートリアル
- HTMLエクスポート
- 任意のページまたはテキスト要素の画像
- バーコードまたはQRコードを画像として
デバッグのためにページ上のテキストをハイライト
- 文字、単語、行、または段落の検出結果をハイライトとして赤色の枠で囲み、デバッグのために.png形式で保存します。