ビデオ

IronOCRがTesseract 4 Nugetパッケージより優れている理由

Kannaopat Udonpant
カンナパット・ウドンパント
2022年8月29日
共有:


このチュートリアルでは、Visual StudioでC#コンソールプロジェクトを作成することで、IronOCRとGoogle Tesseract OCRのパフォーマンスを比較検討します。 Tesseract OCRはNuGetパッケージマネージャーを通じてインストールされ、デバッグフォルダにテストデータが必要です。 回転した低DPIの画像を処理する際、Tesseract OCRは低解像度とDPIエラーのためにテキストを抽出できず、ページを空として識別することに苦労します。 前処理機能が欠けており、PDFのサポートがなく、スクリーンショットやウェブフォーマットの画像に苦労します。

IronOCR は同様にインストールされ、傾きやノイズ除去といった機能を利用して画像を元の位置に調整し、ノイズを軽減します。低 DPI 画像から正確にテキストを抽出することに成功します。 Iron OCRはTesseract 5をサポートしており、マルチスレッドを使用して複数のドキュメントを読み取ることができ、効果的に画像を処理します。 それはプロジェクト内で実行権限を必要とせず、余分なファイルを作成しません。 さらに、NuGetを通じて管理可能で、MVCウェブサイトと統合されている127の言語に対応しています。

この比較により、Iron OCRの画像前処理およびテキスト抽出における優れたパフォーマンスが強調され、さまざまなOCRニーズに対して堅実な選択肢となっていることが示されています。 ご質問がある場合は、サポートチームが対応いたします。

さらに読む: C#の代替としてIronOCRを使用したTesseract OCRの利用方法

ライブラリ_製品のお試し版_拡張ブロック

Kannaopat Udonpant
カンナパット・ウドンパント
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、カンナパットは日本の北海道大学から環境資源学の博士号を取得しました。学位を取得する過程で、カンナパットはバイオプロダクション工学部に所属する車両ロボティクス研究所のメンバーにもなりました。2022年には、C#のスキルを活かしてIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。カンナパットは、IronPDFで使用されているコードの大部分を作成した開発者から直接学べることに価値を見いだしています。同僚との学び合いに加えて、Iron Softwareで働くことの社会的側面も楽しんでいます。コードやドキュメントを書いていない時には、カンナパットは通常、PS5でゲームをしたり、『The Last of Us』を再視聴したりしています。
< 以前
C#で画像からテキストを抽出する方法
次へ >
IronOCRでOCR言語パックを使用する方法