ビデオ

画像ファイルからテキストを抽出する方法

Kannaopat Udonpant
カンナパット・ウドンパント
2024年9月3日
共有:


このチュートリアルでは、C#用の強力なライブラリであるIronOCRを使用して画像からテキストを抽出するプロセスを探ります。 セッションは、Visual StudioでC#コンソールアプリケーションを設定し、NuGetパッケージマネージャーを介してIron OCRライブラリをインストールすることから始まります。 ライブラリをインポートしたら、Iron Tesseract オブジェクトを初期化し、その設定オプションを微調整してバーコード読み取りを有効にし、言語を英語に設定します。 このセットアップにより、マルチスレッド処理を通じて正確なテキスト認識と性能向上が可能です。 追加機能として、PDFのレンダリングやページセグメンテーションモードをAuto OSDに設定することが含まれます。これにより、単語を含む行が自動的にセグメント化および分割されます。 このチュートリアルでは、スムーズな実行のための並列化の有効化やテーブルレイアウトの認識など、挙動を微調整するための構成変数の使用方法についてさらに説明しています。 結果を改善するためにテキストの反転が無効になっています。 チュートリアルには、さらに多くの設定オプションへのリンクが提供されています。 次に、OCRインプットオブジェクトを使用して画像ファイルが読み込まれ、Iron OCRを使用して画像からテキストを抽出します。 認識されたテキストはコンソールに出力され、ライブラリの高い精度を示しています。 チュートリアルは、IronOCR が画像や PDF からテキストを抽出する強力なツールであることを強調して締めくくり、視聴者に提供されたトライアルリンクで試してみるよう促しています。

さらに読む: Iron Tesseractの使用方法

ライブラリ_製品のお試し版_拡張ブロック

Kannaopat Udonpant
カンナパット・ウドンパント
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、カンナパットは日本の北海道大学から環境資源学の博士号を取得しました。学位を取得する過程で、カンナパットはバイオプロダクション工学部に所属する車両ロボティクス研究所のメンバーにもなりました。2022年には、C#のスキルを活かしてIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。カンナパットは、IronPDFで使用されているコードの大部分を作成した開発者から直接学べることに価値を見いだしています。同僚との学び合いに加えて、Iron Softwareで働くことの社会的側面も楽しんでいます。コードやドキュメントを書いていない時には、カンナパットは通常、PS5でゲームをしたり、『The Last of Us』を再視聴したりしています。
< 以前
Tesseractを使用して複数の言語を扱う方法
次へ >
C#でOCR処理に入力画像を使用する方法