機械学習ソフトウェアを使用した画像からのテキスト抽出
\u6a5f\u68b0\u5b66\u7fd2\u3092\u4f7f\u7528\u3057\u3066\u30ad\u30e3\u30d7\u30c1\u30e3\u307e\u305f\u306f\u30b9\u30ad\u30e3\u30f3\u3055\u308c\u305f\u6587\u66f8\u304b\u3089\u30c6\u30ad\u30b9\u30c8\u3092\u62bd\u51fa\u3059\u308b\u3053\u3068\u306f\u3001\u30b3\u30f3\u30d4\u30e5\u30fc\u30bf\u30d3\u30b8\u30e7\u30f3\u3068\u81ea\u7136\u8a00\u8a9e\u51e6\u7406\u306e\u4ea4\u5dee\u70b9\u306b\u3042\u308b\u6025\u6210\u9577\u3057\u3066\u3044\u308b\u5206\u91ce\u3067\u3059\u3002 \u3053\u306e\u6280\u8853\u306f\u3001\u9ad8\u5ea6\u306a\u6a5f\u68b0\u5b66\u7fd2\u3001\u7269\u4f53\u8a8d\u8b58\u30a2\u30eb\u30b4\u30ea\u30ba\u30e0\u3001\u9ad8\u5ea6\u306a\u30b0\u30e9\u30d5\u30a3\u30c3\u30af\u30b9\u30bd\u30d5\u30c8\u30a6\u30a7\u30a2\u3001\u30c7\u30a3\u30fc\u30d7\u30a6\u30a7\u30d6\u3068\u30c0\u30fc\u30af\u30a6\u30a7\u30d6\u3001\u304a\u3088\u3073\u30cb\u30e5\u30fc\u30e9\u30eb\u30cd\u30c3\u30c8\u30ef\u30fc\u30af\u30a2\u30fc\u30ad\u30c6\u30af\u30c1\u30e3\u3092\u6d3b\u7528\u3057\u3066\u3001\u753b\u50cf\u3084\u30b9\u30ad\u30e3\u30f3\u3055\u308c\u305f\u7d19\u6587\u66f8\u304b\u3089\u30c6\u30ad\u30b9\u30c8\u60c5\u5831\u3092\u6b63\u78ba\u306b\u8b58\u5225\u3057\u62bd\u51fa\u3057\u307e\u3059\u3002 \u5149\u5b66\u6587\u5b57\u8a8d\u8b58\uff08OCR\uff09\u3084\u6df1\u5c64\u5b66\u7fd2\u3068\u3044\u3063\u305f\u3055\u307e\u3056\u307e\u306a\u6a5f\u68b0\u5b66\u7fd2\u6280\u8853\u3092\u7528\u3044\u308b\u3053\u3068\u3067\u3001\u81ea\u52d5\u5316\u3055\u308c\u52b9\u7387\u7684\u306a\u8996\u899a\u30b7\u30fc\u30f3\u30c6\u30ad\u30b9\u30c8\u691c\u51fa\u304b\u3089\u3001\u7de8\u96c6\u53ef\u80fd\u3067\u691c\u7d22\u53ef\u80fd\u306a\u69cb\u9020\u5316\u30c7\u30fc\u30bf\u3001\u53ca\u3073\u7269\u4f53\u691c\u51fa\u3078\u3068\u5909\u63db\u3092\u53ef\u80fd\u306b\u3057\u307e\u3059\u3002
\u3053\u306e\u9032\u5316\u3059\u308b\u74b0\u5883\u306e\u4e2d\u3067\u3001\u7814\u7a76\u8005\u3084\u5b9f\u52d9\u8005\u306f\u3001\u5370\u5237\u6587\u66f8\u306e\u30c7\u30b8\u30bf\u30eb\u5316\u3001\u30b3\u30f3\u30c6\u30f3\u30c4\u306e\u30a4\u30f3\u30c7\u30c3\u30af\u30b9\u4ed8\u3051\u3001\u7ffb\u8a33\u3001\u30a2\u30af\u30bb\u30b7\u30d3\u30ea\u30c6\u30a3\u5411\u4e0a\u306a\u3069\u306e\u30a2\u30d7\u30ea\u30b1\u30fc\u30b7\u30e7\u30f3\u306b\u304a\u3044\u3066\u91cd\u8981\u306a\u8981\u7d20\u3068\u306a\u308b\u3001\u753b\u50cf\u3084\u30b9\u30ad\u30e3\u30f3\u3055\u308c\u305f\u6587\u66f8\u304b\u3089\u306e\u30c6\u30ad\u30b9\u30c8\u691c\u51fa\u3068\u62bd\u51fa\u306e\u7cbe\u5ea6\u3001\u901f\u5ea6\u3001\u6c4e\u7528\u6027\u3092\u5411\u4e0a\u3055\u305b\u308b\u305f\u3081\u306b\u4e0d\u65ad\u306e\u52aa\u529b\u3092\u7d9a\u3051\u3066\u3044\u307e\u3059\u3002
この記事では、強力な機械学習アルゴリズムとテキスト関連の機能を備えたOCRライブラリであるIronOCRを使用して、画像からテキストを抽出する方法について説明します。 テキスト抽出、またはキーワード抽出は、機械学習に基づいて非構造化データや会社の中央データベースから関連性のあるまたは基本的な単語やフレーズを自動的にスキャンして抽出します。
機械学習を使用して画像からテキストを抽出する方法
- 画像からテキストを抽出するためのC#ライブラリをダウンロードします。
- 場面テキスト認識のためにOcrInputオブジェクトをインスタンス化して特定の画像を読み込みます。
- ocrTesseract.Readメソッドを使用して画像からデータを抽出します。
- Console.WriteLineメソッドを使用してコンソールに抽出されたテキストを印刷します。
- CropRectangleオブジェクトを使用して画像の領域でOCRを実行します。
IronOCR - 光学文字認識(OCR)ライブラリ
IronOCRは、画像やドキュメントからのテキスト抽出技術の最前線に立った著名かつ高度な光学文字認識(OCR)ソフトウェアです。 Iron Softwareによって開発されたこの強力なOCRエンジンは、スキャンされた画像、PDF、またはテキストの写真を編集可能で検索可能なデジタルコンテンツに正確かつ効率的に変換するように設計されています。 機械学習アルゴリズムとニューラルネットワークを巧みに活用することで、IronOCRはデータ抽出、コンテンツインデックス作成、および正確なテキスト認識を必要とする自動化プロセスを含むさまざまなアプリケーションのための堅牢なソリューションを提供します。
\u8907\u6570\u306e\u8a00\u8a9e\u3084\u591a\u69d8\u306a\u30d5\u30a9\u30f3\u30c8\u306b\u5bfe\u5fdc\u3067\u304d\u308b\u80fd\u529b\u306f\u3001\u3055\u307e\u3056\u307e\u306a\u30bd\u30d5\u30c8\u30a6\u30a7\u30a2\u3084\u30a2\u30d7\u30ea\u30b1\u30fc\u30b7\u30e7\u30f3\u306b\u304a\u3051\u308b\u52b9\u7387\u7684\u306a\u30c6\u30ad\u30b9\u30c8\u8a8d\u8b58\u30a2\u30eb\u30b4\u30ea\u30ba\u30e0\u62bd\u51fa\u6a5f\u80fd\u3092\u6c42\u3081\u308b\u958b\u767a\u8005\u3084\u4f01\u696d\u306b\u3068\u3063\u3066\u3001\u591a\u7528\u9014\u306a\u30c4\u30fc\u30eb\u3068\u306a\u308a\u307e\u3059\u3002 IronOCRを使用して、構造化されていないデータを完全にスキャンされたページに変換するテキスト抽出アルゴリズムを使用する一般的なテキスト認識技術を使用して自動的にスキャンテキストを行うことができます。
IronOCRのインストール
IronOCRはNuGetパッケージマネージャーを使用してインストールが可能です。 以下はIronOCRをインストールする手順です:
- まず、新しいC# Visual Studioプロジェクトを作成するか、既存のプロジェクトを開きます。

- プロジェクトが作成されたら、上部のメニューでツールに移動してNuGetパッケージマネージャーを選択し、ソリューションのNuGetパッケージマネージャーを選択します。

- 新しいウィンドウが画面に表示されます。 ブラウズタブに移動し、検索バーにIronOCRと書き込みます。
- IronOCRパッケージのリストが表示されます。 最新のものを選択し、インストールをクリックします。

- \u30a4\u30f3\u30bf\u30fc\u30cd\u30c3\u30c8\u306b\u57fa\u3065\u3044\u3066\u6570\u79d2\u304b\u304b\u308a\u307e\u3059; \u305d\u306e\u5f8c\u3001IronOCR\u306f\u3042\u306a\u305f\u306eC#\u30d7\u30ed\u30b8\u30a7\u30af\u30c8\u3067\u4f7f\u7528\u3067\u304d\u308b\u3088\u3046\u306b\u306a\u308a\u307e\u3059\u3002