ホワイトペーパー

機械学習ソフトウェアを使用した画像からのテキスト抽出

2023年2月28日
技術
共有:

機械学習を利用したキャプチャ画像やスキャン文書からのテキスト抽出は、コンピュータビジョンと自然言語処理の交差点で急成長している分野である。 この技術は、高度な機械学習、物体認識アルゴリズム、高度なグラフィックスソフトウェア、ディープウェブおよびダークウェブ、そしてニューラルネットワークアーキテクチャを活用して、画像やスキャンされた紙の文書から正確にテキスト情報を識別し抽出します。 光学文字認識(OCR)やディープラーニングといったさまざまな機械学習技術を活用することで、視覚シーンのテキスト検出を編集および検索可能な構造化データに自動的かつ効率的に変換し、物体検出を可能にします。

このような進化する状況の中で、研究者や実務家は精度、速度、汎用性を向上させる努力を続けており、画像、機械可読データ、スキャン文書からのテキスト検出・抽出は、印刷文書のデジタル化、コンテンツ索引作成、翻訳、アクセシビリティ向上などのアプリケーションにおいて極めて重要な要素となっている。

この記事では、強力な機械学習アルゴリズムとテキスト関連機能によって強化されたOCRライブラリであるIronOCRを使用して、画像からテキストを抽出する方法について説明します。 テキスト抽出、またはキーワード抽出は、機械学習に基づき、非構造化データや会社の中央データベースから関連性のあるまたは基本的な単語やフレーズを自動でスキャンし抽出します。

機械学習を使って画像からテキストを抽出するには?

  1. 画像からテキストを抽出するC#(シーシャープ)ライブラリをダウンロード。

  2. 特定の画像を読み込み、シーンテキスト認識のためにOcrInputオブジェクトをインスタンス化します。

  3. ocrTesseract.Read メソッドを使用して画像からデータを抽出します。

  4. Console.WriteLine メソッドを使用して抽出されたテキストをコンソールに印刷します。

  5. CropRectangleオブジェクトを使用して、画像の領域にOCRを実行します.

IronOCR- OCR(光学式文字認識)ライブラリ

IronOCRは、卓越した高度な光学式文字認識(OCR)ソフトウェアであり、画像や文書からのテキスト抽出技術の最前線に立っています。 Iron Software)により開発されたこの強力なOCRエンジンは、スキャンした画像、PDF、またはテキストの写真でさえ、編集可能で検索可能なデジタルコンテンツに正確かつ効率的に変換するように設計されています。 機械学習アルゴリズムとニューラルネットワークの巧みな使用により、IronOCRは、データ抽出、コンテンツ・インデックス作成、正確なテキスト認識を必要とする自動化プロセスなど、様々なアプリケーションに堅牢なソリューションを提供します。

多言語や多様なフォントを扱うことができるため、ソフトウェアやアプリケーションに合理的なテキスト認識アルゴリズム抽出機能を求める開発者や企業の両方にとって、汎用性の高いツールとなっています。 IronOCRを使用すると、テキスト抽出アルゴリズムを使用して、構造化されていないデータを完全にスキャンされたページに変換する一般的なテキスト認識技術を使用して、テキストを自動的にスキャンすることができます。

IronOCRのインストール

IronOCRはNuGet Package Managerを使ってインストールすることができます。

  1. まず、新しいC# Visual Studioプロジェクトを作成するか、既存のプロジェクトを開きます。

    Visual Studio

  2. プロジェクトが作成されたら、上部メニューのToolsからNuGet Package Managerを選択し、NuGet Package Manager for Solutionを選択します。

    ツールメニュー

  3. 新しいウィンドウが画面に表示されます。 参照」タブに移動し、検索バーに「IronOCR 」と入力します。

  4. IronOCRパッケージのリストが表示されるので、最新のものを選択してインストールをクリックする。

    IronOCR

  5. C#(シーシャープ)プロジェクトでIronOCRを使用できるようになるまで、あなたのインターネット環境に応じて数秒かかります。

画像から編集・検索可能なデータへのテキスト検出

IronOCRを使えば、画像処理技術と機械学習を使って簡単にテキストを抽出することができます。 このセクションでは、IronOCR を使って画像からテキストを抽出する方法について説明する。

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()
Using ocrInput As New OcrInput("images\image.png")
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
$vbLabelText   $csharpLabel

このC#コードは、光学文字認識(OCR)用のライブラリであるIronOCRの使用法を示しています。 以下はステップバイステップの説明です:

  1. ライブラリのインポート:
    using IronOcr; 
    using System;
    using IronOcr; 
    using System;
Imports IronOcr
	Imports System
$vbLabelText   $csharpLabel

コードは、OCR機能を提供するIronOCRと、一般的な機能のためのSystem名前空間を含む必要なライブラリをインポートすることから始まります。

  1. IronTesseractの初期化と画像の読み込み:
    var ocrTesseract = new IronTesseract();
    var ocrTesseract = new IronTesseract();
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

この行はIronTesseractのインスタンスを作成します。これは、IronOCRによって提供されるOCRエンジンです。

    using (var ocrInput = new OcrInput(@"images\image.png"))
    using (var ocrInput = new OcrInput(@"images\image.png"))
Using ocrInput As New OcrInput("images\image.png")
$vbLabelText   $csharpLabel

OcrInput オブジェクトは、処理する画像へのパスでインスタンス化されます。 この場合、画像ファイルは "images "ディレクトリの "image.png "である。

  1. OCRの実行とテキストの抽出:
    var ocrResult = ocrTesseract.Read(ocrInput);
    var ocrResult = ocrTesseract.Read(ocrInput);
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

この行では、IronTesseract インスタンスの Read メソッドを呼び出し、OcrInput オブジェクトを渡します。 この方法は、提供された画像に対してOCRを実行し、テキストを抽出する。

  1. 抽出されたテキストの表示
    Console.WriteLine(ocrResult.Text);
    Console.WriteLine(ocrResult.Text);
Console.WriteLine(ocrResult.Text)
$vbLabelText   $csharpLabel

最後に、抽出されたテキストはConsole.WriteLineを使用してコンソールに表示され、画像から取得されたOCR結果が表示されます。

このコード・スニペットはIronOCRを使って指定された画像のテキスト認識OCRを実行し、抽出されたテキストをコンソールに出力します。

入力画像

請求書

出力

顧客請求書出力

画像上の指定された領域にOCRを実行する

IronOCRを使って画像上の特定の領域にOCRを実行することもできます。

using IronOcr;
using IronSoftware.Drawing;
using System;
var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput())
{
    var ContentArea = new CropRectangle(x: 20, y: 20, width: 400, height: 50);
    ocrInput.AddImage("r3.png", ContentArea);
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using IronSoftware.Drawing;
using System;
var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput())
{
    var ContentArea = new CropRectangle(x: 20, y: 20, width: 400, height: 50);
    ocrInput.AddImage("r3.png", ContentArea);
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports IronSoftware.Drawing
Imports System
Private ocrTesseract = New IronTesseract()
Using ocrInput As New OcrInput()
	Dim ContentArea = New CropRectangle(x:= 20, y:= 20, width:= 400, height:= 50)
	ocrInput.AddImage("r3.png", ContentArea)
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
$vbLabelText   $csharpLabel

このC#コードは、光学文字認識(OCR)のためにIronOCRライブラリを使用します。 まず、IronOCRやSystem. OCRエンジンであるIronTesseractインスタンスが作成される。 このコードでは、CropRectangleを使用して処理する画像内の特定のContentAreaを設定し、定義された領域に焦点を合わせます。 この指定されたエリア内の画像("r3.png")は、その後、OCR処理のために追加されます。 OCRエンジンは、指定されたコンテンツ領域を読み取り、テキストを抽出し、結果のテキストは、Console.WriteLineを使用してコンソールに出力されます。

出力

出力

結論

画像からのテキスト抽出は、特にIronOCRのような光学文字認識(OCR)ライブラリを使用することで、コンピュータビジョンと自然言語処理の交差点における変革的な一歩を意味します。 OCR技術もディープラーニング技術も、視覚的なテキストを編集可能で検索可能なデータに効率的に変換する上で極めて重要な役割を果たしており、文書のデジタル化、コンテンツのインデックス化、アクセシビリティの向上といった重要な目的に役立っている。

IronOCRは、著名なOCRライブラリとして、この融合の可能性を例証しており、スキャンした画像やPDFを、複数の言語やフォントスタイルにまたがるデジタルで編集可能なコンテンツに正確に変換することに優れています。 C#(シーシャープ)のようなプログラミング言語へのシームレスな統合は、合理的な実装を可能にし、多くのアプリケーションやドメインにおける画像からのテキスト抽出の変換効果をさらに増幅します。

IronOCRとすべての関連機能について詳しく知るには、こちらのリンクをご覧ください。 画像からテキストを抽出する完全なチュートリアルは次のリンクで利用できます。 IronOCR のライセンスは、このリンクから購入できます。

< 以前
生命保険請求処理ソフトウェア
次へ >
イベントチケット印刷ソフトウェア

無料のホワイトペーパーを入手

ありがとうございます。

ダウンロードリンクを含むメールがまもなく送信されます。