IRONOCRの使用

OCRレシートデータ抽出（ステップバイステップチュートリアル）

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

カンナパット・ウドンパント

2023年5月8日

更新済み 2024年1月28日

共有:

IronOCRを使用したレシートOCRは、企業や個人にとって画期的なものです。このプロセスにより、物理的なレシートから重要な情報を抽出し、それをデジタルデータに変換することができます。この記事では、IronOCR を使用して領収書を最大限に活用する方法をステップバイステップでご紹介します。

OCRの簡単な紹介

光学文字認識（またはOCR）は、画像やスキャンされた文書からテキストを読み取り、理解する技術です。印刷されたテキストを機械可読なテキストに変換することで、OCRは物理的な文書に含まれる情報を保存、処理、分析することを可能にします。

2. IronOCRの紹介

IronOCRは、C#および.NET開発者向けのOCR（光学文字認識）ライブラリです。それにより、開発者は画像からテキストを抽出したり、PDFやその他の文書形式からテキストを抽出したりすることができます。 IronOCRは、人気のTesseract OCRエンジンを基に構築されており、追加機能を追加することで、領収書OCRを含む様々なアプリケーションに理想的な選択となります。

データ抽出にIronOCRを使用するメリット

以下は、IronOCRを使用してOCRでレシートのデータを抽出する際の主な利点です。

高精度: IronOCRは優れたOCR APIの精度を提供し、領収書やその他の文書からの信頼できるデータ抽出を保証します。

多言語サポート：IronOCRは125以上の言語をサポートしており、グローバルなアプリケーションに適しています。

使いやすい: このライブラリはシンプルで直感的なAPIを提供しており、開発者がプロジェクトにOCR機能を実装するのを容易にします。

カスタマイズ可能: IronOCR は、OCR 結果を微調整し、特定の利用ケースに対して最適なデータ抽出を保証するさまざまなオプションを提供します。

4. IronOCRの動作原理

IronOCRは、画像や文書からテキストを認識して抽出するために高度なOCRアルゴリズムを使用します。様々なフォーマットを処理できます。JPEG、PNG、TIFF、PDFなどが含まれます。ライブラリは入力ファイルを読み込み、その中のテキストを認識し、抽出されたテキストを文字列として出力します。それはその後、必要に応じて処理されたり保存されたりします。 IronOCRは、最良の結果を得るためにコンピュータビジョンも使用します。

使用するための前提条件 IronOCR

IronOCRを使用してレシートデータ抽出を開始するには、まずIronOCRパッケージをインストールする必要があります。これは、.NET 用のパッケージマネージャーである NuGet を通じて簡単に行うことができます。 Visual Studioでプロジェクトを開き、以下の手順に従ってください:

ソリューションエクスプローラーでプロジェクトを右クリックし、「NuGetパッケージの管理」を選択します。
NuGetパッケージマネージャーウィンドウで「IronOCR」を検索します。
IronOcrパッケージを選択して、「インストール」をクリックします。

NuGet パッケージマネージャー UI で IronOCR パッケージを検索

レシート画像の準備

レシートからデータを抽出する前に、レシート画像の品質が高いことを確認して、レシートOCR APIプロセスの精度を向上させる必要があります。領収書の良い画像をキャプチャするためのヒントは次のとおりです:

スキャンしたドキュメントを使用してください。領収書スキャンには高解像度スキャナーを使用できます。
レシートが十分に明るく、影がない状態にしてください。
レシートのひだや折り目をすべて真っ直ぐにし、重要な情報が隠れないようにしてください。
レシート処理を向上させるために、レシート上のテキストが鮮明で滲んでいないことを確認してください。

テキスト抽出用のサンプル領収書画像

7. 領収書画像にOCRを実行する

IronOCRをインストールし、レシート画像が準備できたら、OCRプロセスを実行する時です。あなたの .NET アプリケーションで、次のコードスニペットを使用してください:

using IronOcr;

var ocr = new IronTesseract();
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
{
    var result = ocr.Read(ocrInput);
    Console.WriteLine(result.Text);
}

using IronOcr;

var ocr = new IronTesseract();
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
{
    var result = ocr.Read(ocrInput);
    Console.WriteLine(result.Text);
}

Imports IronOcr

Private ocr = New IronTesseract()
Using ocrInput As New OcrInput("path/to/your/receipt/image.png")
	Dim result = ocr.Read(ocrInput)
	Console.WriteLine(result.Text)
End Using

$vbLabelText $csharpLabel

コードの説明

using IronOcr;

using IronOcr;

Imports IronOcr

$vbLabelText $csharpLabel

この行は、IronOCRライブラリを.NETアプリケーションにインポートし、その機能にアクセスできるようにします。

var ocr = new IronTesseract();

var ocr = new IronTesseract();

Dim ocr = New IronTesseract()

$vbLabelText $csharpLabel

この行は、IronOCRにおけるOCR操作を担う主要なクラスであるIronTesseractクラスの新しいインスタンスを作成します。

using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))

using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))

Using ocrInput As New OcrInput("path/to/your/receipt/image.png")

$vbLabelText $csharpLabel

ここでは、新しいインスタンスのOcrInputクラスが作成され、OCRプロセス用の入力画像を表します。 @"path/to/your/receipt/image.png" は実際の領収書画像のファイルパスに置き換える必要があります。 using ステートメントは、OCR操作が完了した後に、OcrInput インスタンスに割り当てられたリソースが適切に解放されることを保証します。

var result = Ocr.Read(ocrInput);

var result = Ocr.Read(ocrInput);

Dim result = Ocr.Read(ocrInput)

$vbLabelText $csharpLabel

この行は、OcrInputオブジェクトをパラメーターとして渡し、IronTesseractインスタンスのReadメソッドを呼び出します。 Read メソッドは入力画像を処理し、OCR 操作を実行して、画像からテキストを認識および抽出します。領収書認識プロセスを開始します。

Console.WriteLine(Result.Text);

Console.WriteLine(Result.Text);

Console.WriteLine(Result.Text)

$vbLabelText $csharpLabel

最後に、この行は抽出されたテキストをコンソールに出力します。 result オブジェクトは、OcrResult クラスのインスタンスであり、認識されたテキストとOCRプロセスに関する追加情報を含んでいます。抽出されたテキストは、result オブジェクトの Text プロパティにアクセスすることによって表示できます。

OCR領収書データ抽出（ステップバイステップのチュートリアル）、図3：抽出されたテキストの出力

抽出されたテキストの出力

OCR結果の微調整

IronOCRは、OCRの精度とパフォーマンスを向上させるためのいくつかのオプションを提供しています。これには、画像の前処理、OCRエンジン設定の調整、および領収書に適した言語の選択が含まれます。

画像前処理

次のような画像前処理技術を適用することにより、OCR結果を向上させることができます：

傾き補正：画像の回転や傾きを修正します。
ノイズ除去: 画像からノイズを取り除き、テキストの読みやすさを向上させます。

以下は、これらの技術を適用する方法の例です:

using IronOcr;

var ocr = new IronTesseract();
using (var input = new OcrInput(@"path/to/your/receipt/image.png"))
{
    input.DeNoise();
    input.DeSkew();

    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
}

using IronOcr;

var ocr = new IronTesseract();
using (var input = new OcrInput(@"path/to/your/receipt/image.png"))
{
    input.DeNoise();
    input.DeSkew();

    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
}

Imports IronOcr

Private ocr = New IronTesseract()
Using input = New OcrInput("path/to/your/receipt/image.png")
	input.DeNoise()
	input.DeSkew()

	Dim result = ocr.Read(input)
	Console.WriteLine(result.Text)
End Using

$vbLabelText $csharpLabel

言語選択

IronOCRは125以上の言語をサポートしており、領収書に適切な言語を選択することでOCRの結果を大幅に改善することができます。コードに以下の行を追加して、言語を指定します:

ocr.Configuration.Language = OcrLanguage.English;

ocr.Configuration.Language = OcrLanguage.English;

ocr.Configuration.Language = OcrLanguage.English

$vbLabelText $csharpLabel

OCR結果からデータを抽出する

OCRプロセスが完了したので、テキストから特定の情報を抽出する時です。ご要望に応じて、以下のようなデータを抽出することができます:

店舗名と住所。
購入日時。
商品名と価格。
小計、税額、および合計金額。

これを行うには、.NETアプリケーションで正規表現または文字列操作のテクニックを使用できます。例えば、以下のコードスニペットを使用してOCR結果から日付を抽出することができます：

using System.Text.RegularExpressions;

//Rest of the Code

var DatePattern = @"\d{1,2}\/\d{1,2}\/\d{2,4}";
var DateMatch = Regex.Match(Result.Text, DatePattern);
if (DateMatch.Success)
{
    var DateValue = DateTime.Parse(DateMatch.Value);
    Console.WriteLine("Date: " + DateValue);
}

using System.Text.RegularExpressions;

//Rest of the Code

var DatePattern = @"\d{1,2}\/\d{1,2}\/\d{2,4}";
var DateMatch = Regex.Match(Result.Text, DatePattern);
if (DateMatch.Success)
{
    var DateValue = DateTime.Parse(DateMatch.Value);
    Console.WriteLine("Date: " + DateValue);
}

Imports System.Text.RegularExpressions

'Rest of the Code

Private DatePattern = "\d{1,2}\/\d{1,2}\/\d{2,4}"
Private DateMatch = Regex.Match(Result.Text, DatePattern)
If DateMatch.Success Then
	Dim DateValue = DateTime.Parse(DateMatch.Value)
	Console.WriteLine("Date: " & DateValue)
End If

$vbLabelText $csharpLabel

レシートから抽出する必要がある他の情報について、同様のパターンを作成することができます。

抽出されたデータの保存と分析

領収書から必要な情報を抽出したら、それをデータベースに保存したり、分析したり、CSV、JSON、Excelなどの他のファイル形式にエクスポートすることができます。

結論

結論として、IronOCRを使用したレシートOCRは、あなたの財務データをデジタル化および管理するための革新的で効率的なソリューションです。 IronOCRを使用すると、手動データ入力を置き換えることができます。このステップバイステップガイドに従うことで、IronOCRの力を利用して、経費の追跡とデータ分析を改善することができます。素晴らしいことに、IronOCRは無料トライアルを提供しており、何のコミットメントもせずにその機能を体験できます。

試用期間終了後、IronOCRの使用を継続することを決定した場合、ライセンスは$749から始まり、アプリケーションでOCRテクノロジーの利点を活用するためのコスト効率の高い方法を提供します。

カンナパット・ウドンパント

今すぐエンジニアリングチームとチャット

ソフトウェアエンジニア

ソフトウェアエンジニアになる前に、カンナパットは日本の北海道大学から環境資源学の博士号を取得しました。学位を取得する過程で、カンナパットはバイオプロダクション工学部に所属する車両ロボティクス研究所のメンバーにもなりました。2022年には、C#のスキルを活かしてIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。カンナパットは、IronPDFで使用されているコードの大部分を作成した開発者から直接学べることに価値を見いだしています。同僚との学び合いに加えて、Iron Softwareで働くことの社会的側面も楽しんでいます。コードやドキュメントを書いていない時には、カンナパットは通常、PS5でゲームをしたり、『The Last of Us』を再視聴したりしています。

< 以前
Blazorで画像からテキストを読み取る方法

次へ >
コンピュータビジョンによるOCR（例題チュートリアル）