IRONOCRの使用

C#でOCRレシートスキャナーを作成する方法

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

カンナパット・ウドンパント

2024年2月18日

共有:

このチュートリアルは初心者がOCRレシートスキャナーを、C#のOCR APIであるIronOCRを使用して作成するのを支援するために設計されています。このガイドの終わりまでに、領収書OCR APIを使用して、さまざまなタイプの領収書ファイルを編集可能で検索可能なデータに変換するための光学文字認識（OCR）の実装方法を理解できるようになります。この技術は、経費管理の自動化を目指し、手動データ入力を最小限に抑えたい企業にとって画期的なものとなるでしょう。さあ、始めましょう！

How To Create an OCR Receipt Scanner In C#1. Create a C# Console project in Visual Studio

NuGetパッケージマネージャーを使用してOCRライブラリをインストールします。OcrInputメソッドを使用してレシートをプログラムにロードします。
メソッドReadを使用してテキストを抽出します。抽出されたテキストをコンソールに表示します。

前提条件

コード部分に入る前に、以下を確認してください：

Visual Studio: これが私たちの統合開発環境 (IDE) であり、ここで C# コードを書いて実行します。
IronOCR ライブラリ: C# アプリケーションに簡単に統合できる高度な OCR ライブラリである IronOCR を使用します。
1. サンプルレシート: Sample_Receipt.jpg という名前のレシート画像ファイルを使用して、OCR実装をテストします。

ステップ1: プロジェクトのセットアップ

Visual Studioを開く: デスクトップまたはアプリケーションメニューにあるVisual Studioのアイコンを見つけ、プログラムを開くためにダブルクリックします。

新しいプロジェクトを作成: Visual Studio が開くと、起動ウィンドウが表示されます。「新しいプロジェクトを作成」ボタンをクリックしてください。既にVisual Studioを開いていても起動ウィンドウが表示されない場合は、上部メニューの「ファイル」>「新規作成」>「プロジェクト」をクリックしてアクセスできます。

プロジェクトの種類を選択: 「新しいプロジェクトを作成」ウィンドウでは、さまざまなプロジェクトテンプレートが表示されます。検索ボックスに「Console App」と入力してオプションを絞り込み、次に「Console App (.NET Core)」または「Console App (.NET Framework)」を選択します。これはあなたの好みや互換性に応じて選択してください。次に、次へボタンをクリックします。

新しいプロジェクトを構成する: 現在、「新しいプロジェクトを構成する」というタイトルの画面が表示されます。

プロジェクト名フィールドに、「OCRReceiptScanner」とプロジェクトの名前を入力してください。
場所フィールドでプロジェクトが保存される場所を選択または確認してください。
必要に応じて、プロジェクト名とは異なるソリューション名を指定することもできます。
これらの詳細を入力した後、次へボタンをクリックしてください。

追加情報: 対象の.NET Frameworkを選択するよう求められる場合があります。最新バージョンを選択（特定の互換性要件がない限り）し、作成をクリックします。

ステップ2: IronOCRの統合

IronOCRライブラリを使用する前に、プロジェクトに含める必要があります。以下の手順に従ってください:

ソリューションエクスプローラーでプロジェクトを右クリックします。
「NuGet パッケージの管理」を選択してください。
NuGet パッケージマネージャーウィンドウでは、参照、インストール済み、更新、統合などのタブが表示されます。参照タブをクリックします。
検索ボックスにIronOcrと入力します。これが、私たちのプロジェクトに追加したいライブラリの名前です。検索するにはエンターキーを押してください。
検索結果にIronOCRライブラリパッケージが表示されます。それは最初に表示される結果の一つのはずです。クリックして選択してください。
IronOCRパッケージを選択すると、右側にパッケージの情報、説明やバージョンなどが表示されるパネルが表示されます。このパネルにはインストールボタンもあります。
インストールボタンをクリックします。このアクションは、変更を確認する必要があるかもしれません。また、IronOCR と一緒に含まれる依存関係の一覧が表示される場合があります。変更点と依存関係を確認し、すべてが正しいようであれば、確認してインストールを進めてください。

ステップ 3: プロジェクトの設定

IronOCRをインストールした後、次のステップはプロジェクトを構成することです。以下の手順に従ってください：

名前空間を追加: Program.cs ファイルの上部に、次の名前空間を追加します。

using IronOcr;
using System;

using IronOcr;
using System;

Imports IronOcr
Imports System

$vbLabelText $csharpLabel

設定構成: APIキーやライセンスキーのような構成設定がある場合、それらを必ず含めてください。 IronOCRでは、以下のコードに示されたようにライセンスキーを設定する必要があります:

License.LicenseKey = "License-Key"; // replace 'License-Key' with your key

License.LicenseKey = "License-Key"; // replace 'License-Key' with your key

License.LicenseKey = "License-Key" ' replace 'License-Key' with your key

$vbLabelText $csharpLabel

ステップ4: 領収書を読む

では、レシートを読み取るコードを書きましょう。

レシートのパスを指定: スキャンしたいレシートファイルのパスを指定します。

string pdfFilePath = "Sample_Receipt.jpg";

string pdfFilePath = "Sample_Receipt.jpg";

Dim pdfFilePath As String = "Sample_Receipt.jpg"

$vbLabelText $csharpLabel

Try-Catch ブロック: Try-Catch ブロックを使用してエラーハンドリングを実装します。これはOCRプロセス中に発生する例外を管理するのに役立ちます。

try
{
    // OCR code will go here
}
catch (Exception ex)
{
    // Handle exceptions here
    Console.WriteLine($"An error occurred: {ex.Message}");
}

try
{
    // OCR code will go here
}
catch (Exception ex)
{
    // Handle exceptions here
    Console.WriteLine($"An error occurred: {ex.Message}");
}

Try
	' OCR code will go here
Catch ex As Exception
	' Handle exceptions here
	Console.WriteLine($"An error occurred: {ex.Message}")
End Try

$vbLabelText $csharpLabel

ステップ 5：OCR の実装

ステップ5では、アプリケーションのコア機能に入り、OCRを実装して領収書のデータを読み取り解析します。これには、OCRエンジンの初期化、入力の構成、OCR操作の実行、および結果の表示が含まれます。

IronTesseractを初期化

コードの最初の部分は、IronTesseract クラスのインスタンスを作成します：

var ocr = new IronTesseract();

var ocr = new IronTesseract();

Dim ocr = New IronTesseract()

$vbLabelText $csharpLabel

インスタンスIronTesseractを作成することで、OCRツールを設定し、テキスト認識タスクを実行する準備を整えています。車を運転する前にエンジンを始動するようなものです。このオブジェクトは、入力の読み取りやテキストの抽出などを含むOCRプロセスを制御するために使用されます。

OCR入力の設定

次に、OCRプロセスの入力を定義します:

using (var input = new OcrInput(pdfFilePath))
{
    // OCR processing will go here
}

using (var input = new OcrInput(pdfFilePath))
{
    // OCR processing will go here
}

Using input = New OcrInput(pdfFilePath)
	' OCR processing will go here
End Using

$vbLabelText $csharpLabel

このセグメントでは、OcrInputを使用して処理したいファイルを指定します。 pdfFilePath は、領収書ファイルへのパスを含む変数です。この変数を OcrInput に渡すことで、OCR エンジンに「こちらが読んでほしいファイルです」と指示しています。using ステートメントは、C# の特別な構造であり、処理が終了したときに OcrInput（ファイルハンドルなど）が使用するリソースが適切に解放されることを保証します。リソースを効率的に管理し、不要なメモリ使用を避けてアプリケーションがスムーズに動作するようにする方法です。

OCRを実行する

using ブロック内で、ocr インスタンスの Read メソッドを呼び出します：

var result = ocr.Read(input);

var result = ocr.Read(input);

Dim result = ocr.Read(input)

$vbLabelText $csharpLabel

Read メソッドは入力ファイルのパスをパラメーターとして受け取ります。この行はレシートのスキャンを開始します。指定された入力ファイルのOCRを行い、データを抽出して変数resultに格納します。この方法で抽出したテキストを使用して、任意のテキスト操作を実行することができます。

結果を出力

最後に、OCRプロセスによって認識されたテキストを出力します。

Console.WriteLine(result.Text);

Console.WriteLine(result.Text);

Console.WriteLine(result.Text)

$vbLabelText $csharpLabel

result 変数にはOCRプロセスの出力が含まれており、result.Text にはレシートから抽出された実際のテキストが含まれています。 Console.WriteLine 関数は、このテキストを受け取り、コンソールに表示します。これにより、OCRプロセスの結果を確認および検証することができます。こちらが完全なプログラムProgram.csファイルのコードです。

using IronOcr;
using Microsoft.Extensions.Configuration;
using System;
class Program
{
    static void Main(string [] args)
    {
        License.LicenseKey = "Your-License-Key";
        string pdfFilePath = "Sample_Receipt.jpg";
        try
        {
            var ocr = new IronTesseract();
            using (var input = new OcrInput(pdfFilePath))
            {
                var result = ocr.Read(input);
                    Console.WriteLine(result.Text);
            }
        }
        catch (Exception ex)
        {
            // Handle exceptions (e.g., file not found, OCR errors) and log them if necessary.
            Console.WriteLine($"An error occurred: {ex.Message}");
        }
    }
}

using IronOcr;
using Microsoft.Extensions.Configuration;
using System;
class Program
{
    static void Main(string [] args)
    {
        License.LicenseKey = "Your-License-Key";
        string pdfFilePath = "Sample_Receipt.jpg";
        try
        {
            var ocr = new IronTesseract();
            using (var input = new OcrInput(pdfFilePath))
            {
                var result = ocr.Read(input);
                    Console.WriteLine(result.Text);
            }
        }
        catch (Exception ex)
        {
            // Handle exceptions (e.g., file not found, OCR errors) and log them if necessary.
            Console.WriteLine($"An error occurred: {ex.Message}");
        }
    }
}

Imports IronOcr
Imports Microsoft.Extensions.Configuration
Imports System
Friend Class Program
	Shared Sub Main(ByVal args() As String)
		License.LicenseKey = "Your-License-Key"
		Dim pdfFilePath As String = "Sample_Receipt.jpg"
		Try
			Dim ocr = New IronTesseract()
			Using input = New OcrInput(pdfFilePath)
				Dim result = ocr.Read(input)
					Console.WriteLine(result.Text)
			End Using
		Catch ex As Exception
			' Handle exceptions (e.g., file not found, OCR errors) and log them if necessary.
			Console.WriteLine($"An error occurred: {ex.Message}")
		End Try
	End Sub
End Class

$vbLabelText $csharpLabel

ステップ6: アプリケーションの実行

プロジェクトをビルドする: 「ビルド」メニューをクリックし、「ソリューションのビルド」を選択します。
プロジェクトを実行する: F5キーを押すか、「開始」ボタンをクリックしてアプリケーションを実行します。

これで、レシートのテキストがコンソールに出力されるのが見えます。このテキストは、レシート画像から抽出されたデータを表しています。これがIronOCRを使用して領収書をスキャンする方法です。これは、紙のレシートからデータを抽出するためにOCR機能を使用する簡単な例です。非常に一般的な実装です。レシート画像のレイアウトに合わせてコードを修正できます。

その後、スキャンしたレシートから得た非構造化データを使用できます。レシートの特定のセクションから重要な情報を取得できます。または、領収書のデータをより整理された方法で表示することもできます。 IronOCRを使用してOCRレシートスキャンソフトウェアアプリケーションを作成できます。これはレシートのフィールドの正確なデータを抽出するのに役立ちます。

結論

おめでとうございます！ C#およびIronOCRを使用してOCRレシートスキャナーを正常に構築しました。このスキャナーは、経費管理、サプライチェーン管理など、さまざまなビジネスニーズのためにデータ抽出の精度を大幅に向上させることができます。スキャンした領収書を見直してデータを手動で抽出する必要はもうありません。

IronOCRは、ユーザーが無償でその機能を探求し評価できる無料トライアルを提供しています。プロフェッショナルな環境でフルスペクトルの機能を統合し活用したい方には、包括的なソリューションを提供するライセンスが$749から始まり、堅牢なOCR領収書スキャンとデータ抽出のニーズに応えます。

忘れないでください、これはほんの始まりに過ぎません。このアプリケーションを拡張して、さまざまなファイルタイプをサポートしたり、データプライバシーを向上させたり、税額、日付、項目明細などの特定のフィールドのレシート認識などの追加機能を統合したりできます。 OCRテクノロジーを使用することで、可能性は広がり、より効率的で知的な業務プロセスへの道が開かれます。楽しいコーディングを！

カンナパット・ウドンパント

今すぐエンジニアリングチームとチャット

ソフトウェアエンジニア

ソフトウェアエンジニアになる前に、カンナパットは日本の北海道大学から環境資源学の博士号を取得しました。学位を取得する過程で、カンナパットはバイオプロダクション工学部に所属する車両ロボティクス研究所のメンバーにもなりました。2022年には、C#のスキルを活かしてIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。カンナパットは、IronPDFで使用されているコードの大部分を作成した開発者から直接学べることに価値を見いだしています。同僚との学び合いに加えて、Iron Softwareで働くことの社会的側面も楽しんでいます。コードやドキュメントを書いていない時には、カンナパットは通常、PS5でゲームをしたり、『The Last of Us』を再視聴したりしています。

< 以前
C#でOCRを使用して身分証明書を読み取る方法

次へ >
請求書のためのOCRソリューションを作成する方法