OCRツール

請求書のOCR機械学習(ステップ・バイ・ステップ・チュートリアル)

公開済み 2023年9月26日
共有:

今日の急速なビジネス環境では、タスクの自動化や非構造化データの管理が効率を高め、手作業によるエラーを減らすための重要な戦略となっています。 請求書や購入注文書から情報を抽出する作業は、その一例です。このプロセスは従来、大量の手作業を必要としていました。 しかし、機械学習、深層学習モデル、および光学文字認識の進歩のおかげで(OCR (光学式文字認識))ソフトウェア技術によって、ビジネスはIronOCRのようなツールを使用して、この請求書の情報抽出プロセスを効率化することができます。 この記事では、機械学習とIronOCRを活用して請求書の処理方法を革命的に改善する方法を探ります。

請求書のOCRツールの理解

文字認識(OCR)技術はしばらくの間存在していましたが、その請求書処理およびデータ抽出への応用は、機械学習の登場によって大幅に向上しました。 OCR(光学文字認識)は、スキャンされた請求書情報が含まれる紙文書、PDFファイル、財務書類、デジタルカメラで撮影された入力画像など、さまざまな種類の文書を編集可能で検索可能なデータに変換する技術です。 これは、画像のテキストを画像前処理を使用して機械可読なテキストに変換することを本質的に意味します。

IronOCRは、さまざまなアプリケーションやプログラミング言語に統合できる機械学習アルゴリズムに基づいた強力なOCRライブラリであり、請求書処理に適した多用途なツールです。 IronOCRを使用することで、企業は請求書番号、日付、ベンダーの詳細、ラインアイテムなどの請求書データの抽出を高精度で自動化できます。

IronOCRを使用して請求書OCRを行う利点

使用請求書処理のためのIronOCR貴社の買掛金など、財務業務の効率性と正確性を大幅に向上させる多くの利点を提供します。 それでは、これらの利点について詳しく見ていきましょう。

1. 正確性とエラーの削減

IronOCRは、高度な機械学習アルゴリズムを利用して、請求書からテキストを正確に認識および抽出します。 これはデータ入力における人的エラーの可能性を最小限に抑え、重要な財務情報が正確に記録されることを保証します。

2. 時間とコストの節約

IronOCRを使用して請求書処理を自動化することで、手動でのデータ入力に必要な時間とリソースを大幅に削減できます。 これはスタッフの時間を最適化し、手作業の必要性を減らすことで大幅なコスト削減につながります。

効率の向上

IronOCRは、大量の請求書を迅速かつ効率的に処理できます。 従業員が各請求書からデータを手動で入力する必要がなくなり、より戦略的なタスクに集中できるようにします。

4. スケーラビリティ

IronOCRはスケーラブルであり、ビジネスの拡大に伴って増加する請求書の量を処理することができます。 請求書の処理システムが増加する作業負荷やバウンディングボックスに圧倒される心配はありません。

5. グローバルリーチ

IronOCRは125以上の言語をサポートしており、世界中のベンダーや顧客からの請求書を処理することができます。 請求書が書かれている言語に関係なく、IronOCRはデータを正確に抽出できます。

6. マルチフォーマット対応

IronOCRは、スキャンされた画像、画像ベースのPDF、およびテキストベースのPDFを含む様々な形式の請求書を処理できます。 この多様性により、さまざまなソースや形式の請求書を簡単に処理することができます。

カスタマイズとデータ抽出

IronOCRをカスタマイズして、請求書から特定のデータフィールドを抽出することができます。例えば、請求書番号、日付、ベンダーの詳細、及び品目情報などです。 このカスタマイズのレベルにより、特定のビジネスニーズに合わせてソリューションを調整することができます。

8. コンプライアンスと監査証跡

IronOCRを使用した自動請求書処理により、正確な記録を維持し、監査の履歴を提供します。 これは金融規制の遵守および監査プロセスの簡素化にとって重要です。

請求書処理サイクルの短縮

IronOCRの効率的かつ自動化された性質は、請求書の処理にかかる時間を短縮し、その結果として請求書処理サイクルを短縮します。 これにより、ベンダーへの支払いが迅速になり、関係が向上する可能性があります。

10. データ分析の強化

請求書データを構造化されたデジタル形式で保持することで、より詳細なデータ分析を実行することができます。 これにより、傾向を特定し、支出を最適化し、適切な財務上の意思決定を行うことができます。

請求書処理のためのIronOCRの実装

請求書処理のためにIronOCRを実装するには、以下の一般的な手順に従ってください:

ステップ1: 新しいC#プロジェクトを作成

新しいC#プロジェクトを作成するか、お好みの開発環境で既存のプロジェクトを開いてください。(例えば、Visual Studio や Visual Studio Code). このデモンストレーションでは、Visual Studio 2022 IDEとコンソールアプリケーションを使用しています。 ASP.NET Web API、ASP.NET MVC、ASP.NET Web Forms、または任意の .NET Framework など、あらゆるプロジェクト タイプで同じ実装を使用できます。

インボイスOCR機械学習(ステップバイステップチュートリアル):図1 - C#プロジェクト

ステップ2: NuGet パッケージ マネージャーを使用して IronOCR をインストールする

プロジェクトでIronOCRを使用するには、IronOCR NuGetパッケージをインストールする必要があります。 こちらがその方法です:

  1. NuGet パッケージ マネージャー コンソールを開きます。 Visual Studio では、「ツール」 > 「NuGet パッケージ マネージャー」 > 「パッケージ マネージャー コンソール」の下にあります。

    請求書OCR機械学習(ステップバイステップチュートリアル):図2 - パッケージマネージャーコンソール

  2. 次のコマンドを実行してIronOCRパッケージをインストールします:
    :PackageInstall

請求書OCR機械学習(ステップバイステップチュートリアル):図3 - IronOCRのインストール

  1. パッケージがインストールされるのを待ちます。 完了したら、プロジェクトでIronOCRを使用し始めることができます。

ステップ3: C#でOCRを実装する

では、IronOCRを使用して請求書に対してOCRを実行するC#コードを書きましょう。 この例のために、次のサンプル請求書を使用します。

請求書のOCR機械学習(ステップバイステップチュートリアル):図4 - サンプル請求書テンプレート

下記のサンプルコードは、請求書画像を入力として受け取り、請求書番号や購入注文などのデータを抽出します。

string invoicePath = @"D:\Invoices\SampleInvoice.png";
IronTesseract ocr = new IronTesseract();
using (OcrInput input = new OcrInput())
{
    // Add multiple images
    input.AddImage(invoicePath);
    OcrResult result = ocr.Read(input);
    Console.WriteLine(result.Text);
}
string invoicePath = @"D:\Invoices\SampleInvoice.png";
IronTesseract ocr = new IronTesseract();
using (OcrInput input = new OcrInput())
{
    // Add multiple images
    input.AddImage(invoicePath);
    OcrResult result = ocr.Read(input);
    Console.WriteLine(result.Text);
}
Dim invoicePath As String = "D:\Invoices\SampleInvoice.png"
Dim ocr As New IronTesseract()
Using input As New OcrInput()
	' Add multiple images
	input.AddImage(invoicePath)
	Dim result As OcrResult = ocr.Read(input)
	Console.WriteLine(result.Text)
End Using
VB   C#

上記のコードは、IronOCRを使用して単一の請求書画像に対してOCRを実行する簡潔なC#の例です。(SampleInvoice.png)そして、抽出された請求書データをコンソールに出力します。 invoicePath変数を、特定の請求書画像ファイルのパスに置き換えてください。

請求書OCR機械学習(ステップバイステップチュートリアル):図5 - 請求書OCR出力

複数の請求書を一度に入力し、そのデータを抽出しましょう。 以下は、入力として使用している請求書ディレクトリです。

インボイスOCR機械学習(ステップバイステップチュートリアル):図6 - インボイスディレクトリ

以下のサンプルコードは、複数の請求書から一度にテキスト抽出を実行します。

string [] fileArray = Directory.GetFiles(@"D:\Invoices\", "*.png");
IronTesseract ocr = new IronTesseract();
using (OcrInput input = new OcrInput())
{
    foreach (string file in fileArray)
    {
        input.AddImage(file);
    }
    OcrResult result = ocr.Read(input);
    Console.WriteLine(result.Text);
}
string [] fileArray = Directory.GetFiles(@"D:\Invoices\", "*.png");
IronTesseract ocr = new IronTesseract();
using (OcrInput input = new OcrInput())
{
    foreach (string file in fileArray)
    {
        input.AddImage(file);
    }
    OcrResult result = ocr.Read(input);
    Console.WriteLine(result.Text);
}
Dim fileArray() As String = Directory.GetFiles("D:\Invoices\", "*.png")
Dim ocr As New IronTesseract()
Using input As New OcrInput()
	For Each file As String In fileArray
		input.AddImage(file)
	Next file
	Dim result As OcrResult = ocr.Read(input)
	Console.WriteLine(result.Text)
End Using
VB   C#

上記のコードは、フォルダ内のすべてのPNG画像からデータを抽出し、その後フォルダ内のすべての請求書の抽出データがコンソールに表示されます。

インボイスOCR機械学習(ステップバイステップチュートリアル):図7 - 抽出されたデータ

検索可能なPDF請求書として抽出されたデータを保存

次のコードはフォルダ内のすべての画像を読み込み、データ抽出を行い、検索可能なPDF請求書として保存します。

string [] fileArray = Directory.GetFiles(@"D:\Invoices\", "*.png");
IronTesseract ocr = new IronTesseract();
using (OcrInput input = new OcrInput())
{
    foreach (string file in fileArray)
    {
        input.AddImage(file);
    }
    OcrResult result = ocr.Read(input);
    result.SaveAsSearchablePdf(@"D:\Invoices\Searchable.pdf");
}
string [] fileArray = Directory.GetFiles(@"D:\Invoices\", "*.png");
IronTesseract ocr = new IronTesseract();
using (OcrInput input = new OcrInput())
{
    foreach (string file in fileArray)
    {
        input.AddImage(file);
    }
    OcrResult result = ocr.Read(input);
    result.SaveAsSearchablePdf(@"D:\Invoices\Searchable.pdf");
}
Dim fileArray() As String = Directory.GetFiles("D:\Invoices\", "*.png")
Dim ocr As New IronTesseract()
Using input As New OcrInput()
	For Each file As String In fileArray
		input.AddImage(file)
	Next file
	Dim result As OcrResult = ocr.Read(input)
	result.SaveAsSearchablePdf("D:\Invoices\Searchable.pdf")
End Using
VB   C#

コードはすべての例でほぼ同じですが、異なるユースケースを示すために少し変更を加えています。 出力PDFは以下の通りです:

請求書 OCR 機械学習(ステップバイステップチュートリアル):図 8 - PDF 出力

このようにして、IronPDFは請求書処理と文書処理の自動化を最も簡単に実現します。

PDF請求書から請求書データを抽出

PDF請求書からデータを抽出するために、IronOCRを使用して、前のコード例と同様のアプローチを取ることができます。 IronOCRは、画像ベースおよびテキストベースのPDFの両方を処理することができます。 以下は、PDF請求書からデータを抽出する簡単な例です:

string [] fileArray = Directory.GetFiles(@"D:\Invoices\", "*.pdf");
IronTesseract ocr = new IronTesseract();
using (OcrInput input = new OcrInput())
{
    foreach (string file in fileArray)
    {
        input.AddPdf(file);
    }
    OcrResult result = ocr.Read(input);
    Console.WriteLine(result.Text);
}
string [] fileArray = Directory.GetFiles(@"D:\Invoices\", "*.pdf");
IronTesseract ocr = new IronTesseract();
using (OcrInput input = new OcrInput())
{
    foreach (string file in fileArray)
    {
        input.AddPdf(file);
    }
    OcrResult result = ocr.Read(input);
    Console.WriteLine(result.Text);
}
Dim fileArray() As String = Directory.GetFiles("D:\Invoices\", "*.pdf")
Dim ocr As New IronTesseract()
Using input As New OcrInput()
	For Each file As String In fileArray
		input.AddPdf(file)
	Next file
	Dim result As OcrResult = ocr.Read(input)
	Console.WriteLine(result.Text)
End Using
VB   C#

上記のコードは、ディレクトリ内にある複数のPDF請求書を効率的にバッチ処理します。(@"D:\請求書\") using IronOCR. ファイルパスを取得し、各PDFをOCR処理に追加し、抽出されたテキストを結合してコンソールに結果を表示します。 このアプローチは多数の請求書を処理する組織にとって、請求書データの抽出を簡素化し、効率を向上させ、手作業の負担を軽減します。

請求書OCR機械学習(ステップバイステップチュートリアル):図9 - 出力の抽出

結論

要約すると、IronOCRのような機械学習と高度なOCR技術の融合が、請求書の処理方法を変革しています。 この記事では、IronOCR を使用するプロセスを説明し、その優れた利点を紹介しました。 IronOCRを採用することで、企業はより高い精度を達成し、時間とコストを節約し、さまざまな形式や言語の請求書を簡単に処理することができます。 手入力の排除は効率を向上させるだけでなく、財務取引における高額なエラーの可能性も減少させます。 IronOCRは請求書処理のワークフローを簡素化および改善し、今日の競争の激しい環境で財務運営を強化しようとする企業にとって賢明な選択となります。 さらに、IronOCRは、125以上の言語のサポート、カスタマイズ可能なデータ抽出、画像ベースおよびテキストベースのPDFとの互換性などの強力な機能を提供します。

IronOCR の機能セットは印象的ですが、それも注目に値します。IronOCRの価格モデルは、幅広いビジネスニーズに対応するよう設計されており、柔軟なオプションを提供します無料トライアル小規模企業および大規模企業の両方のために。 少数の請求書を処理する場合でも、多量の財務書類を管理する場合でも、IronOCRは信頼性が高く、費用対効果の高いソリューションです。

< 以前
ページをテキストにスキャンする方法(初心者向けチュートリアル)
次へ >
機械学習ソフトウェア(開発者向け更新リスト)