IRONOCRの使用

請求書処理に最適なOCR(最新リスト)

Kannaopat Udonpant
カンナパット・ウドンパント
2023年7月22日
更新済み 2024年2月11日
共有:

開発者は、TesseractやIronOCRなどのOCRライブラリから提供される強力なツールとAPIを、機械学習技術と組み合わせて利用することができます。 これらは正確なテキスト認識のための高度なアルゴリズムを提供し、新規および既にスキャンされた文書から貴重な情報を整理および抽出するのに役立ちます。 OCRは、紙の記録をデジタル化したり、請求書からデータを抽出したり、文書のアクセシビリティを向上させたりする場合でも、企業や個人の生産性を向上させます。

AvidXChange

AvidXChangeのような高度なソフトウェアを使用すると、買掛金チームは複雑な請求書を効率的に処理できます。 紙の請求書はスキャンされ、デジタル形式に変換され、正確性のために比較されることができます。 すべてのデータは単一のダッシュボードでアクセス可能で、既存の会計ソフトウェアとシームレスに統合されています。

ソフトウェアはOCRを使用して請求書をデジタルテキストに変換し、従来のファイリングの必要性を排除し、紙の消費を削減します。 さまざまな基準に基づいて、スキャンしたドキュメントのカテゴリ分けと分類を可能にします。

さらに、それは異なるサプライヤーの多様な請求書生成システムに対応し、支払方法の管理を簡素化します。 これは、異なる決済収集方法を好むベンダーに適応できることを意味します。 詳細については、AvidXChange公式サイトをご確認ください。

KlippaのOCRソフトウェア

Klippaのプログラムを使用すると、データ抽出のためにファイルを24時間いつでも交換できます。 モバイルアプリ、インターネットプラットフォーム、またはファイル転送用のメール添付ファイル。 OCRプログラムは、PDF、JPG、PNGなどのファイルタイプを処理した後、ファイルをJSON、PDF/A、XLSX、CSV、またはXMLに変換できます。

速さと精度を兼ね備えたKlippaのOCRソフトウェアでは、領収書、請求書、契約書、パスポートなどの文書を構造化データに変換します。 請求書のスキャンプロセスは通常1秒から5秒程度で完了し、組織の効率を向上させます。 詳細については、サイトのホームページをご確認ください。

ナノネット

NanonetsというAIベースのソフトウェアは、請求書プロセス全体を自動化します。 それは QuickBooks、Freshbooks、あるいは Sage などの会計システムと統合し、請求書を即座にスキャンして送信することができます。 中小企業や独立した契約者に最適で、見積もりの送信、契約書の作成、プロジェクトの時間追跡の機能も提供します。

請求書はデスクトップ、ドライブ、またはメールからアップロードできるため、受信トレイを常に確認する必要が減ります。 Nanonetsはプロセスを自動化し、手作業の労力を減少させます。

アップロード後、Nanonets OCRエンジンは請求書データ(金額、税額、ベンダーの詳細、品目など)を希望のフォーマットに抽出します。

  • 買掛金自動化:自動化された会計ワークフローを使用すると、承認、三点照合、ステータス更新など、会計プロセスのすべてのステップを自動化できます。
  • 経費管理セクションで、リアルタイムの払い戻しとデータ同期を使用して、会社全体の経費を管理します。
  • ベンダーマネジメントを使用して、ベンダーのオンボーディング、身元確認、支払いなどを自動化しましょう。

    詳細については、Nanonets のウェブサイトをご覧ください。

IronOCR

標準のTesseractライブラリとは異なり、IronOCRはTesseractを拡張し、精度、パフォーマンス、および安定性が向上したネイティブC# OCRライブラリを提供します。 PDFおよび写真からのテキストは、.NETソフトウェアおよびウェブサイトを使用して抽出できます。 プレーンテキストや構造化データを出力することができ、多くの外国語に対応しています。 バーコードやテキストが埋め込まれた画像を読み取ることができます。 Iron SoftwareのOCRライブラリは、.NETコンソール、Web、MVC、およびデスクトップアプリケーションで使用できます。 商用展開のためのライセンス手続きは、開発チームによって直接支援されます。 最新バージョンのVisual StudioはIronOCRと互換性があります。

IronOCRの利点

  • IronOCRは、最新のTesseract 5エンジンを使用して、さまざまな画像やPDFファイルから紙のドキュメント、バーコード、およびQRコードを読み取ることができます。このパッケージにより、OCRのデスクトップ、コンソール、およびWebアプリケーションへの統合が簡単になります。
  • IronOCRを使用してOCRを実行し、スキャンされたPDFを検索可能なPDFに変換します。
  • 全世界で、IronOCRは、単語リストやカスタム言語に加えて、127の異なる言語をサポートしています。
  • IronOCRを使用すると、20種類以上のバーコードとQRコードをスキャンできます。
  • IronOCRからはバーコードデータとプレーンテキストの両方が出力可能です。 代替の構造化データオブジェクトパラダイムを採用することにより、開発者はシステムに直接挿入するためのすべてのコンテンツを取得できます。 これは、オンライン アプリケーションの整理された見出し、段落、行、単語、および文字に適用されます。

    詳細な機能については、IronOCRのウェブサイトをご覧ください。

IronOCRを使用した請求書処理

レシートのデータは、強力なOCRライブラリであるIronOCRの助けを借りて抽出およびアクセスすることができます。 データのプライバシーを犠牲にすることなく、IronOCR を使用して領収書の写真を撮り、それを機械で読み取り可能なテキストに変換し、すぐに解析および処理することができます。

こちらは、IronOCRを使用してレシートからテキストを抽出するレシートOCRの機能のデモンストレーションです。

var ocr = new IronTesseract();
ocr.Language = OcrLanguage.EnglishBest;
ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

using (OcrInput ocrInput = new OcrInput("Demo.gif"))
{
    OcrResult ocrResult = ocr.Read(ocrInput);
    var totalPrice = ocrResult.Text.Contains("Total Current Charges") ? ocrResult.Text.Split("Total Current Charges")[1].Split("\n")[0] : "";
    Console.WriteLine("Total Current Charges : " + totalPrice);
}
var ocr = new IronTesseract();
ocr.Language = OcrLanguage.EnglishBest;
ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

using (OcrInput ocrInput = new OcrInput("Demo.gif"))
{
    OcrResult ocrResult = ocr.Read(ocrInput);
    var totalPrice = ocrResult.Text.Contains("Total Current Charges") ? ocrResult.Text.Split("Total Current Charges")[1].Split("\n")[0] : "";
    Console.WriteLine("Total Current Charges : " + totalPrice);
}
Imports Microsoft.VisualBasic

Dim ocr = New IronTesseract()
ocr.Language = OcrLanguage.EnglishBest
ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5

Using ocrInput As New OcrInput("Demo.gif")
	Dim ocrResult As OcrResult = ocr.Read(ocrInput)
	Dim totalPrice = If(ocrResult.Text.Contains("Total Current Charges"), ocrResult.Text.Split("Total Current Charges")(1).Split(vbLf)(0), "")
	Console.WriteLine("Total Current Charges : " & totalPrice)
End Using
$vbLabelText   $csharpLabel

IronTesseract オブジェクトは、OCRプロセスを開始するために前述のコードスニペットで作成されます。 1つ以上の画像ファイルの追加を容易にするために、OcrInput オブジェクトが構築されます。 追加の画像のパスも、OcrInput オブジェクトの Add メソッドを使用して指定する必要があります。 請求書の画像は好きなだけ含めることができます。IronOCRオブジェクトのReadメソッドがトリガーされ、画像ドキュメントを解析し、結果をOCR結果に抽出することで写真にアクセスします。 それは写真からテキストを抽出し、文字列に変換することができます。 上記のコードでは、請求書から合計金額が抽出されます。

請求書処理に最適なOCR (更新リスト), 図1: サンプル請求書

サンプル請求書

以前に提供された画像からの全電流の変化は、下記の出力に表示されており、画像から正しく抽出されたことを証明しています。

請求書処理に最適なOCR(更新されたリスト)、図2:総価格が抽出され、コンソールアプリケーションに表示されます

合計金額が抽出され、コンソールアプリケーションに表示されます

IronOCRチュートリアルについて詳しく学ぶには、こちらのIronOCRチュートリアルページをご覧ください。

結論

市場には請求書のデータを処理するのに役立つ様々なOCRツールがあります。請求書のOCR処理は、指定された請求書画像のデータをテキストに読み取ることを可能にします。 最初の3つのOCRツールは、請求書データの処理を支援し、手動データ入力作業を削減します。これにより、請求書のスキャンおよびデータ検証が自動化されます。 一部のOCRツールは、アクティブなインターネット接続を必要とし、ツールのコストも高いです。 それはいくつかの環境でサポートされています。

一方で、IronOCRは、.NET Framework Standard 2、.NET Framework 4.5、.NET Core 2、3、5を含む、いくつかの.NETプロジェクトをサポートしています。 また、Azure、Mono、Xamarinなどの最新の技術とも連携しています。 IronOCRはIronOCRの技術を使用して、Tesseractの出力を改善し、誤ってスキャンされたテキストや画像を修正します。 NuGetパッケージは複雑なTesseract辞書システムを制御します。 IronOCRは、請求書の自動化に最適な請求書OCRソフトウェアであり、少ないコード行数でデータを抽出します。

IronOCRは追加の構成を必要とせず、様々な画像フォーマット、PDFファイル、マルチフレームTIFFをサポートしてシームレスな体験を提供します。 それは光学式文字認識を超え、バーコード認識機能を提供し、バーコード値を含む写真からデータを抽出することを可能にします。 IronOCRは無料トライアル付きのお得な開発版を提供しており、IronOCRパッケージを購入すると永久ライセンスが含まれています。 一つの価格で、IronOCRパッケージは複数のシステムをカバーし、投資に対する素晴らしい価値を提供します。 IronOCRの価格に関する追加情報については、このライセンスページをご覧ください。

Kannaopat Udonpant
カンナパット・ウドンパント
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、カンナパットは日本の北海道大学から環境資源学の博士号を取得しました。学位を取得する過程で、カンナパットはバイオプロダクション工学部に所属する車両ロボティクス研究所のメンバーにもなりました。2022年には、C#のスキルを活かしてIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。カンナパットは、IronPDFで使用されているコードの大部分を作成した開発者から直接学べることに価値を見いだしています。同僚との学び合いに加えて、Iron Softwareで働くことの社会的側面も楽しんでいます。コードやドキュメントを書いていない時には、カンナパットは通常、PS5でゲームをしたり、『The Last of Us』を再視聴したりしています。
< 以前
レシートスキャンAPI(開発者チュートリアル)
次へ >
請求書OCR API(開発者チュートリアル)