ライブ環境でテストする
ウォーターマークなしで本番環境でテストしてください。
必要な場所でいつでも動作します。
請求書データの処理とは、サプライヤーやベンダーからの請求書を受け取り、管理し、検証して、支払いが正確かつ迅速に行われるようにすることを指します。これは、ビジネス取引の取り扱いにおいて正確性、遵守、効率性を確保し、紙の請求書を避けるためのステップを含みます。 自動化された請求書処理は、手作業によるデータ入力エラーを大幅に削減し、効率を向上させることができます。 IronOCR強力な光学文字認識 (OCR)(OCR (光学式文字認識))デジタルファイルから請求書のデータやテキストを抽出できるソフトウェアライブラリであり、C#アプリケーションでの請求書OCR処理を自動化するための優れたツールです。
Visual Studioプロジェクトを作成する。
IronOCR C#ライブラリをインストールします。
サンプル入力請求書画像。
Tesseractを利用して、レシート画像からデータを抽出します。
光学文字認識は、さまざまな種類の文書、PDF、またはテキストの画像を認識して、編集可能かつ検索可能なデータに変換する技術です。 OCR技術はテキストの画像を処理し、文字を抽出して機械で読み取り可能にします。 高度なOCR請求書ソフトウェアシステムは、財務管理ツールや請求書の自動化に役立ちます。
利点: OCRはデータ入力の自動化、エラーの削減、データの検索および取得の容易化によって生産性を向上させます。 また、文書のアーカイブをサポートし、企業がペーパーレスのワークフローを管理するのに役立ちます。
OCR技術は大幅に進化し、非常に正確になり、多くの異なる請求書形式での文書の処理や請求書データの抽出に役立っています。これにより手動データ入力が削減され、手動での請求書処理が不要になり、データセキュリティが向上します。
IronOCRは、開発者がC#およびVB.Netアプリケーションから画像やPDFドキュメントを読み取り、テキストを抽出することを可能にします。IronOCRは、製品の高いパフォーマンスと正確性で知られており、Microsoft OCRとTesseract OCRの技術を組み合わせています。これにより、複雑なレイアウトや出版物、手書きのテキストに対しても高い認識率を誇ります。
IronOCRを活用することで、あなたのアプリケーションは自動化されたデータ抽出機能を備え、業務効率を大幅に向上させることができます。
IronOCRは強力な光学文字認識ツールです。(OCR (光学式文字認識)).NET用ライブラリ(C#)開発者が画像、PDF、およびその他のドキュメント形式からテキストを抽出し、OCR請求書ソフトウェアを開発し、買掛金ワークフローを実装できるようにします。 それは、OCR機能を会計システムや経理システムに統合するための使いやすいAPIを提供します。
始める前に、以下を確認してください。
Visual Studioを開き、「新しいプロジェクトの作成」をクリックしてください。
オプションからコンソールアプリを選択します。
プロジェクト名とパスを提供してください。
.NETバージョンタイプを選択してください。
Visual Studioのプロジェクトで、ツール > NuGetパッケージマネージャー > ソリューションのNuGetパッケージを管理 に進みます。 「参照」タブをクリックして、IronOCRを検索します。 IronOCR を選択し、インストールをクリックします。
もう一つのオプションは、コンソールと以下のコマンドを使用することです。
dotnet add package IronOcr --version 2024.12.2
dotnet add package IronOcr --version 2024.12.2
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'dotnet add package IronOcr --version 2024.12.2
請求書番号が記載されたデジタル請求書のサンプル画像。
次のコードを使用して、OCR請求書処理のために請求書からデータを抽出します。
using IronOcr;
License.LicenseKey = "Your License";
string filePath = "sample1.jpg"; // image for invoice OCR
// Create an instance of IronTesseract
var ocr = new IronTesseract();
// Load the image or PDF file
using (var ocrInput = new OcrInput())
{
ocrInput.LoadImage(filePath);
// Optionally apply filters if needed
ocrInput.Deskew();
// ocrInput.DeNoise();
// Read the text from the image or PDF
var ocrResult = ocr.Read(ocrInput);
// Output the extracted text
Console.WriteLine("Extracted Text:");
Console.WriteLine(ocrResult.Text);
// next steps are to process data and use the extracted and validated data with invoice date
}
using IronOcr;
License.LicenseKey = "Your License";
string filePath = "sample1.jpg"; // image for invoice OCR
// Create an instance of IronTesseract
var ocr = new IronTesseract();
// Load the image or PDF file
using (var ocrInput = new OcrInput())
{
ocrInput.LoadImage(filePath);
// Optionally apply filters if needed
ocrInput.Deskew();
// ocrInput.DeNoise();
// Read the text from the image or PDF
var ocrResult = ocr.Read(ocrInput);
// Output the extracted text
Console.WriteLine("Extracted Text:");
Console.WriteLine(ocrResult.Text);
// next steps are to process data and use the extracted and validated data with invoice date
}
Imports IronOcr
License.LicenseKey = "Your License"
Dim filePath As String = "sample1.jpg" ' image for invoice OCR
' Create an instance of IronTesseract
Dim ocr = New IronTesseract()
' Load the image or PDF file
Using ocrInput As New OcrInput()
ocrInput.LoadImage(filePath)
' Optionally apply filters if needed
ocrInput.Deskew()
' ocrInput.DeNoise();
' Read the text from the image or PDF
Dim ocrResult = ocr.Read(ocrInput)
' Output the extracted text
Console.WriteLine("Extracted Text:")
Console.WriteLine(ocrResult.Text)
' next steps are to process data and use the extracted and validated data with invoice date
End Using
提供されたコードは、C#でIronOCRライブラリを使用して画像からテキストを抽出する方法を示しています。(例:請求書)OCRを使用して(光学文字認識). 以下はコードの各部分の説明です(実際のコードなし):
ライセンスキーの設定:
コードはIronOCRのライセンスキーを設定することから始まります。 このライブラリの全機能を使用するには、このキーが必要です。 有効なライセンスをお持ちの場合は、「Your License」を実際のライセンスキーに置き換えてください。
入力ファイルの指定:
filePath変数には、請求書を含む画像の場所が格納されています。(この場合、「sample1.jpg」). これは、テキスト抽出処理が行われるファイルです。
OCRインスタンスの作成:
IronTesseractのインスタンスが作成されます。 IronTesseractは、入力データに対してOCR操作を実行する責任を持つクラスです。(画像またはPDF).
画像の読み込み:
コードは次にOcrInputオブジェクトを作成し、画像を読み込むために使用します。(この場合、filePathで指定されたJPGファイル). LoadImageメソッドは、画像ファイルを読み込み、OCRの準備をするために使用されます。
画像フィルターの適用:
コードには、Deskewのようなオプションの画像処理メソッドを含むフィルターステップがあります。(傾きのある画像を補正する)ノイズ除去(画像のノイズ除去)、OCRの精度を向上させるために適用できます。 この場合、Deskewメソッドのみがアクティブです。
OCRの実行:
抽出したテキストを表示する:
画像の効率を向上させるため、一部のみを抽出に使用できます。
using IronOcr;
using IronSoftware.Drawing;
License.LicenseKey = "Your Key";
string filePath = "sample1.jpg";
// Create an instance of IronTesseract
var ocr = new IronTesseract();
// Load the image or PDF file
using (var ocrInput = new OcrInput())
{
var ContentArea = new Rectangle(x: 0, y: 0, width: 1000, height: 250);
ocrInput.LoadImage(filePath, ContentArea);
// Optionally apply filters if needed
ocrInput.Deskew();
// ocrInput.DeNoise();
// Read the text from the image or PDF
var ocrResult = ocr.Read(ocrInput);
// Output the extracted text
Console.WriteLine("Extracted Text:");
Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using IronSoftware.Drawing;
License.LicenseKey = "Your Key";
string filePath = "sample1.jpg";
// Create an instance of IronTesseract
var ocr = new IronTesseract();
// Load the image or PDF file
using (var ocrInput = new OcrInput())
{
var ContentArea = new Rectangle(x: 0, y: 0, width: 1000, height: 250);
ocrInput.LoadImage(filePath, ContentArea);
// Optionally apply filters if needed
ocrInput.Deskew();
// ocrInput.DeNoise();
// Read the text from the image or PDF
var ocrResult = ocr.Read(ocrInput);
// Output the extracted text
Console.WriteLine("Extracted Text:");
Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports IronSoftware.Drawing
License.LicenseKey = "Your Key"
Dim filePath As String = "sample1.jpg"
' Create an instance of IronTesseract
Dim ocr = New IronTesseract()
' Load the image or PDF file
Using ocrInput As New OcrInput()
Dim ContentArea = New Rectangle(x:= 0, y:= 0, width:= 1000, height:= 250)
ocrInput.LoadImage(filePath, ContentArea)
' Optionally apply filters if needed
ocrInput.Deskew()
' ocrInput.DeNoise();
' Read the text from the image or PDF
Dim ocrResult = ocr.Read(ocrInput)
' Output the extracted text
Console.WriteLine("Extracted Text:")
Console.WriteLine(ocrResult.Text)
End Using
このコードは、IronOCRを使用して画像の特定の領域からテキストを抽出し、オプションで精度を向上させるために台形補正などのフィルターを適用します。 抽出されたテキストが表示され、その後の利用の準備が整います。
コードの最初の部分は、IronOCRのライセンスキーを設定することを含みます。 これはライブラリでOCR機能を使用するために必要です。 ライセンスキーはIronOCRから取得した実際のキーに置き換える必要があり、これによりライブラリの全機能にアクセスできます。
処理したい画像のファイルパスを指定します。 この画像(この場合、JPGファイル)OCRがテキストを抽出するドキュメントまたはコンテンツを含みます。 パスは、ローカルシステム上の画像ファイルまたは他のアクセス可能なストレージを指すことができます。
IronTesseractクラスのインスタンスが作成されます。 このオブジェクトは、画像に対して光学文字認識を行う中核エンジンです。
長方形(関心領域)画像内で定義されています。 この長方形は、OCRエンジンが注目する画像の一部を指定します。 この例では、矩形は左上の隅から始まります。(x=0, y=0)幅が1000ピクセル、高さが250ピクセルです。 このステップは画像の関連部分のみをOCR処理するのに役立ち、精度と速度を向上させます。
画像はOCRエンジンに読み込まれますが、定義された矩形のみです。(コンテンツエリア)処理されました。 これにより、OCRを画像の特定の部分に限定することができ、特に背景やロゴなど、処理したくない不要な部分を含む画像の場合に便利です。
コードはオプションで画像に傾き補正フィルターを適用します。 デスキューは、傾きや回転がある画像をまっすぐにすることで、OCRの精度を向上させるプロセスです。 別のフィルター、denoise、が利用可能ですが、コメントアウトされています。 有効にすると、ノイズが取り除かれます。(不要なマーク)画像から、OCRの精度をさらに向上させる可能性があります。
OCRエンジンは画像を読み取ります。(またはその指定された領域)および認識したテキストを抽出します。 結果は、認識されたテキストを保持するオブジェクトに保存されます。
最後に、抽出されたテキストがコンソールに出力されます。 このテキストはOCRプロセスの結果であり、さらに処理、検証、またはデータ入力やドキュメント管理などのアプリケーションで使用することができます。
請求書からデータを抽出するにはIronOCRのキーが必要です。開発者用の試用キーを取得するには、ライセンスページ.
using IronOcr;
License.LicenseKey = "Your Key";
using IronOcr;
License.LicenseKey = "Your Key";
Imports IronOcr
License.LicenseKey = "Your Key"
この記事では、請求書処理を始めるためのIronOCRの基本的な例を紹介しました。 このコードをさらにカスタマイズおよび拡張して、特定の要件に適合させることができます。
IronOCRは、画像やPDFからテキストを抽出するための効率的で統合しやすいソリューションを提供し、請求書処理に最適です。 C#の文字列操作や正規表現と組み合わせてIronOCRを使用することで、請求書から重要なデータを迅速に処理して抽出できます。
これは請求書処理の基本的な例であり、より高度な設定を使用することで(言語認識、多ページPDF処理など。)、特定の使用ケースに合わせて精度を向上させるためにOCR結果を微調整できます。
IronOCRのAPIは柔軟で、請求書の処理を超えた幅広いOCRタスクに使用できます。これには、レシートのスキャン、ドキュメント変換、データ入力の自動化が含まれます。
10 の .NET API 製品 オフィス文書用