ライブ環境でテストする
ウォーターマークなしで本番環境でテストしてください。
必要な場所でいつでも動作します。
OCR - 光学文字認識は、デジタルファイル内のテキストを検出することを可能にします。 スキャンされた紙の書類は常にコンピューターによって画像ファイルとして保存されます。 これらの画像ファイルに含まれるデータは、通常のテキストエディタやワープロソフトを使用しても、検索、編集、またはテキスト形式で保存することはできません。 OCR処理は、これらの画像を機械可読なテキストに変換し、ユーザーによるさらに処理できるようにします。
現代において、インターネット上で共有されるドキュメントはデジタル形式であり、ほとんどがPDFや画像の形式です。 画像をテキストに変換するオンラインリソースがいくつか利用可能です。 しかし、ほとんどの企業は自社のソフトウェアアプリケーションにこの機能を必要とします。 これを念頭に置いて、ソフトウェアアプリケーションに組み込むためのOCRソリューションを提供する多くのライブラリがあります。
この記事では、C#用の最も人気のある2つのOCR技術を比較します:
IronOCR(IronOCR) は、高精度の光学文字認識 (Optical Character Recognition, OCR) ライブラリです。以下はその主な機能と利点です。
サポートされている開発プラットフォームには、.NET Framework、.NET Core、Xamarin などがあります。 IronOCR(IronOCR) は、開発者が迅速かつ効率的にOCR機能を統合するための強力なツールです。
さらに詳しい情報やデモ版のダウンロードは、公式ウェブサイト https://ironsoftware.com からご覧いただけます。
IronOCR for .NETは、画像やPDFをスキャン、検索、読み取るためのC#ライブラリです。 それは画像または PDF ファイルを入力として受け取り、最新の Tesseract 5 カスタムビルド .NET OCR エンジンを使用して、テキスト、構造化データ、または検索可能な PDF ドキュメントを出力します。 そのTesseractは、125以上の言語に対応しており、.NET CoreおよびStandard 2.0から7までのクロスプラットフォームをサポートしています。
IronOCRは、C#開発者がIronTesseract
クラスを使用することで、画像をテキストに自動変換できるユーザーフレンドリーなAPIです。 それは速度、正確さ、使いやすさを優先します。 また、トレーニング済みのモデルセットを用いてテキストを見つけるためにコンピュータビジョンAPIを支援します。
IronOCR のもう一つの強力な機能は、すべての画像ファイルからバーコードおよび QR コードをスキャンして、そのテキストを読み取ることができることです。 IronOCRのその他の重要な機能は以下の通りです。
System.Drawing
オブジェクト、ストリーム、およびPDFドキュメント (最適化されたターゲットDPI)アイリスOCR SDK は、アプリケーションが画像のテキストを編集可能なファイルに変換し、その他のテキスト認識サービスを提供できるようにするモジュール式ソフトウェアツールキットです。 それは高性能で高精度な最速のプロフェッショナルOCRです。 虹彩認識技術を使用することで、光学文字認識における最先端の技術を手に入れることができます。これには、最新のスキャンニング、AIベースの文書分類、データの整合性、およびデータ抽出が含まれます。
Iris OCRは、画像強化のための強力な画像クリーニングツールも提供する、機能豊富なSDKです。 C++、C#、J#、VB.NETのソフトウェアアプリケーションに簡単に統合できます。 IrisOCRは長期サポートを提供し、クロスプラットフォームで使用できるように設計されています。 OEMおよびSaaSアプリケーションにも対応しています。 Iris OCRは、柔軟な価格設定でグローバルソリューションを提供し、企業を支援します。
このチュートリアルでは、最新バージョンのVisual Studio 2022を使用します。 では、既にC#用にダウンロードしてインストール済みであると仮定します。 もし違う場合は、からダウンロードできます Visual Studioウェブサイト.
次に、両方のライブラリを使用するためのコンソールプロジェクトを作成する必要があります。 プロジェクトを作成する手順に従ってください:
「Create a New Project」をクリックしてください。
与えられたオプションからC# コンソールアプリケーションを選択し、[次へ]をクリックします。
新しいプロジェクトに名前と場所を設定してください。 例:OCRプロジェクト
追加情報については、最も安定したバージョンである .NET 6.0 フレームワークを選択してください。
IronOCRライブラリをインストールする方法はいくつかあります。
NuGetは、プロジェクト内の依存関係をダウンロードしてインストールするためのパッケージマネージャーです。 そのパッケージにはコンパイルされたコードが含まれています。 (DLL (ディーエルエル)) およびマニフェストファイル。以下の方法を使用してアクセスします:
ソリューションの NuGet パッケージを管理をクリックします
NuGet パッケージの管理をクリック
さて、NuGetパッケージマネージャーウィンドウが開きます。 IronOCRを検索して、インストールをクリックします。
それはNuGet公式ウェブサイトから直接ダウンロードできます。
リンクをクリックしてください: ""。
ページの右側にあるダウンロードパッケージオプションをクリックしてください。
ダウンロードしたパッケージを開くと、インストールが開始されます。
Iron Softwareのウェブサイトにアクセスし、IronOCR for .NETのウェブページに移動してください。 下までスクロールして、「Download DLL」または「Download Windows installer」をクリックしてください。
Zipファイルがダウンロードされました。 プロジェクトファイルを抽出するか、Windowsインストーラーを実行してください。 以下の手順に従って、プロジェクトに追加してください。
ソリューションエクスプローラーからVisual Studioのプロジェクトの依存関係を右クリックします。
次に、オプションの「Add Project Reference」を選択します。
ダウンロードしたDLLファイルの場所を参照します。
Visual Studioの[ツール]タブに移動します。
NuGetパッケージマネージャーのオプションを拡張する。
Install-Package IronOcr
これにより、プロジェクトにIronOCRが自動的にダウンロードおよびインストールされます。
必要な名前空間は1つだけであり、機能にアクセスするためにソースコードファイルの先頭に追加する必要があります。
using IronOcr;
using IronOcr;
Imports IronOcr
さて、プロジェクトでIronOCRを使用する準備が整いました。
Iris OCRを使用する方法は多岐にわたります。 小規模ビジネスやオフィスソリューションをお探しの場合、OCRアプリを使用できます。このソフトウェアは次のリンクからダウンロードできます。 リンク.
中規模から大規模なビジネスソリューションをお探しの場合は、Irisチームに連絡してニーズに合わせた見積もりを取得する必要があります。 SDKやその他のドキュメントは、登録済みのお客様のみご利用いただけます。 開発環境でSDKを使用するには、こちらを使用してアクセスをリクエストする必要があります フォーム.
ここでは比較の目的でIris 17 OCRソフトウェアを使用します。 それは基本的なレベルですべての機能を提供し、IronOCRと比較して使用することができます。 次の手順に従って、Iris OCRソフトウェアをダウンロードおよびインストールしてください:
ソフトウェアをダウンロードしたら、セットアップウィザードを開くためにダブルクリックしてください。
「次へ」をクリックし、インストールモードを選択してください。
次に、読み取りたいテキストの言語を選択してください
「次へ」をクリックしてIris OCRをインストールします
ソフトウェアのインストールが開始されます。 インストールが完了したら、「終了」をクリックし、Iris OCR ソフトウェアを開いてください。
すべて完了! それでは、比較に移りましょう。
画像からデータを読み取る作業は非常に骨の折れる仕事です。 コンテンツを抽出する際には、画像の解像度と品質が重要な役割を果たします。 両方のライブラリは、画像からテキストを抽出するための光学文字認識機能を提供します。
IronOCRは、その強力なIronTessaract
クラスを使用して、開発者が画像ファイルの内容を非常に簡単に読み取ることができます。 以下では、PNG画像を使用して 画像ファイルからテキストを読み取る コードは次の通りです:
var OCR = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/employmentapp.png");
var Result = OCR.Read(Input);
Console.WriteLine(Result.Text);
}
var OCR = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/employmentapp.png");
var Result = OCR.Read(Input);
Console.WriteLine(Result.Text);
}
Dim OCR = New IronTesseract()
Using Input = New OcrInput()
Input.AddImage("test-files/employmentapp.png")
Dim Result = OCR.Read(Input)
Console.WriteLine(Result.Text)
End Using
IronOCRの出力は、提供された元の画像と一致します。 コードはクリーンで、技術的な複雑さがなく理解しやすいです。
Iris OCRソフトウェアは、すべての紙文書をスキャンしてテキスト認識に使用することができます。 Iris OCR技術を使用してテキスト抽出は非常に簡単です。 ホームメニュータブの「From File」から画像ファイルを選択してください。 同じ画像を使用して、2つのソフトウェアの出力をテストおよび比較します。
アップロードされた画像に画像補正を適用することができます。 出力ファイルタブで、任意のフォーマットを出力として選択できます。 複数の出力形式、例えばWord、Excel、PDF、テキストファイルなどを提供します。ファイルを任意の形式で保存し、抽出されたテキストを表示するために開いてください。
二つのソフトウェアの出力には明確な違いがあることがわかります。 IronOCRはフォーマットと共に画像から正確なテキストを抽出しました。 一方、Iris OCRは書式設定を保持しましたが、フルネームと電話番号が混乱しています。
IronOCRは画像を読み取る際にユニークで有用な機能を提供します。つまり、バーコードやQRコードを読み取ることができます。 バーコードを検出し、その値を簡単に表示できます。
そのためには、バーコード読み取りの設定を true にし、次に OCR の結果に含まれる各バーコードを反復処理します。 バーコードを読み取るコードは以下のとおりです:
var OCR = new IronTesseract();
OCR.Configuration.ReadBarCodes = true;
using (var input = new OcrInput()){
input.AddImage("test-files/Barcode.png");
var Result = OCR.Read(input);
foreach (var Barcode in Result.Barcodes){
Console.WriteLine(Barcode.Value);
}
}
var OCR = new IronTesseract();
OCR.Configuration.ReadBarCodes = true;
using (var input = new OcrInput()){
input.AddImage("test-files/Barcode.png");
var Result = OCR.Read(input);
foreach (var Barcode in Result.Barcodes){
Console.WriteLine(Barcode.Value);
}
}
Dim OCR = New IronTesseract()
OCR.Configuration.ReadBarCodes = True
Using input = New OcrInput()
input.AddImage("test-files/Barcode.png")
Dim Result = OCR.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
Next Barcode
End Using
入力画像のすべてのバーコードが正常に読み取られ、その隠されたテキストが表示されます。
Iris OCRは、画像またはPDFファイルからバーコードデータを抽出する機能も提供します。 ただし、バーコードの場合、検出するバーコードのエリアを手動で選択する必要があります。 ゾーンタブに移動し、認識するバーコードを選択します。
選択した領域を右クリックしてデータとしてコピーし、ワープロファイルに保存してデータを表示します。
この場合、Iris OCRソフトウェアは画像内のバーコードの背後にある隠しテキストを検出できません。
PDFファイルの読み取りは、IronOCRで画像ファイルを読み取るほど簡単です。 画像読み取りコード内で AddImage
メソッドを AddPDF
に変更するだけでいいです。 コードは次のようになります:
var OCR = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddPdf("test-files/example.pdf");
var Result = OCR.Read(Input);
Console.WriteLine(Result.Text);
}
var OCR = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddPdf("test-files/example.pdf");
var Result = OCR.Read(Input);
Console.WriteLine(Result.Text);
}
Dim OCR = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("test-files/example.pdf")
Dim Result = OCR.Read(Input)
Console.WriteLine(Result.Text)
End Using
抽出されたテキストは、PDFファイルと同じフォーマットです。
Irisソフトウェアを使用すると、PDFファイルの読み取りも非常に簡単です。 それはすべてのデジタル形式をサポートしており、その中の一つにPDFがあります。 Iris OCRソフトウェアを使用して検索可能な形式を作成することもできます。 PDFは紙の文書であり、各ページは別々の画像ファイルとして扱われます。From Fileオプションを使用して紙の文書を開きます。 抽出したいテキストのページ範囲を選択し、与えられたオプションから任意の編集可能な形式で保存します。
IronOCRは開発目的には無料で使用できますが、商業利用にはライセンスが必要です。 また、すべての機能をお試しいただける無料トライアルも提供しています。 ライトパッケージは、30日間の返金保証付きで$liteLicenseから始まります。 IronOCRは、1年間の製品サポートとアップデートを無料で提供し、その後は毎年$399の料金がかかります。 すべてのライセンスは永久であり、一回限りの購入となり、隠れた料金はありません。 SaaSおよびOEM製品のロイヤリティフリー再配布カバレッジも、単回購入価格$1999で選択できます。 ライセンスパッケージと価格プランの詳細については、こちらをご覧ください。 これ.
Irisは、10日間の無料試用版が利用可能なOCRソリューションです。 プロバージョンは$99から、協力バージョンは$199から始まります。プロダクションモードでSDKを使用するには、彼らの営業担当者から見積もりを取得する必要があります。C#やその他の言語開発のためにライセンスを取得したい場合は、見積もりを取得してください。 これ. プロバージョンとコーポレートバージョンの詳細および比較に関する情報は、こちらでご確認いただけます。 これ.
IronOCRは、C#開発者に対して、私たちが知る限りあらゆるプラットフォーム上で最も高度なTesseract APIを提供します。 IronOCR は、Windows、Linux、Mac、Azure、AWS、および Lambda にデプロイでき、.NET Framework プロジェクトだけでなく、.NET Standard や .NET Core もサポートしています。 我々はOCRスキャンの中でバーコードを読み取ることができ、さらにOCR結果をHTMLや検索可能なPDFとしてエクスポートすることもできます。
アイリスOCRソフトウェアはAI機能を備えており、WindowsおよびMacと互換性があります。 そのSDKは、複数のプログラミング言語に対応しています。 Iris Proには、WindowsおよびMacに対応するIris OCR SDKの機能がGUIアプリケーションとして備わっています。 画像やPDFからテキストを読み取り、他のフォーマットに出力することができます。 数回のクリックだけで、Irisソフトウェアを使って、すべての紙のドキュメントをカスタマイズすることもできます。
IronOCRのライセンスは開発者ベースであり、製品を使用する開発者の人数に基づいてライセンスを購入する必要があります。 Iris OCR開発ライセンスはIrisのウェブサイトに公開されていません。ライセンス情報の見積もりをリクエストする必要があります。 さらに、IronOCRのライセンスは一度の購入で、永久に使用することができます。
全体的に、どちらのソフトウェアもAI技術を用いたほとんどすべてのOCR機能を提供していますが、IronOCRにはIris OCRに対してわずかな優位性があります。 速度、精度、および全体的な性能において、IronOCRは本番環境で優れています。 高レベルなテキスト認識アプリケーションを作成するために、ほんの数行のコードを使用するだけです。 APIドキュメントは24時間365日利用可能であるため、開発者はこのライブラリを愛用し、OCRソリューションの第一選択としています。 次のテキストを日本語に翻訳してください。
完全な機能をテストするには 無料試用.
今、5つのIron製品を2つの価格で購入できます。詳細については、こちらをご覧ください。 リンク.
IronOCRをダウンロードするには これ そしてお試しください。
9つの .NET API製品 オフィス文書用