ライブ環境でテストする
ウォーターマークなしで本番環境でテストしてください。
必要な場所でいつでも動作します。
この記事では、光学文字認識 (OCR) を使用する2つのソフトウェアライブラリを比較します。 (OCR (光学式文字認識)) 画像やスキャンされた文書から印刷されたテキストや手書きのテキストを自動的に検出および抽出するために。 まず、両方のライブラリの機能について説明します。 次に、両方のライブラリを使用して生成されたサンプルソースコードを使用して、それらのテキスト認識と抽出機能を検討および比較します。 最後に、ライブラリのライセンスと価格を比較します。
この記事で比較するライブラリは次の通りです:
IronOCR
SyncfusionのEssential PDFライブラリには、OCR機能が組み込まれており、PDF文書内のスキャン画像での画像-テキスト処理を可能にします。
SyncfusionのOCRプロセッサーは、Tesseractバージョン3と互換性があります。 (3.02および3.05) と 4. このライブラリは .NET Core および ASP.NET アプリケーションに含めることができます。
SyncFusion Essential PDFのOCR機能の特徴には以下が含まれます:
OCRプロセッサ
クラスはPDFファイルに対してOCRを実行するために使用できます。 それは、世界でも最高のOCRプロセッサの一つとして知られるTesseractデータプロセッサに基づいています。IronOCRは、.NET開発者向けの高度な光学文字認識(OCR)ライブラリです。スキャナーやカメラからの画像およびPDFからテキストデータを抽出することができ、自動化タスクやデータマイニングのための強力なツールです。IronOCRは、多言語対応と高い認識精度を特徴としており、さまざまな業界での使用が可能です。
IronOCRは、.NETプラットフォームの開発者が画像やPDFドキュメントからテキストを認識および読み取ることを可能にするC#ソフトウェアライブラリです。 これは、強力なTesseractエンジンを使用する.NET専用のOCRライブラリです。Tesseractバージョン3から5は、Windows、macOS、Linux、Azure、AWS、Lambda、Mono、およびXamarin Macでそのまま動作します。
IronOCRは、利用可能なすべてのOCRエンジンの中で最も多くの言語をカバーしており、125言語をサポートしています。 (デフォルトでは英語のみがインストールされています).
.NET 開発者はドキュメントを必要に応じて適切に変更できる完全な制御権を持っています。
IronOCRは、ユーザーの技術的な背景やハードウェアの高度さに関係なく、統合、署名、エクスポート、視覚情報の読み取り、および写真からの詳細抽出のための独自の能力と機能の組み合わせを提供します。
IronOCR SDKは精度の面で他のOCRライブラリを凌駕しており、精度は99.8パーセントです。
IronOCRクラスはC#開発者に広範な制御を提供します。 彼らは開発者にOCRを提供しています (画像およびPDFからテキストへ) 各特定のインスタンスにおける機能性と微調整されたパフォーマンス。
IronOCRには、理想的な品質でない画像を処理するための設定オプションが含まれています。 以下の設定オプションを利用できます:背景ノイズの除去、コントラストの強化、解像度の強化、言語、戦略、回転および整列、色空間、ダーク背景上の白いテキストの検出、および入力画像タイプ。
IronOCRは125以上の国際言語をサポートしています。
Iron Tesseractは、複数の画像フォーマットとPDFファイルを読み取ることができます。 この機能は、標準の無料Tesseractエンジンでは利用できません。 スキャンの品質が低い場合、OCR入力を使用すると必要な属性を自動的に修正できます。
OCRInput クラスは、C# プログラマーに入力に対してきめ細かい制御を提供します。 画像入力は、スピードと精度を向上させるために開発者によって前処理されます。 これにより、OCR処理の前に写真を準備するためにPhotoshopバッチスクリプトやImageMagickを使用する必要がなくなります。
IronOCRは、エンドユーザーが画像の特定の領域に対してOCRを実行できるようにします。
IronOCRは、Tesseract 3、4、または5を使用してスキャンした各ページに対して高度な結果オブジェクトを返します。これには、位置データ、画像、テキスト、統計的信頼性、代替記号の選択、フォント名、フォントサイズの装飾、フォントの太さ、および以下の各項目のポジションが含まれます:
テキストの行
Words
IronOCRは、開発者が単一のドキュメントで複数の言語を使用できるようにします。 この機能は.NETサービスプロバイダーに非常に有益です。
この記事では、新しいVisual Studioコンソールアプリケーションを使用して、IronOCRおよびSyncfusion Essential PDFのOCR処理機能を実演します。
Visual Studioソフトウェアを開き、ファイルメニューに移動し、新しいプロジェクトを選択します。 次に、Console Application を選択します。
プロジェクト名を入力し、適切なテキストボックスにパスを選択してください。 次に、作成ボタンをクリックし、下記のスクリーンショットのように必要な.NETフレームワークを選択します。
Visual Studioプロジェクトは、新しいコンソールアプリケーションの構造を生成します。 プログラム.csファイルは完了後に開かれます。
プロジェクトに両方のライブラリを追加します。
IronOCRライブラリは4つの方法でダウンロードおよびインストールできます。 これらは:
Visual Studio NuGet パッケージ マネージャーを使用する
NuGetのウェブページから直接ダウンロード。
IronOCRのウェブページから直接ダウンロード。
IronOCRをVisual Studio NuGetパッケージマネージャーを使用してC#プロジェクトに統合できます。
ツール > NuGet パッケージ マネージャー > ソリューション用の NuGet パッケージの管理... をクリックして、NuGet パッケージ マネージャー GUI にアクセスします。
その後、新しいウィンドウが表示されます。 IronOCRを検索し、プロジェクトにパッケージをインストールします。
上記の方法を使用して、IronOCRの追加言語パックもインストールできます。
IronOCRは、次の手順に従ってNuGetウェブサイトから直接ダウンロードできます:
以下に移動します IronPDF NuGetギャラリーページ
右側のメニューからダウンロードパッケージオプションを選択してください。
開発者は ダウンロード IronOCRのウェブサイトからライブラリをダウンロードし、プロジェクト参照として追加してください。
以下の手順に従って、ライブラリを Visual Studio の参照として追加してください。
ソリューションウィンドウからプロジェクトを右クリックします。
次に、「Add Project Reference」を選択し、ダウンロードした参照の場所を参照してください。
Visual Studioで、ツール > NuGetパッケージマネージャー > パッケージマネージャーコンソールに移動します。
パッケージマネージャー コンソール タブに次の行を入力してください:
以下を日本語に翻訳してください:
パッケージが現在のプロジェクトにダウンロード/インストールされ、使用可能になります。
Syncfusion Essential PDFは、3つの異なる方法でインストールできます。
Visual Studio NuGet パッケージ マネージャーを使用する
NuGetのウェブページから直接ダウンロード。
IronOCRと同様に、開発者はVisual StudioのNuGetパッケージマネージャーを使用して、SyncFusionのOCRライブラリをインストールすることもできます。
以前と同様に、ツール > NuGet パッケージ マネージャー > ソリューションの NuGet パッケージを管理... をクリックしてパッケージ マネージャーにアクセスします。
SyncFusion OCR を検索して、適切なパッケージをインストールします。 (べき Syncfusion.PDF.OCR.Net.Core
)
SyncFusion Essential PDF OCR の追加言語パックは、以下からダウンロードできます GitHub(ギットハブ).
Syncfusion Essential PDF OCRは、以下の指示に従ってNuGetのウェブサイトから直接ダウンロードできます。
パッケージのページに移動します NuGetギャラリーページ.
右側のメニューからダウンロードパッケージオプションを選択してください。
ダウンロードしたパッケージをダブルクリックしてください。 自動的にインストールされます。
Visual Studio で、ツール > NuGet パッケージ マネージャ > パッケージ マネージャ コンソール に進みます。
Install-Package Syncfusion.PDF.OCR.Net.Core -Version 20.2.0.38
パッケージが現在のプロジェクトにダウンロード/インストールされ、使用可能になります。
IronOCRとSyncfusion OCRの両方がPDFドキュメントに対してOCRを実行することができます。 ここでは、どちらもVisual Studioでどのように使用できるかについて説明します。
数行のコードだけで、開発者はPDF全体や特定のページまたは部分に対してOCRを実行できます。 以下のコードスニペットをご確認ください。
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("example.pdf", "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
OCRProcessorクラスを使用して、PDFドキュメントおよびドキュメントの特定の領域に対してOCRを実行できます。 以下のコードサンプルをコンテキストとして確認してください。
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
Imports Syncfusion.OCRProcessor
Imports Syncfusion.Pdf.Graphics
Imports Syncfusion.Pdf.Parsing
'initialize the ocr processor
Using processor As New OCRProcessor("TesseractBinaries\")
Dim lDoc As New PdfLoadedDocument("Input.pdf")
processor.Settings.Language = Languages.English
processor.PerformOCR(lDoc, "TessData\")
lDoc.Save("Sample.pdf")
lDoc.Close(True)
End Using
どちらのライブラリも、C#.NETおよび.NET Coreアプリケーション内で画像に対してOCRを実行できます。
IronOCRは、わずか2行のコードで不完全にスキャンされた画像から自動的にテキストを検出して読み取る能力において独自です。
using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
Imports IronOcr
Private Result = (New IronTesseract()).Read("images\11111.png").Text
OCR OUTPUT form IMAGE
OCR Output
Simple Data Outputs:
» NET Text Strings
» Barcode & QR Data & Images
Structured Data Outputs:
» Pages
» Blocks
» Paragraphs
» Lines
» words
» Characters
Export Documents:
» Searchable PDFs
» hOCR / HTML Export
» Images of any Page, Text
Element or Barcode
Syncfusion Essential PDFは、画像から高精度でテキストを抽出することが可能です。
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
Using processor As New OCRProcessor("TesseractBinaries\")
Using Syncfusion.OCRProcessor
End Using
End Using
Using Syncfusion.Pdf.Graphics
Using Syncfusion.Pdf.Parsing
'loading the input image
Dim image As New Bitmap("11111.jpeg")
'Set OCR language to process
processor.Settings.Language = Languages.English
'Process OCR by providing the bitmap image, data dictionary and language
Dim ocrText As String= processor.PerformOCR(image, "TessData\")
End Using
End Using
コンソール
画像からのOCR出力
OCR出力
シンプルデータ出力:
.NET テキスト文字列
ディー イー ティー エヌディー
The provided content, "tC eke ass", does not form a coherent sentence or context. It appears to be either a typographical error or random text. Please provide a meaningful sentence or correct the text if it was improperly entered.
バーサンスビー)
大豆
セグ
または
eae
eed
TLC
残念ながら、与えられた入力「eres」は単語として未定義のようです。Iron Softwareやその製品に関連する文脈が不足しているため、正確な翻訳を提供することは難しいです。具体的な文脈や文章を提供していただければ、正確な翻訳をお手伝いいたします。
Smt d
amrを見る
ETD IEOT もちろんです!翻訳したいコンテンツを提供してください。それに従って正確な日本語訳を提供いたします。
IronOCRとSyncfusion Essential PDFの両方の使用にはソフトウェアライセンスが必要です。
IronOCRには、個人の非商用プロジェクト向けに無料の開発ライセンスがあります。
IronOCRは商業ライセンス向けに独自の価格構造を提供しています。 ライトパッケージは追加コストなしで $749 から始まります。 すべてのライセンスには、30日間の返金保証、1年間のソフトウェアサポートおよびアップグレード、開発、テスト、ステージング、運用の有効性、および永続的なライセンスが含まれます。 (一回限りの購入). IronOCRの完全な価格構造とライセンス情報についての詳細は、こちらからご確認ください。 このページ.
一度の料金として1,599ドルをお支払いいただくと、SaaSおよびOEM製品のロイヤリティフリー再配布が可能になります。
Syncfusion Essential PDFは3種類のデベロッパーライセンスを提供していますが、SaaSおよびOEMのカバレッジは提供していません。
Unlimited License(アンリミテッドライセンス)。 このオプションは、同じ年間ベースで組織全体にライセンスを提供しますが、より低価格で提供されます。
Syncfusion Essential PDFのすべてのライセンス構造を表示する (および他のSyncfusionコンポーネントのために) においての 製品ライセンシングページ.
IronOCRは、世界中の約125の言語をサポートしています。 その処理機能には、PDF文書や画像の一部分にOCRを実行する機能、PDFや写真からテキストを抽出する機能、低品質の画像を修正する機能など、多くの機能が含まれています。 IronOCRはスピードと精度を優先します。 その精度は99.8%で、市場にある他のTesseract対応OCRライブラリよりも高いです。 IronOCRは、パフォーマンスチューニングや画像前処理の必要なく、そのまま使用できます。
シンクフュージョン エッセンシャル PDF OCRは、Googleのオープンソーステッセラクトエンジンも使用しています。これにより、ドキュメント全体や特定の部分に対してOCRを実行することができます。 SyncfusionのOCRライブラリは、60以上の国際的な言語をサポートしています。
IronOCRライセンスは、無制限のサポートおよびSaaSやOEMのカバレッジと共に、永続的に有効です。 一方、Syncfusion Essential PDF OCRは年間ライセンスを提供しています。 IronOCRの価格は $749 から始まり、Syncfusionの価格は年間 $995 から始まります。
以下のIron Software製品4つとIronOCRを割引価格で入手するには、完整なIron Suiteを購入してください。 Iron Suite. IronSuiteに含まれる製品は次のとおりです:
IronPDF
IronOCRは、.NET開発者向けの高度な光学文字認識(OCR)ライブラリです。スキャナーやカメラからの画像およびPDFからテキストデータを抽出することができ、自動化タスクやデータマイニングのための強力なツールです。IronOCRは、多言語対応と高い認識精度を特徴としており、さまざまな業界での使用が可能です。
IronXLは.NETフレームワークに対応したライブラリで、Excelのデータを簡単に読み込んだり、操作したり、生成したりすることができます。このライブラリを使用することで、技術者はExcelファイルの読み取り、編集、書き出しを迅速かつ効率的に行うことが可能になります。また、IronXLはExcelに依存せずに動作するため、Excelソフトウェアがインストールされていない環境でも利用できます。IronXLは、高速で強力、高機能を兼ね備えたソリューションを提供し、企業のデータ操作を支援します。
IronBarcode
IronWebscraper
Iron Software ライセンスページ 上記の5つの製品に関する価格とライセンスに関するより詳細な情報が含まれています。
9つの .NET API製品 オフィス文書用