IronOCRとSyncfusion OCRの比較
この記事では、光学式文字認識(OCR)を使用して画像やスキャンしたドキュメントから印刷されたテキストを自動的に検出し抽出する2つのソフトウェアライブラリを比較します。 まず、両方のライブラリの特徴について話し合います。 次に、両方のライブラリを使用して生成されたサンプルソースコードを使用して、テキストの認識および抽出能力を調査し比較します。 最後に、ライブラリのライセンスと価格を比較します。
この記事で比較するライブラリは以下の通りです:
- IronOCR
- Syncfusion Essential PDF
1. Syncfusion OCR
SyncfusionのEssential PDFライブラリは、PDFドキュメント内のスキャンされた画像で画像テキスト処理を可能にするためにOCR機能を取り入れています。
SyncfusionのOCRプロセッサーは、Tesseractバージョン3(3.02および3.05)および4と連携することができます。このライブラリは.NET CoreおよびASP.NETアプリケーションに含めることができます。
SyncFusion Essential PDFのOCR機能の特徴は以下の通りです:
- PDF 文書に対して OCR タスクを実行します。ライブラリの
OCRProcessorクラスを使用して、PDF ファイルに対して OCR を実行できます。 これは、世界で最高のOCRプロセッサーの1つとして知られるTesseractデータプロセッサーに基づいています。 - PDFドキュメントの一部でOCRタスクを実行。 ユーザーはPDFドキュメントの特定のページや領域にOCRを実行することができます。
- 画像でOCRタスクを実行。 ユーザーは他のアプリケーションにインポートするために画像からテキストデータを抽出することができます。
- 多言語サポート。 Google Tesseractエンジンは(拡張としてのSyncfusionで)現在60以上の言語をサポートしており、さらに多くを実験しています。
- 良好な精度。 GoogleのTesseractオープンソースエンジンを活用することで、Syncfusion Essential PDFは非常に良好なテキストの精度を達成し、十分な時間内でOCRを実行します。
2. IronOCR
IronOCRは、.NETプラットフォームの開発者が画像やPDFドキュメントからテキストを認識し読み取ることを可能にするC#ソフトウェアライブラリです。 これは、強力なTesseractエンジンを使用する.NET専用のOCRライブラリで、Tesseractのバージョン3から5はWindows、macOS、Linux、Azure、AWS、Lambda、Mono、Xamarin Macでそのまま動作します。
IronOCRは、入手可能な他のOCRエンジンよりも多くの言語をカバーしており、125の言語をサポートしています(デフォルトでは英語のみがインストールされています)。
.NET開発者は、自分のドキュメントを完全に制御でき、適切だと思うように変更できます。
2.1. IronOCRの特徴
IronOCRは、ユーザーの技術的バックグラウンドやハードウェアの洗練度に関係なく、統合、署名、エクスポート、視覚の読み取り、写真からの詳細抽出のための独自の機能と機能の組み合わせを提供します。
2.1.1. Accuracy
IronOCR SDKは、99.8パーセントの精度で他のOCRライブラリを凌駕しています。
2.1.2. 低品質のスキャンと画像の修正
IronOCRクラスはC#開発者に広範囲な制御を提供します。 これは、各特定のインスタンスでOCR(画像およびPDFからテキストへの)機能と微調整されたパフォーマンスを開発者に提供します。
IronOCRには、理想的な品質でない画像を処理するための構成オプションが含まれています。 これらの構成のいくつかは、背景ノイズのクリーン化、コントラストの強化、解像度の向上、言語、戦略、回転と直立、色空間、ダーク背景に白テキストを検出、入力画像タイプを含みます。
2.1.3. 言語
IronOCRは、125を超える国際言語をサポートしています。
2.1.4. OCRテキスト抽出
Iron Tesseractは、いくつかの画像フォーマットのほか、PDFファイルも読み取ることができます。 この機能は、標準の無料Tesseractエンジンでは利用できません。 スキャンの品質が低い場合は、OCR入力により必要な属性を自動的に修正することができます。
2.1.5. 画像最適化フィルター
OCRInputクラスは、C#プログラマーに入力に対する詳細な制御を提供します。 その後、プログラマーによって入力画像が速度と精度のために前処理されます。 これにより、OCR処理前に写真を準備するためのPhotoshopバッチスクリプトやImageMagickの使用が不要になります。
2.1.6. 画像のOCR領域
IronOCRはエンドユーザーに画像の特定の領域でOCRを実行することを許可します。
2.1.7. OCRResultクラス
IronOCRは、Tesseract 3、4、または5を使用してスキャンする各ページに対して、拡張された結果オブジェクトを返します。これには、位置データ、画像、テキスト、統計的信頼性、代替シンボルオプション、フォント名、フォントサイズ、装飾、フォントウエイトが含まれ、以下の項目に対して位置が示されます:
- ページ
- 段落
- テキスト行
- 単語
- 個々のキャラクター
- バーコード
2.1.8. 1つのドキュメント内の複数の言語
IronOCRは、1つのドキュメント内で複数の言語を使用することを開発者に許可します。 この機能は.NETサービスプロバイダーには非常に有益です。
3. Visual Studioで新しいプロジェクトを開始
この記事では、新しいVisual Studioコンソールアプリケーションを使用して、IronOCRおよびSyncfusion Essential PDFのOCR処理機能を実演します。
Visual Studioのソフトウェアを開いて、ファイルメニューに進み、新しいプロジェクトを選択します。 次に、コンソールアプリケーションを選択します。
プロジェクト名を入力し、パスを適切なテキストボックスに選択します。 次に、作成ボタンをクリックし、以下のスクリーンショットに示されるように必要な.NETフレームワークを選択します:
Visual Studioプロジェクトは、新しいコンソールアプリケーションの構造を生成します。 完了後、program.cs ファイルが開かれます。
次に、両方のライブラリをプロジェクトに追加します。
4. IronOCRライブラリのインストール
IronOCRライブラリはいくつかの方法でダウンロードしてインストールできます。 以下のような方法です:
- Visual Studio NuGetパッケージマネージャーを使用する
- NuGetウェブページから直接ダウンロードする。
- IronOCRのWebページから直接ダウンロードする。
- Visual Studioコマンドラインを使用。
4.1. Visual Studio NuGetマネージャーを使用する
Visual Studio NuGetパッケージマネージャを使用してC#プロジェクトにIronOCRを統合できます。
ツール > NuGetパッケージマネージャ > ソリューションのためのNuGetパッケージを管理...をクリックして、NuGetパッケージマネージャGUIにアクセスします。
次に、新しいウィンドウが表示されます。 IronOCRを検索して、プロジェクトにパッケージをインストールします。
追加の言語パックも、上記と同じ方法でインストールできます。
4.2. NuGetウェブページから直接ダウンロード
IronOCRは、次の手順に従ってNuGetウェブサイトから直接ダウンロードできます:
- Navigate to the IronPDF NuGet Gallery Page.
- 右側のメニューからダウンロードパッケージオプションを選択します。
- ダウンロードしたパッケージをダブルクリックします。 自動的にインストールされます。
4.3. IronOCRウェブページから直接ダウンロード
開発者はIronOCRのウェブサイトからライブラリをダウンロードしてプロジェクトの参照として追加できます。
以下の手順に従って、Visual Studioでの参照としてライブラリを追加してください。
- ソリューションウィンドウからプロジェクトを右クリックします。
- 次に、プロジェクト参照の追加を選択し、ダウンロードした参照の場所を参照します。
- 次に、OKをクリックして参照を追加します。
4.4. Visual Studioコマンドラインを使用する
- Visual Studioで、ツール > NuGetパッケージマネージャ > パッケージマネージャコンソールに進みます。
- パッケージマネージャーコンソールタブに次の行を入力します:
Install-Package IronOcr
パッケージは現在のプロジェクトにダウンロード/インストールされ、使用する準備が整います。
5. Syncfusion Essential PDF OCRライブラリをインストール
Syncfusion Essential PDFは3つの異なる方法でインストールできます。
- Visual Studio NuGetパッケージマネージャーを使用する
- NuGetウェブページから直接ダウンロードする。
- Visual Studioコマンドラインを使用。
5.1. Visual Studio NuGetマネージャーを使用する
IronOCRと同様に、SyncfusionのOCRライブラリもVisual StudioのNuGetパッケージマネージャを使用してインストールできます。
前述のように、パッケージマネージャにアクセスするには、ツール > NuGetパッケージマネージャ > ソリューションのためのNuGetパッケージを管理...をクリックします。
Syncfusion OCRを検索し、適切なパッケージをインストールしてください (Syncfusion.PDF.OCR.Net.Core のはずです)。
Additional language packs for SyncFusion Essential PDF OCR can be downloaded from GitHub.
5.2. NuGetウェブページから直接ダウンロード
Syncfusion Essential PDF OCRは、以下の手順に従ってNuGetのウェブサイトから直接ダウンロードできます。
- Navigate to the package's NuGet Gallery page.
- 右側のメニューからダウンロードパッケージオプションを選択します。
- ダウンロードしたパッケージをダブルクリックします。 自動的にインストールされます。
- 次に、ソリューションを再読み込みし、プロジェクトで使用を開始します。
5.3. Visual Studioコマンドラインを使用
- Visual Studioで、ツール > NuGetパッケージマネージャ > パッケージマネージャコンソールに進みます。
- パッケージマネージャーコンソールタブに次の行を入力します:
Install-Package Syncfusion.PDF.OCR.Net.Core -Version 20.2.0.38
パッケージは現在のプロジェクトにダウンロード/インストールされ、使用する準備が整います。
6. PDFドキュメントでOCRを実行
IronOCRは、わずか2行のコードでスキャンされた画像から自動的にテキストを検出・読み取る独自のライブラリです。 ここでは、Visual Studioでの両方の使用方法について説明します。
6.1.IronOCRを使用したPDF OCRテキスト抽出
開発者はわずか数行のコードで、PDF全体や特定のページ/部分でOCRを実行することができます。 [22] 以下のコードスニペットを考慮してください。
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Add a PDF document and specify a password if needed
Input.AddPdf("example.pdf", "password");
// Read the textual content from the PDF
var Result = Ocr.Read(Input);
// Display the text in the console
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Add a PDF document and specify a password if needed
Input.AddPdf("example.pdf", "password");
// Read the textual content from the PDF
var Result = Ocr.Read(Input);
// Display the text in the console
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' Add a PDF document and specify a password if needed
Input.AddPdf("example.pdf", "password")
' Read the textual content from the PDF
Dim Result = Ocr.Read(Input)
' Display the text in the console
Console.WriteLine(Result.Text)
End Using
6.2. Syncfusion Essential PDF OCRを使用したPDF OCRテキスト抽出
OCRProcessor クラスを使用すると、PDF 文書だけでなく、文書の特定領域に対しても OCR を実行できます。 コンテキストのために以下のコードサンプルを調べてください。
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Parsing;
// Initialize the OCR processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
// Load the input PDF document
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
// Set the OCR language
processor.Settings.Language = Languages.English;
// Perform OCR on the loaded PDF
processor.PerformOCR(lDoc, @"TessData\");
// Save the processed PDF
lDoc.Save("Sample.pdf");
// Close the document
lDoc.Close(true);
}
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Parsing;
// Initialize the OCR processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
// Load the input PDF document
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
// Set the OCR language
processor.Settings.Language = Languages.English;
// Perform OCR on the loaded PDF
processor.PerformOCR(lDoc, @"TessData\");
// Save the processed PDF
lDoc.Save("Sample.pdf");
// Close the document
lDoc.Close(true);
}
Imports Syncfusion.OCRProcessor
Imports Syncfusion.Pdf.Parsing
' Initialize the OCR processor
Using processor As New OCRProcessor("TesseractBinaries\")
' Load the input PDF document
Dim lDoc As New PdfLoadedDocument("Input.pdf")
' Set the OCR language
processor.Settings.Language = Languages.English
' Perform OCR on the loaded PDF
processor.PerformOCR(lDoc, "TessData\")
' Save the processed PDF
lDoc.Save("Sample.pdf")
' Close the document
lDoc.Close(True)
End Using
7. 画像でOCRを実行する
[23] 両方のライブラリは、C#.NETおよび.NET Coreアプリケーション内の画像に対してOCRを実行できます。
7.1. IronOCRを使用して画像でOCRを実行
IronOCRは、わずか2行のコードで監視されずにスキャンされた画像から自動的にテキストを検出し読み取る能力を持つ、他にはない独自のライブラリです。
using IronOcr;
// Perform OCR and read text from the specified image
var Result = new IronTesseract().Read(@"images\11111.png").Text;
using IronOcr;
// Perform OCR and read text from the specified image
var Result = new IronTesseract().Read(@"images\11111.png").Text;
Imports IronOcr
' Perform OCR and read text from the specified image
Private Result = (New IronTesseract()).Read("images\11111.png").Text
OCR入力画像
OCR OUTPUT from IMAGE
OCR Output
Simple Data Outputs:
» NET Text Strings
» Barcode & QR Data & Images
Structured Data Outputs:
» Pages
» Blocks
» Paragraphs
» Lines
» Words
» Characters
Export Documents:
» Searchable PDFs
» hOCR / HTML Export
» Images of any Page, Text Element or Barcode
7.2. Syncfusion Essential PDF OCRプロセッサーを使用して画像でOCRを実行
Syncfusion Essential PDFは、画像から高い精度でテキストを抽出できます。
using System.Drawing;
using Syncfusion.OCRProcessor;
// Initialize the OCR processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
// Load the input image
Bitmap image = new Bitmap("11111.jpeg");
// Set the OCR language
processor.Settings.Language = Languages.English;
// Perform OCR on the loaded image
string ocrText = processor.PerformOCR(image, @"TessData\");
}
using System.Drawing;
using Syncfusion.OCRProcessor;
// Initialize the OCR processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
// Load the input image
Bitmap image = new Bitmap("11111.jpeg");
// Set the OCR language
processor.Settings.Language = Languages.English;
// Perform OCR on the loaded image
string ocrText = processor.PerformOCR(image, @"TessData\");
}
Imports System.Drawing
Imports Syncfusion.OCRProcessor
' Initialize the OCR processor
Using processor As New OCRProcessor("TesseractBinaries\")
' Load the input image
Dim image As New Bitmap("11111.jpeg")
' Set the OCR language
processor.Settings.Language = Languages.English
' Perform OCR on the loaded image
Dim ocrText As String = processor.PerformOCR(image, "TessData\")
End Using
OCR入力画像
OCR OUTPUT from IMAGE
OCR Output
Simple Data Output:
+ NET Text Strings
Dee eT Nd
tC eke ass
Biren)
Soy
Seg
ors
eae
eed
TLC
eres
Smt d
See amr'
etd ieot
8. ライセンス
IronOCRとSyncfusion Essential PDFの両方を使用するにはソフトウェアライセンスが必要です。
8.1. IronOCRライセンス
IronOCRは、個人の非商用プロジェクトのための無料開発ライセンスを提供しています。
IronOCRは商用ライセンス用の独自の価格体系を提供しています。 Liteパッケージは$999から始まり、追加料金はかかりません。 すべてのライセンスには、30日間の返金保証、1年間のソフトウェアサポートとアップグレード、開発、テスト、ステージング、本番の有効性、および永久ライセンス(一度の購入)を含んでいます。 IronOCRの完全な価格体系とライセンス情報をこのページから詳しく知ることができます。
一度きりの料金$1,599で、SaaSおよびOEM商品をロイヤリティフリーで再配布することができます。
8.2. Syncfusion Essential PDFライセンス
Syncfusion Essential PDFは、SaaSやOEMのカバレッジを提供せず、3種類の開発者ライセンスを提供しています。
- コミュニティライセンス。 コミュニティライセンスは、5名の開発者までの小企業と開発者向けに無料です。 ライブサポートも含まれています。
- リテールライセンス。 リテールライセンスは年次ベースのライセンスで、組織内の各開発者に対して個別に購入する必要があります。 リテールライセンスは、開発者ごとに年間$995から始まります。
- 無制限ライセンス。 このオプションは、同じ年間ベースで組織全体のライセンスを提供しますが、より低価格で提供されます。
View the entire licensing structure for Syncfusion Essential PDF (and for other Syncfusion components) on the product licensing page.
9. 結論
IronOCRは、約125の世界中の言語をサポートしています。 その処理能力には、PDFドキュメントや画像の部分でOCRを実行する機能、PDFや写真からテキストを抽出する機能、低品質の画像を修正する機能などがあります。 IronOCRは速度と精度を優先します。 その精度率99.8パーセントは、市場に出ている他のTesseractを基にしたOCRライブラリを上回っています。 IronOCRはそのまま動作し、パフォーマンス調整や画像前処理は必要ありません。
Syncfusion Essential PDF OCRもGoogleのオープンソースのTesseractエンジンを使用しており、ドキュメント全体または特定の部分でOCRを実行できます。 [26] SyncfusionのOCRライブラリは、60以上の国際言語をサポートしています。
IronOCRのライセンスは、無制限のサポートおよびSaaSおよびOEMカバレッジを備えた生涯有効期間を持っています。 一方、Syncfusion Essential PDF OCRは年次ベースのライセンスを提供しています。 IronOCRの価格は$999から、 Syncfusionの価格は年間$995からとなっています。
IronOCRを他の4つのIron Software製品と一緒にお得な価格で入手するには、完全なIron Suiteを購入してください。 Iron Suiteに同梱されている製品には以下が含まれます:
- IronPDF
- IronOCR
- IronXL
- IronBarcode
- IronWebscraper
Iron Softwareのライセンスページには、上記の5つの製品の価格とライセンスに関する詳細な情報があります。
よくある質問
C#を使用して画像でOCRを実行するにはどうすればよいですか?
IronOCRを使用してC#で画像のOCRを実行できます。さまざまな画像形式からテキストを高精度で抽出する方法を提供しており、125以上の言語をサポートしています。
OCR タスクにおいて IronOCR を使用する利点は何ですか?
IronOCRは99.8%の優れた精度を提供し、特定のドキュメント領域でのOCRをサポートし、低品質スキャンのための画像最適化機能を持ち、幅広い言語をサポートしています。
IronOCRは、SyncfusionのOCR機能とどう異なるのですか?
どちらもTesseractエンジンを使用しますが、IronOCRはより多くのバージョン(3-5)と言語(125以上)をサポートし、より優れた精度を提供し、SyncfusionのOCRと比較して強化された画像補正機能を提供します。
IronOCRのライセンスオプションにはどのようなものがありますか?
IronOCRは、個人使用のための無料の開発ライセンスを提供しており、商業ライセンスは一回限りの料金$1599から始まり、永続ライセンスとSaaS/OEMカバレッジを含みます。
IronOCRを使用してスキャンされたPDFドキュメントからテキストを抽出できますか?
はい、IronOCRはTesseractベースのOCR機能を使用してスキャンされたPDFドキュメントからテキストを抽出し、高い精度と言語サポートを保証します。
IronOCRがサポートするプラットフォームは何ですか?
IronOCRは多用途で、Windows、macOS、Linux、Azure、AWS、Lambda、Mono、Xamarin Macを含む複数のプラットフォームをサポートします。
IronOCRは低品質の画像スキャンをどのように処理しますか?
IronOCRには、バックグラウンドノイズのクリーンアップ、コントラストの強化、解像度の調整など、画像効果を向上させる機能が含まれており、低品質の画像でのOCR結果を改善します。
IronOCRでドキュメントの特定の領域でOCRを実行することは可能ですか?
はい、IronOCRはユーザーにドキュメントの特定の領域やページをOCR用に指定することを許可し、テキスト抽出プロセスに柔軟性と制御を提供します。
IronOCRを.NETプロジェクトに統合するにはどうすればよいですか?
IronOCRは、Visual Studio NuGet Package Manager、NuGetのWebサイト、またはIronOCRのWebサイトからダウンロードして.NETプロジェクトに統合できます。


