他のコンポーネントと比較

IronOCRとSyncfusion OCRの比較 IronOCRとSyncfusion OCRは、どちらも光学式文字認識(OCR)ソフトウェアソリューションの一部です。ここでは、それぞれの機能と特長について比較し、どちらがあなたのプロジェクトに最適かを判断する手助けをします。 ### 1. 精度 IronOCRは、精度の高さで知られています。特に、スキャナやスマートフォンカメラから取得した画像でも高い認識精度を誇ります。一方、Syncfusion OCRも高い精度を提供しますが、特に高度なカスタマイズや特定のフォントに対する認識において、若干劣る場合があります。 ### 2. 使いやすさ IronOCRは、導入と使用が非常に簡単です。直感的なAPI設計と充実したドキュメントにより、迅速にプロジェクトに組み込むことができます。Syncfusion OCRも使いやすいですが、設定やカスタマイズには少し時間がかかることがあります。 ### 3. パフォーマンス IronOCRは、画像処理速度が速く、大量のドキュメントを短時間で処理できます。Syncfusion OCRも高性能ですが、特に大規模プロジェクトにおいてはIronOCRに比べて若干遅れをとることがあります。 ### 4. サポートと更新 IronOCRは、頻繁に更新されることで、最新の技術やバグ修正が迅速に反映されます。また、専用のサポートチームが迅速かつ親切に対応します。Syncfusion OCRも良いサポートを提供しますが、更新頻度に関してはIronOCRに負けることが多いです。 ### 5. コスト IronOCRは、さまざまなライセンスオプション(Lite License、Plus License、Professional License、Unlimited License)を提供しており、プロジェクトの規模に応じた選択が可能です。Syncfusion OCRも競争力のある価格設定ですが、長期的なコスト効率ではIronOCRが優れる場合があります。 ### 結論 どちらのソリューションも強力で使いやすいですが、以下のような場合にはIronOCRが特におすすめです: - 高精度で素早い文字認識が求められる場合 - 迅速な導入と簡単な使用が求められる場合 - 継続的なアップデートとサポートが重要な場合 あなたのプロジェクトがこれらの条件を満たす場合、IronOCRが最適な選択となるでしょう。

Kannaopat Udonpant
カンナパット・ウドンパント
2022年11月14日
共有:

この記事では、印刷されたテキストを画像やスキャンしたドキュメントから自動的に検出および抽出するために光学式文字認識(OCR)を使用する2つのソフトウェアライブラリを比較します。 まず、両方のライブラリの機能について説明します。 次に、両方のライブラリを使用して生成されたサンプルソースコードを使用して、それらのテキスト認識と抽出機能を検討および比較します。 最後に、ライブラリのライセンスと価格を比較します。

この記事で比較するライブラリは次の通りです:

  • IronOCR
  • シンクフュージョン・エッセンシャルPDF

1. Syncfusion OCR (シンクフュージョン OCR)

SyncfusionのEssential PDFライブラリには、OCR機能が組み込まれており、PDF文書内のスキャン画像での画像-テキスト処理を可能にします。

SyncfusionのOCRプロセッサは、Tesseractバージョン3(3.02および3.05)および4と連携できます。このライブラリは、.NET CoreおよびASP.NETアプリケーションに含めることができます。

SyncFusion Essential PDFのOCR機能の特長には以下が含まれます:

  • PDFドキュメントでOCRタスクを実行します。 ライブラリのOCRProcessorクラスを使用して、PDFファイルにOCRを実行できます。 それは、世界でも最高のOCRプロセッサの一つとして知られるTesseractデータプロセッサに基づいています。
  • PDFドキュメントの一部でOCRタスクを実行します。 ユーザーはPDFドキュメント内の特定のページや領域をOCRできます。
  • 画像でOCRタスクを実行します。 ユーザーは、画像からテキストデータを抽出し、他のアプリケーションにインポートできます。
  • 多言語サポート。 Google Tesseract エンジン(拡張としてのSyncfusion)は、現在60以上の言語をサポートしており、さらに多くの言語で実験中です。
  • 高い精度。 GoogleのTesseractオープンソースエンジンを利用することで、Syncfusion Essential PDFは非常に高いテキスト認識精度を実現し、適切な時間内でOCRを実行します。

    2. IronOCR

IronOCRは、.NET開発者向けの高度な光学文字認識(OCR)ライブラリです。スキャナーやカメラからの画像およびPDFからテキストデータを抽出することができ、自動化タスクやデータマイニングのための強力なツールです。IronOCRは、多言語対応と高い認識精度を特徴としており、さまざまな業界での使用が可能です。

IronOCRは、.NETプラットフォームの開発者が画像やPDFドキュメントからテキストを認識および読み取ることを可能にするC#ソフトウェアライブラリです。 これは、強力なTesseractエンジンを使用する.NET専用のOCRライブラリです。Tesseractバージョン3から5は、Windows、macOS、Linux、Azure、AWS、Lambda、Mono、およびXamarin Macでそのまま動作します。

IronOCRは、利用可能なOCRエンジンの中で最も多くの言語に対応しており、125の言語をサポートしています(デフォルトでは英語のみがインストールされています)。

.NET 開発者はドキュメントを必要に応じて適切に変更できる完全な制御権を持っています。

2.1. IronOCRの機能

IronOCRは、ユーザーの技術的な背景やハードウェアの高度さに関係なく、統合、署名、エクスポート、視覚情報の読み取り、および写真からの詳細抽出のための独自の能力と機能の組み合わせを提供します。

2.1.1. 精度

IronOCR SDKは精度の面で他のOCRライブラリを凌駕しており、精度は99.8パーセントです。

低品質なスキャンおよび画像の修正

IronOCRクラスはC#開発者に広範な制御を提供します。 彼らは開発者にOCR(画像やPDFをテキストに変換)機能と、各特定のインスタンスにおける微調整されたパフォーマンスを提供します。

IronOCRには、理想的な品質でない画像を処理するための設定オプションが含まれています。 以下の設定オプションを利用できます:背景ノイズの除去、コントラストの強化、解像度の強化、言語、戦略、回転および整列、色空間、ダーク背景上の白いテキストの検出、および入力画像タイプ。

2.1.3. 言語

IronOCRは125以上の国際言語をサポートしています。

2.1.4. OCRテキスト抽出

Iron Tesseractは、複数の画像フォーマットとPDFファイルを読み取ることができます。 この機能は、標準の無料Tesseractエンジンでは利用できません。 スキャンの品質が低い場合、OCR入力を使用すると必要な属性を自動的に修正できます。

2.1.5. 画像最適化フィルター

OCRInput クラスは、C# プログラマーに入力に対してきめ細かい制御を提供します。 画像入力は、スピードと精度を向上させるために開発者によって前処理されます。 これにより、OCR処理の前に写真を準備するためにPhotoshopバッチスクリプトやImageMagickを使用する必要がなくなります。

2.1.6. 画像のOCR領域

IronOCRは、エンドユーザーが画像の特定の領域に対してOCRを実行できるようにします。

2.1.7. OCRResult クラス

IronOCRは、Tesseract 3、4、または5を使用してスキャンした各ページに対して高度な結果オブジェクトを返します。これには、位置データ、画像、テキスト、統計的信頼性、代替記号の選択、フォント名、フォントサイズの装飾、フォントの太さ、および以下の各項目のポジションが含まれます:

  • ページ
  • 段落
  • テキストの行
  • 単語
  • 個別の文字
  • バーコード

2.1.8. 複数言語を1つのドキュメントに

IronOCRは、開発者が単一のドキュメントで複数の言語を使用できるようにします。 この機能は.NETサービスプロバイダーに非常に有益です。

3. Visual Studioで新しいプロジェクトを始める

この記事では、新しいVisual Studioコンソールアプリケーションを使用して、IronOCRおよびSyncfusion Essential PDFのOCR処理機能を実演します。

Visual Studio ソフトウェアを開き、ファイルメニューに移動して新しいプロジェクトを選択します。 その後、コンソールアプリケーションを選択します。

プロジェクト名を入力し、適切なテキストボックスにパスを選択してください。 次に、作成ボタンをクリックし、下記のスクリーンショットのように必要な.NETフレームワークを選択します。

IronOCRとSyncFusion Essential PDF OCRの比較、図1

Visual Studioプロジェクトは、新しいコンソールアプリケーションの構造を生成します。 プログラム.csファイルは完了後に開かれます。

IronOCRとSyncFusion Essential PDF OCRの比較、図2

プロジェクトに両方のライブラリを追加します。

IronOCR ライブラリのインストール

IronOCRライブラリは4つの方法でダウンロードおよびインストールできます。 これらは:

  1. Visual Studio NuGet パッケージ マネージャーを使用する

  2. NuGetのウェブページから直接ダウンロード。

  3. IronOCRのウェブページから直接ダウンロード。

  4. Visual Studio コマンドラインの使用。

4.1. Visual Studio NuGet マネージャーの使用

IronOCRをVisual Studio NuGetパッケージマネージャーを使用してC#プロジェクトに統合できます。

ツール > NuGet パッケージマネージャー > ソリューションの NuGet パッケージの管理... をクリックして NuGet パッケージマネージャー GUI にアクセスします。

IronOCRとSyncFusion Essential PDF OCRの比較、図3

その後、新しいウィンドウが表示されます。 IronOCRを検索し、プロジェクトにパッケージをインストールします。

IronOCR と SyncFusion Essential PDF OCR の比較、図 4

上記の方法を使用して、IronOCRの追加言語パックもインストールできます。

4.2. NuGetウェブページからの直接ダウンロード

IronOCRは、次の手順に従ってNuGetウェブサイトから直接ダウンロードできます:

  1. [IronPDF NuGet ギャラリーページ](https://www.nuget.org/packages/IronOCR/" target="_blank" rel="nofollow noopener noreferrer)に移動します。

  2. 右側のメニューからダウンロードパッケージオプションを選択してください。

  3. ダウンロードしたパッケージをダブルクリックしてください。 自動的にインストールされます。

IronOCRのウェブページからの直接ダウンロード

開発者は、IronOCR のウェブサイトからライブラリをダウンロードして、プロジェクトの参照として追加できます。

以下の手順に従って、ライブラリを Visual Studio の参照として追加してください。

  1. ソリューションウィンドウからプロジェクトを右クリックします。

  2. 次に、「Add Project Reference」を選択し、ダウンロードした参照の場所を参照してください。

  3. 次に、「OK」をクリックしてリファレンスを追加します。

4.4. Visual Studio コマンドラインの使用

  1. Visual Studioで、ツール > NuGet パッケージ マネージャー > パッケージ マネージャー コンソールに進みます。

  2. パッケージマネージャー コンソール タブに次の行を入力してください:

  3. Install-Package IronOCR
    IronOCRとSyncFusion Essential PDF OCRの比較、図5

    パッケージが現在のプロジェクトにダウンロード/インストールされ、使用可能になります。

    IronOCRとSyncFusion Essential PDF OCRの比較、図6

5. Syncfusion Essential PDF OCRライブラリをインストール

Syncfusion Essential PDFは、3つの異なる方法でインストールできます。

  1. Visual Studio NuGet パッケージ マネージャーを使用する

  2. NuGetのウェブページから直接ダウンロード。

  3. Visual Studio コマンドラインの使用。

Visual StudioのNuGetマネージャを使用する

IronOCRと同様に、開発者はVisual StudioのNuGetパッケージマネージャーを使用して、SyncFusionのOCRライブラリをインストールすることもできます。

以前と同様に、ツール > NuGet パッケージ マネージャー > ソリューションの NuGet パッケージを管理... をクリックしてパッケージ マネージャーにアクセスします。

IronOCRとSyncFusion Essential PDF OCRの比較、図7

SyncFusion OCR を検索して、適切なパッケージ(Syncfusion.PDF.OCR.Net.Core のはずです)をインストールしてください。

IronOCRとSyncFusion Essential PDF OCRの比較、図8

SyncFusion Essential PDF OCR 用の追加言語パックは、[GitHub](https://github.com/tesseract-ocr/tessdata" target="_blank" rel="nofollow noopener noreferrer)からダウンロードできます。

5.2. NuGetウェブページからの直接ダウンロード

Syncfusion Essential PDF OCRは、以下の指示に従ってNuGetのウェブサイトから直接ダウンロードできます。

  1. パッケージの[NuGetギャラリーページ](https://www.nuget.org/packages/Syncfusion.PDF.OCR.Net.Core" target="_blank" rel="nofollow noopener noreferrer)に移動します。

  2. 右側のメニューからダウンロードパッケージオプションを選択してください。

  3. ダウンロードしたパッケージをダブルクリックしてください。 自動的にインストールされます。

  4. 次に、ソリューションをリロードしてプロジェクトで使用を開始します。

5.3. Visual Studio コマンドラインの使用

  1. Visual Studioで、ツール > NuGet パッケージ マネージャー > パッケージ マネージャー コンソール に移動します

  2. パッケージマネージャー コンソール タブに次の行を入力してください:
Install-Package Syncfusion.PDF.OCR.Net.Core -Version 20.2.0.38
IronOCRとSyncFusion Essential PDF OCRの比較、図9

パッケージが現在のプロジェクトにダウンロード/インストールされ、使用可能になります。

6. PDFドキュメントに対してOCRを実行する

IronOCRとSyncfusion OCRの両方がPDFドキュメントに対してOCRを実行することができます。 ここでは、どちらもVisual Studioでどのように使用できるかについて説明します。

6.1. IronOCRを使用したPDF OCRテキスト抽出

数行のコードだけで、開発者はPDF全体や特定のページまたは部分に対してOCRを実行できます。 以下のコードスニペットをご確認ください。

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("example.pdf", "password");
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("example.pdf", "password");
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddPdf("example.pdf", "password")
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

6.2. Syncfusion Essential PDF OCRを使用したPDF OCRテキスト抽出

OCRProcessorクラスを使用して、PDFドキュメントおよびドキュメントの特定の領域に対してOCRを実行できます。 以下のコードサンプルをコンテキストとして確認してください。

using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
Imports Syncfusion.OCRProcessor
Imports Syncfusion.Pdf.Graphics
Imports Syncfusion.Pdf.Parsing
'initialize the ocr processor
Using processor As New OCRProcessor("TesseractBinaries\")
Dim lDoc As New PdfLoadedDocument("Input.pdf")
processor.Settings.Language = Languages.English
processor.PerformOCR(lDoc, "TessData\")
lDoc.Save("Sample.pdf")
lDoc.Close(True)
End Using
$vbLabelText   $csharpLabel

画像にOCRを実行する

どちらのライブラリも、C#.NETおよび.NET Coreアプリケーション内で画像に対してOCRを実行できます。

7.1. IronOCRを使用して画像にOCRを実行する

IronOCRは、わずか2行のコードで不完全にスキャンされた画像から自動的にテキストを検出して読み取る能力において独自です。

using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
Imports IronOcr
Private Result = (New IronTesseract()).Read("images\11111.png").Text
$vbLabelText   $csharpLabel

OCR入力画像

IronOCRとSyncFusion Essential PDF OCRの比較、図10

OCR OUTPUT form IMAGE
OCR Output
Simple Data Outputs:
» NET Text Strings
» Barcode & QR Data & Images
Structured Data Outputs:
» Pages
» Blocks
» Paragraphs
» Lines
» words
» Characters
Export Documents:
» Searchable PDFs
» hOCR / HTML Export
» Images of any Page, Text
Element or Barcode

7.2. Syncfusion Essential PDF OCR Processorを使用して画像のOCRを実行する

Syncfusion Essential PDFは、画像から高精度でテキストを抽出することが可能です。

using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
Using processor As New OCRProcessor("TesseractBinaries\")
Using Syncfusion.OCRProcessor
End Using
End Using
Using Syncfusion.Pdf.Graphics
	Using Syncfusion.Pdf.Parsing
	'loading the input image
	Dim image As New Bitmap("11111.jpeg")
	'Set OCR language to process
	processor.Settings.Language = Languages.English
	'Process OCR by providing the bitmap image, data dictionary and language
	Dim ocrText As String= processor.PerformOCR(image, "TessData\")
	End Using
End Using
$vbLabelText   $csharpLabel

OCR入力画像

IronOCRとSyncFusion Essential PDF OCRの比較、図11

` コンソール

画像からのOCR出力

OCR出力

シンプルデータ出力:

  • .NET テキスト文字列

    ディー イー ティー エヌディー

    The provided content, "tC eke ass", does not form a coherent sentence or context. It appears to be either a typographical error or random text. Please provide a meaningful sentence or correct the text if it was improperly entered.

    Biren)

    大豆

    セグ

    または

    eae

    eed

    TLC

    残念ながら、与えられた入力「eres」は単語として未定義のようです。Iron Softwareやその製品に関連する文脈が不足しているため、正確な翻訳を提供することは難しいです。具体的な文脈や文章を提供していただければ、正確な翻訳をお手伝いいたします。

    Smt d

    amrを見る

    ETD IEOT

8. ライセンス

IronOCRとSyncfusion Essential PDFの両方の使用にはソフトウェアライセンスが必要です。

8.1. IronOCRライセンス

IronOCRには、個人の非商用プロジェクト向けに無料の開発ライセンスがあります。

IronOCRは商業ライセンス向けに独自の価格構造を提供しています。 Liteパッケージは、追加費用なしで$749から始まります。 すべてのライセンスには、30日間の返金保証、1年間のソフトウェアサポートとアップグレード、開発、テスト、ステージング、製品の有効性、永久ライセンス(一度の購入)が含まれています。 IronOCRの完全な価格構造とライセンス情報については、このページから詳細をご覧いただけます。

一度の料金として1,599ドルをお支払いいただくと、SaaSおよびOEM製品のロイヤリティフリー再配布が可能になります。

IronOCRとSyncFusion Essential PDF OCRの比較、図12

8.2. Syncfusion Essential PDF ライセンス

Syncfusion Essential PDFは3種類のデベロッパーライセンスを提供していますが、SaaSおよびOEMのカバレッジは提供していません。

  • Community License。 Community licenseは、開発者や最大5人の開発者がいる小規模企業向けに無料です。 また、ライブサポートも含まれています。
  • リテールライセンス。リテールライセンスは、組織内の各開発者ごとに個別に購入する必要がある、年単位のライセンスです。 小売ライセンスは開発者1人あたり年間995ドルからです。
  • Unlimited License. このオプションは、同一の年間ベースで組織全体にライセンスを提供しますが、より低価格で提供します。

    [製品ライセンスページ](https://www.syncfusion.com/sales/products" target="_blank" rel="nofollow noopener noreferrer)でSyncfusion Essential PDF(および他のSyncfusionコンポーネント)の全体のライセンス構造をご覧ください。

    IronOCRとSyncFusion Essential PDF OCRの比較、図13

結論

IronOCRは、世界中の約125の言語をサポートしています。 その処理機能には、PDF文書や画像の一部分にOCRを実行する機能、PDFや写真からテキストを抽出する機能、低品質の画像を修正する機能など、多くの機能が含まれています。 IronOCRはスピードと精度を優先します。 その精度は99.8%で、市場にある他のTesseract対応OCRライブラリよりも高いです。 IronOCRは、パフォーマンスチューニングや画像前処理の必要なく、そのまま使用できます。

シンクフュージョン エッセンシャル PDF OCRは、Googleのオープンソーステッセラクトエンジンも使用しています。これにより、ドキュメント全体や特定の部分に対してOCRを実行することができます。 SyncfusionのOCRライブラリは、60以上の国際的な言語をサポートしています。

IronOCRライセンスは、無制限のサポートおよびSaaSやOEMのカバレッジと共に、永続的に有効です。 一方、Syncfusion Essential PDF OCRは年間ライセンスを提供しています。 IronOCRの価格は$749から始まり、Syncfusionの価格は年間$995からです。

完全なIron Suiteを購入することで、IronOCRを含む他4つのIron Software製品を割引価格で入手できます。 Iron Suiteに含まれる製品は次のとおりです:

  1. IronPDF

  2. IronOCR

  3. IronXL

  4. IronBarcode

  5. IronWebscraper

    Iron Softwareのライセンスページには、上記の5製品の価格およびライセンスに関する詳細情報が記載されています。

Kannaopat Udonpant
カンナパット・ウドンパント
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、カンナパットは日本の北海道大学から環境資源学の博士号を取得しました。学位を取得する過程で、カンナパットはバイオプロダクション工学部に所属する車両ロボティクス研究所のメンバーにもなりました。2022年には、C#のスキルを活かしてIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。カンナパットは、IronPDFで使用されているコードの大部分を作成した開発者から直接学べることに価値を見いだしています。同僚との学び合いに加えて、Iron Softwareで働くことの社会的側面も楽しんでいます。コードやドキュメントを書いていない時には、カンナパットは通常、PS5でゲームをしたり、『The Last of Us』を再視聴したりしています。
< 以前
IronOCRとAspose.OCRの比較
次へ >
IronOCRとAWS Textract OCRの比較