透かしなしで本番環境でテストしてください。
必要な場所で動作します。
30日間、完全に機能する製品をご利用いただけます。
数分で稼働させることができます。
製品トライアル期間中にサポートエンジニアリングチームへの完全アクセス
この記事では、印刷されたテキストを画像やスキャンしたドキュメントから自動的に検出および抽出するために光学式文字認識(OCR)を使用する2つのソフトウェアライブラリを比較します。 まず、両方のライブラリの機能について説明します。 次に、両方のライブラリを使用して生成されたサンプルソースコードを使用して、それらのテキスト認識と抽出機能を検討および比較します。 最後に、ライブラリのライセンスと価格を比較します。
この記事で比較するライブラリは次の通りです:
SyncfusionのEssential PDFライブラリには、OCR機能が組み込まれており、PDF文書内のスキャン画像での画像-テキスト処理を可能にします。
SyncfusionのOCRプロセッサは、Tesseractバージョン3(3.02および3.05)および4と連携できます。このライブラリは、.NET CoreおよびASP.NETアプリケーションに含めることができます。
SyncFusion Essential PDFのOCR機能の特長には以下が含まれます:
OCRProcessor
クラスを使用して、PDFファイルにOCRを実行できます。 それは、世界でも最高のOCRプロセッサの一つとして知られるTesseractデータプロセッサに基づいています。IronOCRは、.NET開発者向けの高度な光学文字認識(OCR)ライブラリです。スキャナーやカメラからの画像およびPDFからテキストデータを抽出することができ、自動化タスクやデータマイニングのための強力なツールです。IronOCRは、多言語対応と高い認識精度を特徴としており、さまざまな業界での使用が可能です。
IronOCRは、.NETプラットフォームの開発者が画像やPDFドキュメントからテキストを認識および読み取ることを可能にするC#ソフトウェアライブラリです。 これは、強力なTesseractエンジンを使用する.NET専用のOCRライブラリです。Tesseractバージョン3から5は、Windows、macOS、Linux、Azure、AWS、Lambda、Mono、およびXamarin Macでそのまま動作します。
IronOCRは、利用可能なOCRエンジンの中で最も多くの言語に対応しており、125の言語をサポートしています(デフォルトでは英語のみがインストールされています)。
.NET 開発者はドキュメントを必要に応じて適切に変更できる完全な制御権を持っています。
IronOCRは、ユーザーの技術的な背景やハードウェアの高度さに関係なく、統合、署名、エクスポート、視覚情報の読み取り、および写真からの詳細抽出のための独自の能力と機能の組み合わせを提供します。
IronOCR SDKは精度の面で他のOCRライブラリを凌駕しており、精度は99.8パーセントです。
IronOCRクラスはC#開発者に広範な制御を提供します。 彼らは開発者にOCR(画像やPDFをテキストに変換)機能と、各特定のインスタンスにおける微調整されたパフォーマンスを提供します。
IronOCRには、理想的な品質でない画像を処理するための設定オプションが含まれています。 以下の設定オプションを利用できます:背景ノイズの除去、コントラストの強化、解像度の強化、言語、戦略、回転および整列、色空間、ダーク背景上の白いテキストの検出、および入力画像タイプ。
IronOCRは125以上の国際言語をサポートしています。
Iron Tesseractは、複数の画像フォーマットとPDFファイルを読み取ることができます。 この機能は、標準の無料Tesseractエンジンでは利用できません。 スキャンの品質が低い場合、OCR入力を使用すると必要な属性を自動的に修正できます。
OCRInput クラスは、C# プログラマーに入力に対してきめ細かい制御を提供します。 画像入力は、スピードと精度を向上させるために開発者によって前処理されます。 これにより、OCR処理の前に写真を準備するためにPhotoshopバッチスクリプトやImageMagickを使用する必要がなくなります。
IronOCRは、エンドユーザーが画像の特定の領域に対してOCRを実行できるようにします。
IronOCRは、Tesseract 3、4、または5を使用してスキャンした各ページに対して高度な結果オブジェクトを返します。これには、位置データ、画像、テキスト、統計的信頼性、代替記号の選択、フォント名、フォントサイズの装飾、フォントの太さ、および以下の各項目のポジションが含まれます:
IronOCRは、開発者が単一のドキュメントで複数の言語を使用できるようにします。 この機能は.NETサービスプロバイダーに非常に有益です。
この記事では、新しいVisual Studioコンソールアプリケーションを使用して、IronOCRおよびSyncfusion Essential PDFのOCR処理機能を実演します。
Visual Studio ソフトウェアを開き、ファイルメニューに移動して新しいプロジェクトを選択します。 その後、コンソールアプリケーションを選択します。
プロジェクト名を入力し、適切なテキストボックスにパスを選択してください。 次に、作成ボタンをクリックし、下記のスクリーンショットのように必要な.NETフレームワークを選択します。
Visual Studioプロジェクトは、新しいコンソールアプリケーションの構造を生成します。 プログラム.csファイルは完了後に開かれます。
プロジェクトに両方のライブラリを追加します。
IronOCRライブラリは4つの方法でダウンロードおよびインストールできます。 これらは:
Visual Studio NuGet パッケージ マネージャーを使用する
NuGetのウェブページから直接ダウンロード。
IronOCRのウェブページから直接ダウンロード。
IronOCRをVisual Studio NuGetパッケージマネージャーを使用してC#プロジェクトに統合できます。
ツール > NuGet パッケージマネージャー > ソリューションの NuGet パッケージの管理... をクリックして NuGet パッケージマネージャー GUI にアクセスします。
その後、新しいウィンドウが表示されます。 IronOCRを検索し、プロジェクトにパッケージをインストールします。
上記の方法を使用して、IronOCRの追加言語パックもインストールできます。
IronOCRは、次の手順に従ってNuGetウェブサイトから直接ダウンロードできます:
[IronPDF NuGet ギャラリーページ](https://www.nuget.org/packages/IronOCR/" target="_blank" rel="nofollow noopener noreferrer)に移動します。
右側のメニューからダウンロードパッケージオプションを選択してください。
開発者は、IronOCR のウェブサイトからライブラリをダウンロードして、プロジェクトの参照として追加できます。
以下の手順に従って、ライブラリを Visual Studio の参照として追加してください。
ソリューションウィンドウからプロジェクトを右クリックします。
次に、「Add Project Reference」を選択し、ダウンロードした参照の場所を参照してください。
Visual Studioで、ツール > NuGet パッケージ マネージャー > パッケージ マネージャー コンソールに進みます。
パッケージマネージャー コンソール タブに次の行を入力してください:
パッケージが現在のプロジェクトにダウンロード/インストールされ、使用可能になります。
Syncfusion Essential PDFは、3つの異なる方法でインストールできます。
Visual Studio NuGet パッケージ マネージャーを使用する
NuGetのウェブページから直接ダウンロード。
IronOCRと同様に、開発者はVisual StudioのNuGetパッケージマネージャーを使用して、SyncFusionのOCRライブラリをインストールすることもできます。
以前と同様に、ツール > NuGet パッケージ マネージャー > ソリューションの NuGet パッケージを管理... をクリックしてパッケージ マネージャーにアクセスします。
SyncFusion OCR を検索して、適切なパッケージ(Syncfusion.PDF.OCR.Net.Core
のはずです)をインストールしてください。
SyncFusion Essential PDF OCR 用の追加言語パックは、[GitHub](https://github.com/tesseract-ocr/tessdata" target="_blank" rel="nofollow noopener noreferrer)からダウンロードできます。
Syncfusion Essential PDF OCRは、以下の指示に従ってNuGetのウェブサイトから直接ダウンロードできます。
パッケージの[NuGetギャラリーページ](https://www.nuget.org/packages/Syncfusion.PDF.OCR.Net.Core" target="_blank" rel="nofollow noopener noreferrer)に移動します。
右側のメニューからダウンロードパッケージオプションを選択してください。
ダウンロードしたパッケージをダブルクリックしてください。 自動的にインストールされます。
Visual Studioで、ツール > NuGet パッケージ マネージャー > パッケージ マネージャー コンソール に移動します
Install-Package Syncfusion.PDF.OCR.Net.Core -Version 20.2.0.38
パッケージが現在のプロジェクトにダウンロード/インストールされ、使用可能になります。
IronOCRとSyncfusion OCRの両方がPDFドキュメントに対してOCRを実行することができます。 ここでは、どちらもVisual Studioでどのように使用できるかについて説明します。
数行のコードだけで、開発者はPDF全体や特定のページまたは部分に対してOCRを実行できます。 以下のコードスニペットをご確認ください。
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("example.pdf", "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
OCRProcessorクラスを使用して、PDFドキュメントおよびドキュメントの特定の領域に対してOCRを実行できます。 以下のコードサンプルをコンテキストとして確認してください。
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
Imports Syncfusion.OCRProcessor
Imports Syncfusion.Pdf.Graphics
Imports Syncfusion.Pdf.Parsing
'initialize the ocr processor
Using processor As New OCRProcessor("TesseractBinaries\")
Dim lDoc As New PdfLoadedDocument("Input.pdf")
processor.Settings.Language = Languages.English
processor.PerformOCR(lDoc, "TessData\")
lDoc.Save("Sample.pdf")
lDoc.Close(True)
End Using
どちらのライブラリも、C#.NETおよび.NET Coreアプリケーション内で画像に対してOCRを実行できます。
IronOCRは、わずか2行のコードで不完全にスキャンされた画像から自動的にテキストを検出して読み取る能力において独自です。
using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
Imports IronOcr
Private Result = (New IronTesseract()).Read("images\11111.png").Text
OCR OUTPUT form IMAGE
OCR Output
Simple Data Outputs:
» NET Text Strings
» Barcode & QR Data & Images
Structured Data Outputs:
» Pages
» Blocks
» Paragraphs
» Lines
» words
» Characters
Export Documents:
» Searchable PDFs
» hOCR / HTML Export
» Images of any Page, Text
Element or Barcode
Syncfusion Essential PDFは、画像から高精度でテキストを抽出することが可能です。
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
Using processor As New OCRProcessor("TesseractBinaries\")
Using Syncfusion.OCRProcessor
End Using
End Using
Using Syncfusion.Pdf.Graphics
Using Syncfusion.Pdf.Parsing
'loading the input image
Dim image As New Bitmap("11111.jpeg")
'Set OCR language to process
processor.Settings.Language = Languages.English
'Process OCR by providing the bitmap image, data dictionary and language
Dim ocrText As String= processor.PerformOCR(image, "TessData\")
End Using
End Using
` コンソール
画像からのOCR出力
OCR出力
シンプルデータ出力:
.NET テキスト文字列
ディー イー ティー エヌディー
The provided content, "tC eke ass", does not form a coherent sentence or context. It appears to be either a typographical error or random text. Please provide a meaningful sentence or correct the text if it was improperly entered.
Biren)
大豆
セグ
または
eae
eed
TLC
残念ながら、与えられた入力「eres」は単語として未定義のようです。Iron Softwareやその製品に関連する文脈が不足しているため、正確な翻訳を提供することは難しいです。具体的な文脈や文章を提供していただければ、正確な翻訳をお手伝いいたします。
Smt d
amrを見る
ETD IEOT
IronOCRとSyncfusion Essential PDFの両方の使用にはソフトウェアライセンスが必要です。
IronOCRには、個人の非商用プロジェクト向けに無料の開発ライセンスがあります。
IronOCRは商業ライセンス向けに独自の価格構造を提供しています。 Liteパッケージは、追加費用なしで$749から始まります。 すべてのライセンスには、30日間の返金保証、1年間のソフトウェアサポートとアップグレード、開発、テスト、ステージング、製品の有効性、永久ライセンス(一度の購入)が含まれています。 IronOCRの完全な価格構造とライセンス情報については、このページから詳細をご覧いただけます。
一度の料金として1,599ドルをお支払いいただくと、SaaSおよびOEM製品のロイヤリティフリー再配布が可能になります。
Syncfusion Essential PDFは3種類のデベロッパーライセンスを提供していますが、SaaSおよびOEMのカバレッジは提供していません。
Unlimited License. このオプションは、同一の年間ベースで組織全体にライセンスを提供しますが、より低価格で提供します。
[製品ライセンスページ](https://www.syncfusion.com/sales/products" target="_blank" rel="nofollow noopener noreferrer)でSyncfusion Essential PDF(および他のSyncfusionコンポーネント)の全体のライセンス構造をご覧ください。
IronOCRは、世界中の約125の言語をサポートしています。 その処理機能には、PDF文書や画像の一部分にOCRを実行する機能、PDFや写真からテキストを抽出する機能、低品質の画像を修正する機能など、多くの機能が含まれています。 IronOCRはスピードと精度を優先します。 その精度は99.8%で、市場にある他のTesseract対応OCRライブラリよりも高いです。 IronOCRは、パフォーマンスチューニングや画像前処理の必要なく、そのまま使用できます。
シンクフュージョン エッセンシャル PDF OCRは、Googleのオープンソーステッセラクトエンジンも使用しています。これにより、ドキュメント全体や特定の部分に対してOCRを実行することができます。 SyncfusionのOCRライブラリは、60以上の国際的な言語をサポートしています。
IronOCRライセンスは、無制限のサポートおよびSaaSやOEMのカバレッジと共に、永続的に有効です。 一方、Syncfusion Essential PDF OCRは年間ライセンスを提供しています。 IronOCRの価格は$749から始まり、Syncfusionの価格は年間$995からです。
完全なIron Suiteを購入することで、IronOCRを含む他4つのIron Software製品を割引価格で入手できます。 Iron Suiteに含まれる製品は次のとおりです:
IronPDF
IronOCR
IronXL
IronBarcode
IronWebscraper
Iron Softwareのライセンスページには、上記の5製品の価格およびライセンスに関する詳細情報が記載されています。