ライブ環境でテストする
ウォーターマークなしで本番環境でテストしてください。
必要な場所でいつでも動作します。
最適な光学文字認識の選択(OCR (光学式文字認識))ツールは、テキストの画像を編集可能で検索可能なデータに変換したいと考えるすべての人にとって重要です。 この分野で人気のある二つの選択肢はPaddle OCR(パドルOCR)以下のコンテンツを日本語に翻訳してください:テッセラクト. 両者は異なるOCR技術を活用しており、異なるニーズに応えています。 この比較は、さまざまなOCRエンジンを評価し、あなたのニーズに最も適したオプションを見つけるための手助けをします。
シンプルなタスクに取り組んでいる場合でも、複雑なドキュメントを処理している場合でも、Paddle OCRとTesseractの機能を理解することが、より効率的なデータ処理への第一歩となるでしょう。 たくさんのOCRライブラリの中からライブラリを紹介します。IronOCR以下複数のツールを比較することで、どのツールがあなたのニーズに最も適しているかを理解しやすくしています。
Paddle OCR(パドルOCR)PaddlePaddleのディープラーニングフレームワークの能力を活用して設計された多言語テキスト認識のための高度なテキスト認識モデルを備えた注目すべきソリューションとして登場します。 PaddlePaddleによって開発されたOCRシステムは、高性能で広範な言語サポートに対応するように設計されています。 このシステムは50以上の言語のサポートを通じて際立っており、サーバー、モバイルデバイス、組み込みシステム、IoTデバイスを含むさまざまなプラットフォームにわたるデータアノテーション、生成、モデルのデプロイメントのためのツール群を提供します。
Paddle OCRは、多様なアプリケーション向けのユーザーフレンドリーなAPIを備えた、多くのOCR機能を提供します。 以下の注目すべき特徴です:
多言語サポート: Paddle OCR は複数の言語でテキストを処理でき、50 以上の言語をサポートしています。
ディープラーニング研究の最新技術には、例えばConnectionist Temporal Classificationが含まれます。(CTC)予測とテキストシーケンスの整列を正確に行うために重要な役割を果たす損失。
Paddle OCRは、Apache License 2.0の下でリリースされており、自由に使用、改変、および配布することができます。 インストールは簡単で、通常はPython用のpipなどのパッケージマネージャを使用します。 ユーザーは、いくつかのコマンドでPaddle OCRとその依存関係をすばやくインストールでき、プロジェクトへの統合が簡単にできます。
PaddleOCRをVisual StudioのC#プロジェクトに統合するには、Paddle Inference C# API用の.NETラッパーであるPaddleSharpを使用することで効率化できます。 これは、.NET環境内でPaddlePaddleのディープラーニング機能を直接使用することを可能にします。 以下は、プロジェクトにPaddleSharpをセットアップするためのステップバイステップガイドです:
前提条件:
C#の理解と、Visual StudioでのNuGetパッケージ管理に慣れていることも必須です。
PaddleSharp パッケージのインストール:
ソリューションエクスプローラーでプロジェクトを右クリックし、「NuGet パッケージの管理」オプションに移動します。
Scdb.PaddleOCR
Scdb.PaddleOCR.Models.Online
OpenCvSharp4.runtime.win
ネイティブおよびインフラストラクチャパッケージの追加:
using System;
FullOcrModel model = await OnlineFullModels.EnglishV3.DownloadAsync();
using (PaddleOcrAll all = new(model)
{
AllowRotateDetection = true,
Enable180Classification = false,
})
using (Mat imgSrc = Cv2.ImRead(@"read.jpg"))
{
Stopwatch stopWatch = Stopwatch.StartNew();
PaddleOcrResult result = all.Run(imgSrc);
Console.WriteLine($"lapsed={sw.ElapsedMilliseconds} ms");
Console.WriteLine(result.Text);
}
using System;
FullOcrModel model = await OnlineFullModels.EnglishV3.DownloadAsync();
using (PaddleOcrAll all = new(model)
{
AllowRotateDetection = true,
Enable180Classification = false,
})
using (Mat imgSrc = Cv2.ImRead(@"read.jpg"))
{
Stopwatch stopWatch = Stopwatch.StartNew();
PaddleOcrResult result = all.Run(imgSrc);
Console.WriteLine($"lapsed={sw.ElapsedMilliseconds} ms");
Console.WriteLine(result.Text);
}
Imports System
Private model As FullOcrModel = await OnlineFullModels.EnglishV3.DownloadAsync()
Using all As New PaddleOcrAll(model) With {
.AllowRotateDetection = True,
.Enable180Classification = False
}
Using imgSrc As Mat = Cv2.ImRead("read.jpg")
Dim stopWatch As Stopwatch = Stopwatch.StartNew()
Dim result As PaddleOcrResult = all.Run(imgSrc)
Console.WriteLine($"lapsed={sw.ElapsedMilliseconds} ms")
Console.WriteLine(result.Text)
End Using
End Using
テッセラクトは広く認識されているオープンソースのOCRエンジンであり、Apache 2.0ライセンスの下でライセンスされています。 開発の経緯はヒューレット・パッカード研究所で始まり、2018年までGoogleの管理の下で続き、その後オープンソース化されました。 現在、コミュニティの貢献者によって維持されています。 このエンジンは、100以上の言語を読み取る能力と、PNG、JPEG、TIFFなどのさまざまな画像形式をサポートすることで評価されています。 複数の形式で出力します。たとえば、プレーンテキストやhOCRなどです。(HTML)PDFなど。
主要機能の概要は以下の通りです:
広範な言語サポート:Tesseractは100を超える言語を認識でき、世界中の利用者に対応します。 エンジンはUnicodeをサポートしています(UTF-8), マルチランゲージドキュメントの処理を可能にします。
ニューラルネットワークベースの認識: Tesseractのバージョン4以降では、ニューラルネットワークが導入されました(LSTM(長短期記憶ネットワーク))OCRエンジンは従来の文字パターン認識方法に比べて、テキスト行認識の精度を向上させます。
Tesseract OCR は Apache License 2.0 の下でリリースされています。このライセンスは最も寛容でオープンなライセンスの一つであり、プロプライエタリソフトウェアプロジェクトにおいても、ソフトウェアの使用、修正、配布がほぼ無制限に許可されています。
Visual StudioプロジェクトにTesseract OCRをNuGetを使ってインストールするには、以下の手順に従ってください。
Visual Studioを開く: Visual Studioを起動して、プロジェクトを開くか新しいプロジェクトを作成します。
NuGet パッケージ マネージャーで、参照 タブに切り替えて Tesseract を検索します。
using Tesseract;
using (var engine = new TesseractEngine(@".\tessdata-main", "eng", EngineMode.Default))
{
using (var img = Pix.LoadFromFile(@"read.jpg"))
{
using (var page = engine.Process(img))
{
var text = page.GetText();
Console.WriteLine(text);
}
}
}
using Tesseract;
using (var engine = new TesseractEngine(@".\tessdata-main", "eng", EngineMode.Default))
{
using (var img = Pix.LoadFromFile(@"read.jpg"))
{
using (var page = engine.Process(img))
{
var text = page.GetText();
Console.WriteLine(text);
}
}
}
Imports Tesseract
Using engine = New TesseractEngine(".\tessdata-main", "eng", EngineMode.Default)
Using img = Pix.LoadFromFile("read.jpg")
Using page = engine.Process(img)
Dim text = page.GetText()
Console.WriteLine(text)
End Using
End Using
End Using
IronOCRは、開発者がC#およびVB.Netアプリケーションから画像やPDFドキュメントを読み取り、テキストを抽出することを可能にします。IronOCRは、製品の高いパフォーマンスと正確性で知られており、Microsoft OCRとTesseract OCRの技術を組み合わせています。これにより、複雑なレイアウトや出版物、手書きのテキストに対しても高い認識率を誇ります。
IronOCRを活用することで、あなたのアプリケーションは自動化されたデータ抽出機能を備え、業務効率を大幅に向上させることができます。
IronOCR高度なOCRです(光学文字認識).NET開発者の能力を大幅に強化するライブラリ画像からテキストを抽出するおよびPDFファイル。 Tesseract OCRエンジンの基盤に基づき、IronOCRはC#ネイティブの体験を提供し、ベースよりも優れた安定性と精度を実現します。Tesseractライブラリ. これは.NETアプリケーションおよびウェブサイトにシームレスに統合できるように設計されており、プレーンテキストまたは構造化データ形式でテキストを抽出できるほか、多くの外国語を理解する能力を備えています。 ディープラーニングアルゴリズムを活用して、IronOCRはテキスト認識タスクで比類のない正確性を達成します。
このライブラリは、単純なOCRタスクだけでなく、広範囲にわたるアプリケーションにもその機能を拡張しています。 それは、.NET 5から8までのバージョン、.NET Core 2xおよび3x、そして.NET Framework 4.6.2以降を含む、さまざまなプラットフォームをサポートしています。
以下は、IronOCRを際立たせる主要な属性と機能のいくつかです:
高度なOCRエンジン: Tesseract 5を活用し、IronOCRは高度なOCRエンジンを提供します。125以上の言語. この機能は、多言語サポートが必要なグローバルなアプリケーションにとって重要です。 このライブラリは、ほとんどの言語に対して高品質、中品質、そして高速品質のオプションを提供しており、カスタム言語やフォントトレーニングもサポートしています。これにより、テキスト認識において柔軟性と高精度を確保します。
包括的な文書処理: IronOCRは、画像を含むさまざまな文書タイプやフォーマットを処理できます。(JPG、PNG、GIF、TIFF、BMP)、System.Drawingオブジェクト、ストリーム、およびPDF。
堅牢な画像処理: ライブラリには、シャープ化、解像度向上、ノイズ除去、カラー補正などの強力なフィルターおよび画像処理ツールのセットが含まれています。(二値化、グレースケール、反転).
構造化されたシンプルなデータ出力: IronOCR は、構造化されたデータ出力を提供します(ページ, ブロック, 段落, 行, 単語, 文字)簡単なデータ出力(.NETテキスト文字列、バーコードとQRデータ、画像).
並列処理とコンピュータビジョン: ライブラリは、シングルおよびマルチスレッディング、非同期操作をサポートしており、画像内のテキスト領域を識別するコンピュータビジョン機能を提供します。これにより、複雑またはノイズの多い画像におけるテキスト認識の精度と効率が向上します。
.NETプロジェクトにIronOCRをインストールするには、開発環境や好みに応じていくつかの方法を使用できます。 以下は、始めるための簡単なガイドです:
IronOCRは、ユーザーの柔軟性とスケーラビリティを確保するために、さまざまなプロジェクトや開発者のニーズに合わせた多様なライセンスオプションを提供しています。 ライセンス条項は永久的なものであり、一度ライセンスを購入すれば、再発する料金はありません。 また、全てのライセンスには30日間の返金保証、1年間の製品サポートおよび更新が含まれており、開発、ステージング、およびプロダクション環境に有効です。 ライセンス料金は749ドルから始まります。購買することができます。無料体験ライセンスを購入する前に。
Tools -> NuGet Package Manager -> Package Manager Console に移動します。
以下は、IronOCR を使用して画像からテキストを抽出する方法のコード例です:
using IronOcr;
IronOcr.License.LicenseKey = "License-Key";
var ocrMode = new IronTesseract();
var resultText = ocrMode.Read("read.jpg");
Console.WriteLine(resultText.Text);
using IronOcr;
IronOcr.License.LicenseKey = "License-Key";
var ocrMode = new IronTesseract();
var resultText = ocrMode.Read("read.jpg");
Console.WriteLine(resultText.Text);
Imports IronOcr
IronOcr.License.LicenseKey = "License-Key"
Dim ocrMode = New IronTesseract()
Dim resultText = ocrMode.Read("read.jpg")
Console.WriteLine(resultText.Text)
さまざまな光学文字認識に重要な要素において、IronOCR、PaddleOCR、Tesseractを評価する際に(OCR (光学式文字認識))アプリケーションにおいて、それぞれのツールの強みを正確性、速度、言語サポート、カスタマイズオプション、およびコミュニティサポートの観点から考慮することが重要です。
PaddleOCRとTesseractの両方はベンチマークで高い精度を示していますが、IronOCRの微調整と前処理ステップを調整する能力により、多様な文書タイプにおいて優れた結果を提供する点で優位性を持っています。
処理速度に関して、IronOCRは.NET環境内での文書の効率的な処理により際立っており、迅速なテキスト認識のための最適化されたパフォーマンスを提供します。 PaddleOCRとTesseractは、リアルタイム処理の能力でも知られています。
Tesseractは100以上の言語をサポートしており、言語対応の面で最も多用途なOCRツールの一つとされています。 PaddleOCRは、特にアジア言語に対して優れた言語サポートも提供しています。 IronOCRは、Tesseractのエンジンを利用し、この広範な言語サポートを引き継ぎ、さらに追加の強化と最適化を組み合わせています。 この組み合わせは、取り扱う言語の範囲を効果的に拡大するだけでなく、IronOCRの強化により直接サポートされる言語の精度と速度も向上させます。
IronOCRは、画像の前処理、テキストフィルタリング、カスタム辞書を含む、OCRプロセスを細かく調整できる幅広いオプションを提供することで、このカスタマイズに優れています。 このレベルのカスタマイズは、デフォルト設定が十分でない場合がある複雑なOCRシナリオで特に価値があります。PaddleOCRやTesseractもある程度のカスタマイズ機能を提供していますが、IronOCRの.NETエコシステム内での開発者ニーズに焦点を当てた設計は、より高い柔軟性を保証します。
Tesseractは長い歴史とオープンソースの性質により広く確立されたコミュニティを持ち、またPaddleOCRのコミュニティも急速に成長していますが、IronOCRは.NET開発者の集中したコミュニティから利益を得ています。
結論として、Tesseractはその広範なカスタマイズと幅広いコミュニティサポートによりOCRプロジェクトにおいて堅実な基盤を提供し、PaddleOCRは高い精度と速度を実現する最先端のディープラーニング技術を提供しますが、IronOCRは.NET開発者や企業にとって魅力的な選択肢として浮上します。 オンプレミス配置への注力、包括的な言語サポート、およびコスト効率の良いライセンスモデルにより、IronOCRはデータセキュリティ、財務の予測可能性、.NET アプリケーションとの統合を優先するユーザーにとって魅力的な選択肢となっています。
IronOCRは、その柔軟なライセンスオプションにより、企業にとって特に魅力的です。無料体験初期評価と$749から始まるライセンスで、パフォーマンスとコストのバランスを求めるすべての規模の組織に対応しています。
9つの .NET API製品 オフィス文書用