他のコンポーネントと比較

パドルOCRとTesseractの比較:OCRの詳細な比較

公開済み 2024年4月29日
共有:

最適な光学文字認識の選択(OCR (光学式文字認識))ツールは、テキストの画像を編集可能で検索可能なデータに変換したいと考えるすべての人にとって重要です。 この分野で人気のある二つの選択肢はPaddle OCR(パドルOCR)以下のコンテンツを日本語に翻訳してください:テッセラクト. 両者は異なるOCR技術を活用しており、異なるニーズに応えています。 この比較は、さまざまなOCRエンジンを評価し、あなたのニーズに最も適したオプションを見つけるための手助けをします。

シンプルなタスクに取り組んでいる場合でも、複雑なドキュメントを処理している場合でも、Paddle OCRとTesseractの機能を理解することが、より効率的なデータ処理への第一歩となるでしょう。 たくさんのOCRライブラリの中からライブラリを紹介します。IronOCR以下複数のツールを比較することで、どのツールがあなたのニーズに最も適しているかを理解しやすくしています。

パドルOCR

Paddle OCR(パドルOCR)PaddlePaddleのディープラーニングフレームワークの能力を活用して設計された多言語テキスト認識のための高度なテキスト認識モデルを備えた注目すべきソリューションとして登場します。 PaddlePaddleによって開発されたOCRシステムは、高性能で広範な言語サポートに対応するように設計されています。 このシステムは50以上の言語のサポートを通じて際立っており、サーバー、モバイルデバイス、組み込みシステム、IoTデバイスを含むさまざまなプラットフォームにわたるデータアノテーション、生成、モデルのデプロイメントのためのツール群を提供します。

主な機能

Paddle OCRは、多様なアプリケーション向けのユーザーフレンドリーなAPIを備えた、多くのOCR機能を提供します。 以下の注目すべき特徴です:

  1. 多言語サポート: Paddle OCR は複数の言語でテキストを処理でき、50 以上の言語をサポートしています。

  2. 高度なアルゴリズム: これは、テキストの検出、認識、および分類のための高度なOCRメソッドとアルゴリズムを組み込んでいます。 以下を日本語に翻訳してください:

ディープラーニング研究の最新技術には、例えばConnectionist Temporal Classificationが含まれます。(CTC)予測とテキストシーケンスの整列を正確に行うために重要な役割を果たす損失。

  1. 効率と速度: パドルOCRは速度と精度の両方で最適化されており、大量の画像を迅速に処理することができるため、高スループットのアプリケーションに適しています。

ライセンス

Paddle OCRは、Apache License 2.0の下でリリースされており、自由に使用、改変、および配布することができます。 インストールは簡単で、通常はPython用のpipなどのパッケージマネージャを使用します。 ユーザーは、いくつかのコマンドでPaddle OCRとその依存関係をすばやくインストールでき、プロジェクトへの統合が簡単にできます。

PaddleSharpをインストール

PaddleOCRをVisual StudioのC#プロジェクトに統合するには、Paddle Inference C# API用の.NETラッパーであるPaddleSharpを使用することで効率化できます。 これは、.NET環境内でPaddlePaddleのディープラーニング機能を直接使用することを可能にします。 以下は、プロジェクトにPaddleSharpをセットアップするためのステップバイステップガイドです:

前提条件:

  • システムにVisual Studioがインストールされていることを確認し、プロジェクトの要件に応じて .NET Framework または .NET Core のサポートを有効にしてください。
  • C#の理解と、Visual StudioでのNuGetパッケージ管理に慣れていることも必須です。

    PaddleSharp パッケージのインストール:

  • Visual Studioでプロジェクトを開きます。
  • ソリューションエクスプローラーでプロジェクトを右クリックし、「NuGet パッケージの管理」オプションに移動します。

    • Sdcb.PaddleInferenceを検索して、パッケージをインストールします。 これは、.NETアプリケーションがPaddle推論エンジンを利用できるようにするためのコアバインディングです。

    Paddle OCR 対 Tesseract (OCR 機能比較): 図 1 - NuGet パッケージマネージャーで Sdcb.PaddleInference を検索

  • 次に、以下のパッケージをインストールします:
  • Scdb.PaddleOCR

    • OpenCvSharp4

    Scdb.PaddleOCR.Models.Online

    OpenCvSharp4.runtime.win

    ネイティブおよびインフラストラクチャパッケージの追加:

  • ターゲットプラットフォームによって(Windows/Linux (ウィンドウズ/リナックス))および要件(CPU/GPU)追加のパッケージが必要になる場合があります。 Windows環境のためには、MKLサポート用の Sdcb.PaddleInference.runtime.win64.mkl パッケージや、GPUサポート用の Sdcb.PaddleInference.runtime.win64.cuda パッケージが必要になる場合があります。
  • これらはNuGetパッケージマネージャーを通じてインストールし、開発およびターゲット実行環境との互換性を確保してください。

コード例

using System;
FullOcrModel model = await OnlineFullModels.EnglishV3.DownloadAsync();
using (PaddleOcrAll all = new(model)
{
    AllowRotateDetection = true,
    Enable180Classification = false,
})
using (Mat imgSrc = Cv2.ImRead(@"read.jpg"))
{
    Stopwatch stopWatch = Stopwatch.StartNew();
    PaddleOcrResult result = all.Run(imgSrc);
    Console.WriteLine($"lapsed={sw.ElapsedMilliseconds} ms");
    Console.WriteLine(result.Text);
}
using System;
FullOcrModel model = await OnlineFullModels.EnglishV3.DownloadAsync();
using (PaddleOcrAll all = new(model)
{
    AllowRotateDetection = true,
    Enable180Classification = false,
})
using (Mat imgSrc = Cv2.ImRead(@"read.jpg"))
{
    Stopwatch stopWatch = Stopwatch.StartNew();
    PaddleOcrResult result = all.Run(imgSrc);
    Console.WriteLine($"lapsed={sw.ElapsedMilliseconds} ms");
    Console.WriteLine(result.Text);
}
Imports System
Private model As FullOcrModel = await OnlineFullModels.EnglishV3.DownloadAsync()
Using all As New PaddleOcrAll(model) With {
	.AllowRotateDetection = True,
	.Enable180Classification = False
}
Using imgSrc As Mat = Cv2.ImRead("read.jpg")
	Dim stopWatch As Stopwatch = Stopwatch.StartNew()
	Dim result As PaddleOcrResult = all.Run(imgSrc)
	Console.WriteLine($"lapsed={sw.ElapsedMilliseconds} ms")
	Console.WriteLine(result.Text)
End Using
End Using
VB   C#

パドルOCR対テッセラクト(OCR機能比較):図 2 - 前のコードからのコンソール出力。

テッセラクト OCR (テッセラクト OCR (Tesseract OCR))

テッセラクトは広く認識されているオープンソースのOCRエンジンであり、Apache 2.0ライセンスの下でライセンスされています。 開発の経緯はヒューレット・パッカード研究所で始まり、2018年までGoogleの管理の下で続き、その後オープンソース化されました。 現在、コミュニティの貢献者によって維持されています。 このエンジンは、100以上の言語を読み取る能力と、PNG、JPEG、TIFFなどのさまざまな画像形式をサポートすることで評価されています。 複数の形式で出力します。たとえば、プレーンテキストやhOCRなどです。(HTML)PDFなど。

主な機能

主要機能の概要は以下の通りです:

  1. 広範な言語サポート:Tesseractは100を超える言語を認識でき、世界中の利用者に対応します。 エンジンはUnicodeをサポートしています(UTF-8), マルチランゲージドキュメントの処理を可能にします。

  2. ニューラルネットワークベースの認識: Tesseractのバージョン4以降では、ニューラルネットワークが導入されました(LSTM(長短期記憶ネットワーク))OCRエンジンは従来の文字パターン認識方法に比べて、テキスト行認識の精度を向上させます。

  3. 多様な出力フォーマット: Tesseractはプレーンテキスト、hOCRなどの様々な出力フォーマットに対応しています(HTML)、PDF、およびTSVで、さまざまな使用ケースに適応できます。

ライセンス

Tesseract OCR は Apache License 2.0 の下でリリースされています。このライセンスは最も寛容でオープンなライセンスの一つであり、プロプライエタリソフトウェアプロジェクトにおいても、ソフトウェアの使用、修正、配布がほぼ無制限に許可されています。

Tesseractをインストールする

Visual StudioプロジェクトにTesseract OCRをNuGetを使ってインストールするには、以下の手順に従ってください。

  1. Visual Studioを開く: Visual Studioを起動して、プロジェクトを開くか新しいプロジェクトを作成します。

    1. ソリューションエクスプローラーでプロジェクトを右クリックし、NuGet パッケージの管理... を選択します。
  2. NuGet パッケージ マネージャーで、参照 タブに切り替えて Tesseract を検索します。

    1. Tesseract NuGet パッケージマネージャーをインストールする。

    Paddle OCR と Tesseract の比較(OCR機能比較):図3 - NuGet パッケージマネージャーで Tesseract をインストールする

  3. テススデータをこちらからダウンロードするリンク. Tesseract OCRを使用することが重要です。

コード例

using Tesseract;
using (var engine = new TesseractEngine(@".\tessdata-main", "eng", EngineMode.Default))
{
    using (var img = Pix.LoadFromFile(@"read.jpg"))
    {
        using (var page = engine.Process(img))
        {
            var text = page.GetText();
            Console.WriteLine(text);
        }
    }
}
using Tesseract;
using (var engine = new TesseractEngine(@".\tessdata-main", "eng", EngineMode.Default))
{
    using (var img = Pix.LoadFromFile(@"read.jpg"))
    {
        using (var page = engine.Process(img))
        {
            var text = page.GetText();
            Console.WriteLine(text);
        }
    }
}
Imports Tesseract
Using engine = New TesseractEngine(".\tessdata-main", "eng", EngineMode.Default)
	Using img = Pix.LoadFromFile("read.jpg")
		Using page = engine.Process(img)
			Dim text = page.GetText()
			Console.WriteLine(text)
		End Using
	End Using
End Using
VB   C#

Paddle OCRとTesseractの比較(OCR機能の比較):図4 - 前述のコード例からのコンソール出力

IronOCR

IronOCRは、開発者がC#およびVB.Netアプリケーションから画像やPDFドキュメントを読み取り、テキストを抽出することを可能にします。IronOCRは、製品の高いパフォーマンスと正確性で知られており、Microsoft OCRとTesseract OCRの技術を組み合わせています。これにより、複雑なレイアウトや出版物、手書きのテキストに対しても高い認識率を誇ります。

  • サポートされるファイル形式: PNG, JPG, GIF, TIFF, BMP, PDF
  • ユニークな機能: 複数言語のテキスト認識、回転・歪みの補正、ノイズ除去
  • 導入が簡単: .NETフレームワークや.NET Coreプロジェクトに簡単に統合可能
  • ライセンスオプション: Lite License, Plus License, Professional License, Unlimited License

IronOCRの利点

  1. 高い認識精度: IronOCRは最新のOCR技術を利用し、正確なテキスト抽出を実現します。
  2. 迅速な処理: 高速な処理速度で大量のドキュメントを効率的に処理できます。
  3. シンプルな統合: APIがシンプルで使いやすいため、開発者は短時間で機能を実装できます。

IronOCRを活用することで、あなたのアプリケーションは自動化されたデータ抽出機能を備え、業務効率を大幅に向上させることができます。

IronOCR高度なOCRです(光学文字認識).NET開発者の能力を大幅に強化するライブラリ画像からテキストを抽出するおよびPDFファイル。 Tesseract OCRエンジンの基盤に基づき、IronOCRはC#ネイティブの体験を提供し、ベースよりも優れた安定性と精度を実現します。Tesseractライブラリ. これは.NETアプリケーションおよびウェブサイトにシームレスに統合できるように設計されており、プレーンテキストまたは構造化データ形式でテキストを抽出できるほか、多くの外国語を理解する能力を備えています。 ディープラーニングアルゴリズムを活用して、IronOCRはテキスト認識タスクで比類のない正確性を達成します。

このライブラリは、単純なOCRタスクだけでなく、広範囲にわたるアプリケーションにもその機能を拡張しています。 それは、.NET 5から8までのバージョン、.NET Core 2xおよび3x、そして.NET Framework 4.6.2以降を含む、さまざまなプラットフォームをサポートしています。

主な機能

以下は、IronOCRを際立たせる主要な属性と機能のいくつかです:

高度なOCRエンジン: Tesseract 5を活用し、IronOCRは高度なOCRエンジンを提供します。125以上の言語. この機能は、多言語サポートが必要なグローバルなアプリケーションにとって重要です。 このライブラリは、ほとんどの言語に対して高品質、中品質、そして高速品質のオプションを提供しており、カスタム言語やフォントトレーニングもサポートしています。これにより、テキスト認識において柔軟性と高精度を確保します。

包括的な文書処理: IronOCRは、画像を含むさまざまな文書タイプやフォーマットを処理できます。(JPG、PNG、GIF、TIFF、BMP)、System.Drawingオブジェクト、ストリーム、およびPDF。

堅牢な画像処理: ライブラリには、シャープ化、解像度向上、ノイズ除去、カラー補正などの強力なフィルターおよび画像処理ツールのセットが含まれています。(二値化、グレースケール、反転).

構造化されたシンプルなデータ出力: IronOCR は、構造化されたデータ出力を提供します(ページ, ブロック, 段落, 行, 単語, 文字)簡単なデータ出力(.NETテキスト文字列、バーコードとQRデータ、画像).

並列処理とコンピュータビジョン: ライブラリは、シングルおよびマルチスレッディング、非同期操作をサポートしており、画像内のテキスト領域を識別するコンピュータビジョン機能を提供します。これにより、複雑またはノイズの多い画像におけるテキスト認識の精度と効率が向上します。

.NETプロジェクトにIronOCRをインストールするには、開発環境や好みに応じていくつかの方法を使用できます。 以下は、始めるための簡単なガイドです:

ライセンス

IronOCRは、ユーザーの柔軟性とスケーラビリティを確保するために、さまざまなプロジェクトや開発者のニーズに合わせた多様なライセンスオプションを提供しています。 ライセンス条項は永久的なものであり、一度ライセンスを購入すれば、再発する料金はありません。 また、全てのライセンスには30日間の返金保証、1年間の製品サポートおよび更新が含まれており、開発、ステージング、およびプロダクション環境に有効です。 ライセンス料金は749ドルから始まります。購買することができます。無料体験ライセンスを購入する前に。

IronOCRをインストールする

  1. Tools -> NuGet Package Manager -> Package Manager Console に移動します。

    1. コマンド Install-Package IronOcr を入力し、実行します。 このコマンドはIronOCRをプロジェクトに取得してインストールし、使用可能にします。

    Paddle OCR 対 Tesseract(OCR機能比較): 図5 - パッケージマネージャーコンソールを使用してIronOCRをインストール

コード例

以下は、IronOCR を使用して画像からテキストを抽出する方法のコード例です:

using IronOcr;
IronOcr.License.LicenseKey = "License-Key";
var ocrMode = new IronTesseract();
var resultText = ocrMode.Read("read.jpg");
Console.WriteLine(resultText.Text);
using IronOcr;
IronOcr.License.LicenseKey = "License-Key";
var ocrMode = new IronTesseract();
var resultText = ocrMode.Read("read.jpg");
Console.WriteLine(resultText.Text);
Imports IronOcr
IronOcr.License.LicenseKey = "License-Key"
Dim ocrMode = New IronTesseract()
Dim resultText = ocrMode.Read("read.jpg")
Console.WriteLine(resultText.Text)
VB   C#

Paddle OCR 対 Tesseract (OCR機能比較): 図6 - 前述のコード例からのコンソール出力

比較

さまざまな光学文字認識に重要な要素において、IronOCR、PaddleOCR、Tesseractを評価する際に(OCR (光学式文字認識))アプリケーションにおいて、それぞれのツールの強みを正確性、速度、言語サポート、カスタマイズオプション、およびコミュニティサポートの観点から考慮することが重要です。

正確性

PaddleOCRとTesseractの両方はベンチマークで高い精度を示していますが、IronOCRの微調整と前処理ステップを調整する能力により、多様な文書タイプにおいて優れた結果を提供する点で優位性を持っています。

スピード

処理速度に関して、IronOCRは.NET環境内での文書の効率的な処理により際立っており、迅速なテキスト認識のための最適化されたパフォーマンスを提供します。 PaddleOCRとTesseractは、リアルタイム処理の能力でも知られています。

言語サポート

Tesseractは100以上の言語をサポートしており、言語対応の面で最も多用途なOCRツールの一つとされています。 PaddleOCRは、特にアジア言語に対して優れた言語サポートも提供しています。 IronOCRは、Tesseractのエンジンを利用し、この広範な言語サポートを引き継ぎ、さらに追加の強化と最適化を組み合わせています。 この組み合わせは、取り扱う言語の範囲を効果的に拡大するだけでなく、IronOCRの強化により直接サポートされる言語の精度と速度も向上させます。

カスタマイズオプション

IronOCRは、画像の前処理、テキストフィルタリング、カスタム辞書を含む、OCRプロセスを細かく調整できる幅広いオプションを提供することで、このカスタマイズに優れています。 このレベルのカスタマイズは、デフォルト設定が十分でない場合がある複雑なOCRシナリオで特に価値があります。PaddleOCRやTesseractもある程度のカスタマイズ機能を提供していますが、IronOCRの.NETエコシステム内での開発者ニーズに焦点を当てた設計は、より高い柔軟性を保証します。

コミュニティサポート

Tesseractは長い歴史とオープンソースの性質により広く確立されたコミュニティを持ち、またPaddleOCRのコミュニティも急速に成長していますが、IronOCRは.NET開発者の集中したコミュニティから利益を得ています。

結論

結論として、Tesseractはその広範なカスタマイズと幅広いコミュニティサポートによりOCRプロジェクトにおいて堅実な基盤を提供し、PaddleOCRは高い精度と速度を実現する最先端のディープラーニング技術を提供しますが、IronOCRは.NET開発者や企業にとって魅力的な選択肢として浮上します。 オンプレミス配置への注力、包括的な言語サポート、およびコスト効率の良いライセンスモデルにより、IronOCRはデータセキュリティ、財務の予測可能性、.NET アプリケーションとの統合を優先するユーザーにとって魅力的な選択肢となっています。

IronOCRは、その柔軟なライセンスオプションにより、企業にとって特に魅力的です。無料体験初期評価と$749から始まるライセンスで、パフォーマンスとコストのバランスを求めるすべての規模の組織に対応しています。

< 以前
iOS OCRライブラリ(無料と有料ツールの比較)
次へ >
ABBYY FineReader と Tesseract の OCR 比較