他のコンポーネントと比較

Abbyy Finereader vs Tesseract (OCR機能の比較)

公開済み 2024年4月3日
共有:

光学文字認識の分野では (OCR (光学式文字認識)) ソフトウェア、ABBYY FineReader、IronOCR、そしてTesseractは、先進的なテキスト認識機能を提供する際立ったソリューションとして際立っています。 彼らがスキャン文書やスキャン画像をPDF文書のような編集可能で検索可能な形式に変換することを目指している一方で、機能、精度、使いやすさ、価格の面で異なります。 この記事は詳細に掘り下げます OCRツールの比較 他のOCRエンジン、ABBYY FineReader、Tesseractなどを含む IronOCR.

OCRソフトウェアの紹介

光学文字認識 (OCR) (OCR (光学式文字認識)) ソフトウェアは、テキストが多いドキュメントとのインタラクションの方法を変革します。 高度なアルゴリズムと機械学習技術を活用することで、OCRソフトウェアはスキャンされた文書、画像、PDFファイルなどのさまざまなソースからテキストを認識して抽出できます。 この技術はデジタル化を促進するだけでなく、文書管理、データ認識のテキスト抽出、視覚障害者のアクセシビリティも向上させます。

ABBYY FineReader: 概要と機能

ABBYY FineReader(アビー ファインリーダー) 市場をリードするOCRソリューションであり、その優れた精度と包括的な機能セットで知られています。 ABBYYによって開発されたFineReaderは、ドキュメント処理技術の世界的リーダーであり、個人ユーザーおよびエンタープライズレベルのアプリケーションに対応した使いやすいインターフェースと強力なOCR機能を提供します。

2.1. ABBYY FineReaderの主な機能

  • 高精度: ABBYY FineReaderは、業界トップクラスの精度を誇るテキスト認識技術を持ち、スキャンした文書や画像を正確に編集可能な形式に変換します。
  • ドキュメントレイアウトの保持:FineReaderは、テーブル、コラム、グラフィックスを含むドキュメントの元のレイアウト、フォーマット、構造を保持し、変換後の出力で忠実性を確保します。
  • 多言語サポート: FineReaderは複数の言語でのテキスト認識をサポートしており、さまざまな国際的なアプリケーションに適しています。
  • バッチ処理:FineReaderはドキュメントのバッチ処理を可能にし、ユーザーが複数のファイルを同時に変換できるようにします。これにより、生産性と効率が向上します。
  • 統合機能: FineReaderは、人気のドキュメント管理システム、クラウドストレージプラットフォーム、および生産性ソフトウェアとシームレスに統合され、効率的なワークフローと強化されたコラボレーションを促進します。

2.2. ABBYY FineReaderのインストール

ABBYY FineReaderはウェブサイトから簡単にダウンロードしてインストールできます。ダウンロードするには、クリックしてください。 これ.

Abbyy Finereader 対 Tesseract (OCR機能比較): 図1 - ABBYY FineReader

無料トライアルダウンロードボタンをクリックすると、新しいページにリダイレクトされ、フォームに記入して7日間の無料トライアルを取得する必要があります。

Abbyy Finereader 対 Tesseract (OCR機能比較): 図2 - Abby FineReader - 7日間の無料体験

2.3. ABBYY FineReaderを使用して画像のOCRを実行する

ダウンロード後、ABBYY FineReader を開き、OCR 編集ツールをクリックして画像ファイルの OCR 修正を行います。

Abbyy Finereader 対 Tesseract (OCR機能比較): 図3 - ABBY FineReader PDF Corporate

OCRエディタタブをクリックすると、ウィンドウがポップアップします。このウィンドウで開きたい画像ファイルを選択し、OCRプロセスを実行します。

Abbyy Finereader と Tesseract の比較(OCR機能の比較): 図4 - 「OCRエディタ」タブをクリックするとウィンドウがポップアップし、このウィンドウで画像ファイルを選択して開き、OCR処理を実行します。

オープンボタンをクリックすると、画像が読み込まれ、OCR操作が実行され、右側のOCRエディタに編集可能な抽出テキストが表示され、左側に画像が表示されます。

Abbyy Finereader 対 Tesseract (OCR機能の比較): 図5 - 「Open」ボタンをクリックすると、画像がOCRエディタに読み込まれ、OCRが実行されます。 編集可能な抽出テキストはOCRエディターの右側に表示され、画像は左側に表示されます。

3. Tesseract: 概要と特徴

テッセラクトGoogleが開発したオープンソースのOCRエンジンは、機械学習アルゴリズムに裏付けられた強力なテキスト認識機能を提供します。 1980年代にヒューレット・パッカードによって初めて開発されたTesseractは、多くの言語やプラットフォームに対応した多才なOCRソリューションに進化しました。 Tesseractは、FineReaderのような商業用OCRツールやソフトウェアの洗練されたインターフェースや豊富な機能セットには欠けるかもしれませんが、無料でカスタマイズ可能なOCRソリューションを求めている開発者や愛好者にとっては依然として人気の選択肢です。

3.1. Tesseractの主な機能

  • オープンソース: TesseractはApacheライセンス2.0の下で配布されており、開発者や組織が無料で使用、変更、配布することができます。
  • 言語サポート: Tesseractは、100以上の言語のテキスト認識をサポートしており、中国語、日本語、アラビア語などの非ラテン文字の言語も含まれているため、多言語OCRタスクに適しています。
  • コマンドラインインターフェース:Tesseractはコマンドラインインターフェースを提供します (CLI) ドキュメントのバッチ処理およびスクリプト言語や自動化ツールとの統合用。
  • トレーニングとカスタマイズ: Tesseractは、カスタム言語モデルのトレーニングや特定のフォント、スクリプト、または文書タイプの認識精度を向上させるためのツールを提供しており、ユーザーがOCRエンジンを特定の要件に合わせて調整できるようにします。
  • プラットフォーム互換性:Tesseractは、Windows、macOS、Linuxなどのさまざまなオペレーティングシステムだけでなく、AndroidやiOSなどのプラットフォームでも利用可能で、広範な互換性とアクセス可能性を確保しています。

3.2. Tesseract OCR エンジン .NET のインストール

NuGetパッケージマネージャーを使用して、簡単にTesseract .NET SDKをインストールできます。 以下の手順に従ってください:

  1. Visual Studioを開き、「ツール」 > 「NuGetパッケージマネージャー」 > 「ソリューションのNuGetパッケージの管理」に移動します。

    Abbyy Finereader対Tesseract (OCR機能の比較): 図6 - Tesseractのインストール方法: Visual Studioを開き、「ツール」 - 「NuGetパッケージマネージャー」 - 「ソリューション用NuGetパッケージの管理」に移動します。

  1. 「Browse」タブで「Tesseract.NET SDK」を検索してください。

  2. 検索結果から「Tesseract.NET SDK」を選択し、インストールを進めてください。

    Abbyy Finereader 対 Tesseract (OCR機能の比較): 図7 - NuGetパッケージマネージャの検索バーに「tesseract」と入力して、ソリューションのためのNuGetパッケージの管理を使用してTesseract .NET SDKをインストールします。そして、プロジェクトを選択し、インストールボタンをクリックします。

  3. インストールが完了すると、プログラムでTesseract.NET SDKをシームレスに利用できるようになります。

画像に対してTesseract OCRエンジンを使用したOCRの実行

インストールが完了したら、Program.csファイルに以下のコードを書き込んでください。

using Patagames.Ocr;
using System;
using (var api = OcrApi.Create())
{
    api.Init(Patagames.Ocr.Enums.Languages.English);
    string plainText = api.GetTextFromImage(@"C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png");
    Console.WriteLine(plainText);
}
using Patagames.Ocr;
using System;
using (var api = OcrApi.Create())
{
    api.Init(Patagames.Ocr.Enums.Languages.English);
    string plainText = api.GetTextFromImage(@"C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png");
    Console.WriteLine(plainText);
}
Imports Patagames.Ocr
Imports System
Using api = OcrApi.Create()
	api.Init(Patagames.Ocr.Enums.Languages.English)
	Dim plainText As String = api.GetTextFromImage("C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png")
	Console.WriteLine(plainText)
End Using
VB   C#

このコードスニペットは、Tesseract.NET SDKを使用して光学文字認識(OCR)を実行します。 (OCR (光学式文字認識)) 画像ファイルからテキストを抽出する 以下の内容を日本語に翻訳してください:

英語の言語処理用にOCRエンジンを初期化し、指定された画像ファイルからテキストを抽出します。GetTextFromImage() メソッドを使用して、結果を plainText** 変数に格納します。 最後に、抽出されたテキストをコンソールに出力します。 この簡潔な実装例では、Tesseract OCRをC#アプリケーションにシームレスに統合し、画像から容易にテキストを抽出する方法を紹介しています。

出力

Abbyy Finereader対Tesseract(OCR機能比較):図8 - コンソール出力:Tesseract OCRを使用して画像から抽出されたテキスト。

4. IronOCRの概要と機能

IronOCR 光学文字認識(Optical Character Recognition)の最前線に立っています (OCR (光学式文字認識)) 技術は、スキャンしたドキュメント、PDFファイル、および画像を機械読取可能で検索可能なテキストに変換するための堅牢で多用途のソリューションを提供します。 Iron Softwareによって開発されたIronOCRは、先進的なアルゴリズム、クラウドビジョン、および人工知能を活用して、印字されたテキスト、スキャンされたファイル、および手書き文字を含むテキストを正確に抽出します。 直感的なインターフェースと強力な機能を備えたIronOCRは、効率的な文書管理およびデータ抽出ソリューションを求める開発者や企業にとって好まれる選択肢となっています。

4.1. IronOCR の主要機能

  1. オンプレミスOCR: IronOCRはオンプレミスのテキスト抽出を可能にし、開発者が外部サービスに依存することなく、OCR機能を直接自分たちのアプリケーションに統合できるようにします。

  2. 多用途の言語サポート: IronOCRは、127以上の国際言語をサポートしており、さまざまな言語やスクリプトのテキストを正確に認識することで、グローバルなユーザーに対応します。

  3. 高度なテキスト認識: IronOCRはフォントやスタイルの検出を含む高度なテキスト認識機能を提供しており、さまざまなレイアウトや書式のドキュメントからテキストを正確に抽出することを保証します。

  4. 柔軟なライセンスオプション: IronOCRは、コスト効率とスケーラビリティを確保するために、無料試用版および個々のアプリケーションサーバーの使用状況と展開のニーズに合わせた有料ライセンスを含む、さまざまなライセンスオプションを提供しています。

  5. シームレスな統合: IronOCRは、.NET、Java、Pythonなどの人気のある開発フレームワークやプラットフォームとシームレスに統合され、開発者がOCR機能をアプリケーションに容易に組み込むことができます。

4.2. IronOCRのインストール

インストール IronOCR Visual StudioとNuGetパッケージマネージャーを使用するのは非常に簡単です。 Visual Studio を開き、「ツール」に移動し、「NuGet パッケージ マネージャー」をクリックします。新しいウィンドウが表示されます。 新しいウィンドウで、ブラウズタブに移動し、「IronOCR」を検索してください。パッケージのリストが表示されます。 最新バージョンのIronOCRを選択し、インストールをクリックしてください。

ABBYY FineReader vs Tesseract (OCR 機能比較): 図 9 - NuGet パッケージ マネージャーの検索バーで「IronOCR」を検索して、ソリューション用の NuGet パッケージの管理を使用して IronOCR をインストールし、プロジェクトを選択してインストール ボタンをクリックします。

4.3. IronOCRを使用して画像にOCRを実行する

以下のソースコードは、画像ファイルに対してOCRを実行し、IronOCRを使用してテキストを抽出します。

using Google.Protobuf.WellKnownTypes;
using IronOcr;
using System;
var Ocr = new IronTesseract(); // nothing to configure            
Ocr.Language = OcrLanguage.EnglishBest;
using (var Input = new OcrInput())
{
    Input.LoadImage(@"C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png");
    Input.Deskew();
    Input.DeNoise();
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using Google.Protobuf.WellKnownTypes;
using IronOcr;
using System;
var Ocr = new IronTesseract(); // nothing to configure            
Ocr.Language = OcrLanguage.EnglishBest;
using (var Input = new OcrInput())
{
    Input.LoadImage(@"C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png");
    Input.Deskew();
    Input.DeNoise();
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports Google.Protobuf.WellKnownTypes
Imports IronOcr
Imports System
Private Ocr = New IronTesseract() ' nothing to configure
Ocr.Language = OcrLanguage.EnglishBest
Using Input = New OcrInput()
	Input.LoadImage("C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png")
	Input.Deskew()
	Input.DeNoise()
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

以下のコードスニペットは、強力な光学式文字認識 (OCR) ツールであるIronOCRの使用例を示しています。 (OCR (光学式文字認識)) ライブラリを使用して画像ファイルからテキストを抽出するために、まずIronTesseractクラスのインスタンスを作成してIronOCRを初期化します。

OCR処理の言語は、Ocr.Language = OcrLanguage.EnglishBest を使用して英語に設定されています。 他の言語を選択することもできます。 次に、OCR 処理のために画像ファイルを読み込むための OcrInput オブジェクトを作成し、画像品質を向上させるためにデスクューおよびノイズ除去操作を適用します。 最後に、処理された画像に対してOCR(光学文字認識)をReadコマンドで実行します。()IronOCR の メソッドを使用して結果を Result** 変数に保存し、抽出されたテキストファイルをコンソールに出力します。 この簡潔な実装は、IronOCRをC#アプリケーションにシームレスに統合して、画像から正確なテキストを抽出する方法を示しています。

出力

Abbyy Finereader vs Tesseract(OCR機能の比較):図10 - コンソール出力:IronOCRを使用して画像から抽出されたテキスト。

OCRツールの比較評価

評価しましょう ABBYY ファインリーダー, テッセラクト 以下のコンテンツを日本語に翻訳してください: IronOCR 以下のいくつかの重要な側面に基づいて:

a.

精度と効率

精度と効率性の観点から言えば、ABBYY FineReaderとTesseractの両方はテキストを正確に認識する点では優れていますが、手書きのテキストを明確に認識するための画像処理技術が欠けています。

IronOCRはAIと高度なアルゴリズムを使用して、手書きを簡単に認識できる高度なテキスト認識機能を提供します。

b.

ユーザーフレンドリーとシームレス統合

ABBYY FineReaderは、ユーザーフレンドリーなインターフェースと、人気のドキュメント管理システム、クラウドストレージプラットフォーム、生産性向上ソフトウェアとのシームレスな統合を提供します。 Tesseractはオープンソースであるため、コマンドラインインターフェースの使用によりプロジェクトへの統合にはより多くの労力が必要となる場合があります。

IronOCRはシームレスな統合を提供しており、あらゆる.NETプロジェクトに簡単に統合でき、カスタムコードを簡単に使用することができます。

c。

スケーラビリティ

ABBYY FineReaderとTesseractの拡張性は、アプリケーションのインフラストラクチャとOCR処理を扱う能力に依存します。

IronOCRは、内部のOCR処理と豊富なドキュメントにより、高いスケーラビリティを持っています。

d.

財務上の考慮事項

ABBYY FineReaderは通常、一回限りの購入またはサブスクリプションベースのモデルを採用しており、長期的なコスト効率の利点を提供します。 Tesseractはオープンソースであり、無料で使用できるため、開発者にとってコスト効率の良いオプションです。

IronOCRは、一度限りの購入またはサブスクリプションベースのモデルが必要になる場合がありますが、その高度な機能は多くのアプリケーションにとってコストを正当化するかもしれません。

結論

結論として、このABBYY FineReader、Tesseract、およびIronOCRの比較において、私たちはそれぞれの紹介、機能、コード例について説明しました。 ABBYY FineReaderはユーザーインターフェースに利点がありますが、Tesseractはコマンドラインインターフェースを持ち、プロジェクトに統合することができます。 IronOCRは、OCR機能を実行するために最新バージョンのTesseractを使用します。

について IronOCR 最も高度なテキスト認識機能を備えており、上記の例で示されているように、IronOCRだけがテストをミスなく成功裏に抽出することができました。一方、ABBYY FineReaderとTesseract OCRエンジンは手書きのテキストを正確に認識することができませんでした。 OCRの精度を優先することに加えて、IronOCRは125以上の国際的な言語をサポートしています。 それは提供します 追加OCR言語パック、同時に複数の言語を追加することを可能にします。

IronOCRおよびIronOCRの使い方について詳しく知りたい場合は、以下のリンクをご覧ください: ドキュメント ページ コードの例については、こちらをご覧ください コード例 ページ ABBYY FineReaderとIronOCRの比較は以下でご覧いただけます リンク IronOCRとTesseractの比較については、を訪問してください。 これ.

IronOCRは 無料試用ライセンス これは、IronOCRおよびその機能を知るための絶好の機会です。 IronOCRのLiteパッケージは$liteLicenseから開始します。 詳細なライセンス情報については、以下のリンクをご覧ください: ライセンスページ.

< 以前
Paddle OCRとTesseractの比較 (OCR機能比較)
次へ >
テッセラクト vs マイクロソフトOCR (OCR機能の比較)