他のコンポーネントと比較

ABBYY FineReader と Tesseract の OCR 比較

Kannaopat Udonpant
カンナパット・ウドンパント
2024年4月3日
共有:

光学文字認識(OCR)ソフトウェアの分野では、ABBYY FineReader、IronOCR、Tesseractが、先進的なテキスト認識機能を提供する顕著なソリューションとして際立っています。 彼らがスキャン文書やスキャン画像をPDF文書のような編集可能で検索可能な形式に変換することを目指している一方で、機能、精度、使いやすさ、価格の面で異なります。 この記事では、ABBYY FineReader、Tesseract、およびIronOCRを取り上げたOCRツールの比較と他のOCRエンジンについて詳しく掘り下げます。

OCRソフトウェアの紹介

光学文字認識(OCR)ソフトウェアは、テキストが多いドキュメントとのやり取りの方法を革新します。 高度なアルゴリズムと機械学習技術を活用することで、OCRソフトウェアはスキャンされた文書、画像、PDFファイルなどのさまざまなソースからテキストを認識して抽出できます。 この技術はデジタル化を促進するだけでなく、文書管理、データ認識のテキスト抽出、視覚障害者のアクセシビリティも向上させます。

ABBYY FineReader: 概要と機能

ABBYY FineReader は、その卓越した精度と包括的な機能セットで知られる、市場をリードするOCRソリューションです。 ABBYYによって開発されたFineReaderは、ドキュメント処理技術の世界的リーダーであり、個人ユーザーおよびエンタープライズレベルのアプリケーションに対応した使いやすいインターフェースと強力なOCR機能を提供します。

2.1. ABBYY FineReaderの主な機能

  • 高精度: ABBYY FineReaderは、業界トップクラスの精度を誇るテキスト認識機能を備えており、スキャンされた文書や画像を正確に編集可能な形式に変換します。
  • ドキュメントレイアウト保持: FineReaderは、テーブル、列、グラフィックスなどの元のレイアウト、フォーマット、構造を保持し、変換された出力において忠実性を確保します。
  • 多言語対応: FineReaderは複数の言語でのテキスト認識に対応しており、さまざまな国際的な用途に適しています。
  • バッチ処理:FineReaderは文書のバッチ処理を可能にし、複数のファイルを同時に変換できるため、生産性と効率が向上します。
  • 統合機能: FineReaderは、人気のあるドキュメント管理システム、クラウドストレージプラットフォーム、および生産性ソフトウェアとシームレスに統合され、ワークフローの効率化と協力の強化を促進します。

2.2. ABBYY FineReaderのインストール

ABBYY FineReaderはそのウェブサイトから簡単にダウンロードしてインストールできます。ダウンロードするにはこちらをクリックしてください。

Abbyy Finereader 対 Tesseract(OCR機能比較):図1 - ABBY FineReader

無料トライアルダウンロードボタンをクリックすると、新しいページにリダイレクトされ、フォームに記入して7日間の無料トライアルを取得する必要があります。

Abbyy Finereader vs Tesseract (OCR機能比較): 図2 - Abby FineReader - 7日間無料体験

2.3. ABBYY FineReaderを使用して画像のOCRを実行する

ダウンロード後、ABBYY FineReader を開き、OCR 編集ツールをクリックして画像ファイルの OCR 修正を行います。

Abbyy FineReader vs Tesseract(OCR機能の比較):図3 - ABBY FineReader PDF Corporate

OCRエディタタブをクリックすると、ウィンドウがポップアップします。このウィンドウで開きたい画像ファイルを選択し、OCRプロセスを実行します。

Abbyy Finereader vs Tesseract(OCR機能比較): 図4 - OCRエディタタブをクリックするとウィンドウがポップアップし、このウィンドウで画像ファイルを選択して開き、OCRプロセスを実行します。

オープンボタンをクリックすると、画像が読み込まれ、OCR操作が実行され、右側のOCRエディタに編集可能な抽出テキストが表示され、左側に画像が表示されます。

![Abbyy Finereader vs Tesseract (OCR 機能比較): 図5 - Openボタンをクリックすると、画像がOCRエディタに読み込まれ、OCRが実行されます。 編集可能な抽出テキストはOCRエディタの右側に表示され、画像は左側に表示されます。

3. Tesseract: 概要と特徴

Tesseract、Googleが開発したオープンソースのOCRエンジンは、機械学習アルゴリズムに支えられた強力なテキスト認識機能を提供します。 1980年代にヒューレット・パッカードによって初めて開発されたTesseractは、多くの言語やプラットフォームに対応した多才なOCRソリューションに進化しました。 Tesseractは、FineReaderのような商業用OCRツールやソフトウェアの洗練されたインターフェースや豊富な機能セットには欠けるかもしれませんが、無料でカスタマイズ可能なOCRソリューションを求めている開発者や愛好者にとっては依然として人気の選択肢です。

3.1. Tesseractの主な機能

  • オープンソース: Tesseract は Apache License 2.0 のもとで配布されており、開発者や組織が自由に使用、変更、配布することができます。
  • 言語サポート:Tesseractは、100以上の言語での文字認識をサポートしており、中国語、日本語、アラビア語のような非ラテン文字スクリプトを使用する言語も含まれているため、多言語OCRタスクに適しています。
  • コマンドラインインターフェイス: Tesseractは、ドキュメントのバッチ処理やスクリプト言語および自動化ツールとの統合のためのコマンドラインインターフェイス(CLI)を提供します。
  • トレーニングとカスタマイズ:Tesseract は、特定のフォント、スクリプト、ドキュメントタイプに対する認識精度を向上させるためのカスタム言語モデルのトレーニングツールを提供しており、ユーザーが自分の特定の要件に合わせてOCRエンジンを調整することを可能にします。
  • プラットフォーム互換性: Tesseractは、Windows、macOS、Linuxを含むさまざまなオペレーティングシステム、およびAndroidやiOSなどのプラットフォームで利用可能で、広範な互換性とアクセス性を保証します。

3.2. Tesseract OCR エンジン .NET のインストール

NuGetパッケージマネージャーを使用して、簡単にTesseract .NET SDKをインストールできます。 以下の手順に従ってください:

  1. Visual Studioを開き、「ツール」 > 「NuGetパッケージマネージャー」 > 「ソリューションのNuGetパッケージの管理」に移動します。

    Abbyy Finereader 対 Tesseract(OCR 機能比較): 図 6 - Tesseract をインストールするには: Visual Studio を開き、「ツール」-「NuGet パッケージ マネージャー」-「ソリューションの NuGet パッケージを管理」をナビゲートします。

  1. 「Browse」タブで「Tesseract.NET SDK」を検索してください。

  2. 検索結果から「Tesseract.NET SDK」を選択し、インストールを進めてください。

    Abbyy Finereader vs Tesseract(OCR機能の比較):図7 - NuGetパッケージマネージャーの検索バーで「tesseract」を検索し、プロジェクトを選択してインストールボタンをクリックすることで、NuGetパッケージの管理を使用してTesseract .NET SDKをインストールします。

  3. インストールが完了すると、プログラムでTesseract.NET SDKをシームレスに利用できるようになります。

画像に対してTesseract OCRエンジンを使用したOCRの実行

インストールが完了したら、Program.csファイルに以下のコードを書き込んでください。

using Patagames.Ocr;
using System;
using (var api = OcrApi.Create())
{
    api.Init(Patagames.Ocr.Enums.Languages.English);
    string plainText = api.GetTextFromImage(@"C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png");
    Console.WriteLine(plainText);
}
using Patagames.Ocr;
using System;
using (var api = OcrApi.Create())
{
    api.Init(Patagames.Ocr.Enums.Languages.English);
    string plainText = api.GetTextFromImage(@"C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png");
    Console.WriteLine(plainText);
}
Imports Patagames.Ocr
Imports System
Using api = OcrApi.Create()
	api.Init(Patagames.Ocr.Enums.Languages.English)
	Dim plainText As String = api.GetTextFromImage("C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png")
	Console.WriteLine(plainText)
End Using
$vbLabelText   $csharpLabel

このコードスニペットは、Tesseract.NET SDK を使用して、画像ファイルからテキストを抽出する光学文字認識(OCR)を実行します。 それは英語の言語処理のためにOCRエンジンを初期化し、GetTextFromImage()メソッドを使用して指定された画像ファイルからテキストを抽出し、その結果をplainText変数に保存します。 最後に、抽出されたテキストをコンソールに出力します。 この簡潔な実装例では、Tesseract OCRをC#アプリケーションにシームレスに統合し、画像から容易にテキストを抽出する方法を紹介しています。

出力

Abbyy Finereader 対 Tesseract (OCR 機能比較): 図8 - コンソール出力: Tesseract OCR を使用して画像から抽出されたテキスト。

4. IronOCRの概要と機能

IronOCR は、光学文字認識 (OCR) テクノロジーの最前線に立ち、スキャンされた文書、PDF ファイル、および画像を機械で読み取り可能で検索可能なテキストに変換するための強力で多用途なソリューションを提供します。 Iron Softwareによって開発されたIronOCRは、高度なアルゴリズム、クラウドビジョン、人工知能を駆使して正確にテキストを抽出します。 直感的なインターフェースと強力な機能を備えたIronOCRは、効率的な文書管理およびデータ抽出ソリューションを求める開発者や企業にとって好まれる選択肢となっています。

4.1. IronOCR の主要機能

  1. オンプレミスOCR: IronOCRはオンプレミスでのテキスト抽出を可能にし、開発者が外部サービスに依存することなく、OCR機能を自分のアプリケーションに直接統合できるようにします。

  2. 汎用的な言語サポート: IronOCRは127以上の国際言語をサポートしており、世界中のオーディエンスに対応し、さまざまな言語や文字でのテキストの正確な認識を保証します。

  3. 高度なテキスト認識: IronOCR は、高度なテキスト認識機能を提供し、フォントとスタイルの検出を含むため、多様なレイアウトとフォーマットを持つドキュメントからの正確なテキスト抽出を保証します。

  4. 柔軟なライセンスオプション: IronOCR は、無料トライアルや有料ライセンスを含む、個々のアプリケーションサーバーの使用や展開ニーズに合わせたさまざまなライセンスオプションを提供し、費用対効果とスケーラビリティを保証します。

  5. シームレスな統合: IronOCRは、.NET、Java、Pythonなどの人気のある開発フレームワークおよびプラットフォームとシームレスに統合されており、開発者が簡単にOCR機能をアプリケーションに組み込むことができます。

4.2. IronOCRのインストール

Visual StudioとNuGetパッケージマネージャーを使用してIronOCRをインストールすることは非常に簡単です。 Visual Studio を開き、「ツール」に移動し、「NuGet パッケージ マネージャー」をクリックします。新しいウィンドウが表示されます。 新しいウィンドウで、ブラウズタブに移動し、「IronOCR」を検索してください。パッケージのリストが表示されます。 最新バージョンのIronOCRを選択し、インストールをクリックしてください。

Abbyy Finereader vs Tesseract (OCR機能比較): 図9 - NuGetパッケージマネージャーの検索バーに「IronOCR」と入力してソリューション用NuGetパッケージを管理し、プロジェクトを選択してインストールボタンをクリックして、IronOCRをインストールします。

4.3. IronOCRを使用して画像にOCRを実行する

以下のソースコードは、IronOCR を使用して画像ファイルにOCRを実行し、テキストを抽出します。

using Google.Protobuf.WellKnownTypes;
using IronOcr;
using System;
var Ocr = new IronTesseract(); // nothing to configure            
Ocr.Language = OcrLanguage.EnglishBest;
using (var Input = new OcrInput())
{
    Input.LoadImage(@"C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png");
    Input.Deskew();
    Input.DeNoise();
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using Google.Protobuf.WellKnownTypes;
using IronOcr;
using System;
var Ocr = new IronTesseract(); // nothing to configure            
Ocr.Language = OcrLanguage.EnglishBest;
using (var Input = new OcrInput())
{
    Input.LoadImage(@"C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png");
    Input.Deskew();
    Input.DeNoise();
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports Google.Protobuf.WellKnownTypes
Imports IronOcr
Imports System
Private Ocr = New IronTesseract() ' nothing to configure
Ocr.Language = OcrLanguage.EnglishBest
Using Input = New OcrInput()
	Input.LoadImage("C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png")
	Input.Deskew()
	Input.DeNoise()
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

提供されたコードスニペットは、強力な光学文字認識(OCR)ライブラリであるIronOCRを使用して画像ファイルからテキストを抽出する方法を示しています。まず最初に、IronTesseractクラスのインスタンスを作成してIronOCRを初期化します。

OCR処理の言語はOcr.Language = OcrLanguage.EnglishBestを使用して英語に設定されています。 他の言語を選択することもできます。 次に、OCR処理のために画像ファイルを読み込むOcrInputオブジェクトを作成し、画像の品質を向上させるために傾き補正とノイズ除去の操作を適用します。 最後に、IronOCRのRead()メソッドを使用して処理された画像でOCRを実行し、結果をResult変数に格納し、抽出されたテキストファイルをコンソールに出力します。 この簡潔な実装は、IronOCRをC#アプリケーションにシームレスに統合して、画像から正確なテキストを抽出する方法を示しています。

出力

Abbyy Finereader 対 Tesseract(OCR機能比較):図10 - コンソール出力:IronOCRを使用して画像から抽出されたテキスト。

OCRツールの比較評価

ABBYY FineReaderTesseract、およびIronOCRをいくつかの重要な側面に基づいて評価しましょう。

a.

ユーザーフレンドリーとシームレス統合

ABBYY FineReaderは、ユーザーフレンドリーなインターフェースと、人気のドキュメント管理システム、クラウドストレージプラットフォーム、生産性向上ソフトウェアとのシームレスな統合を提供します。 Tesseractはオープンソースであるため、コマンドラインインターフェースの使用によりプロジェクトへの統合にはより多くの労力が必要となる場合があります。

IronOCRはシームレスな統合を提供しており、あらゆる.NETプロジェクトに簡単に統合でき、カスタムコードを簡単に使用することができます。

b.

スケーラビリティ

ABBYY FineReaderとTesseractの拡張性は、アプリケーションのインフラストラクチャとOCR処理を扱う能力に依存します。

IronOCRは、内部のOCR処理と豊富なドキュメントにより、高いスケーラビリティを持っています。

c。

財務上の考慮事項

ABBYY FineReaderは通常、一回限りの購入またはサブスクリプションベースのモデルを採用しており、長期的なコスト効率の利点を提供します。 Tesseractはオープンソースであり、無料で使用できるため、開発者にとってコスト効率の良いオプションです。

IronOCRは、一度限りの購入またはサブスクリプションベースのモデルが必要になる場合がありますが、その高度な機能は多くのアプリケーションにとってコストを正当化するかもしれません。

結論

結論として、このABBYY FineReader、Tesseract、およびIronOCRの比較において、私たちはそれぞれの紹介、機能、コード例について説明しました。 ABBYY FineReaderはユーザーインターフェースに利点がありますが、Tesseractはコマンドラインインターフェースを持ち、プロジェクトに統合することができます。 IronOCRは、OCR機能を実行するために最新バージョンのTesseractを使用します。

IronOCRは最も高度なテキスト認識機能を持っており、上記の例で示したように、IronOCRだけがエラーなくテキストを正常に抽出することができました。 OCRの精度を優先することに加えて、IronOCRは125以上の国際的な言語をサポートしています。 それは、追加のOCR言語パックを提供しており、一度に複数の言語を追加することができます。

IronOCRおよびIronOCRの開始方法について詳しく知るには、ドキュメントページをご覧ください。 さらにコード例を確認するには、コード例のページをご覧ください。 ABBYY FineReaderとIronOCRの比較は、次のリンクでご覧になれます。また、IronOCRとTesseractの比較についてはこちらをご覧ください。

IronOCR は、IronOCR およびその機能を知るための素晴らしい機会である無料試用ライセンスを提供しています。 IronOCRのLiteパッケージは$749から始まります。 詳細なライセンス情報については、ライセンスページをご覧ください。

Kannaopat Udonpant
カンナパット・ウドンパント
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、カンナパットは日本の北海道大学から環境資源学の博士号を取得しました。学位を取得する過程で、カンナパットはバイオプロダクション工学部に所属する車両ロボティクス研究所のメンバーにもなりました。2022年には、C#のスキルを活かしてIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。カンナパットは、IronPDFで使用されているコードの大部分を作成した開発者から直接学べることに価値を見いだしています。同僚との学び合いに加えて、Iron Softwareで働くことの社会的側面も楽しんでいます。コードやドキュメントを書いていない時には、カンナパットは通常、PS5でゲームをしたり、『The Last of Us』を再視聴したりしています。
< 以前
パドルOCRとTesseractの比較:OCRの詳細な比較
次へ >
TesseractとMicrosoft OCRの比較:直接比較