透かしなしで本番環境でテストしてください。
必要な場所で動作します。
30日間、完全に機能する製品をご利用いただけます。
数分で稼働させることができます。
製品トライアル期間中にサポートエンジニアリングチームへの完全アクセス
光学文字認識(OCR)ソフトウェアの分野では、ABBYY FineReader、IronOCR、Tesseractが、先進的なテキスト認識機能を提供する顕著なソリューションとして際立っています。 彼らがスキャン文書やスキャン画像をPDF文書のような編集可能で検索可能な形式に変換することを目指している一方で、機能、精度、使いやすさ、価格の面で異なります。 この記事では、ABBYY FineReader、Tesseract、およびIronOCRを取り上げたOCRツールの比較と他のOCRエンジンについて詳しく掘り下げます。
光学文字認識(OCR)ソフトウェアは、テキストが多いドキュメントとのやり取りの方法を革新します。 高度なアルゴリズムと機械学習技術を活用することで、OCRソフトウェアはスキャンされた文書、画像、PDFファイルなどのさまざまなソースからテキストを認識して抽出できます。 この技術はデジタル化を促進するだけでなく、文書管理、データ認識のテキスト抽出、視覚障害者のアクセシビリティも向上させます。
ABBYY FineReader は、その卓越した精度と包括的な機能セットで知られる、市場をリードするOCRソリューションです。 ABBYYによって開発されたFineReaderは、ドキュメント処理技術の世界的リーダーであり、個人ユーザーおよびエンタープライズレベルのアプリケーションに対応した使いやすいインターフェースと強力なOCR機能を提供します。
ABBYY FineReaderはそのウェブサイトから簡単にダウンロードしてインストールできます。ダウンロードするにはこちらをクリックしてください。
無料トライアルダウンロードボタンをクリックすると、新しいページにリダイレクトされ、フォームに記入して7日間の無料トライアルを取得する必要があります。
ダウンロード後、ABBYY FineReader を開き、OCR 編集ツールをクリックして画像ファイルの OCR 修正を行います。
OCRエディタタブをクリックすると、ウィンドウがポップアップします。このウィンドウで開きたい画像ファイルを選択し、OCRプロセスを実行します。
オープンボタンをクリックすると、画像が読み込まれ、OCR操作が実行され、右側のOCRエディタに編集可能な抽出テキストが表示され、左側に画像が表示されます。
![Abbyy Finereader vs Tesseract (OCR 機能比較): 図5 - Openボタンをクリックすると、画像がOCRエディタに読み込まれ、OCRが実行されます。 編集可能な抽出テキストはOCRエディタの右側に表示され、画像は左側に表示されます。
Tesseract、Googleが開発したオープンソースのOCRエンジンは、機械学習アルゴリズムに支えられた強力なテキスト認識機能を提供します。 1980年代にヒューレット・パッカードによって初めて開発されたTesseractは、多くの言語やプラットフォームに対応した多才なOCRソリューションに進化しました。 Tesseractは、FineReaderのような商業用OCRツールやソフトウェアの洗練されたインターフェースや豊富な機能セットには欠けるかもしれませんが、無料でカスタマイズ可能なOCRソリューションを求めている開発者や愛好者にとっては依然として人気の選択肢です。
NuGetパッケージマネージャーを使用して、簡単にTesseract .NET SDKをインストールできます。 以下の手順に従ってください:
Visual Studioを開き、「ツール」 > 「NuGetパッケージマネージャー」 > 「ソリューションのNuGetパッケージの管理」に移動します。
「Browse」タブで「Tesseract.NET SDK」を検索してください。
検索結果から「Tesseract.NET SDK」を選択し、インストールを進めてください。
インストールが完了したら、Program.csファイルに以下のコードを書き込んでください。
using Patagames.Ocr;
using System;
using (var api = OcrApi.Create())
{
api.Init(Patagames.Ocr.Enums.Languages.English);
string plainText = api.GetTextFromImage(@"C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png");
Console.WriteLine(plainText);
}
using Patagames.Ocr;
using System;
using (var api = OcrApi.Create())
{
api.Init(Patagames.Ocr.Enums.Languages.English);
string plainText = api.GetTextFromImage(@"C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png");
Console.WriteLine(plainText);
}
Imports Patagames.Ocr
Imports System
Using api = OcrApi.Create()
api.Init(Patagames.Ocr.Enums.Languages.English)
Dim plainText As String = api.GetTextFromImage("C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png")
Console.WriteLine(plainText)
End Using
このコードスニペットは、Tesseract.NET SDK を使用して、画像ファイルからテキストを抽出する光学文字認識(OCR)を実行します。 それは英語の言語処理のためにOCRエンジンを初期化し、GetTextFromImage()メソッドを使用して指定された画像ファイルからテキストを抽出し、その結果をplainText変数に保存します。 最後に、抽出されたテキストをコンソールに出力します。 この簡潔な実装例では、Tesseract OCRをC#アプリケーションにシームレスに統合し、画像から容易にテキストを抽出する方法を紹介しています。
IronOCR は、光学文字認識 (OCR) テクノロジーの最前線に立ち、スキャンされた文書、PDF ファイル、および画像を機械で読み取り可能で検索可能なテキストに変換するための強力で多用途なソリューションを提供します。 Iron Softwareによって開発されたIronOCRは、高度なアルゴリズム、クラウドビジョン、人工知能を駆使して正確にテキストを抽出します。 直感的なインターフェースと強力な機能を備えたIronOCRは、効率的な文書管理およびデータ抽出ソリューションを求める開発者や企業にとって好まれる選択肢となっています。
オンプレミスOCR: IronOCRはオンプレミスでのテキスト抽出を可能にし、開発者が外部サービスに依存することなく、OCR機能を自分のアプリケーションに直接統合できるようにします。
汎用的な言語サポート: IronOCRは127以上の国際言語をサポートしており、世界中のオーディエンスに対応し、さまざまな言語や文字でのテキストの正確な認識を保証します。
高度なテキスト認識: IronOCR は、高度なテキスト認識機能を提供し、フォントとスタイルの検出を含むため、多様なレイアウトとフォーマットを持つドキュメントからの正確なテキスト抽出を保証します。
柔軟なライセンスオプション: IronOCR は、無料トライアルや有料ライセンスを含む、個々のアプリケーションサーバーの使用や展開ニーズに合わせたさまざまなライセンスオプションを提供し、費用対効果とスケーラビリティを保証します。
Visual StudioとNuGetパッケージマネージャーを使用してIronOCRをインストールすることは非常に簡単です。 Visual Studio を開き、「ツール」に移動し、「NuGet パッケージ マネージャー」をクリックします。新しいウィンドウが表示されます。 新しいウィンドウで、ブラウズタブに移動し、「IronOCR」を検索してください。パッケージのリストが表示されます。 最新バージョンのIronOCRを選択し、インストールをクリックしてください。
以下のソースコードは、IronOCR を使用して画像ファイルにOCRを実行し、テキストを抽出します。
using Google.Protobuf.WellKnownTypes;
using IronOcr;
using System;
var Ocr = new IronTesseract(); // nothing to configure
Ocr.Language = OcrLanguage.EnglishBest;
using (var Input = new OcrInput())
{
Input.LoadImage(@"C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png");
Input.Deskew();
Input.DeNoise();
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using Google.Protobuf.WellKnownTypes;
using IronOcr;
using System;
var Ocr = new IronTesseract(); // nothing to configure
Ocr.Language = OcrLanguage.EnglishBest;
using (var Input = new OcrInput())
{
Input.LoadImage(@"C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png");
Input.Deskew();
Input.DeNoise();
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports Google.Protobuf.WellKnownTypes
Imports IronOcr
Imports System
Private Ocr = New IronTesseract() ' nothing to configure
Ocr.Language = OcrLanguage.EnglishBest
Using Input = New OcrInput()
Input.LoadImage("C:\Users\buttw\OneDrive\Desktop\Examples-of-images-in-robust-OCR-Sample-dataset-classified-into-seven-groups-a-Clear.png")
Input.Deskew()
Input.DeNoise()
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
提供されたコードスニペットは、強力な光学文字認識(OCR)ライブラリであるIronOCRを使用して画像ファイルからテキストを抽出する方法を示しています。まず最初に、IronTesseractクラスのインスタンスを作成してIronOCRを初期化します。
OCR処理の言語はOcr.Language = OcrLanguage.EnglishBestを使用して英語に設定されています。 他の言語を選択することもできます。 次に、OCR処理のために画像ファイルを読み込むOcrInputオブジェクトを作成し、画像の品質を向上させるために傾き補正とノイズ除去の操作を適用します。 最後に、IronOCRのRead()メソッドを使用して処理された画像でOCRを実行し、結果をResult変数に格納し、抽出されたテキストファイルをコンソールに出力します。 この簡潔な実装は、IronOCRをC#アプリケーションにシームレスに統合して、画像から正確なテキストを抽出する方法を示しています。
ABBYY FineReader、Tesseract、およびIronOCRをいくつかの重要な側面に基づいて評価しましょう。
ユーザーフレンドリーとシームレス統合
ABBYY FineReaderは、ユーザーフレンドリーなインターフェースと、人気のドキュメント管理システム、クラウドストレージプラットフォーム、生産性向上ソフトウェアとのシームレスな統合を提供します。 Tesseractはオープンソースであるため、コマンドラインインターフェースの使用によりプロジェクトへの統合にはより多くの労力が必要となる場合があります。
IronOCRはシームレスな統合を提供しており、あらゆる.NETプロジェクトに簡単に統合でき、カスタムコードを簡単に使用することができます。
スケーラビリティ
ABBYY FineReaderとTesseractの拡張性は、アプリケーションのインフラストラクチャとOCR処理を扱う能力に依存します。
IronOCRは、内部のOCR処理と豊富なドキュメントにより、高いスケーラビリティを持っています。
財務上の考慮事項
ABBYY FineReaderは通常、一回限りの購入またはサブスクリプションベースのモデルを採用しており、長期的なコスト効率の利点を提供します。 Tesseractはオープンソースであり、無料で使用できるため、開発者にとってコスト効率の良いオプションです。
IronOCRは、一度限りの購入またはサブスクリプションベースのモデルが必要になる場合がありますが、その高度な機能は多くのアプリケーションにとってコストを正当化するかもしれません。
結論として、このABBYY FineReader、Tesseract、およびIronOCRの比較において、私たちはそれぞれの紹介、機能、コード例について説明しました。 ABBYY FineReaderはユーザーインターフェースに利点がありますが、Tesseractはコマンドラインインターフェースを持ち、プロジェクトに統合することができます。 IronOCRは、OCR機能を実行するために最新バージョンのTesseractを使用します。
IronOCRは最も高度なテキスト認識機能を持っており、上記の例で示したように、IronOCRだけがエラーなくテキストを正常に抽出することができました。 OCRの精度を優先することに加えて、IronOCRは125以上の国際的な言語をサポートしています。 それは、追加のOCR言語パックを提供しており、一度に複数の言語を追加することができます。
IronOCRおよびIronOCRの開始方法について詳しく知るには、ドキュメントページをご覧ください。 さらにコード例を確認するには、コード例のページをご覧ください。 ABBYY FineReaderとIronOCRの比較は、次のリンクでご覧になれます。また、IronOCRとTesseractの比較についてはこちらをご覧ください。
IronOCR は、IronOCR およびその機能を知るための素晴らしい機会である無料試用ライセンスを提供しています。 IronOCRのLiteパッケージは$749から始まります。 詳細なライセンス情報については、ライセンスページをご覧ください。