他のコンポーネントと比較

Tesseract の代替案(2022年更新)

Kannaopat Udonpant
カンナパット・ウドンパント
2022年10月2日
共有:

イントロダクション

Tesseractは、1985年から1994年の間にHP Laboratories BristolとHP Co.によって最初に作成されました。 コロラド州グリーリー。 1996年にWindowsへの移行が進められ、1998年にC++で書き直されました。HPは2005年にTesseractをオープンソース化しました。Googleは2006年からこのプロジェクトに関わっています。

Tesseract OCR は、Google テックスタックの画像解析 API カテゴリに属するツールです。自動で乱雑な背景を取り除くことができ、スキャナーで生成されたものと比較可能なPDFファイルを生成することができます。 Tesseractは、高精度の光学式文字認識技術を使用しており、スキャンした紙の文書を検索可能なデジタルファイルに変換することができます。 写真撮影、デジタル画像、および複数ページにわたるスキャンPDF文書からテキストと文字を抽出することができます。 さらに、入力されたり印刷されたテキストを含むPDFは、コンピューターでエンコードされたテキストに変換できます。

他にも、オープンソースやプロプライエタリ、WebサービスベースのOCRソフトウェアがあり、これらはすべて画像ファイルやPDFからテキストを抽出できます。 この記事では、Tesseract OCRの代替となるいくつかのOCRツールを検討します。

ABBYY FineReader PDF

ABBYYによって開発されたABBYY FineReader PDFは、光学式文字認識ソフトウェアであり、画像ドキュメント(写真、スキャン、PDFファイルなど)や画面キャプチャを、Microsoft Word、Microsoft Excel、Microsoft PowerPoint、リッチテキスト形式、HTML、PDF/A、検索可能なPDF、CSV、テキスト(プレーンテキスト)などの編集可能なファイル形式に変換します。

ABBYY FineReader PDFは、紙の書類、25種類以上のファイル形式、またはほぼすべてのプログラムからPDFプリンターへ出力することで、直接PDFファイルを作成できます。 長期アーカイブはPDF/A-1からPDF/A-3に対応しており、PDF/UAはスクリーンリーダーのような支援技術を使用する際にコンテンツのアクセシビリティを確保します。

さらに、ABBYY FineReader PDFは、専門家がデジタル職場においてできるだけ効率的に作業できるようにします。 ABBYY FineReaderはスキャンした紙をデジタルワークフローに統合し、文書の管理と完了にかかる時間と労力を節約します。 PDFを編集するためにテキスト、表、またはレイアウト全体を変換する必要はありません。 ドキュメントがどのように作成されたかにかかわらず、デジタルかハードコピーから直接であっても、このソフトウェアはどんなドキュメントも簡単かつ体系的に処理できます。 そのソフトウェアは編集可能なPDFファイルも作成することができます。

ABBYY FineReaderのデスクトップ版は、Windows、Linux、およびmacOSで利用可能です。

AWS OCR

機械学習(ML)ウェブサービスとして、Amazon Textractは、スキャンされたドキュメントからテキストや表、その他のデータを抽出します。 それは、深層学習を使用して、PDF、写真、表、フォームなどのスキャンされた文書から内容を正確かつ自動的に抽出します。 その後、Amazon Textractは情報を編集可能で整理されたファイル形式に出力します。

多くの企業の請求書のハードコピーからExcelスプレッドシートに関連情報を転送する必要があるシナリオを考えてみてください。 このタスクを手動で完了するためにデータ入力担当者を使用することは一般的ですが、しばしば非効率的で時間がかかり、エラーが発生しやすいという問題があります。 さらに、一部のOCRソフトウェアソリューションを利用している他の企業は、文書からデータを抽出するためにツールを構成するのに多くの時間を費やす傾向があります(フォーマットが変更されるたびに更新が必要な場合がよくあります)。

Textractを使用すると、企業は請求書をウェブサービスにアップロードするだけで、そのドキュメントからテキスト、フォーム、キー-バリュー・ペア、およびテーブルをより整理された形式で取得することができます。 これにより、手動で時間のかかる高価なデータ入力プロセスの必要がなくなります。

さらに、Amazon OCRを使用すると、機械学習の専門知識が不要でありながら、実証済みの高いスケーラビリティを持つディープラーニング技術を利用して、画像およびビデオ分析を簡単にアプリケーションに追加することができます。

iText

iTextは、業界をリードする複数のOCRエンジンを使用してスキャン画像を処理するエンドユーザー向けのOCRプログラムです。 オープンソースAGPLの条件のもとで、iText 7 Coreおよびいくつかのアドオンを自由に使用することができます。 代替案として、さまざまな商用ライセンスの選択肢から選ぶこともできます。

iText グループは、iText 7 Suite や iText DITO などの製品を製造しているPDF技術の世界的リーダーです。 それは、請求書、クレジットカードの明細書、モバイル搭乗券、法的なアーカイブなど、さまざまな用途のデジタル文書を作成するために、世界中の何百万人もの顧客によって使用されている、最先端で受賞歴のあるPDFソフトウェアを作成します。 このソフトウェアは、オープンソースおよび商用ソフトウェアの両方として利用可能です。

iText Group は、完全なオープンソース PDF SDK である iText 7 Suite も提供しています。このスイートには、iText 7 Core と最大限の自由度と生産性を実現するためのオプションのアドオンが含まれています。

テンセントクラウドOCR

テンセントクラウドのOCR技術は写真内の文字を自動的に検出および認識できます。 印刷されたテキストに対して信頼性が高く、平均精度率は95%以上です。 OCR技術の文書解析およびテキスト認識アルゴリズムは、Tencent YouTu Labによって開発されました。 これを、パースの歪み、異常な照明、部分的な遮蔽などの状況に使用できます。 それは、横向きモードと縦向きモードの両方をサポートしています。 精度が向上した技術により、中文テキスト、英文テキスト、中英混合テキスト、数字、特殊記号を区別することができます。 それは、開発者が直接呼び出すことができる多様なAPIのほか、使いやすいSDKも提供します。

IronOCR

IronOCRは、非常に正確で効率的なOCRテキスト認識およびドキュメントスキャンアプリです。 ソフトウェア開発者は、IronOCR for .NETを使用して、.NETアプリケーションやウェブページで画像やPDFからテキストを読み取ることができます。 このソフトウェアは、画像のテキストおよびバーコードのスキャンを支援し、多くの外国語に対応し、出力をプレーンテキストまたは構造化データとして生成します。 Web、コンソール、MVC、およびさまざまな.NETデスクトップアプリケーションは、Iron SoftwareのOCRライブラリを利用することができます。 商業目的で使用する場合、関連ライセンスと共に開発チームからの直接サポートが提供されます。 IronOCRは、画像変換、作成、編集、操作、圧縮、画像強化などのドキュメント処理機能を迅速にアプリケーションに統合します。

  • 最新のTesseract 5エンジンを使用して、IronOCR はあらゆるPDF形式からテキスト、バーコード、およびQRコードを読み取ることができます。 このライブラリを使用すると、デスクトップ、オンライン、およびコンソールアプリケーションにOCRを追加するのが迅速かつ簡単になります。
  • IronOCRには、バーコードスキャン、ドキュメント検出、およびスキャン、さらにテキストからのデータ抽出などのデータキャプチャ機能があります。 ソース資料(PDFや画像など)を構造化されたデータレコードに変換します。
  • IronOCRは合計127の国際言語をサポートしています。 カスタム言語および単語リストもサポートされています。
  • IronOCRを使用することで、20種類以上のバーコードおよびQRコードのフォーマットを読み取ることができます。
  • それはTIFFおよびGIFのマルチページ画像形式をサポートしています。
  • それは低品質のスキャンや写真を修正します。
  • マルチスレッド操作を可能にします。 それは複数のプロセスを同時に実行することもできます。
  • ページ、段落、行、単語、文字などは、すべてIronOCRから構造化されたデータ出力を受け取ることができます。
  • IronOCRは、Windows、Linux、macOSなどのオペレーティングシステムをサポートしています。
  • PDFやJPEGファイルおよびさまざまな他のドキュメントから情報を抽出できます。
  • IronOCRは、高い精度、知的な文字認識、およびゾーン認識を提供するため、編集可能なドキュメントを迅速に作成できます。
  • IronOCRは、ドキュメントをPDFにバッチスキャンし、すべての言語のテキストを自動的に認識します。 別の方法として、テキストが自動的に認識される言語を手動で設定することもできます。
    Google Tesseract OCR ライブラリの代替案、図 1: IronOCR

    以下は、画像ファイルに対してOCRを実行するためのサンプルコードです。

using IronOcr;

var Ocr = new IronTesseract(); // nothing to configure
using (var Input = new OcrInput(@"images\image.png"))
{
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract(); // nothing to configure
using (var Input = new OcrInput(@"images\image.png"))
{
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

こちらをクリックすると、IronOCRに関するチュートリアルがさらに表示されます。

結論

Tesseractは使いやすく、さまざまな方法で画像とPDFドキュメントをサポートしています。 それは、.NET Framework のコンテキストで IronOCR によって提供されています。 さらに、Tesseract OCRライブラリの機能を強化するための多数のパラメータも提供しています。 複数の言語を同時に使用する能力は、広範な言語にわたって提供されています。 IronOCRパッケージは、すべてのプラットフォームに対して競争力のあるライセンスとサポートを単一価格で提供します。また、1年間の無料アップデート、機能アップグレード、およびエンジニアリングチームからのサポートが付いてきます。 IronOCRは、Googleが開発したTesseractの最良の代替手段の一つであり、わずか数行のコードで簡単に実装できます。

IronOCRは、パッケージソフトウェア製品、SaaS、およびOEMに必要なロイヤリティフリーの再配布カバレッジが付属しています。 他のOCR製品は、対照的にすべて完全にカスタム選択されており、通常はより高価です。両製品は異なる価格帯を持ち、IronOCRは$749から始まります。 こちらでライセンスと価格に関する詳細をご覧いただけます。 簡単に言うと、IronOCRはより多くの機能を提供し、全体的なコストも低く抑えられます。

Kannaopat Udonpant
カンナパット・ウドンパント
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、カンナパットは日本の北海道大学から環境資源学の博士号を取得しました。学位を取得する過程で、カンナパットはバイオプロダクション工学部に所属する車両ロボティクス研究所のメンバーにもなりました。2022年には、C#のスキルを活かしてIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。カンナパットは、IronPDFで使用されているコードの大部分を作成した開発者から直接学べることに価値を見いだしています。同僚との学び合いに加えて、Iron Softwareで働くことの社会的側面も楽しんでいます。コードやドキュメントを書いていない時には、カンナパットは通常、PS5でゲームをしたり、『The Last of Us』を再視聴したりしています。
< 以前
IronOCRとAWS Textract OCRの比較
次へ >
IronOCRとPDFTRON OCRの比較 IronOCRとPDFTRON OCRは、いずれも高性能な光学文字認識(OCR)ソリューションです。それぞれ独自の機能や利点があり、特定の使用ケースに対して適切な選択肢となります。 IronOCR IronOCRは、Iron Softwareの製品で、.NET Frameworkおよび他のプラットフォーム向けに設計されています。このツールは高精度のOCRを提供し、多言語サポートや画像の前処理機能が特徴です。特に以下のポイントが評価されています: - 高い認識精度 - 簡単な統合と使用 - 多言語対応 - PDF、画像ファイル、スキャンした文書などの多様な入力形式をサポート PDFTRON OCR PDFTRON OCRは、PDFファイルの操作や変換に強みを持つPDFTRONの一部として提供されます。このエンジンは、PDFの直接編集やアノテーションに対応している点が特徴です。以下の点で優れています: - PDFファイルに特化した高度な機能 - 高速な処理能力 - PDFに直接書き込みが可能 - さまざまなプラットフォームで使用可能 どちらも強力なOCRエンジンであり、プロジェクトのニーズに応じて選択することが重要です。PDFを頻繁に扱う場合や高度なPDF編集機能が必要な場合はPDFTRON OCRが適しています。一方、多言語対応や広範な互換性が求められる場合はIronOCRが優れた選択肢となるでしょう。