OCRツール

Macに最適なOCR [無料オンラインツール]

更新済み 8月 29, 2023
共有:

1.0 はじめに

現代のデジタル環境において、OCRのおかげでスキャンされたドキュメントの利用が革命的に変化しました。 (光学文字認識) 技術。 この技術により、コンピュータはスキャンされたPDFドキュメントを含むさまざまなソースからテキストを認識および抽出できるようになり、PDFドキュメントを迅速に編集および操作することができます。 光学文字認識を使用して、スキャンした文書からテキストを抽出し、それらを編集可能なPDFまたは検索可能な画像ベースのPDFに変換するのは迅速かつ簡単です。 (OCR (光学式文字認識)) Adobe Acrobat のようなソフトウェア。

開発者は、TesseractやIronOCRのようなOCRライブラリが提供する強力なツールとAPIを機械学習技術と組み合わせることにより、最新アルゴリズムを活用して光学文字認識技術を完全に利用することができます。 これらのライブラリーは正確なテキスト認識を可能にし、新しく作成されたドキュメントや既にスキャンされたドキュメントから有用なデータを整理および抽出することを簡単にします。 OCRを利用してスキャンされたドキュメントやページ画像の可能性を最大化することで、シームレスなコンテンツ分析が可能になり、個人およびビジネスの生産性の最適化をサポートします。 OCRスキャンは画像を検索可能なPDFに変換し、現代技術において不可欠なツールとなっています。 これは、紙ベースの記録をデジタル化し、請求書からデータを抽出し、文書のアクセシビリティを向上させるために使用されます。

2.0 OCRツール

この記事では、Mac ユーザー向けの最高の OCR ソフトウェア ツールについて説明します。 内容には、次のものが含まれます:

  1. Adobe Acrobat Pro DC(アドビ アクロバット プロ DC)

  2. ABBYY FineReader PDF

  3. リーダリス 17

    1. IronOCR

IronOCRは、開発者が.NETアプリケーションでOCR(光学文字認識)機能を組み込むための強力で使いやすいライブラリです。このツールは、画像やPDFドキュメントからテキスト情報を抽出する際の精度とスピードを高めるために設計されています。IronOCRはさまざまな言語とフォーマットをサポートし、カスタマイズ可能なオプションを提供します。

主な特徴:

  • 多言語対応:IronOCRは多数の言語の文字認識に対応しています。
  • 高性能:優れた精度で文字認識を実現し、誤認識を最小限に抑えます。
  • 使いやすいAPI:直感的でシンプルなAPIにより、実装が容易です。
  • 画像前処理機能:画像のクオリティーを向上させ、OCRの精度を向上させます。
  • PDF & 画像対応:幅広い画像フォーマットとPDFドキュメントからテキストを抽出可能です。

IronOCR for .NETは、企業の様々なニーズに応えるために開発されており、デプロイも簡単です。このツールを活用することで、あなたのアプリケーションに高性能なOCR機能を迅速に組み込むことができます。

2.1 Adobe Acrobat Pro DC(アドビ・アクロバット・プロ・DC)

2023年におけるマック用OCRソフトウェアのトップピックである、元のドキュメントスキャンOCRプログラムはAdobe Acrobat Proです。 MacでPDFドキュメントの作成と編集、さらにはPDFファイルを編集可能または検索可能な形式に変換する機能を提供する唯一のプログラムが、Adobe Acrobat Proであることは驚くべきことではありません。 PDF形式は最初にAdobeによって開発されました。 現在、市場には多くのPDF関連作業を処理できる製品が存在しますが、Adobe Acrobat Pro DCは依然として非常に強力です。Adobe Acrobat Pro DCにオンラインでアクセスできるAdobe Document Cloudの利用が可能であるにもかかわらず、Macデスクトップクライアントはその優秀さで際立っています。 特に、Adobe Acrobat は最新の M1 および M2 Mac と互換性のある唯一の OCR プログラムであり、その魅力をさらに高めています。

  1. まず、Acrobatを起動してPDFファイルを開きます。

  2. 右側のウィンドウで、「Edit PDF」ツールを選択します。 Acrobatは、光学式文字認識を自動的に実行した直後に、ドキュメントを完全に編集可能なPDFのコピーに迅速に変換します。 (OCR (光学式文字認識)) それをスキャンする。

    Macに最適なOCR、図1 - Adobe Acrobatで開いた「Page 1」を含むPDF。

    要素を編集するには、それをクリックしてください。 提供される追加のテキストは、元のフォントスタイルと一致します。 新しく変更されたドキュメントを保存するには、[ファイル] > [名前を付けて保存] を選択してください。

    次のリンクでAdobe Acrobat DCのインストールについて詳しく学ぶことができます: アドビアクロバットのウェブサイト.

2.2 ABBYY FineReader PDF for Mac

ABBYY FineReader PDF OCRソフトウェアは、Mac用に20年近くにわたって利用可能でしたが、その大半の期間はABBYY FineReader Proとしてブランド化されていました。 ABBYYはmacOS Big Surの発売に伴い、FineReader PDFを導入してFineReader製品ラインを更新しました。 残念ながら、インテル製のMacでのみネイティブに動作します。 ABBYY FineReader PDF for MacはM1およびM2 Macに対応していますが、これはmacOSのRosettaというソフトウェアを使用して、Intelプロセッサ用に設計されたソフトウェアをApple Siliconチップ上で動作させる場合に限られます。 FineReader PDFには、M1/M2チップとネイティブに互換性があるMac版はありません。 それにもかかわらず、MacとPCの両方に対応する最高のデスクトップOCRプログラムの一つはABBYY FineReader PDFです。

元のドキュメントの品質が正確さに影響を与える一方で、FineReader PDFのOCRテキスト認識能力は非常に優れており、市場で確実に最良のものです。 スキャンされたドキュメントの元のフォーマット、テキストサイズ、フォントスタイル、写真、表、およびレイアウトは保持されます。 それに加えて、迅速かつ正確にテキストを認識することにも優れています。 以下はOCRを実行する手順です:

  1. ABBYY FineReader PDFを起動します。

  2. 「Searchable PDF」オプションを選択することで、PDFを開いて検索可能なPDFに変換することができます。 変換されたPDFファイルを保存することもできます。

    Mac向けの最高のOCR、図2 - ABBYY FineReaderのソースダイアログ。

    ABBYY FineReaderについてもっと詳しく知るには、彼らのウェブサイトにアクセスしてください ウェブサイト.

2.3 Readiris 17

MacユーザーはOCRソリューションとしてReadIris 17を使用できます。 ReadIrisは主にWindowsで使用されますが、Macユーザー向けにOCR対応のPDFリーダーおよびエディターも開発しています。

ReadIris 17を使用すると、ユーザーは簡単にPDFを結合、分割、保護、および署名することができます。 オフラインのMac OCRソフトウェアを使用すると、PDFファイルをWord、Excel、検索可能なPDF、またはPowerPointに変換しながら、ドキュメントの形式を保持できます。 ただし、フリーミアムバージョンには、一度にスキャンできるページ数に制限があります。

Macに最適なOCR、図3 - テキスト「Hello world!」を含むReadIris 17のPDF。

画像をソフトウェアに入力し、テキストを抽出しようとしました。 さらに、画面に表示されている要素もキャプチャしました。 いくつかの後処理が必要になる場合があります。

詳細については、 アイリス ウェブサイト.

2.4 IronOCR

IronOCRは、.NETアプリケーションにおけるOptical Character Recognition(光学文字認識)機能を強化するための強力なライブラリです。このツールは、スキャンされたドキュメント、PDFファイル、画像からテキストデータを抽出し、編集可能な形式で提供します。高度な画像処理技術を採用しているため、ノイズの多い画像や品質の低いスキャンデータでも高精度にテキスト認識が可能です。

特長:

  • マルチプラットフォーム対応 (.NET Framework、.NET Core、ASP.NET)
  • 様々な言語に対応
  • スキャンされたPDFや画像ファイルからテキストを抽出
  • 高精度の文字認識機能
  • 簡単なインテグレーションとAPI使用例

メリット:

  • 生産性向上:手動のデータ入力を削減し、自動化されたプロセスにより時間を節約
  • 精度の向上:高精度なOCR技術により、データの正確性を確保
  • 利便性:複雑な設定不要で簡単にインストール可能

用途:

  • ドキュメント管理システム
  • データ入力自動化
  • アーカイブのデジタル化
  • 検索可能なデジタルライブラリの構築

IronOCRは、視覚的データを迅速かつ正確に処理したい開発者と企業にとって不可欠なツールです。

IronOCR 標準のTesseractライブラリと比較してTesseractを強化し、正確性、パフォーマンス、安定性が向上したネイティブC# OCRライブラリを提供します。 それは、.NETツールおよびウェブサイトを使用してPDFおよび画像からテキストを抽出することを可能にします。 幅広い外国語をサポートするIronOCRは、プレーンテキストまたは構造化データを出力することができます。 バーコードおよび埋め込まれたテキストを含む画像を読み取ることができます。 .NET コンソール、ウェブ、MVC、およびデスクトップで開発されたアプリケーションは、Iron Software OCR ライブラリを活用できます。 開発チームは、商用展開のための直接サポートを提供しています。 IronOCRは最新バージョンのVisual Studioと互換性があります。

IronOCRの利点

  1. 最新のTesseract 5エンジンを利用することで、IronOCRはさまざまな画像やPDFファイルから紙の書類、バーコード、QRコードをスキャンできます。 このパッケージは、OCRをデスクトップ、コンソール、およびウェブアプリケーションに統合することを簡素化します。

  2. IronOCRの支援により、スキャンされたPDFを検索可能なPDFに変換するためのOCRを実行できます。

  3. IronOCRは、カスタム言語と単語リストに加えて、世界中の127の異なる言語をサポートしています。

  4. このソフトウェアは、20種類以上のバーコードとQRコードを読み取ることができます。

  5. IronOCRは、バーコードデータとプレーンテキストの両方を提供します。 開発者は、代替の構造化データオブジェクトパラダイムを通じて、システムに直接入力するためのすべてのコンテンツにアクセスできます。 これは、オンラインアプリケーションにおける論理的に整理された見出し、段落、行、単語、および文字を含みます。

    詳細については、参照してください IronOCRのウェブサイト.

IronOCRを使用したOCR処理

IronOCRは、強力なOCRライブラリであり、PDFドキュメントの変換とデータアクセスを可能にします。 それはデータのプライバシーを損なうことなく、効率的な分析および処理のために機械判読可能なテキストへの変換を促進します。 以下は、OCRを使用して画像からテキストを抽出するためにIronOCRを利用する例です。

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

using (OcrInput ocrInput = new OcrInput("Demo.gif"))
{
    OcrResult ocrResult = Ocr.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

using (OcrInput ocrInput = new OcrInput("Demo.gif"))
{
    OcrResult ocrResult = Ocr.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5

Using ocrInput As New OcrInput("Demo.gif")
	Dim ocrResult As OcrResult = Ocr.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
VB   C#

以下のコードスニペットでは、Iron Tesseractに機能を追加しています。 OcrInputオブジェクトは、1つまたは複数の画像ファイルの追加を簡素化するために作成されます。 OCR入力オブジェクトのAddメソッドを使用する際は、コード内で画像のパスを指定してください。 請求書の写真を必要なだけ使用できます。 画像ドキュメントを解析し、結果をOCR結果に抽出することにより、以前に構築されたIronOCRオブジェクトの「Read」機能を使用して画像にアクセスします。 それは画像からテキストを抽出して文字列に変換することができます。

Mac用の最良のOCR、図4 - Adobe Acrobatで開かれたPDFに「Hello world!」というテキストが表示されています。

以下の出力は、提供された画像から抽出されたテキストを表示しており、正しい抽出が行われたことを確認します。 IronOCRは、結果を保存するためのさまざまな出力形式にも対応しています。

Mac向け最高のOCR、図5 - テキスト「Hello world!」がコマンドラインに表示されています。

結論

市場には請求書からデータ処理を行うための複数のOCRツールが利用可能です。 画像のOCR処理により、提供された画像からテキストデータの変換が可能になります。 最初の2つのOCRツールは、手動でデータを入力することなく請求書データを処理することにより、自動スキャンおよびデータ検証を可能にします。 これらのツールは高価である傾向があり、しばしばインターネット接続が必要なため、特定の環境でのみ使用可能であることが多い。

一方、IronOCRは.NETプロジェクトのさまざまなバージョンをサポートしており、具体的には.NET Framework Standard 2、.NET Framework 4.5、および.NET Core 2、3、5が含まれます。また、Xamarin、Azure、MAC、およびMonoなどの最新技術とも連携します。IronOCRは、Tesseractの出力を強化し、IronOCRのメソッドを使用して誤ってスキャンされた単語や画像を修正します。 複雑なTesseract辞書システムはNuGetパッケージによって管理されています。 IronOCRライブラリは、OCRツールを作成するために利用されます。 そのため、IronOCR は、請求書を自動化し、最小限のコーディングでデータを抽出するための理想的な請求書 OCR ソフトウェアです。

さまざまな画像形式、PDFファイル、およびマルチフレームTIFFに対応するIronOCRは、追加のセットアップを必要とせずにシームレスな体験を提供します。 光学文字認識を超えて、バーコードを含む画像からデータを抽出するためのバーコード識別機能を提供します。 IronOCRの手頃な開発版の無料トライアルがあります。また、IronOCRバンドルの購入にはライフタイムライセンスが含まれています。 IronOCRバンドルは、複数のシステムをカバーする単一の価格を提供するため、非常に優れた価値を持っています。 詳しいIronOCRの価格については、以下のリンクをご覧ください: IronOCRウェブサイト.

< 以前
開発者向け機械学習ソフトウェア(更新リスト)
次へ >
OCRテキスト認識の使い方(初心者向けチュートリアル)

準備はできましたか? バージョン: 2024.9 新発売

無料のNuGetダウンロード 総ダウンロード数: 2,290,361 View Licenses >