フッターコンテンツにスキップ
OCRツール

Mac用の最高のOCR(無料のオンラインツール)

1.0 はじめに

現代のデジタル環境におけるスキャンされた文書の使用は、OCR(光学式文字認識)技術のおかげで革命的な変化を遂げました。 この技術により、コンピュータがスキャンされたPDF文書を含むさまざまなソースからテキストを認識し抽出できるため、PDF文書を迅速に編集し操作することが可能です。 光学式文字認識(OCR)ソフトウェア(Adobe Acrobatなど)を使用することで、スキャンされた文書からテキストを迅速に抽出し、編集可能なPDFや検索可能な画像ベースのPDFに変換するのは簡単です。

開発者は、TesseractやIronOCRのようなOCRライブラリが提供する強力なツールとAPIを機械学習技術と組み合わせることで、最新のアルゴリズムを活用し、光学文字認識技術を最大限に活用できます。 これらのライブラリにより、正確なテキスト認識が可能になり、新たに作成された文書やすでにスキャンされた文書から有用なデータを整理して抽出することが簡単になります。 OCRを使用してスキャンされた文書やページ画像の可能性を最大化することで、シームレスなコンテンツ分析を可能にし、個人と企業の生産性の最適化をサポートします。 OCRスキャンは画像を検索可能なPDFに変換し、OCRは現代技術において重要なツールとなります。 これは、紙ベースの記録をデジタル化し、請求書からデータを抽出し、文書のアクセシビリティを向上させるために使用されています。

2.0 OCRツール

この記事では、Macユーザー向けのベストOCRソフトウェアツールについて説明します。 これには以下が含まれます:

  1. Adobe Acrobat Pro DC
  2. ABBYY FineReader PDF
  3. Readiris 17
  4. IronOCR

2.1 Adobe Acrobat Pro DC

原文書スキャンOCRプログラムであり、2023年のMac OCRソフトウェアのトップピックであるのはAdobe Acrobat Proです。 PDF文書を作成および編集し、PDFファイルを編集可能または検索可能な形式に変換するために使用可能な唯一のMac対応プログラムであることは驚くことではありません。 PDFフォーマットは元々Adobeによって開発されました。 PDFタスクを処理できる製品は市場に多数ありますが、Adobe Acrobat Pro DCは非常に強力です。Adobe Document CloudがAdobe Acrobat Pro DCをオンラインで利用できるようにすることはありますが、Macデスクトップクライアントは優れています。 特筆すべきは、Adobe Acrobatが最新のM1およびM2 Macに対応している唯一のOCRプログラムであり、その魅力をさらに高めています。

  1. まず、Acrobatを起動し、PDFファイルを開きます。
  2. 右側のウィンドウで「PDFを編集」ツールを選択します。 Acrobatは光学文字認識(OCR)スキャンを自動的に行った直後にドキュメントを完全に編集可能なコピーに変換します。

Best OCR For Mac, 図1 - Adobe Acrobatで開かれたPage 1を含むPDF。

要素を編集するには、それをクリックします。 追加するテキストは元のフォントのスタイルに一致します。 新たに変更されたドキュメントを保存するには、ファイル > 名前を付けて保存を選択します。

Adobe AcrobatのWebサイトでAdobe Acrobat DCのインストールについて詳しく学べます。

2.2 ABBYY FineReader PDF For Mac

Mac用ABBYY FineReader PDF OCRソフトウェアは約20年前から存在していますが、その大部分はABBYY FineReader Proとしてブランド化されていました。 ABBYYはmacOS Big Surの登場と共にFineReader PDFを導入するためにFineReader製品ラインを更新しました。 残念ながら、Intel Macでしかネイティブに動作しません。 ABBYY FineReader PDF for MacはM1およびM2 Macと互換性がありますが、Intelプロセッサ用に設計されたソフトウェアをApple Siliconチップで実行するためにmacOSに含まれるRosettaを使用する必要があります。 M1/M2チップとネイティブに互換性のあるFineReader PDFのMacバージョンはありません。 それでも、MacとPCの両方で最も優れたデスクトップOCRプログラムの一つであることに変わりありません。

元の文書の品質が精度率に影響を与える一方で、FineReader PDFのOCRテキスト認識能力は卓越しており、市場で間違いなく最高です。 スキャンされた文書の元のフォーマット(テキストサイズ、フォントスタイル、写真、テーブル、レイアウトを含む)は保存されます。 迅速かつ正確にテキストを認識する点でも優れています。 以下はOCRを実行する手順です:

  1. ABBYY FineReader PDFを起動します。
  2. PDFを開いて検索可能なPDFに変換する"Searchable PDF"オプションを選択します。 変換されたPDFファイルを保存することもできます。

Best OCR For Mac, 図2 - ABBYY FineReaderソースダイアログ。

ABBYY FineReaderについて詳しくはそのWebサイトをご覧ください。

2.3 Readiris 17

MacユーザーはOCRソリューションとしてReadIris 17を使用できます。 主にWindows用ですが、ReadIrisはMacユーザー向けのOCR対応PDFリーダー兼エディタを開発しました。

ReadIris 17を使用すると、ユーザーは簡単にPDFを統合、分割、保護、および署名できます。 オフラインMac OCRソフトウェアでは、ドキュメントのフォーマットを保持しながら、PDFファイルをWord、Excel、検索可能なPDF、またはPowerPointに変換できます。 しかし、フリーミアム版では一度にスキャンできるページ数に制限があります。

Best OCR For Mac, 図3 - Hello world!のテキストを含むReadIris 17におけるPDF。

ソフトウェアに画像を入力し、テキストを抽出しようとしました。 また、画面上に表示される要素もキャプチャしました。 若干の後処理が必要な場合があります。

IrisのWebサイトをご覧ください。

2.4 IronOCR

IronOCRはTesseractと比較して精度、パフォーマンス、安定性を向上させるネイティブC# OCRライブラリを提供し、標準的なTesseractライブラリを強化します。 .NETツールとWebサイトを使用して、PDFや画像からテキストを抽出することができます。 IronOCRは幅広い外国語をサポートしており、プレーンテキストまたは構造化データを出力できます。 バーコードや埋め込まれたテキストを含む画像を読むことができます。 Dot NETコンソール、Web、MVC、およびデスクトップで開発されたアプリケーションは、Iron Software OCRライブラリを活用できます。 開発チームは商用展開の直接サポートを提供します。 IronOCRは最新のVisual Studioとの互換性があります。

IronOCRの利点

  1. 最新のTesseract 5エンジンを利用して、IronOCRは紙の文書、バーコード、QRコードをさまざまな画像やPDFファイルからスキャンできます。 このパッケージは、デスクトップ、コンソール、およびWebアプリケーションにOCRを統合することを簡素化します。
  2. IronOCRの助けを借りて、私たちはOCRを実行し、スキャンされたPDFを検索可能なPDFに変換できます。
  3. IronOCRは世界中で125の異なる言語をサポートし、カスタム言語や単語リストもサポートしています。
  4. このソフトウェアは20種類以上のバーコードとQRコードを読み取ることができます。
  5. IronOCRはバーコードデータとプレーンテキストの出力の両方を提供します。 開発者は、代替の構造化データオブジェクトパラダイムを通じて、システムに直接入力するためのすべてのコンテンツにアクセスできます。 これには、オンラインアプリケーションで論理的に整理された見出し、段落、行、単語、文字が含まれます。

IronOCRのWebサイトをご覧ください。

IronOCRを使用したOCR処理

IronOCRは強力なOCRライブラリで、PDF文書およびデータアクセスの変換を可能にします。 分析と処理のために機械可読のテキストに変換し、データプライバシーを損なうことなく実行できます。 以下は、OCRを使用して画像からテキストを抽出する方法の一例です:

// Instantiate IronTesseract object to use IronOCR capabilities
var Ocr = new IronTesseract();

// Specify the language to use for OCR
Ocr.Language = OcrLanguage.EnglishBest;

// Define the Tesseract version to use
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

// Use an OcrInput object to add images for OCR processing
using (OcrInput ocrInput = new OcrInput("Demo.gif"))
{
    // Perform OCR and obtain the result containing extracted text
    OcrResult ocrResult = Ocr.Read(ocrInput);

    // Print the extracted text to the console
    Console.WriteLine(ocrResult.Text);
}
// Instantiate IronTesseract object to use IronOCR capabilities
var Ocr = new IronTesseract();

// Specify the language to use for OCR
Ocr.Language = OcrLanguage.EnglishBest;

// Define the Tesseract version to use
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

// Use an OcrInput object to add images for OCR processing
using (OcrInput ocrInput = new OcrInput("Demo.gif"))
{
    // Perform OCR and obtain the result containing extracted text
    OcrResult ocrResult = Ocr.Read(ocrInput);

    // Print the extracted text to the console
    Console.WriteLine(ocrResult.Text);
}
' Instantiate IronTesseract object to use IronOCR capabilities
Dim Ocr = New IronTesseract()

' Specify the language to use for OCR
Ocr.Language = OcrLanguage.EnglishBest

' Define the Tesseract version to use
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5

' Use an OcrInput object to add images for OCR processing
Using ocrInput As New OcrInput("Demo.gif")
	' Perform OCR and obtain the result containing extracted text
	Dim ocrResult As OcrResult = Ocr.Read(ocrInput)

	' Print the extracted text to the console
	Console.WriteLine(ocrResult.Text)
End Using
$vbLabelText   $csharpLabel

提供されたコードスニペットでは、IronTesseractがOCR機能を強化します。 OcrInputオブジェクトは、テキスト抽出のための画像を追加するための簡単なインターフェイスを作成します。 指定された画像パスを使用してOCRプロセスを初期化し、IronOCRが画像を読み取り、テキストを文字列形式に抽出します。

Best OCR For Mac, 図4 - Hello world!のテキストを含むAdobe Acrobatで開かれたPDF。

以下の出力は、提供された画像から抽出されたテキストを示し、正しい抽出が行われたことを確認します。 IronOCRは結果の保存のための様々な出力形式もサポートしています。

Best OCR For Mac, 図5 - Hello world!のテキストがコマンドラインに表示されます。

結論

市場に存在する複数のOCRツールを使用すると、請求書からデータを処理できます。 画像のOCR処理は、提供された画像からのテキストデータの翻訳を可能にします。 最初の2つのOCRツールは、自動スキャンとデータ検証を有効にして、手動のデータ入力なしで請求書データを処理します。 これらのツールは高価であり、しばしばアクティブなインターネット接続を必要とするため、特定の環境に限られることが多いです。

一方、IronOCRは様々な.NETプロジェクトをサポートしており、.NET Framework Standard 2、.NET Framework 4.5、および.NET Core 2、3、および5に加えて、Xamarin、Azure、MAC、およびMonoなどの最新技術でも動作します。IronOCRはTesseractの出力を強化し、IronOCRのメソッドを使用して不正確にスキャンされた単語や画像を修正します。 NuGetパッケージは、複雑なTesseractの辞書システムを管理します。 Iron OCRライブラリはOCRツールを作成するために利用されます。 したがって、IronOCRは最小限のコーディングで請求書を自動化し、データを抽出するための理想的な請求書OCRソフトウェアです。

多数の画像形式、PDFファイル、MultiFrame TIFFをサポートするIronOCRは、追加のセットアップを必要とせずにシームレスな体験を提供します。 光学文字認識を超えて、画像に含まれるバーコードからデータを抽出するためのバーコード識別機能を提供します。 IronOCRの手頃な開発版の無料試用版が利用可能であり、IronOCRバンドルの購入には終身ライセンスが含まれています。 IronOCRバンドルは、複数のシステムをカバーする単一の価格設定を提供し、優れた価値を提供します。 IronOCRのコストに関する詳細については、IronOCRのウェブサイトをご覧ください。

Kannaopat Udonpant
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、Kannapatは北海道大学で環境資源の博士号を修了しました。博士号を追求する間に、彼はバイオプロダクションエンジニアリング学科の一部である車両ロボティクスラボラトリーのメンバーになりました。2022年には、C#のスキルを活用してIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。Kannapatは、IronPDFの多くのコードを執筆している開発者から直接学んでいるため、この仕事を大切にしています。同僚から学びながら、Iron Softwareでの働く社会的側面も楽しんでいます。コードやドキュメントを書いていない時は、KannapatはPS5でゲームをしたり、『The Last of Us』を再視聴したりしていることが多いです。