フッターコンテンツにスキップ
OCRツール

Mac用の最高のOCR(無料のオンラインツール)

1.0 はじめに

今日におけるデジタル環境でのスキャンされたドキュメントの使用は、OCR(光学文字認識)技術のおかげで革命的に変化しています。 この技術により、コンピューターはスキャンされたPDFドキュメントを含むさまざまなソースからテキストを認識して抽出でき、PDFドキュメントを迅速に編集して操作できます。 Adobe Acrobatのような光学文字認識(OCR)ソフトウェアを使用してスキャンされたドキュメントからテキストを抽出し、編集可能なPDFや検索可能な画像ベースのPDFに変換することは簡単かつ迅速です。

開発者は、機械学習技術を用いたTesseractやIronOCRのようなOCRライブラリが提供する強力なツールやAPIを組み合わせることで、光学文字認識技術を完全に活用するための最先端アルゴリズムを利用できます。 これらのライブラリは正確なテキスト認識を可能にし、新しく作成されたドキュメントや既にスキャンされたドキュメントから有用なデータを整理し抽出することを容易にします。 OCRを使用してスキャンされたドキュメントやページ画像の可能性を最大化することで、シームレスなコンテンツ分析を可能にし、個人や企業の生産性の最適化をサポートします。 OCRスキャンは画像を検索可能なPDFに変換し、現代技術において重要なツールとなっています。 紙ベースの記録をデジタル化し、請求書からデータを抽出し、ドキュメントのアクセシビリティを向上させるために使用されます。

2.0 OCRツール

この記事では、Macユーザー向けの優れたOCRソフトウェアツールのいくつかを紹介します。 これらには以下が含まれます:

  1. Adobe Acrobat Pro DC
  2. ABBYY FineReader PDF
  3. Readiris 17
  4. IronOCR

2.1 Adobe Acrobat Pro DC

元々のドキュメントスキャンOCRプログラムであり、2023年のMac OCRソフトウェアのトップピックであるのがAdobe Acrobat Proです。 PDFドキュメントの作成と編集、およびPDFファイルの編集可能な形式や検索可能な形式への変換を可能にする唯一のMac向けプログラムがAdobe Acrobat Proであることは驚くべきことではありません。 PDF形式はAdobeによって最初に開発されました。 市場にはさまざまなPDFタスクを処理できる多くの製品がありますが、Adobe Acrobat Pro DCは依然として非常に強力です。Adobe Acrobat Pro DCをオンラインでアクセスするためのAdobe Document Cloudが利用可能であるにもかかわらず、Macデスクトップクライアントは優れたものとなっています。 特に注目すべきは、Adobe Acrobatは最新のM1およびM2 Macに対応する唯一のOCRプログラムであり、その魅力をさらに高めています。

  1. まず、Acrobatを起動し、PDFファイルを開きます。
  2. 右側のウィンドウで、PDF編集ツールを選択します。 Acrobatは、お使いの文書を光学文字認識(OCR)スキャンを自動的に実施した後、短時間で完全に編集可能なPDFコピーに変換します。

Mac向けベストOCR、図1 - Adobe Acrobatで開かれたPage 1を含むPDF。

要素を編集するには、それをクリックします。 追加したテキストは、元のフォントのスタイルに合致します。 新しく変更したドキュメントを保存するには、ファイル > 名前を付けて保存を選択してください。

Adobe AcrobatのウェブサイトでAdobe Acrobat DCのインストールについて詳しく学ぶことができます。

2.2 ABBYY FineReader PDF For Mac

ABBYY FineReader PDF OCRソフトウェアは、Macユーザー向けにほぼ20年間利用可能ですが、その大半はABBYY FineReader Proとしてブランド化されていました。 ABBYYはmacOS Big Surの導入と共にFineReader製品ラインを更新し、FineReader PDFを導入しました。 残念ながら、Intel Macsでのみネイティブに動作します。 ABBYY FineReader PDF for Macは、Rosettaを利用した場合にのみM1およびM2 Macsと互換性があります。Rosettaは、Intelプロセッサ用に設計されたソフトウェアをAppleシリコンチップで動作させるmacOSのプログラムです。 M1/M2チップにネイティブに対応するFineReader PDFのMacバージョンはありません。 それでもなお、MacおよびPC向けのベストデスクトップOCRプログラムの1つとしてABBYY FineReader PDFは残っています。

元々のドキュメントの品質が精度に影響を与えますが、FineReader PDFのOCRテキスト認識能力は卓越しており、市場で最も優れたものです。 スキャンされた文書の元々の形式、テキストサイズ、フォントスタイル、写真、表、レイアウトが保たれます。 また、迅速かつ正確にテキストを認識することにも優れています。 以下はOCRを実施する手順です:

  1. ABBYY FineReader PDFを開始します。
  2. "検索可能PDF"オプションを選択します。これにより、PDFを開いて検索可能なPDFに変換できます。 変換したPDFファイルを保存することもできます。

Mac向けベストOCR、図2 - ABBYY FineReaderのソースダイアログ。

ABBYY FineReaderについて詳しく知るためには、彼らのウェブサイトを訪れてください。

2.3 Readiris 17

MacユーザーはReadIris 17をOCRソリューションとして使用できます。 その主な用途はWindowsですが、ReadIrisはMacユーザー向けにOCR対応のPDFリーダーおよびエディターを開発しました。

ReadIris 17により、ユーザーはPDFを簡単に結合、分割、保護、および署名することができます。 オフラインMac OCRソフトウェアは、PDFファイルをWord、Excel、検索可能PDF、またはPowerPointに変換し、文書の形式を保持します。 しかし、フリーミアム版では一度にスキャンできるページの数に制限があります。

Mac向けベストOCR、図3 - Hello world!のテキストを持つPDF in ReadIris 17。

ソフトウェアに画像を入力し、テキストを抽出しようとしました。 加えて、画面上に表示されている要素もキャプチャしました。 いくつかの後処理が必要になるかもしれません。

詳細は、Irisのウェブサイトをご覧ください。

2.4 IronOCR

IronOCRは、標準のTesseractライブラリに比べたTesseractを強化し、精度、パフォーマンス、安定性が向上したネイティブC# OCRライブラリを提供します。 .NETツールとウェブサイトを使用して、PDFや画像からのテキスト抽出を可能にします。 多くの外国語をサポートしているIronOCRは、プレーンテキストまたは構造化データを出力できます。 バーコードおよび埋め込まれたテキストを含む画像を読み取ることができます。 Dot NETコンソール、ウェブ、MVC、デスクトップで開発されたアプリケーションは、Iron Software OCRライブラリを活用できます。 開発チームは商業展開に直接サポートを提供しています。 IronOCRは最新バージョンのVisual Studioと互換性があります。

IronOCRの利点

  1. IronOCRは最新のTesseract 5エンジンを使用し、さまざまな画像やPDFファイルから紙の文書、バーコード、QRコードをスキャンできます。 このパッケージは、デスクトップ、コンソール、ウェブアプリケーションへのOCRの統合を簡素化します。
  2. IronOCRの支援により、OCRを実行し、スキャンしたPDFを検索可能なPDFに変換できます。
  3. IronOCRは、カスタム言語や単語リストに加えて、世界中の125の異なる言語をサポートします。
  4. ソフトウェアは、20以上の異なる種類のバーコードとQRコードを読み取ることができます。
  5. IronOCRは、バーコードデータとプレーンテキストの両方を提供します。 開発者は、代替の構造化データオブジェクトパラダイムを通じて、システムに直接入力するためにすべてのコンテンツにアクセスできます。 これには、オンラインアプリケーションでの論理的に整理された見出し、段落、行、単語、文字が含まれます。

さらに詳しい情報については、IronOCRのウェブサイトをご覧ください。

IronOCRを使用したOCR処理

強力なOCRライブラリであるIronOCRは、PDFドキュメントとデータアクセスの変換を可能にします。 効率的な分析と処理のために機械可読テキストへの変換を容易にし、データのプライバシーを損なうことなく行います。 ここでは、IronOCRを利用して画像からテキストを抽出する方法の例を示します:

// Instantiate IronTesseract object to use IronOCR capabilities
var Ocr = new IronTesseract();

// Specify the language to use for OCR
Ocr.Language = OcrLanguage.EnglishBest;

// Define the Tesseract version to use
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

// Use an OcrInput object to add images for OCR processing
using (OcrInput ocrInput = new OcrInput("Demo.gif"))
{
    // Perform OCR and obtain the result containing extracted text
    OcrResult ocrResult = Ocr.Read(ocrInput);

    // Print the extracted text to the console
    Console.WriteLine(ocrResult.Text);
}
// Instantiate IronTesseract object to use IronOCR capabilities
var Ocr = new IronTesseract();

// Specify the language to use for OCR
Ocr.Language = OcrLanguage.EnglishBest;

// Define the Tesseract version to use
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

// Use an OcrInput object to add images for OCR processing
using (OcrInput ocrInput = new OcrInput("Demo.gif"))
{
    // Perform OCR and obtain the result containing extracted text
    OcrResult ocrResult = Ocr.Read(ocrInput);

    // Print the extracted text to the console
    Console.WriteLine(ocrResult.Text);
}
' Instantiate IronTesseract object to use IronOCR capabilities
Dim Ocr = New IronTesseract()

' Specify the language to use for OCR
Ocr.Language = OcrLanguage.EnglishBest

' Define the Tesseract version to use
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5

' Use an OcrInput object to add images for OCR processing
Using ocrInput As New OcrInput("Demo.gif")
	' Perform OCR and obtain the result containing extracted text
	Dim ocrResult As OcrResult = Ocr.Read(ocrInput)

	' Print the extracted text to the console
	Console.WriteLine(ocrResult.Text)
End Using
$vbLabelText   $csharpLabel

提供されたコードスニペットでは、IronTesseractがOCR機能を強化します。 画像抽出のためのシンプルなインターフェースを提供するOcrInputオブジェクトを作成します。 IronOCRが画像を読み取り、テキストを文字列形式に抽出するためのOCRプロセスを初期化するために、指定された画像パスが使用されます。

Mac向けベストOCR、図4 - Adobe Acrobatで開かれたPDF。テキストHello world!。

下に示された出力は、提供された画像から抽出されたテキストを表示し、適切な抽出が行われたことを確認します。 IronOCRは、結果を保存するためのさまざまな出力形式もサポートしています。

Mac向けベストOCR、図5 - コマンドラインに表示されるHello world!のテキスト。

結論

市場に出回っている複数のOCRツールにより、請求書からのデータ処理が可能です。 イメージのOCR処理により、提供されたイメージからテキストデータの翻訳が可能です。 最初の2つのOCRツールは、請求書データを手入力なしで処理することで、自動スキャンとデータ検証を可能にします。 これらのツールは高価であることが多く、しばしばアクティブなインターネット接続を必要とし、特定の環境における使用に制限を受けます。

一方、IronOCRは.NET Framework Standard 2、.NET Framework 4.5、.NET Core 2、3、5を含むさまざまな.NETプロジェクトをサポートし、Xamarin、Azure、MAC、Monoなどの現代技術と共に動作します。IronOCRはIronOCRメソッドを使用してTesseractの出力を強化し、不正確にスキャンされた単語や画像を修正します。 NuGetパッケージによって複雑なTesseract辞書システムが管理されます。 Iron OCRライブラリはOCRツールの作成に活用されます。 したがって、IronOCRは請求書を自動化し、わずかなコーディングでデータを抽出するための理想的な請求書向けOCRソフトウェアです。

多数の画像形式、PDFファイル、MultiFrame TIFFをサポートするIronOCRは、追加のセットアップを必要とせずにシームレスな体験を提供します。 光学文字認識を超えて、バーコード識別機能を提供し、バーコードを含む画像からデータを抽出できます。 IronOCRの開発版は手頃な価格で試用できます。IronOCRバンドルの購入には終身ライセンスが含まれています。 IronOCRバンドルは、複数のシステムをカバーする一括の価格設定を提供するため、優れた価値を提供します。 IronOCRのコストについての詳細は、IronOCRのウェブサイトをご覧ください。

Kannaopat Udonpant
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、Kannapatは北海道大学で環境資源の博士号を修了しました。博士号を追求する間に、彼はバイオプロダクションエンジニアリング学科の一部である車両ロボティクスラボラトリーのメンバーになりました。2022年には、C#のスキルを活用してIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。Kannapatは、IronPDFの多くのコードを執筆している開発者から直接学んでいるため、この仕事を大切にしています。同僚から学びながら、Iron Softwareでの働く社会的側面も楽しんでいます。コードやドキュメントを書いていない時は、KannapatはPS5でゲームをしたり、『The Last of Us』を再視聴したりしていることが多いです。