フッターコンテンツにスキップ
OCRツール

エンタープライズOCRソフトウェアの比較

OCR(光学文字認識)ソリューションは、複数の形式のスキャンされたテキスト画像を機械で読み取り可能なテキストに変換します。 これはデータ抽出やファイル処理に多くの利用ケースがあります。 一例として、紙のカタログやドキュメントをデジタル化して保存・処理するためのスキャンとインデックス化があります。 これにより、ビジネスはアーカイブをデジタル化するためのメインステイとなっています。それが古い新聞であれ、何年も前の領収書であれ。

この記事では、異なる企業用OCRソフトウェアを使用して、物理的なドキュメントをデジタル形式に変換するためのOCRを行う方法を示します。 この記事で説明されるOCRソフトウェアの一覧を以下に示します。

  • Rossum
  • Adobe Acrobat Pro DC
  • Nanonets
  • IronOCR

Rossum

Rossumは、Microsoft OfficeドキュメントやPDFファイルからデータを抽出する際の時間と労力を節約するOCRソフトウェア製品です。 Rossumは請求書やPDFフォームをデジタル化されたドキュメントに迅速に処理・変換できます。 さまざまなファイルタイプをスキャンして解釈し、構造化データでPDFを編集するように設計されています。

Rossumはレイアウト、フォーマット、署名、その他の変数を自動的に考慮します。 この製品の処理能力の基礎を形成するいくつかの機能があります。 これらの機能には、詳細な統合、コーディングセマンティクス、自動確認、PDF編集、データ抽出、ドキュメントワークフロー、ファイルアップロード、ドキュメント処理、画像変換、PDF変換、ドキュメントのデジタル化、イベント通知が含まれます。 これらの通知によってトリガーされる変換は、ビジネス要件に合わせて設定できます。

価格設定

Rossumは無料のOCR製品ではありませんが、Webベースのアプリケーションでの無料トライアルを利用できます。 また、デスクトップ版をダウンロードして、複数のドキュメントからデータを抽出する同じワークフローを提供します。

Enterprise OCR Software Comparison (2002 Update), Figure 1: Rossum

Rossum

Adobe Acrobat Pro DC

Adobe Acrobat Pro DCは、スキャンされたドキュメントからテキストを検出し、これらのドキュメントを編集可能な形式に変換するPDF編集ソフトウェアです。 Pro DCは、任意のデバイスのための完全なPDFソリューションを提供します。アプリ内で、ユーザーはPDFファイルを作成・編集し、デジタル署名し、ドキュメントを圧縮し、PDFやその他のスキャンされたドキュメントを異なる形式(Microsoft Office形式やJPG画像ファイルなど)に変換できます。

そのテキスト認識能力に加えて、Adobe Acrobat Pro DCは、PDFドキュメントのページを切り取ったり、回転したり、削除したり、注釈を付けたりすることもできます。

価格設定

Adobe Acrobat Pro DCは無料のソフトウェア製品ではありませんが、期間限定で無料トライアルを提供します。 AdobeウェブサイトやAcrobatリーダーモバイルアプリで購入できます。

Enterprise OCR Software Comparison (2002 Update), Figure 2: Adobe Acrobat Pro DC

Adobe Acrobat Pro DC

Nanonets

Nanonetsは、AIを活用したOCRソリューションであり、人間の干渉なしにドキュメントからデータを抽出します。 このプログラムは手間がかからず、エラーフリーで、データキャプチャのために多くの言語を扱うことができます。 このソリューションは、紙から集められたデータを迅速に評価し、AIは使用量が増えるにつれて学習します。 NanonetのAIベースのOCR技術を使用して手動データ入力を自動化できます。 このソフトウェアパッケージは、請求書、注文書、編集可能なテキストファイルなど、直線的な形式で情報を含むドキュメントからデータを抽出できます。

価格設定

Nanonetsは、初心者向けにソフトウェアの無料バージョン(最大100ページの処理が可能)および7日間のトライアル期間を提供します。 Nanonetsはクラウド、Windows、およびMacで利用可能です。

Enterprise OCR Software Comparison (2002 Update), Figure 3: Nanonets

Nanonets

IronOCR: .NET OCRライブラリ

Enterprise OCR Software Comparison (2002 Update), Figure 4: IronOCR

IronOCR

IronOCR .NETライブラリは、低解像度の画像からテキストを抽出するための最良のOCRソフトウェアソリューションです。 このライブラリはすべての.NETバージョンをサポートしています。 IronOCRはまた、さまざまな画面解像度やOCRエンジン(例えばTesseract)をサポートしています。

IronOCRの素晴らしい機能のいくつかを以下に示します:

  • JPG、PNG、TIFF、PDFなど、さまざまなファイル形式をサポート。
  • 単純なコードでPDFファイルを編集可能なドキュメントに変換できます。
  • AI技術を使用して低品質のスキャンおよび写真を修正します。
  • バーコードの読み取りをサポートします。
  • 125の国際言語をサポートします。

IronOCRライブラリを使用して、.NETプロジェクトで画像上でOCRを実行する方法を見てみましょう。

スキャンされた紙のドキュメントからデータを抽出する

using IronOcr;

// Instantiate an IronTesseract object, which will perform OCR operations
var Ocr = new IronTesseract();

// Initialize an OcrInput object to handle input documents for OCR processing
using (var Input = new OcrInput())
{
    // Add a password-protected PDF document to the input
    Input.AddPdf("example.pdf", "password");

    // Read the input document and perform OCR, resulting in readable text output
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

// Instantiate an IronTesseract object, which will perform OCR operations
var Ocr = new IronTesseract();

// Initialize an OcrInput object to handle input documents for OCR processing
using (var Input = new OcrInput())
{
    // Add a password-protected PDF document to the input
    Input.AddPdf("example.pdf", "password");

    // Read the input document and perform OCR, resulting in readable text output
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
Imports IronOcr

' Instantiate an IronTesseract object, which will perform OCR operations
Private Ocr = New IronTesseract()

' Initialize an OcrInput object to handle input documents for OCR processing
Using Input = New OcrInput()
	' Add a password-protected PDF document to the input
	Input.AddPdf("example.pdf", "password")

	' Read the input document and perform OCR, resulting in readable text output
	Dim Result = Ocr.Read(Input)

	' Output the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

画像からデータを抽出する

using IronOcr;

// Initialize IronTesseract to handle OCR operations
var Ocr = new IronTesseract();

// Create OcrInput object, specifying the path to the image for OCR
using (var Input = new OcrInput(@"images\image.png"))
{
    // Optionally deskew the image to improve OCR accuracy
    Input.Deskew();

    // Optionally apply noise reduction for better accuracy, recommended if accuracy < 97%
    // Input.DeNoise();

    // Execute OCR on the input image and get the resultant text
    var Result = Ocr.Read(Input);

    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

// Initialize IronTesseract to handle OCR operations
var Ocr = new IronTesseract();

// Create OcrInput object, specifying the path to the image for OCR
using (var Input = new OcrInput(@"images\image.png"))
{
    // Optionally deskew the image to improve OCR accuracy
    Input.Deskew();

    // Optionally apply noise reduction for better accuracy, recommended if accuracy < 97%
    // Input.DeNoise();

    // Execute OCR on the input image and get the resultant text
    var Result = Ocr.Read(Input);

    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
Imports IronOcr

' Initialize IronTesseract to handle OCR operations
Private Ocr = New IronTesseract()

' Create OcrInput object, specifying the path to the image for OCR
Using Input = New OcrInput("images\image.png")
	' Optionally deskew the image to improve OCR accuracy
	Input.Deskew()

	' Optionally apply noise reduction for better accuracy, recommended if accuracy < 97%
	' Input.DeNoise();

	' Execute OCR on the input image and get the resultant text
	Dim Result = Ocr.Read(Input)

	' Print the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

価格設定

IronOCRは非商用利用には無料です。 ライセンスは商用利用に必要ですが、評価目的で無料トライアルが利用可能です。 基本価格は$799から始まります。

Enterprise OCR Software Comparison (2002 Update), Figure 5: IronOCR

IronOCR

結論

この記事では、個人や企業が迅速にデータ処理タスクを自動化するのに役立つ4つの強力なOCR製品を紹介しました。 IronOCRライブラリは、フォーム、名刺、その他のドキュメントからのデータ抽出の良い代替手段です。 IronOCR .NETライブラリは、使用する機器に外部ライブラリをインストールする必要がないため、.NETフレームワークがインストールされている任意のデバイスで使用できます。

Iron Softwareは、2つの価格で5つの強力なソフトウェアツールのスイートを提供しています。 このページで詳細情報をご覧ください。

Kannaopat Udonpant
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、Kannapatは北海道大学で環境資源の博士号を修了しました。博士号を追求する間に、彼はバイオプロダクションエンジニアリング学科の一部である車両ロボティクスラボラトリーのメンバーになりました。2022年には、C#のスキルを活用してIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。Kannapatは、IronPDFの多くのコードを執筆している開発者から直接学んでいるため、この仕事を大切にしています。同僚から学びながら、Iron Softwareでの働く社会的側面も楽しんでいます。コードやドキュメントを書いていない時は、KannapatはPS5でゲームをしたり、『The Last of Us』を再視聴したりしていることが多いです。