フッターコンテンツにスキップ
他のコンポーネントと比較する

OCR API Microsoft Azure Vision とIronOCR: どちらがドキュメント画像をより適切に処理しますか?

光学文字認識(OCR)は、スキャンされた文書やデジタル文書から印刷されたテキストや手書きのテキストを抽出する必要のあるあらゆる.NETアプリケーションにとって不可欠なものとなっている。 OCR API である Microsoft Azure Vision サービスとIronOCR はどちらも強力な OCR 機能を提供しますが、テキスト抽出に対するアプローチは根本的に異なります。 この記事では、これら2つのツールを比較し、それぞれのOCRエンジンが、精度、導入の柔軟性、言語サポート、コストといった最も重要な機能においてどのような性能を発揮するかを詳しく解説します。

IronOCRの無料トライアルを開始して、実際のプロジェクトでこれらの機能を並べてテストしてみましょう。

フィーチャー Azure Vision OCR IronOCR
デプロイメント クラウドサービス(Azure AI Services) ローカル.NETライブラリ(NuGet)
OCR対応言語 164+(OCR読み取りモデル) 言語パック経由で125以上
対応ファイル形式 JPEG、PNG、BMP、PDF、TIFFファイル JPEG、PNG、GIF、BMP、TIFF、PDFファイル、複数ページTIFF
手書き文字抽出 はい、混合方式(印刷と手書き)です。 はい — AdvancedScan拡張機能経由
価格 取引ごとの課金(1,000回の通話につき約1.50ドル)。 無料プラン:月額5,000件 一度限りの永久ライセンス。 取引ごとの手数料はかかりません
データプライバシー 画像データがAzureクラウドに送信されました すべての処理はローカルで実行され、データはマシンから外部に送信されることはありません。

マイクロソフトは、文書画像からテキストを抽出するためのOCR APIを提供していますか?

はい。 マイクロソフトは、Azure Visionサービス(旧Azure Cognitive Services、現在はAzure AI Servicesの一部)を通じて、光学文字認識(OCR)を提供しています。 Read OCRモデルはこのサービスの核となるもので、主に2つのパスをサポートしています。1つは一般的な画像分析のためのAzure Vision、もう1つはPDFやTIFFファイル、HTMLドキュメント、請求書などのスキャンされたデジタルドキュメントのためのDocument Intelligenceです。

Read APIは、画像全体を含む画像を入力として受け取り、認識されたテキスト行、単語、テキストブロック、バウンディングボックスの座標、および信頼度スコアを返します。 英語、スペイン語、中国語(簡体字)、デーヴァナーガリー文字、およびラテン文字、キリル文字、アラビア文字など、複数の言語の印刷テキストをサポートしています。 手書き文字は英語とその他いくつかの言語に対応しています。 同期APIは、単一の非ドキュメント画像のみのシナリオを処理するのに対し、非同期バージョンは、より大きなドキュメント画像を処理するための操作IDを返します。

高度な文書処理は、この基盤技術の上に成り立っています。 Document Intelligenceには、Readの文書最適化バージョンが含まれており、フォーム、領収書、請求書から構造、関係性、その他の文書中心の洞察を抽出できます。 この機能により、多くの一般的なワークフローにおける手動データ入力が不要になります。

ローカルOCRエンジンとクラウドベースのテキスト抽出を比較するとどう違うのか?

最大のアーキテクチャ上の違いは、処理が行われる場所にある。 Azure Visionは、すべての画像をマイクロソフトのサーバーに送信する必要があるクラウドサービスです。 IronOCRはネイティブの.NETライブラリとしてローカルマシン上で完全に動作するため、インターネット接続もAPIキーも、呼び出しごとの料金も不要です。

IronOCRは、 .NET向けに最適化された独自開発のTesseract 5 OCRエンジンを使用しており、実際の文書画像において最大99.8%の精度を実現します。 スキャンしたテキスト、写真、道路標識、製品ラベル、低品質のスキャン画像から、印刷されたテキストや手書きのテキストを読み取ります。内蔵の画像前処理機能により、ノイズ、歪み、解像度の問題を自動的に処理します。

各手法におけるテキスト認識の様子は以下のとおりです。

Azure Vision OCR (C#)

// Azure Vision OCR — extract printed and handwritten text from an image
using Azure;
using Azure.AI.Vision.ImageAnalysis;
var client = new ImageAnalysisClient(
    new Uri("https://your-resource.cognitiveservices.azure.com"),
    new AzureKeyCredential("your-subscription-key"));
var result = await client.AnalyzeAsync(
    new Uri("https://example.com/document.png"),
    VisualFeatures.Read);
foreach (var block in result.Value.Read.Blocks)
    foreach (var line in block.Lines)
        Console.WriteLine(line.Text);
// Azure Vision OCR — extract printed and handwritten text from an image
using Azure;
using Azure.AI.Vision.ImageAnalysis;
var client = new ImageAnalysisClient(
    new Uri("https://your-resource.cognitiveservices.azure.com"),
    new AzureKeyCredential("your-subscription-key"));
var result = await client.AnalyzeAsync(
    new Uri("https://example.com/document.png"),
    VisualFeatures.Read);
foreach (var block in result.Value.Read.Blocks)
    foreach (var line in block.Lines)
        Console.WriteLine(line.Text);
Imports Azure
Imports Azure.AI.Vision.ImageAnalysis

Dim client As New ImageAnalysisClient(
    New Uri("https://your-resource.cognitiveservices.azure.com"),
    New AzureKeyCredential("your-subscription-key"))

Dim result = Await client.AnalyzeAsync(
    New Uri("https://example.com/document.png"),
    VisualFeatures.Read)

For Each block In result.Value.Read.Blocks
    For Each line In block.Lines
        Console.WriteLine(line.Text)
    Next
Next
$vbLabelText   $csharpLabel

Azure Visionの出力

OCR API Microsoft Azure Vision vs. IronOCR: どちらがドキュメント画像をより良く処理できるか?: 画像 1 - OCR API Microsoft Azure Vision 出力

Azure を利用するには、有効な Azure サブスクリプション、プロビジョニング済みのコンピュータビジョンリソース、およびネットワーク接続が必要です。 通話はすべて課金対象となる取引です。 応答には、検出された各単語に対応する境界ボックスデータと信頼度スコアを含むテキスト行が含まれており、スキャンされたテキストのデジタル版にアクセスできます。 PDF、Office、HTMLドキュメントのOCR処理には、Microsoftは個別のDocument Intelligence Readエンドポイントの使用を推奨しています。

IronOCR (C#)

// IronOCR — extract text locally from document images and PDFs
using IronOcr;
var ocr = new IronTesseract();
ocr.Language = OcrLanguage.English;
using var input = new OcrInput();
input.LoadImage("document.png");
input.LoadPdf("report.pdf");
OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
// IronOCR — extract text locally from document images and PDFs
using IronOcr;
var ocr = new IronTesseract();
ocr.Language = OcrLanguage.English;
using var input = new OcrInput();
input.LoadImage("document.png");
input.LoadPdf("report.pdf");
OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
Imports IronOcr

' IronOCR — extract text locally from document images and PDFs
Dim ocr As New IronTesseract()
ocr.Language = OcrLanguage.English
Using input As New OcrInput()
    input.LoadImage("document.png")
    input.LoadPdf("report.pdf")
    Dim result As OcrResult = ocr.Read(input)
    Console.WriteLine(result.Text)
End Using
$vbLabelText   $csharpLabel

IronOCRの出力

OCR API Microsoft Azure Vision vs. IronOCR: どちらがドキュメント画像をより良く処理するか?: 画像 2 - IronOCR OCR 出力

IronOCRのAPIは、非常に簡潔です。IronTesseractクラスがOCRエンジンのすべての設定を処理し、OcrInputは単一の統合ローダーで画像、 PDFファイル、および複数ページのTIFFファイルを受け入れます。 OcrResultオブジェクトは、段落、テキスト行、単語、境界ボックスの座標などの構造化データに加え、各要素の信頼度スコアを返しPlus。 Azureサブスクリプションやネットワークへの依存は不要です。 複数の言語を扱う開発者は、中国語(簡体字)からアラビア語、デーヴァナーガリー文字まで、あらゆる言語を網羅したNuGet言語パックを通じて国際言語を追加できます。

光学文字認識において、より優れたデータプライバシーと対応ファイル形式を提供するソリューションはどれですか?

OCRデータのプライバシー保護においては、導入モデルが重要となる。 Azure Visionは、すべての画像データをマイクロソフトのクラウドインフラストラクチャ上で処理します。 マイクロソフトの顧客データに関するポリシーには暗号化やコンプライアンス認証が含まれているものの、データは依然としてローカル環境から外部に送信される。 Azure Vision は、Docker コンテナを介してオンプレミス展開をサポートしていますが、対応しているのは Read OCR モデルの以前の一般提供バージョン (v3.2) のみであり、最新の機能には対応していません。

IronOCRはすべての処理をローカルで行います。 画像データ、スキャンされたテキスト、顧客データは、開発用または生産用のマシ​​ンから外部に一切流出しません。これは、データセキュリティ要件が厳しい医療、法律、金融業界など、機密文書を扱うアプリケーションにとって大きな利点となります。

ファイル形式の対応状況に関して言えば、どちらのソリューションも一般的な画像形式とPDFファイルに対応しています。 IronOCRは、複数ページ/複数フレームのTIFFおよびGIF 、System.Drawingオブジェクト、およびストリームのネイティブサポートを追加します。 Azure Visionは、それぞれのシナリオに対応するため、個別の読み取りバージョンを用意しています。ファイルサイズに制約のある画像のみのシナリオには同期APIを、より大きなPDFファイルやTIFFファイルには非同期のDocument Intelligenceを使用します。 IronOCRは、 OCR結果を検索可能なPDFファイルやhOCR HTML出力としてエクスポートする機能も備えており、認識されたテキストを単なる文字列以外の形式でも利用できるようにする。

OCR APIは無料ですか?また、価格比較はどうですか?

マイクロソフトのOCRクラウドAPIは、月間約5,000件のトランザクションが可能な無料プラン(F0)を提供しています。 さらに、Azure Visionサービスの標準ティアの料金は、トランザクション1,000件あたり約1.50ドルです。Document Intelligenceによる大量のインテリジェントなドキュメント処理には、別途料金体系が設定されています。 コストは直線的に増加するため、毎日数千枚の文書画像を処理する本番環境アプリケーションでは、継続的な費用が相当額に膨れ上がる可能性があります。

IronOCRは、取引ごとの料金や利用量に応じた継続的な費用が発生しない、一度限りの永久ライセンスモデルを採用しています。 1つのライセンスで、ローカル環境でのOCR処理を無制限に利用できます。 両方のOCR APIオプションを評価するチームにとって、このコスト面でのメリットは通常、規模が大きくなるにつれて大幅に拡大します。 IronOCRのライセンスオプションを検討して、個人開発者、チーム、Enterprise導入向けの各ティアを比較してください。

考慮 Azure Vision OCR IronOCR
最適な用途 Azureエコシステムに既に存在するクラウドネイティブアプリ ローカルでオフラインのOCR処理を必要とする.NETアプリケーション
注意してください 取引ごとのコストが大規模化する。 クラウドへの依存 .NET環境が必要です。 組み込みのフォーム/請求書AIはありません
OCRの共通機能 印刷されたテキストと手書きのテキスト、信頼度スコア、バウンディングボックス、混合言語を抽出 印刷されたテキストと手書きのテキストの抽出、信頼度スコア、バウンディングボックス、混合言語、バーコード/QRコードの読み取り

結論

Azure Vision OCRとIronOCRはどちらも、文書画像からテキストを抽出するための強力な光学文字認識機能を備えていますが、それぞれ異なるニーズに対応しています。 Azure Visionは、既にAzureエコシステムに投資しており、より広範なクラウドサービスパイプラインの一部としてOCRを活用したユーザーエクスペリエンスを必要とするチームに最適です。一方、 IronOCRは、ローカル処理、予測可能な価格設定、画像前処理テキスト抽出ワークフローの詳細な制御機能を備えた自己完結型のOCRエンジンを必要とする.NET開発者にとって、より強力な選択肢となります。

スキャンされた文書やデジタル文書上の印刷物や手書き文字を処理するアプリケーションを構築するC#開発者にとって、 IronOCRはクラウド認証情報の管理、ネットワーク遅延、OCR関連のトランザクション課金といった負担なしに、必要なすべての機能を提供します。

今IronOCRを始めましょう。
green arrow pointer

Kannaopat Udonpant
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、Kannapatは北海道大学で環境資源の博士号を修了しました。博士号を追求する間に、彼はバイオプロダクションエンジニアリング学科の一部である車両ロボティクスラボラトリーのメンバーになりました。2022年には、C#のスキルを活用してIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。Kannapatは、IronPDFの多くのコードを執筆している開発者から直接学んでいるため、この仕事を大切にしています。同僚から学びながら、Iron Softwareでの働く社会的側面も楽しんでいます。コードやドキュメントを書いていない時は、KannapatはPS5でゲームをしたり、『The Last of Us』を再視聴したりしていることが多いです。

アイアンサポートチーム

私たちは週5日、24時間オンラインで対応しています。
チャット
メール
電話してね