IronOCRを使用してスキャンしたドキュメントを読む方法

Curtis Chau
Curtis Chau
2025年2月16日
更新済み 2025年4月7日
共有:
This article was translated from English: Does it need improvement?
Translated
View the article in English

多くのPDFには、検索できない画像ベースのテキストが含まれています。 IronOCRはこれを検索可能なコンテンツに変換することができ、特定の情報を見つけやすくし、特に視覚障害のある個人にとって文書のアクセシビリティを向上させます。

テキストや画像を手動でコピーしたり再作成したりする代わりに、自動抽出により正確性と効率性が確保されます。 これは特に、研究、法的文書、およびPDFの特定の部分を再利用することが一般的なコンテンツ作成において非常に有用です。

企業は、ワークフローを合理化するために、PDFから重要なデータを抽出して分析やシステム統合を行うことができます。 デザイナーやマーケターは、また画像を抽出して、さまざまなプロジェクトでの強化や再利用に利用できます。

このチュートリアルでは、OcrPdfInputメソッドを探索し、利用可能なオプションとパラメータを取り上げながら、IronOCRがさまざまなアプリケーション向けにPDFのテキストと画像の抽出をどのように簡素化するかを紹介します。

今日から無料トライアルでIronOCRをあなたのプロジェクトで使い始めましょう。

最初のステップ:
green arrow pointer

この機能を使用するには、IronOcr.Extension.AdvancedScan パッケージもインストールする必要があります。

スキャンされたドキュメントを読む例

ドキュメント内のすべての画像からテキストを抽出するには、ReadDocument メソッドを使用します。 このメソッドは文書を処理し、抽出されたテキストを含むオブジェクトを返します。このテキストは Text プロパティを通じてアクセスできます。 以下の例では、サンプルTIFFファイルを使用する方法を示します。

次の内容にご注意ください。

  • このメソッドは現在、英語、中国語、日本語、韓国語、ラテンアルファベットにのみ対応しています。
  • 高度なスキャンを .NET Framework で使用するには、プロジェクトを x64アーキテクチャで実行する必要があります。

入力

入力

コード

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");

// Perform OCR
OcrResult result = ocr.ReadDocument(input);

Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate OCR engine
Private ocr = New IronTesseract()

' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")

' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)

Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

出力

出力

PDFファイルでOCRを実行する必要がある場合は、LoadImageメソッドをLoadPdfに置き換えるだけです。 これにより、IronOCR はスキャンされた PDF からテキストを同様に処理および抽出することができます。

Curtis Chau
テクニカルライター

Curtis Chauはコンピューターサイエンスの学士号を取得(カールトン大学)し、Node.js、TypeScript、JavaScript、Reactに精通したフロントエンド開発を専門としています。直感的で美的に優れたユーザーインターフェースの作成に熱心で、Curtisは現代的なフレームワークで作業し、よく構造化された視覚的に魅力的なマニュアルを作成することを楽しんでいます。

開発以外にも、Curtisはモノのインターネット(IoT)に強い関心を持ち、ハードウェアとソフトウェアを統合する革新的な方法を探求しています。彼の余暇には、技術への愛を創造性と組み合わせて、ゲームを楽しんだりDiscordボットを作ったりしています。