IronOCRを使用してスキャンしたドキュメントを読む方法
多くのPDFには、検索できない画像ベースのテキストが含まれています。 IronOCRはこれを検索可能なコンテンツに変換することができ、特定の情報を見つけやすくし、特に視覚障害のある個人にとって文書のアクセシビリティを向上させます。
テキストや画像を手動でコピーしたり再作成したりする代わりに、自動抽出により正確性と効率性が確保されます。 これは特に、研究、法的文書、およびPDFの特定の部分を再利用することが一般的なコンテンツ作成において非常に有用です。
企業は、ワークフローを合理化するために、PDFから重要なデータを抽出して分析やシステム統合を行うことができます。 デザイナーやマーケターは、また画像を抽出して、さまざまなプロジェクトでの強化や再利用に利用できます。
このチュートリアルでは、OcrPdfInputメソッドを探索し、利用可能なオプションとパラメータを取り上げながら、IronOCRがさまざまなアプリケーション向けにPDFのテキストと画像の抽出をどのように簡素化するかを紹介します。
IronOCRを使用してスキャンしたドキュメントを読む方法
- スキャンされたドキュメントを読み取るためのC#ライブラリをダウンロード
- スキャンされたドキュメントを処理のためにインポートする
- 以下を使用
LoadImage
画像またはのためのメソッドLoadPdf
スキャンしたPDF用 - テキストを抽出するには、
ReadDocument
メソッド - 抽出したテキストを必要に応じて保存またはエクスポートし、さらに利用できるようにします。
申し訳ありませんが、翻訳するコンテンツのテキストを提供してください。その後、英語から日本語に翻訳いたします。!-- RENDER.PHP -- NUGET LIBRARY DOWNLOAD DIRECTIVE TAG :: START -->
今日から無料トライアルでIronOCRをあなたのプロジェクトで使い始めましょう。
申し訳ありませんが、翻訳するコンテンツのテキストを提供してください。その後、英語から日本語に翻訳いたします。!-- RENDER.PHP -- NUGET ライブラリ ダウンロード ディレクティブ タグ :: 終了 -->
この機能を使用するには、もインストールする必要があります。IronOcr.Extension.AdvancedScanパッケージ。
スキャンされたドキュメントを読む例
ドキュメント内のすべての画像からテキストを抽出するには、ReadDocument
メソッドを使用します。 このメソッドは文書を処理し、抽出されたテキストを含むオブジェクトを返します。このテキストは Text プロパティを通じてアクセスできます。 以下の例は、この方法の使用方法を示しています:サンプルTIFFファイル。
次の内容にご注意ください。
- このメソッドは現在、英語、中国語、日本語、韓国語、ラテンアルファベットにのみ対応しています。
-
高度なスキャンを .NET Framework で使用するには、プロジェクトを x64アーキテクチャで実行する必要があります。
入力
コード
:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;
// Instantiate OCR engine
var ocr = new IronTesseract();
// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");
// Perform OCR
OcrResult result = ocr.ReadDocument(input);
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate OCR engine
Private ocr = New IronTesseract()
' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")
' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)
Console.WriteLine(result.Text)
出力
PDFファイルに対してOCRを実行する必要がある場合は、単にLoadImage
メソッドをLoadPdf
に置き換えてください。 これにより、IronOCR はスキャンされた PDF からテキストを同様に処理および抽出することができます。