フッターコンテンツにスキップ
IRONOCRの使い方
IronOCRで検索可能なPDFの力を解放する

IronOCRで検索可能なPDFの力を解き放つ:ウェビナーの概要

"IronOCR によるドキュメント変換の効率化"ウェビナーでは、Chipego Kalinda (ソフトウェア セールス エンジニア) と Darren Steddy (セールス オペレーション マネージャー) が、ライブ コードと実際の例を使用してIronOCRの 3 つの実用的な使用例を検討し、スキャンした PDF を検索可能な準拠ドキュメントに変換することがいかに効果的かつ簡単であるかを示しました。

IronOCR を使用すると、企業はわずか数行のコードでスキャンした PDF を検索可能な準拠ドキュメントに変換し、データ抽出を自動化し、PDF/UA などのアクセシビリティ標準を満たして、法令遵守と業務効率を実現できます。

PDF を PDF/UA に準拠させるにはどうすればよいですか?

PDF/UA 標準が私のビジネスにとってなぜ重要なのか?

多くの組織は、社内ポリシー、公共部門の義務、長期アーカイブなど、PDF/UA などのアクセシビリティとコンプライアンスの標準を満たす必要があります。 PDF/UA (ユニバーサル アクセシビリティ) 標準により、障害のあるユーザー、特にスクリーン リーダーなどの支援技術を使用するユーザーが PDF に完全にアクセスできるようになります。 これは単なるコンプライアンスの問題ではなく、アクセシビリティ違反に関連する潜在的な法的問題を回避しながら、すべてのユーザーが平等に情報にアクセスできるようにすることです。

IronOCR のアプローチがなぜこんなにシンプルなのか?

Chipego は、わずか数行のコードで、IronOCR が通常の非準拠 PDF を完全なPDF/UA 準拠のドキュメントに変換する方法を実演しました。

using IronOcr;
using IronPdf;

// Initialize IronOCR
var ocr = new IronTesseract();

// Configure OCR for accessibility compliance
ocr.Configuration.ReadBarCodes = true;
ocr.Configuration.RenderSearchablePdf = true;

// Read the scanned PDF
using var input = new OcrInput();
input.AddPdf("scanned-document.pdf");

// Perform OCR and create searchable PDF/UA compliant document
var result = ocr.Read(input);
result.SaveAsSearchablePdf("compliant-output.pdf");
using IronOcr;
using IronPdf;

// Initialize IronOCR
var ocr = new IronTesseract();

// Configure OCR for accessibility compliance
ocr.Configuration.ReadBarCodes = true;
ocr.Configuration.RenderSearchablePdf = true;

// Read the scanned PDF
using var input = new OcrInput();
input.AddPdf("scanned-document.pdf");

// Perform OCR and create searchable PDF/UA compliant document
var result = ocr.Read(input);
result.SaveAsSearchablePdf("compliant-output.pdf");
$vbLabelText   $csharpLabel

その結果は、アクセシビリティとアーカイブ基準の検証ツールであるVeraPDFを使用して検証されました。 この検証手順は、監査や規制要件への準拠を証明する必要がある組織にとって非常に重要です。

PDF/UA 準拠から最も恩恵を受けるのは誰でしょうか?

PDF/UA 準拠により、視覚障害のあるユーザーがスクリーン リーダーを使用してドキュメントにアクセスできるようになり、法令遵守と包括的な設計の両方がサポートされます。 政府機関、教育機関、医療機関は、アクセシビリティ要件が厳しいことが多いため、特にメリットがあります。 さらに、EU で事業を展開する企業は欧州アクセシビリティ法に準拠する必要があり、市場へのアクセスには PDF/UA 準拠が不可欠となります。

! IronOCR による検索可能な PDF 作成のデモ。作成前後の文書の比較を表示。

スキャンした PDF を検索可能にするにはどうすればよいですか?

これはどんな問題を解決するのでしょうか?

スキャンされたドキュメントがPDFのように見えるが、画像のように機能することはありませんでしたか? ここでOCR テクノロジーが役立ちます。 多くの企業は、何千ものスキャンされた PDF を含む従来のドキュメント アーカイブに苦労しています。これらのファイルはストレージ スペースを占有するだけでなく、検索機能やデータ抽出機能も提供していません。 OCR がなければ、従業員は手作業で文書を検索することに膨大な時間を費やし、生産性の低下と運用コストの増加につながります。

変換プロセスはどのように機能しますか?

Chipego 氏は、IronOCR が検索不可能なスキャンされた PDF を検索可能な PDFに変換し、全文検索機能を即座に有効にする方法を紹介しました。 このプロセスにはいくつかの高度なステップが含まれます。

using IronOcr;

// Create a new OCR engine instance
var ocr = new IronTesseract();

// Configure language and accuracy settings
ocr.Language = OcrLanguage.English;
ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;

// Load the scanned PDF
using var input = new OcrInput();
input.AddPdf("invoice-scan.pdf");

// Apply image improve for better accuracy
input.DeNoise();
input.Deskew();
input.EnhanceResolution(225);

// Perform OCR and save as searchable PDF
var result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-invoice.pdf");

// Extract text for indexing
string extractedText = result.Text;
Console.WriteLine($"Extracted {extractedText.Length} characters");
using IronOcr;

// Create a new OCR engine instance
var ocr = new IronTesseract();

// Configure language and accuracy settings
ocr.Language = OcrLanguage.English;
ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;

// Load the scanned PDF
using var input = new OcrInput();
input.AddPdf("invoice-scan.pdf");

// Apply image improve for better accuracy
input.DeNoise();
input.Deskew();
input.EnhanceResolution(225);

// Perform OCR and save as searchable PDF
var result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-invoice.pdf");

// Extract text for indexing
string extractedText = result.Text;
Console.WriteLine($"Extracted {extractedText.Length} characters");
$vbLabelText   $csharpLabel

変換後、ユーザーは Ctrl + F を使用して特定のコンテンツを見つけたり、日付、名前、ドキュメントの件名などのキーワードで検索したりできます。 OCR エンジンは、コンテンツを検索および選択可能にする目に見えないテキスト レイヤーを追加しながら、元のドキュメントのレイアウトをインテリジェントに保持します。

検索可能な PDF から最も恩恵を受ける業界はどれでしょうか?

最適な用途:

  • 訴訟ファイルや契約書を扱う法律事務所
  • 患者記録を管理する医療提供者
  • 紙の記録をデジタル化しており、高速なコンテンツ検索を必要とするチーム -請求書処理とコンプライアンスのための金融機関
  • 不動産会社が不動産書類をデジタル化

業界の推定によると、大規模なドキュメント リポジトリ内で特定の情報をすばやく見つける機能により、検索時間を最大 90% 削減できます。

! 変換されたPDFのテキスト抽出と検索機能を示すIronOCRインターフェース

PDF から特定のデータを抽出するにはどうすればよいですか?

ターゲット抽出はいつ使用すればよいですか?

領収書、注文書、請求書などの構造化文書を大量に処理する企業向けに、Chipego は、境界ボックス座標を使用して IronOCR が特定の PDF 領域からデータを抽出する方法を実演しました。 このターゲットを絞ったアプローチは、請求書の合計金額、契約書の日付、注文書の顧客 ID など、重要な情報が一貫した場所に表示される標準化されたフォームを扱う場合に特に役立ちます。

地域処理によってパフォーマンスはどのように向上するのでしょうか?

ファイル全体を処理する代わりに、IronOCRは注文件や合計、住所のような関連フィールドにのみ焦点を当てるため、スピードが劇的に向上し、クラウドやコンピューティングコストを削減します。 ターゲット抽出を実装する方法は次のとおりです。

using IronOcr;
using System.Drawing;

var ocr = new IronTesseract();

// Load PDF and define extraction regions
using var input = new OcrInput();
input.AddPdf("purchase-order.pdf", 1); // Process first page only

// Define bounding box for PO number field (x, y, width, height)
var poNumberArea = new Rectangle(450, 100, 150, 50);
input.AddPdfPage("purchase-order.pdf", 1, poNumberArea);

// Extract just the PO number
var result = ocr.Read(input);
string poNumber = result.Text.Trim();

// Define multiple regions for batch extraction
var regions = new Dictionary<string, Rectangle>
{
    { "PONumber", new Rectangle(450, 100, 150, 50) },
    { "TotalAmount", new Rectangle(450, 600, 150, 50) },
    { "VendorName", new Rectangle(50, 200, 300, 50) }
};

// Extract data from each region
var extractedData = new Dictionary<string, string>();
foreach (var region in regions)
{
    input.Clear();
    input.AddPdfPage("purchase-order.pdf", 1, region.Value);
    var regionResult = ocr.Read(input);
    extractedData[region.Key] = regionResult.Text.Trim();
}
using IronOcr;
using System.Drawing;

var ocr = new IronTesseract();

// Load PDF and define extraction regions
using var input = new OcrInput();
input.AddPdf("purchase-order.pdf", 1); // Process first page only

// Define bounding box for PO number field (x, y, width, height)
var poNumberArea = new Rectangle(450, 100, 150, 50);
input.AddPdfPage("purchase-order.pdf", 1, poNumberArea);

// Extract just the PO number
var result = ocr.Read(input);
string poNumber = result.Text.Trim();

// Define multiple regions for batch extraction
var regions = new Dictionary<string, Rectangle>
{
    { "PONumber", new Rectangle(450, 100, 150, 50) },
    { "TotalAmount", new Rectangle(450, 600, 150, 50) },
    { "VendorName", new Rectangle(50, 200, 300, 50) }
};

// Extract data from each region
var extractedData = new Dictionary<string, string>();
foreach (var region in regions)
{
    input.Clear();
    input.AddPdfPage("purchase-order.pdf", 1, region.Value);
    var regionResult = ocr.Read(input);
    extractedData[region.Key] = regionResult.Text.Trim();
}
$vbLabelText   $csharpLabel

このターゲットを絞ったアプローチにより、フルページ OCR と比較して処理時間を 70 ~ 80% 短縮できるため、大量のドキュメントを処理するシナリオに最適です。

ビジネス上のメリットは何ですか?

これにより、反復的なデータ入力タスクが自動化され、手作業の労力が削減され、精度が向上し、チームはより価値の高い作業に専念できるようになります。 企業は、データ入力だけで週あたり 20 ~ 30 時間を節約していると報告しています。 抽出されたデータは、自動的にデータベースにエクスポートしたり、既存のシステムと統合したり、自動ワークフローをトリガーしたりできます。 たとえば、抽出された請求書の合計は会計システムを自動的に更新し、抽出された顧客情報は手動による介入なしに CRM レコードに入力できます。

IronOCR は大規模な自動化をどのように処理しますか?

IronOCR は一度に複数のファイルを処理できますか?

ウェビナーでは個々のコード例が紹介されましたが、IronOCRは大量処理をスケールで行うために構築されています。 数百または数百万のファイルを変換する場合でも、IronOCR は既存のシステムに簡単に統合できます。 エンタープライズ ソリューションはマルチスレッドと分散処理をサポートしており、組織は 1 時間あたり数千のドキュメントを処理できます。 バッチ処理の例を次に示します。

using IronOcr;
using System.IO;
using System.Threading.Tasks;

public async Task ProcessDocumentBatch(string folderPath)
{
    var ocr = new IronTesseract();
    ocr.Configuration.RenderSearchablePdf = true;

    // Get all PDF files in directory
    var pdfFiles = Directory.GetFiles(folderPath, "*.pdf");

    // Process files in parallel for maximum efficiency
    await Parallel.ForEachAsync(pdfFiles, async (file, ct) =>
    {
        using var input = new OcrInput();
        input.AddPdf(file);

        var result = await Task.Run(() => ocr.Read(input));

        // Save searchable version
        var outputPath = Path.Combine(folderPath, "searchable", Path.GetFileName(file));
        result.SaveAsSearchablePdf(outputPath);

        // Log processing results
        Console.WriteLine($"Processed: {file} - {result.Pages.Length} pages");
    });
}
using IronOcr;
using System.IO;
using System.Threading.Tasks;

public async Task ProcessDocumentBatch(string folderPath)
{
    var ocr = new IronTesseract();
    ocr.Configuration.RenderSearchablePdf = true;

    // Get all PDF files in directory
    var pdfFiles = Directory.GetFiles(folderPath, "*.pdf");

    // Process files in parallel for maximum efficiency
    await Parallel.ForEachAsync(pdfFiles, async (file, ct) =>
    {
        using var input = new OcrInput();
        input.AddPdf(file);

        var result = await Task.Run(() => ocr.Read(input));

        // Save searchable version
        var outputPath = Path.Combine(folderPath, "searchable", Path.GetFileName(file));
        result.SaveAsSearchablePdf(outputPath);

        // Log processing results
        Console.WriteLine($"Processed: {file} - {result.Pages.Length} pages");
    });
}
$vbLabelText   $csharpLabel

どのようなサポート オプションが利用可能ですか?

サポートが必要ですか? Iron Software は、チャットとメールによる24 時間 365 日のテクニカル サポートを提供しており、すぐに利用を開始できます。 サポート チームには OCR スペシャリストが含まれており、扱いが難しいドキュメント タイプ、複数の言語、複雑な統合要件など、特定のユース ケースの改善をお手伝いします。 さらに、完全なドキュメントとコード例により、開発者は独自にソリューションを実装できます。

PDF を検索可能、コンプライアンス準拠、自動化対応にする準備はできていますか?

IronOCR は、ドキュメント処理を手動のボトルネックから自動化されたワークフローに変換します。 125 を超える言語のサポート、高度な画像前処理、スムーズな PDF 処理を備え、最新のドキュメント管理に最適なソリューションです。 コンプライアンスの確保、検索の有効化、重要なデータの抽出など、IronOCR は開発者にとって使いやすい実装でプロフェッショナルな OCR 機能を提供します。

IronOCR の完全なドキュメントをチェックして、今すぐ始めましょう。

30日の試用版をお試しください

よくある質問

スキャンされたPDFを検索可能なドキュメントに変換するにはどうすればよいですか?

IronOCRを使用して、検索不可能なスキャンされたPDFを完全に検索可能なドキュメントに変換できます。OCR技術を適用することにより、キーワードやフレーズを使用して特定のコンテンツを見つけることが可能になります。

PDFをPDF/UA基準に準拠させることによるメリットは何ですか?

PDFをPDF/UA基準に準拠させることにより、視覚障害のあるユーザーがスクリーンリーダーを通じてアクセスできるようになります。IronOCRは、数行のコードだけで非準拠なPDFをPDF/UA準拠のドキュメントに変換でき、VeraPDFのようなツールで確認されます。

IronOCRはPDFからのターゲットデータ抽出をどのようにサポートしますか?

IronOCRは、バウンディングボックス座標を使用してPDFの特定の領域からデータを抽出できます。この機能は、請求書や領収書のような構造化されたドキュメントに特に有用で、関連フィールドに焦点を当て、処理効率を向上させます。

IronOCRの役割は文書処理タスクの自動化にどのように貢献しますか?

IronOCRは大規模なバッチ処理用に設計されており、文書変換タスクの自動化に最適です。大量のファイルを効率的に処理でき、既存のシステムにシームレスに統合されてワークフローを合理化します。

スキャンされたPDFを検索可能な形式に変換することから恩恵を受けるのは誰ですか?

法律事務所や医療機関などの組織は、スキャンされたPDFを検索可能な形式に変換することから恩恵を受けます。これにより、広範なアーカイブを素早くコンテンツベースで検索でき、情報検索が簡単になります。

IronOCRを実装するユーザーに提供されるサポートオプションは何ですか?

Iron Softwareは、IronOCRを実装するユーザーを支援するためにチャットとメールによる24時間5日の技術サポートを提供します。このサポートにより、ユーザーは文書変換プロジェクトを効果的に管理し、技術的な問題を解決できます。

文書変換プロジェクトを成功させるためにはどうすればよいですか?

成功を確実にするために、IronOCRの強力な機能を利用し、Iron Softwareが提供する技術サポートを活用してください。公式ウェブサイトで完全なドキュメントにアクセスし、30日間の試用版を利用してその機能を探ってみてください。

Kannaopat Udonpant
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、Kannapatは北海道大学で環境資源の博士号を修了しました。博士号を追求する間に、彼はバイオプロダクションエンジニアリング学科の一部である車両ロボティクスラボラトリーのメンバーになりました。2022年には、C#のスキルを活用してIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。Kannapatは、IronPDFの多くのコードを執筆している開発者から直接学んでいるため、この仕事を大切にしています。同僚から学びながら、Iron Softwareでの働く社会的側面も楽しんでいます。コードやドキュメントを書いていない時は、KannapatはPS5でゲームをしたり、『The Last of Us』を再視聴したりしていることが多いです。