フッターコンテンツにスキップ
IRONOCRの使い方
IronOCRで検索可能なPDFの力を解放する

IronOCRで検索可能なPDFの力を解き放つ:ウェビナーの概要

" IronOCRによる文書変換の効率化"と題されたウェビナーでは、ソフトウェアセールスエンジニアのChipego Kalinda氏とセールスオペレーションマネージャーのDarren Steddy氏が、 IronOCRの3つの実用的なユースケースをライブコードと実際の事例を用いて解説し、スキャンしたPDFを検索可能でコンプライアンスに準拠した文書に変換することがいかに効果的かつ容易であるかを示しました。

IronOCRを使用すると、企業はわずか数行のコードでスキャンしたPDFを検索可能な準拠文書に変換でき、データ抽出を自動化し、PDF/UAなどのアクセシビリティ基準を満たすことで、法的コンプライアンスと業務効率化を実現できます。

PDFをPDF/UAに準拠させるにはどうすればよいですか?

PDF/UA規格が私のビジネスにとって重要な理由は何ですか?

多くの組織は、社内規定、公共部門の義務、長期保存など、目的を問わず、PDF/UAなどのアクセシビリティおよびコンプライアンス基準を満たす必要があります。 PDF/UA(ユニバーサルアクセシビリティ)規格は、PDFが障害のあるユーザー、特にスクリーンリーダーなどの支援技術を使用するユーザーにとって完全にアクセス可能であることを保証します。 これは単なる法令遵守の問題ではなく、アクセシビリティ違反に関連する潜在的な法的問題を回避すると同時に、すべてのユーザーが情報に平等にアクセスできるようにすることを目的としている。

IronOCRのアプローチがこれほどシンプルな理由は?

Chipegoは、 IronOCRが通常の非準拠PDFをわずか数行のコードで完全にPDF/UA準拠のドキュメントに変換する方法を実演しました。

using IronOcr;
using IronPdf;

// Initialize IronOCR
var ocr = new IronTesseract();

// Configure OCR for accessibility compliance
ocr.Configuration.ReadBarCodes = true;
ocr.Configuration.RenderSearchablePdf = true;

// Read the scanned PDF
using var input = new OcrInput();
input.AddPdf("scanned-document.pdf");

// Perform OCR and create searchable PDF/UA compliant document
var result = ocr.Read(input);
result.SaveAsSearchablePdf("compliant-output.pdf");
using IronOcr;
using IronPdf;

// Initialize IronOCR
var ocr = new IronTesseract();

// Configure OCR for accessibility compliance
ocr.Configuration.ReadBarCodes = true;
ocr.Configuration.RenderSearchablePdf = true;

// Read the scanned PDF
using var input = new OcrInput();
input.AddPdf("scanned-document.pdf");

// Perform OCR and create searchable PDF/UA compliant document
var result = ocr.Read(input);
result.SaveAsSearchablePdf("compliant-output.pdf");
$vbLabelText   $csharpLabel

その結果は、アクセシビリティとアーカイブ基準の検証ツールであるVeraPDFを使用して検証されました。 この検証ステップは、監査や規制要件への準拠を証明する必要がある組織にとって非常に重要です。

PDF/UA準拠から最も恩恵を受けるのは誰か?

PDF/UA準拠により、視覚障害のあるユーザーはスクリーンリーダーを使用してドキュメントにアクセスでき、法的要件への準拠とインクルーシブデザインの両方をサポートします。 政府機関、教育機関、医療機関は、厳しいアクセシビリティ要件を課されていることが多いため、特に恩恵を受ける。 さらに、EUで事業を行う企業は欧州アクセシビリティ法を遵守する必要があり、PDF/UAへの準拠は市場参入にとって不可欠となる。

 IronOCRを使用した検索可能な PDF 作成のデモンストレーション(作成前と作成後のドキュメントの比較を表示)

スキャンしたPDFを検索可能にするにはどうすればよいですか?

これはどのような問題を解決するのですか?

スキャンされたドキュメントがPDFのように見えるが、画像のように機能することはありませんでしたか? そこでOCR技術の出番となるのです。 多くの企業は、何千ものスキャンされたPDFファイルを含む旧式の文書アーカイブに苦慮している。これらのファイルはストレージ容量を占有するだけでなく、検索機能やデータ抽出機能も備えていない。 OCRがなければ、従業員は膨大な時間を文書の手動検索に費やすことになり、生産性の低下と運用コストの増加につながる。

変換プロセスはどのように機能するのですか?

Chipegoは、 IronOCRがいかにして検索不可能なスキャン済みPDFを検索可能なPDFに変換し、瞬時に全文検索機能を実現するかを実演した。 そのプロセスには、いくつかの高度な手順が含まれる。

using IronOcr;

// Create a new OCR engine instance
var ocr = new IronTesseract();

// Configure language and accuracy settings
ocr.Language = OcrLanguage.English;
ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;

// Load the scanned PDF
using var input = new OcrInput();
input.AddPdf("invoice-scan.pdf");

// Apply image improve for better accuracy
input.DeNoise();
input.Deskew();
input.EnhanceResolution(225);

// Perform OCR and save as searchable PDF
var result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-invoice.pdf");

// Extract text for indexing
string extractedText = result.Text;
Console.WriteLine($"Extracted {extractedText.Length} characters");
using IronOcr;

// Create a new OCR engine instance
var ocr = new IronTesseract();

// Configure language and accuracy settings
ocr.Language = OcrLanguage.English;
ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;

// Load the scanned PDF
using var input = new OcrInput();
input.AddPdf("invoice-scan.pdf");

// Apply image improve for better accuracy
input.DeNoise();
input.Deskew();
input.EnhanceResolution(225);

// Perform OCR and save as searchable PDF
var result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-invoice.pdf");

// Extract text for indexing
string extractedText = result.Text;
Console.WriteLine($"Extracted {extractedText.Length} characters");
$vbLabelText   $csharpLabel

変換後、ユーザーはCtrl+Fキーを使って特定のコンテンツを検索したり、日付、名前、文書の件名などのキーワードで検索したりできます。 OCRエンジンは、元の文書のレイアウトを巧みに保持しながら、コンテンツを検索および選択可能にする目に見えないテキストレイヤーを追加します。

検索可能なPDFから最も恩恵を受ける業界はどれか?

こんな方に最適です:

  • 訴訟ファイルや契約書を扱う法律事務所
  • 患者記録を管理する医療従事者
  • 紙の記録をデジタル化するチームで、コンテンツの高速検索が必要な場合
  • 請求書処理およびコンプライアンスのための金融機関
  • 不動産会社が物件関連書類をデジタル化

業界の推定によると、大規模な文書リポジトリから特定の情報を迅速に見つけ出す能力は、検索時間を最大90%短縮できる可能性がある。

 IronOCRインターフェースで、変換された PDF 内のテキスト抽出と検索機能を表示

PDFファイルから特定のデータを抽出するにはどうすればよいですか?

ターゲット抽出はどのような場合に使用すべきですか?

領収書、発注書、請求書などの構造化された文書を大量に処理する企業向けに、ChipegoはIronOCRが境界ボックス座標を使用してPDFの特定領域からデータを抽出する方法を実演しました。 この的を絞ったアプローチは、請求書の合計金額、契約書の日付、注文書の顧客IDなど、重要な情報が一定の場所に表示される標準化されたフォームを扱う場合に特に有効です。

地域処理はどのようにパフォーマンスを向上させるのか?

ファイル全体を処理する代わりに、IronOCRは注文件や合計、住所のような関連フィールドにのみ焦点を当てるため、スピードが劇的に向上し、クラウドやコンピューティングコストを削減します。 ターゲット抽出を実装する方法は次のとおりです。

using IronOcr;
using System.Drawing;

var ocr = new IronTesseract();

// Load PDF and define extraction regions
using var input = new OcrInput();
input.AddPdf("purchase-order.pdf", 1); // Process first page only

// Define bounding box for PO number field (x, y, width, height)
var poNumberArea = new Rectangle(450, 100, 150, 50);
input.AddPdfPage("purchase-order.pdf", 1, poNumberArea);

// Extract just the PO number
var result = ocr.Read(input);
string poNumber = result.Text.Trim();

// Define multiple regions for batch extraction
var regions = new Dictionary<string, Rectangle>
{
    { "PONumber", new Rectangle(450, 100, 150, 50) },
    { "TotalAmount", new Rectangle(450, 600, 150, 50) },
    { "VendorName", new Rectangle(50, 200, 300, 50) }
};

// Extract data from each region
var extractedData = new Dictionary<string, string>();
foreach (var region in regions)
{
    input.Clear();
    input.AddPdfPage("purchase-order.pdf", 1, region.Value);
    var regionResult = ocr.Read(input);
    extractedData[region.Key] = regionResult.Text.Trim();
}
using IronOcr;
using System.Drawing;

var ocr = new IronTesseract();

// Load PDF and define extraction regions
using var input = new OcrInput();
input.AddPdf("purchase-order.pdf", 1); // Process first page only

// Define bounding box for PO number field (x, y, width, height)
var poNumberArea = new Rectangle(450, 100, 150, 50);
input.AddPdfPage("purchase-order.pdf", 1, poNumberArea);

// Extract just the PO number
var result = ocr.Read(input);
string poNumber = result.Text.Trim();

// Define multiple regions for batch extraction
var regions = new Dictionary<string, Rectangle>
{
    { "PONumber", new Rectangle(450, 100, 150, 50) },
    { "TotalAmount", new Rectangle(450, 600, 150, 50) },
    { "VendorName", new Rectangle(50, 200, 300, 50) }
};

// Extract data from each region
var extractedData = new Dictionary<string, string>();
foreach (var region in regions)
{
    input.Clear();
    input.AddPdfPage("purchase-order.pdf", 1, region.Value);
    var regionResult = ocr.Read(input);
    extractedData[region.Key] = regionResult.Text.Trim();
}
$vbLabelText   $csharpLabel

このターゲットを絞ったアプローチは、ページ全体を対象としたOCRと比較して処理時間を70~80%短縮できるため、大量の文書を処理するシナリオに最適です。

ビジネス上のメリットは何ですか?

これにより、反復的なデータ入力作業が自動化され、手作業の手間が削減され、精度が向上し、チームはより付加価値の高い業務に専念できるようになります。 企業側は、データ入力だけでも週に20~30時間の時間を節約できていると報告している。 抽出されたデータは、データベースへの自動エクスポート、既存システムとの統合、または自動ワークフローのトリガーとして利用できます。 例えば、抽出された請求書の合計金額は会計システムを自動的に更新でき、抽出された顧客情報は手動操作なしでCRMレコードに入力できます。

IronOCRは大規模な自動化をどのように処理するのか?

IronOCRは複数のファイルを一度に処理できますか?

ウェビナーでは個々のコード例が紹介されましたが、IronOCRは大量処理をスケールで行うために構築されています。 数百個のファイルでも数百万個のファイルでも、 IronOCRは既存のシステムに簡単に統合できます。 このEnterpriseソリューションはマルチスレッド処理と分散処理をサポートしており、組織は1時間に数千件の文書を処理できます。 バッチ処理の例を以下に示します。

using IronOcr;
using System.IO;
using System.Threading.Tasks;

public async Task ProcessDocumentBatch(string folderPath)
{
    var ocr = new IronTesseract();
    ocr.Configuration.RenderSearchablePdf = true;

    // Get all PDF files in directory
    var pdfFiles = Directory.GetFiles(folderPath, "*.pdf");

    // Process files in parallel for maximum efficiency
    await Parallel.ForEachAsync(pdfFiles, async (file, ct) =>
    {
        using var input = new OcrInput();
        input.AddPdf(file);

        var result = await Task.Run(() => ocr.Read(input));

        // Save searchable version
        var outputPath = Path.Combine(folderPath, "searchable", Path.GetFileName(file));
        result.SaveAsSearchablePdf(outputPath);

        // Log processing results
        Console.WriteLine($"Processed: {file} - {result.Pages.Length} pages");
    });
}
using IronOcr;
using System.IO;
using System.Threading.Tasks;

public async Task ProcessDocumentBatch(string folderPath)
{
    var ocr = new IronTesseract();
    ocr.Configuration.RenderSearchablePdf = true;

    // Get all PDF files in directory
    var pdfFiles = Directory.GetFiles(folderPath, "*.pdf");

    // Process files in parallel for maximum efficiency
    await Parallel.ForEachAsync(pdfFiles, async (file, ct) =>
    {
        using var input = new OcrInput();
        input.AddPdf(file);

        var result = await Task.Run(() => ocr.Read(input));

        // Save searchable version
        var outputPath = Path.Combine(folderPath, "searchable", Path.GetFileName(file));
        result.SaveAsSearchablePdf(outputPath);

        // Log processing results
        Console.WriteLine($"Processed: {file} - {result.Pages.Length} pages");
    });
}
$vbLabelText   $csharpLabel

どのようなサポート オプションが利用可能ですか?

お困りですか? Iron Softwareは、チャットとメールによる24時間年中無休(平日)のテクニカルサポートを提供し、迅速なシステム導入を支援します。 彼らのサポートチームにはOCRの専門家がおり、扱いが難しい文書の種類、複数の言語、複雑な統合要件など、お客様固有のユースケースの改善を支援できます。 Plus、充実したドキュメントとコード例が用意されているため、開発者は独自にソリューションを実装できます。

PDFを検索可能にし、法令遵守させ、自動化に対応させる準備はできていますか?

IronOCRは、文書処理における手作業によるボトルネックを、自動化されたワークフローへと変革します。 125以上の言語に対応し、高度な画像前処理機能とスムーズなPDF処理機能を備えた、現代の文書管理のための完全なソリューションです。 コンプライアンスの確保、検索機能の有効化、重要なデータの抽出など、どのような目的であっても、 IronOCRは開発者にとって使いやすい実装でProfessionalOCR機能を提供します。

IronOCRの完全なドキュメントを確認して、今すぐ始めましょう。

30日の試用版をお試しください

よくある質問

スキャンされたPDFを検索可能なドキュメントに変換するにはどうすればよいですか?

IronOCRを使用して、検索不可能なスキャンされたPDFを完全に検索可能なドキュメントに変換できます。OCR技術を適用することにより、キーワードやフレーズを使用して特定のコンテンツを見つけることが可能になります。

PDFをPDF/UA基準に準拠させることによるメリットは何ですか?

PDFをPDF/UA基準に準拠させることにより、視覚障害のあるユーザーがスクリーンリーダーを通じてアクセスできるようになります。IronOCRは、数行のコードだけで非準拠なPDFをPDF/UA準拠のドキュメントに変換でき、VeraPDFのようなツールで確認されます。

IronOCRはPDFからのターゲットデータ抽出をどのようにサポートしますか?

IronOCRは、バウンディングボックス座標を使用してPDFの特定の領域からデータを抽出できます。この機能は、請求書や領収書のような構造化されたドキュメントに特に有用で、関連フィールドに焦点を当て、処理効率を向上させます。

IronOCRの役割は文書処理タスクの自動化にどのように貢献しますか?

IronOCRは大規模なバッチ処理用に設計されており、文書変換タスクの自動化に最適です。大量のファイルを効率的に処理でき、既存のシステムにシームレスに統合されてワークフローを合理化します。

スキャンされたPDFを検索可能な形式に変換することから恩恵を受けるのは誰ですか?

法律事務所や医療機関などの組織は、スキャンされたPDFを検索可能な形式に変換することから恩恵を受けます。これにより、広範なアーカイブを素早くコンテンツベースで検索でき、情報検索が簡単になります。

IronOCRを実装するユーザーに提供されるサポートオプションは何ですか?

Iron Softwareは、IronOCRを実装するユーザーを支援するためにチャットとメールによる24時間5日の技術サポートを提供します。このサポートにより、ユーザーは文書変換プロジェクトを効果的に管理し、技術的な問題を解決できます。

文書変換プロジェクトを成功させるためにはどうすればよいですか?

成功を確実にするために、IronOCRの強力な機能を利用し、Iron Softwareが提供する技術サポートを活用してください。公式ウェブサイトで完全なドキュメントにアクセスし、30日間の試用版を利用してその機能を探ってみてください。

Kannaopat Udonpant
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、Kannapatは北海道大学で環境資源の博士号を修了しました。博士号を追求する間に、彼はバイオプロダクションエンジニアリング学科の一部である車両ロボティクスラボラトリーのメンバーになりました。2022年には、C#のスキルを活用してIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。Kannapatは、IronPDFの多くのコードを執筆している開発者から直接学んでいるため、この仕事を大切にしています。同僚から学びながら、Iron Softwareでの働く社会的側面も楽しんでいます。コードやドキュメントを書いていない時は、KannapatはPS5でゲームをしたり、『The Last of Us』を再視聴したりしていることが多いです。

アイアンサポートチーム

私たちは週5日、24時間オンラインで対応しています。
チャット
メール
電話してね