ドキュメント内のテーブルを読む

このコード例では、IronTesseract OCRエンジンを使用して、PDF文書からテキストと表のデータを抽出する方法を示します。

1.IronTesseractOCRエンジンのインスタンスが作成されます。

  1. OcrInputオブジェクトが初期化され、 LoadPdfメソッドを使用して PDF ファイル ("table.pdf") が読み込まれます。
  2. OCR エンジンはReadDocumentAdvancedメソッドを使用してドキュメントを処理し、より詳細なOcrResultオブジェクトを返します。
  3. ドキュメント内で見つかった最初のテーブルはresult.Tables.First()を使用してアクセスされ、そのテーブルのセルの情報はCellInfosを使用して抽出されます。
  4. セル データのリスト ( cellList ) には、テキスト コンテンツやその他の詳細 (セルの位置、サイズなど) を含むテーブルのセルが含まれるようになりました。
  5. この方法は、PDF から表などの構造化データを抽出し、各表セル内のテキストにプログラムでアクセスして処理するのに便利です。

IronOCR を使用して PDF 内の表を読み取る方法を説明します。

準備はできましたか?
Nuget ダウンロード 5,246,844 | バージョン: 2025.12 リリース