ドキュメント内のテーブルを読む

このコード例は、IronTesseract OCR エンジンを使用して、PDF ドキュメントからテキストや表のデータを抽出する方法を示しています。

  1. IronTesseract OCR エンジンのインスタンスが作成されます。
  2. OcrInput オブジェクトが初期化され、table.pdf メソッドを使用して PDF ファイル (LoadPdf) が読み込まれます。
  3. OCRエンジンは、OcrResultオブジェクトを返します。
  4. ドキュメント内の最初のテーブルには result.Tables.First() を使用してアクセスし、そのテーブルのセル情報は CellInfos で抽出されます。
  5. セルデータの一覧 (cellList) には、テキストコンテンツやその他の詳細(例:セルの位置、サイズ)を含む、テーブルのセルが格納されるようになりました。
  6. この方法は、PDF から表などの構造化データを抽出し、各表セル内のテキストにプログラムでアクセスして処理するのに便利です。

IronOCR を使用して PDF 内の表を読み取る方法を説明します。

準備はできましたか?
Nuget ダウンロード 5,896,332 | バージョン: 2026.5 just released
Still Scrolling Icon

まだスクロールしていますか?

すぐに証拠が欲しいですか? PM > Install-Package IronOcr
サンプルを実行 あなたの画像が検索可能なテキストになるのをご覧ください。