ドキュメント内のテーブルを読む
このコード例は、IronTesseract OCR エンジンを使用して、PDF ドキュメントからテキストや表のデータを抽出する方法を示しています。
IronTesseractOCR エンジンのインスタンスが作成されます。OcrInputオブジェクトが初期化され、table.pdfメソッドを使用して PDF ファイル (LoadPdf) が読み込まれます。- OCRエンジンは、
OcrResultオブジェクトを返します。 - ドキュメント内の最初のテーブルには
result.Tables.First()を使用してアクセスし、そのテーブルのセル情報はCellInfosで抽出されます。 - セルデータの一覧 (
cellList) には、テキストコンテンツやその他の詳細(例:セルの位置、サイズ)を含む、テーブルのセルが格納されるようになりました。 - この方法は、PDF から表などの構造化データを抽出し、各表セル内のテキストにプログラムでアクセスして処理するのに便利です。
準備はできましたか?
Nuget ダウンロード 5,896,332 | バージョン: 2026.5 just released

