ドキュメント内のテーブルを読み取る
このコード例は、IronTesseract OCR エンジンを使用して PDF ドキュメントからテキストおよびテーブルデータを抽出する方法を示しています。
IronTesseract OCR エンジンのインスタンスが作成されます。
OcrInputオブジェクトが初期化され、LoadPdfメソッドを使用してPDFファイル("table.pdf")が読み込まれます。
OCRエンジンは、ReadDocumentAdvancedメソッドを使用してドキュメントを処理し、より詳細なOcrResultオブジェクトを返します。
ドキュメント内で見つかった最初のテーブルは result.Tables.First() を使用してアクセスされ、そのテーブルのセル情報は CellInfos で抽出されます。
セルデータのリスト(cellList)には、テキストコンテンツやその他の詳細(例:セルの位置、サイズ)を含むテーブルのセルが含まれています。
このメソッドは、PDFからテーブルのような構造化データを抽出するのに便利で、各テーブルセル内のテキストにプログラムでアクセスして処理することができます。