ドキュメント内のテーブルを読み取る
このコード例は、IronTesseract OCR エンジンを使用して PDF ドキュメントからテキストおよびテーブルデータを抽出する方法を示しています。
IronTesseract OCR エンジンのインスタンスが作成されます。
OcrInputオブジェクトが初期化され、PDFファイル(table.pdf)LoadPdfメソッドを使用してロードされます。
OCRエンジンは、ReadDocumentAdvancedメソッドを使用してドキュメントを処理し、より詳細なOcrResultオブジェクトを返します。
ドキュメント内で最初に見つかるテーブルは、result.Tables.Firstを使用してアクセスされます。()、そのテーブルのセル情報はCellInfosを使用して抽出されます。
セルデータのリスト(セルリスト)現在、テーブルのセルが含まれており、テキストの内容やその他の詳細も含まれています。(例えば、セルの位置、サイズ).
このメソッドは、PDFからテーブルのような構造化データを抽出するのに便利で、各テーブルセル内のテキストにプログラムでアクセスして処理することができます。