ドキュメント内のテーブルを読む
このコード例では、IronTesseract OCRエンジンを使用して、PDF文書からテキストと表のデータを抽出する方法を示します。
1.IronTesseractOCRエンジンのインスタンスが作成されます。
OcrInputオブジェクトが初期化され、LoadPdfメソッドを使用して PDF ファイル ("table.pdf") が読み込まれます。- OCR エンジンは
ReadDocumentAdvancedメソッドを使用してドキュメントを処理し、より詳細なOcrResultオブジェクトを返します。 - ドキュメント内で見つかった最初のテーブルは
result.Tables.First()を使用してアクセスされ、そのテーブルのセルの情報はCellInfosを使用して抽出されます。 - セル データのリスト (
cellList) には、テキスト コンテンツやその他の詳細 (セルの位置、サイズなど) を含むテーブルのセルが含まれるようになりました。 - この方法は、PDF から表などの構造化データを抽出し、各表セル内のテキストにプログラムでアクセスして処理するのに便利です。
準備はできましたか?
Nuget ダウンロード 5,246,844 | バージョン: 2025.12 リリース





