ドキュメント内のテーブルを読む

このコード例では、IronTesseract OCRエンジンを使用してPDFドキュメントからテキストと表データを抽出する方法を示します。

1.IronTesseract OCRエンジンのインスタンスを作成します。 2.OcrInputオブジェクトが初期化され、LoadPdfメソッドを使用してPDFファイル("table.pdf")がロードされます。 3.OCRエンジンは、ReadDocumentAdvancedメソッドを使用してドキュメントを処理し、より詳細なOcrResultオブジェクトを返します。 4.ドキュメント内で最初に見つかったテーブルは、result.Tables.First()を使ってアクセスされ、そのテーブルのセル情報はCellInfosを使って抽出されます。 5.セルデータのリスト(cellList)は、テキストの内容やその他の詳細(セルの位置、サイズなど)を含むテーブルのセルを含むようになりました。 6.この方法は、PDFから表のような構造化データを抽出するのに便利で、各表セル内のテキストにプログラムでアクセスして処理することができます。

IronOCRでPDFの表を読む方法を探る

準備はいいですか?
Nuget ダウンロード 5,044,537 | バージョン: 2025.11 ただ今リリースされました