ドキュメント内のテーブルを読む

VB C#

using IronOcr;
using System.Linq;

// Instantiate OCR engine
var ocr = new IronTesseract();

using var input = new OcrInput();
input.LoadPdf("table.pdf");

// Perform OCR
var result = ocr.ReadDocumentAdvanced(input);

var cellList = result.Tables.First().CellInfos;

Imports IronOcr
Imports System.Linq

' Instantiate OCR engine
Private ocr = New IronTesseract()

Private input = New OcrInput()
input.LoadPdf("table.pdf")

' Perform OCR
Dim result = ocr.ReadDocumentAdvanced(input)

Dim cellList = result.Tables.First().CellInfos

Install-Package IronOcr

ドキュメント内のテーブルを読む

このコード例は、IronTesseract OCR エンジンを使用して、PDF ドキュメントからテキストや表のデータを抽出する方法を示しています。

IronTesseract OCR エンジンのインスタンスが作成されます。
OcrInput オブジェクトが初期化され、table.pdf メソッドを使用して PDF ファイル (LoadPdf) が読み込まれます。
OCRエンジンは、OcrResultオブジェクトを返します。
ドキュメント内の最初のテーブルには result.Tables.First() を使用してアクセスし、そのテーブルのセル情報は CellInfos で抽出されます。
セルデータの一覧 (cellList) には、テキストコンテンツやその他の詳細（例：セルの位置、サイズ）を含む、テーブルのセルが格納されるようになりました。
この方法は、PDF から表などの構造化データを抽出し、各表セル内のテキストにプログラムでアクセスして処理するのに便利です。