Dokümandaki Tabloyu Okuma

VB C#

using IronOcr;
using System.Linq;

// Instantiate OCR engine
var ocr = new IronTesseract();

using var input = new OcrInput();
input.LoadPdf("table.pdf");

// Perform OCR
var result = ocr.ReadDocumentAdvanced(input);

var cellList = result.Tables.First().CellInfos;

Imports IronOcr
Imports System.Linq

' Instantiate OCR engine
Private ocr = New IronTesseract()

Private input = New OcrInput()
input.LoadPdf("table.pdf")

' Perform OCR
Dim result = ocr.ReadDocumentAdvanced(input)

Dim cellList = result.Tables.First().CellInfos

Install-Package IronOcr

Dokümandaki Tabloyu Okuma

Bu kod örneği, bir PDF belgesinden metin ve tablo verilerini çıkarmak için IronTesseract OCR motorunun nasıl kullanılacağını göstermektedir.

IronTesseract OCR motorunun bir örneği oluşturulur.
Bir OcrInput nesnesi başlatılır ve bir PDF dosyası (table.pdf) LoadPdf yöntemi kullanılarak yüklenir.
OCR motoru, belgeleri ReadDocumentAdvanced yöntemi ile işler ve daha ayrıntılı bir OcrResult nesnesi döndürür.
Belgedeki bulunan ilk tabloya result.Tables.First() kullanılarak erişilir ve o tabloya ait hücre bilgileri CellInfos ile çıkarılır.
Hücre verilerinin listesi (cellList) şimdi tablonun hücrelerini, metin içeriği ve diğer detayları (ör., hücre konumu, boyutu) içermektedir.
Bu yöntem, her tablo hücresindeki metnin programlı olarak erişilip işlenmesine olanak tanıyan yapılandırılmış verileri, örneğin tabloları PDF'lerden çıkarmak için yararlıdır.