문서의 표를 읽으세요

이 코드 예제는 IronTesseract OCR 엔진을 사용하여 PDF 문서에서 텍스트 및 표 데이터를 추출하는 방법을 보여줍니다.

  1. IronTesseract OCR 엔진의 인스턴스가 생성됩니다.
  2. OcrInput 객체가 초기화되고 LoadPdf 메서드를 사용하여 PDF 파일("table.pdf")이 로드됩니다.
  3. OCR 엔진은 ReadDocumentAdvanced 메서드를 사용하여 문서를 처리하며, 이 메서드는 더 자세한 OcrResult 객체를 반환합니다.
  4. 문서에서 발견된 첫 번째 테이블은 result.Tables.First()를 사용하여 접근하고, 해당 테이블의 셀 정보는 CellInfos를 사용하여 추출합니다.
  5. 셀 데이터 목록(cellList)에는 이제 텍스트 내용 및 기타 세부 정보(예: 셀 위치, 크기)를 포함하여 테이블의 셀이 포함됩니다.
  6. 이 방법은 PDF에서 표와 같은 구조화된 데이터를 추출하는 데 유용하며, 각 표 셀 내의 텍스트에 프로그래밍 방식으로 접근하고 처리할 수 있습니다.

IronOCR 사용하여 PDF 파일의 표를 읽는 방법을 알아보세요.

시작할 준비 되셨나요?
Nuget 다운로드 5,525,971 | 버전: 2026.3 방금 출시되었습니다
Still Scrolling Icon

아직도 스크롤하고 계신가요?

빠른 증거를 원하시나요? PM > Install-Package IronOcr
샘플을 실행하세요 이미지가 검색 가능한 텍스트로 바뀌는 것을 확인해 보세요.