C#에서 스캔한 문서를 읽는 방법 | IronOCR

IronOCR을 사용하여 C#에서 스캔한 문서를 읽는 방법

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR은 C# 개발자가 OCR 기술을 사용하여 스캔한 PDF 및 이미지에서 텍스트를 추출하고, 단 몇 줄의 코드로 검색 불가능한 이미지 기반 문서를 검색 가능하고 접근성 있는 콘텐츠로 변환할 수 있도록 지원합니다.

많은 PDF 파일에는 검색이 불가능한 이미지 기반 텍스트가 포함되어 있습니다. IronOCR은 이를 검색 가능한 콘텐츠로 변환하여 특정 정보를 더 쉽게 찾을 수 있도록 하고, 특히 시각 장애가 있는 사람들을 위해 문서 접근성을 향상시킵니다.

텍스트와 이미지를 수동으로 복사하거나 다시 만드는 대신, 자동 추출 기능을 사용하면 정확성과 효율성을 보장할 수 있습니다. 이는 특히 연구, 법률 문서 및 콘텐츠 제작과 같이 PDF의 특정 부분을 재사용하는 경우가 흔한 경우에 유용합니다.

기업은 PDF에서 핵심 데이터를 추출하여 분석 또는 시스템 통합에 활용함으로써 워크플로우를 간소화할 수 있습니다. 디자이너와 마케터는 이미지를 추출하여 다양한 프로젝트에서 개선 및 재사용할 수도 있습니다.

이 튜토리얼에서는 OcrPdfInput 메서드를 탐구하고, 사용 가능한 옵션과 매개변수를 다루어 IronOCR가 다양한 애플리케이션에서 PDF 텍스트 및 이미지 추출을 어떻게 간소화하는지 보여줍니다.

이 함수를 사용하려면 IronOcr.Extensions.AdvancedScan 패키지도 설치해야 합니다.

빠른 시작: 스캔한 PDF 또는 이미지에서 텍스트 추출

몇 초 만에 시작하세요—한 줄의 코드로 IronOCR의 OcrInput.LoadPdf 또는 LoadImage를 사용하여 스캔한 PDF 또는 이미지를 로드하고 ReadDocument를 통해 즉시 텍스트를 추출할 수 있습니다. OCR 기능을 빠르게 구현하려는 개발자에게 적합합니다.

  1. NuGet 패키지 관리자를 사용하여 https://www.nuget.org/packages/IronOcr 설치하기

    PM > Install-Package IronOcr
  2. 다음 코드 조각을 복사하여 실행하세요.

    var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text;
  3. 실제 운영 환경에서 테스트할 수 있도록 배포하세요.

    무료 체험판으로 오늘 프로젝트에서 IronOCR 사용 시작하기

    arrow pointer

스캔한 문서에서 텍스트를 추출하는 방법은 무엇인가요?

문서 내 모든 이미지에서 텍스트를 추출하려면 ReadDocument 메서드를 사용하세요. 이 메서드는 문서를 처리하고 추출된 텍스트를 포함하는 객체를 반환하며, 이는 Text 속성을 통해 접근할 수 있습니다. 아래 예시는 샘플 TIFF 파일을 사용하여 이 방법을 사용하는 방법을 보여줍니다.

IronOCR은 다양한 문서 형식을 지원하여 스캔이 가능합니다. 이미지의 경우 JPG, PNG, GIF, TIFF 및 BMP 형식을 사용할 수 있으며, PDF는 단일 페이지 및 여러 페이지 문서를 모두 지원합니다. 이 라이브러리는 최첨단 Tesseract 5 기술을 사용하여 지원되는 모든 형식에서 높은 정확도를 보장합니다.

참고해 주세요

  • 현재 이 방법은 영어, 중국어, 일본어, 한국어 및 라틴 알파벳에만 적용됩니다.
  • .NET Framework에서 고급 검사를 사용하려면 프로젝트가 x64 아키텍처에서 실행되어야 합니다.
    )}]

입력 문서는 어떤 형태인가요?

해리포터 책의 챕터 8 '일발의 파티'를 보여주는 페이지와 10월의 호그와트를 설명하는 본문 텍스트

OCR 코드를 어떻게 구현하나요?

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");

// Perform OCR
OcrResult result = ocr.ReadDocument(input);

Console.WriteLine(result.Text);
$vbLabelText   $csharpLabel

OCR 처리 후 어떤 결과를 기대할 수 있나요?

Visual Studio 디버그 창이 스캔된 문서 예시에서 OCR로 처리된 해리포터 텍스트 출력을 표시함

대신 PDF 파일에 OCR을 수행하려면 LoadImage 메서드를 LoadPdf로 간단히 교체하세요. 이를 통해 IronOCR은 스캔한 PDF 파일에서 텍스트를 동일한 방식으로 처리하고 추출할 수 있습니다.

고급 문서 처리 옵션

스캔한 문서를 다룰 때는 OCR 프로세스를 더 세밀하게 제어해야 하는 경우가 많습니다. IronOCR은 텍스트 추출 결과를 향상시키는 여러 고급 기능을 제공합니다.

여러 페이지로 구성된 문서 처리

여러 페이지로 구성된 문서의 경우, IronOCR은 일괄 처리를 효율적으로 수행합니다.

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");

// Process all pages
OcrResult result = ocr.ReadDocument(input);

// Access individual page results
foreach (var page in result.Pages)
{
    Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");

// Process all pages
OcrResult result = ocr.ReadDocument(input);

// Access individual page results
foreach (var page in result.Pages)
{
    Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}
$vbLabelText   $csharpLabel

OCR 성능 최적화

스캔한 문서의 품질은 OCR 정확도에 직접적인 영향을 미칩니다. IronOCR에는 텍스트 인식을 향상시키기 위한 이미지 최적화 필터가 내장되어 있습니다.

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew();  // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white

OcrResult result = ocr.ReadDocument(input);
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew();  // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white

OcrResult result = ocr.ReadDocument(input);
$vbLabelText   $csharpLabel

검색 가능한 PDF 만들기

스캔한 문서를 처리할 때 가장 유용한 기능 중 하나는 검색 가능한 PDF를 생성 할 수 있다는 점입니다. 이렇게 하면 원본 문서의 모양을 유지하면서 텍스트 레이어를 추가할 수 있습니다.

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
$vbLabelText   $csharpLabel

다양한 문서 유형 작업하기

IronOCR은 비즈니스 환경에서 흔히 접하는 다양한 문서 유형을 처리하는 데 탁월합니다. 청구서, 계약서 또는 과거 문서 등 어떤 자료를 다루든, 이 라이브러리는 다양한 출처에서 데이터를 추출하기 위한 특수 기능을 제공합니다.

기존 문서 처리

많은 조직들이 예전 형식의 스캔 문서들을 보관하고 있습니다. IronOCR은 문서 관리 시스템에서 흔히 사용되는 여러 페이지로 구성된 TIFF 파일을 포함하여 이러한 파일 형식을 효율적으로 처리합니다.

언어 지원

이 예시는 영어 텍스트에 초점을 맞추고 있지만, IronOCR은 125개 이상의 국제 언어를 지원합니다. 이러한 특징 덕분에 다국어 문서나 영어가 아닌 다른 언어로 작성된 문서를 처리하는 데 이상적입니다.

문서 스캔을 위한 모범 사례

스캔한 문서를 처리할 때 최적의 결과를 얻으려면 다음 사항을 고려하십시오.

  1. 스캔 품질 : 최상의 결과를 얻으려면 최소 300 DPI 해상도를 사용하십시오.
  2. 파일 형식 : TIFF 및 PNG 형식은 텍스트 문서의 경우 JPEG보다 화질을 더 잘 유지합니다.
  3. 전처리 : 문서 상태에 따라 적절한 필터를 적용합니다.
  4. 성능 : 대량 처리의 경우 멀티스레딩 기능을 활용하는 것을 고려해 보세요.

일반적인 문제 해결

스캔한 문서를 다룰 때 여러 가지 어려움에 직면할 수 있습니다. 다음은 흔히 발생하는 문제에 대한 해결책입니다.

  • 스캔 품질이 낮은 경우 : OCR 처리 전에 향상 필터를 적용하세요.
  • 왜곡된 문서: 올바른 방향을 수정하기 위해 Deskew() 메서드를 사용하세요
  • 혼합 콘텐츠 : 문서에 텍스트와 비텍스트 요소가 모두 포함된 경우 특정 영역만 처리합니다.

더 자세한 안내를 원하시면 종합적인 C# OCR 튜토리얼을 살펴보시거나, 간단한 OCR 예제를 확인하여 빠르게 시작해 보세요.

다음 단계

스캔한 문서에서 텍스트를 추출하는 방법을 이해했으니 이제 PDF 파일을 검색 가능하게 만들 거나 웹 애플리케이션용 PDF 스트림을 처리하는 등의 고급 기능을 살펴볼 수 있습니다. IronOCR의 유연성은 간단한 문서 디지털화부터 복잡한 기업 문서 처리 워크플로에 이르기까지 모든 용도에 적합합니다.

자주 묻는 질문

C#에서 스캔한 PDF 파일에서 텍스트를 추출하는 방법은 무엇인가요?

IronOCR을 사용하면 C#에서 스캔한 PDF에서 텍스트를 간단하게 추출할 수 있습니다. LoadPdf 메서드를 사용하여 스캔한 PDF를 불러온 다음, ReadDocument 메서드를 호출하여 텍스트를 추출합니다. 예를 들어 다음과 같습니다. var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text; 이 한 줄의 코드는 PDF를 불러오고 모든 텍스트 내용을 추출합니다.

OCR 라이브러리는 텍스트 추출을 위해 어떤 파일 형식을 지원합니까?

IronOCR은 OCR 스캔을 위한 다양한 문서 형식을 지원합니다. 이미지의 경우 JPG, PNG, GIF, TIFF, BMP 형식을 지원하며, PDF의 경우 단일 페이지 및 여러 페이지로 구성된 문서를 모두 처리합니다. 이 라이브러리는 최첨단 Tesseract 5 기술을 사용하여 지원되는 모든 형식에서 높은 정확도를 보장합니다.

OCR 기능을 사용하려면 추가 패키지를 설치해야 하나요?

네, IronOCR의 모든 OCR 기능을 사용하려면 IronOCR 메인 라이브러리 외에 IronOcr.Extensions.AdvancedScan 패키지를 설치해야 합니다. 이 확장 패키지는 스캔한 문서를 처리하는 향상된 스캔 기능을 제공합니다.

스캔한 이미지와 PDF 파일에서도 텍스트를 추출할 수 있나요?

네, IronOCR은 스캔한 이미지와 PDF 파일을 모두 문제없이 처리합니다. 이미지 파일(JPG, PNG, GIF, TIFF, BMP)에는 LoadImage 메서드를, PDF 문서에는 LoadPdf 메서드를 사용하세요. ReadDocument 메서드는 두 가지 입력 유형 모두에서 텍스트 내용을 추출합니다.

OCR은 검색이 불가능한 PDF 문서를 처리하는 데 어떻게 도움이 되나요?

IronOCR은 OCR 기술을 사용하여 텍스트를 추출함으로써 검색이 불가능한 이미지 기반 PDF 파일을 검색 가능한 콘텐츠로 변환합니다. 이러한 변환을 통해 문서 내에서 특정 정보를 더 쉽게 찾을 수 있으며, 특히 시각 장애가 있는 사용자를 위해 문서 접근성을 크게 향상시킵니다.

OCR 텍스트 추출의 주요 비즈니스 응용 분야는 무엇입니까?

IronOCR은 기업이 PDF에서 핵심 데이터를 추출하여 분석 및 시스템 통합에 활용하고 워크플로우를 간소화할 수 있도록 지원합니다. 특히 법률 문서, 연구 논문 처리 및 데이터 입력 자동화에 유용합니다. 디자이너와 마케터는 이미지를 추출하여 다양한 프로젝트에서 활용하고 디자인을 개선할 수도 있습니다.

커티스 차우
기술 문서 작성자

커티스 차우는 칼턴 대학교에서 컴퓨터 과학 학사 학위를 취득했으며, Node.js, TypeScript, JavaScript, React를 전문으로 하는 프론트엔드 개발자입니다. 직관적이고 미적으로 뛰어난 사용자 인터페이스를 만드는 데 열정을 가진 그는 최신 프레임워크를 활용하고, 잘 구성되고 시각적으로 매력적인 매뉴얼을 제작하는 것을 즐깁니다.

커티스는 개발 분야 외에도 사물 인터넷(IoT)에 깊은 관심을 가지고 있으며, 하드웨어와 소프트웨어를 통합하는 혁신적인 방법을 연구합니다. 여가 시간에는 게임을 즐기거나 디스코드 봇을 만들면서 기술에 대한 애정과 창의성을 결합합니다.

시작할 준비 되셨나요?
Nuget 다운로드 5,525,971 | 버전: 2026.3 방금 출시되었습니다
Still Scrolling Icon

아직도 스크롤하고 계신가요?

빠른 증거를 원하시나요? PM > Install-Package IronOcr
샘플을 실행하세요 이미지가 검색 가능한 텍스트로 바뀌는 것을 확인해 보세요.