C#에서 스캔한 문서를 읽는 방법 | IronOCR

IronOCR을 사용하여 C#에서 스캔한 문서를 읽는 방법

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR은 C# 개발자가 OCR 기술을 사용하여 스캔한 PDF 및 이미지에서 텍스트를 추출하고, 단 몇 줄의 코드로 검색 불가능한 이미지 기반 문서를 검색 가능하고 접근성 있는 콘텐츠로 변환할 수 있도록 지원합니다.

많은 PDF 파일에는 검색이 불가능한 이미지 기반 텍스트가 포함되어 있습니다. IronOCR은 이를 검색 가능한 콘텐츠로 변환하여 특정 정보를 더 쉽게 찾을 수 있도록 하고, 특히 시각 장애가 있는 사람들을 위해 문서 접근성을 향상시킵니다.

텍스트와 이미지를 수동으로 복사하거나 다시 만드는 대신, 자동 추출 기능을 사용하면 정확성과 효율성을 보장할 수 있습니다. 이는 특히 연구, 법률 문서 및 콘텐츠 제작과 같이 PDF의 특정 부분을 재사용하는 경우가 흔한 경우에 유용합니다.

기업은 PDF에서 핵심 데이터를 추출하여 분석 또는 시스템 통합에 활용함으로써 워크플로우를 간소화할 수 있습니다. 디자이너와 마케터는 이미지를 추출하여 다양한 프로젝트에서 개선 및 재사용할 수도 있습니다.

이 튜토리얼에서는 OcrPdfInput 메서드를 살펴보고, 사용 가능한 옵션과 매개변수를 다루며 IronOCR이 다양한 애플리케이션에서 PDF 텍스트 및 이미지 추출을 어떻게 간소화하는지 보여드리겠습니다.

이 기능을 사용하려면 IronOcr.Extensions.AdvancedScan 패키지도 설치해야 합니다.

빠른 시작: 스캔한 PDF 또는 이미지에서 텍스트 추출

단 몇 초 만에 시작하세요. 한 줄의 코드만으로 IronOCR의 OcrInput.LoadPdf 또는 LoadImage을 사용하여 스캔한 PDF나 이미지를 불러온 다음, ReadDocument을 통해 즉시 텍스트를 추출할 수 있습니다. OCR 기능을 빠르게 구현하려는 개발자에게 적합합니다.

  1. NuGet 패키지 관리자를 사용하여 https://www.nuget.org/packages/IronOcr 설치하기

    PM > Install-Package IronOcr
  2. 다음 코드 조각을 복사하여 실행하세요.

    var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text;
  3. 실제 운영 환경에서 테스트할 수 있도록 배포하세요.

    무료 체험판으로 오늘 프로젝트에서 IronOCR 사용 시작하기

    arrow pointer

스캔한 문서에서 텍스트를 추출하는 방법은 무엇인가요?

문서 내의 모든 이미지에서 텍스트를 추출하려면 ReadDocument 메서드를 사용하십시오. 이 메서드는 문서를 처리하여 추출된 텍스트를 포함하는 객체를 반환하며, 이 객체는 Text 속성을 통해 액세스할 수 있습니다. 아래 예시는 샘플 TIFF 파일을 사용하여 이 방법을 사용하는 방법을 보여줍니다.

IronOCR은 다양한 문서 형식을 지원하여 스캔이 가능합니다. 이미지의 경우 JPG, PNG, GIF, TIFF 및 BMP 형식을 사용할 수 있으며, PDF는 단일 페이지 및 여러 페이지 문서를 모두 지원합니다. 이 라이브러리는 최첨단 Tesseract 5 기술을 사용하여 지원되는 모든 형식에서 높은 정확도를 보장합니다.

참고해 주세요

  • 해당 메서드는 현재 영어, 중국어, 일본어, 한국어 및 라틴 알파벳에서만 작동합니다.
  • .NET Framework에서 고급 검사를 사용하려면 프로젝트가 x64 아키텍처에서 실행되어야 합니다. )}]

입력 문서는 어떤 형태인가요?

해리 포터 책의 8장 '죽음의 날 파티' 페이지로, 10월의 호그와트에 대한 서술문이 실려 있음

OCR 코드를 어떻게 구현하나요?

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");

// Perform OCR
OcrResult result = ocr.ReadDocument(input);

Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate OCR engine
Private ocr = New IronTesseract()

' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")

' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)

Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

OCR 처리 후 어떤 결과를 기대할 수 있나요?

스캔된 문서 예시에서 OCR 처리된 해리 포터 텍스트 출력을 표시하는 Visual Studio 디버그 창

대신 PDF 파일에 대해 OCR을 수행해야 하는 경우, LoadImage 메서드를 LoadPdf로 교체하기만 하면 됩니다. 이를 통해 IronOCR은 스캔한 PDF 파일에서 텍스트를 동일한 방식으로 처리하고 추출할 수 있습니다.

고급 문서 처리 옵션

스캔한 문서를 다룰 때는 OCR 프로세스를 더 세밀하게 제어해야 하는 경우가 많습니다. IronOCR은 텍스트 추출 결과를 향상시키는 여러 고급 기능을 제공합니다.

여러 페이지로 구성된 문서 처리

여러 페이지로 구성된 문서의 경우, IronOCR은 일괄 처리를 효율적으로 수행합니다.

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");

// Process all pages
OcrResult result = ocr.ReadDocument(input);

// Access individual page results
foreach (var page in result.Pages)
{
    Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");

// Process all pages
OcrResult result = ocr.ReadDocument(input);

// Access individual page results
foreach (var page in result.Pages)
{
    Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}
Imports IronOcr

Dim ocr As New IronTesseract()
Using input As New OcrInput()

    ' Load a multi-page PDF
    input.LoadPdf("multi-page-document.pdf")

    ' Process all pages
    Dim result As OcrResult = ocr.ReadDocument(input)

    ' Access individual page results
    For Each page In result.Pages
        Console.WriteLine($"Page {page.PageNumber}: {page.Text}")
    Next

End Using
$vbLabelText   $csharpLabel

OCR 성능 최적화

스캔한 문서의 품질은 OCR 정확도에 직접적인 영향을 미칩니다. IronOCR에는 텍스트 인식을 향상시키기 위한 이미지 최적화 필터가 내장되어 있습니다.

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew();  // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white

OcrResult result = ocr.ReadDocument(input);
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew();  // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white

OcrResult result = ocr.ReadDocument(input);
Imports IronOcr

Dim ocr As New IronTesseract()
Using input As New OcrInput()
    ' Load and enhance image quality
    input.LoadImage("low-quality-scan.jpg")
    input.Deskew()  ' Correct image skew
    input.DeNoise() ' Remove background noise
    input.Binarize() ' Convert to black and white

    Dim result As OcrResult = ocr.ReadDocument(input)
End Using
$vbLabelText   $csharpLabel

검색 가능한 PDF 만들기

스캔한 문서를 처리할 때 가장 유용한 기능 중 하나는 검색 가능한 PDF를 생성 할 수 있다는 점입니다. 이렇게 하면 원본 문서의 모양을 유지하면서 텍스트 레이어를 추가할 수 있습니다.

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
Imports IronOcr

Dim ocr As New IronTesseract()
Using input As New OcrInput()
    input.LoadPdf("scanned-document.pdf")

    ' Process and save as searchable PDF
    Dim result As OcrResult = ocr.ReadDocument(input)
    result.SaveAsSearchablePdf("searchable-output.pdf")
End Using
$vbLabelText   $csharpLabel

다양한 문서 유형 작업하기

IronOCR은 비즈니스 환경에서 흔히 접하는 다양한 문서 유형을 처리하는 데 탁월합니다. 청구서, 계약서 또는 과거 문서 등 어떤 자료를 다루든, 이 라이브러리는 다양한 출처에서 데이터를 추출하기 위한 특수 기능을 제공합니다.

기존 문서 처리

많은 조직들이 예전 형식의 스캔 문서들을 보관하고 있습니다. IronOCR은 문서 관리 시스템에서 흔히 사용되는 여러 페이지로 구성된 TIFF 파일을 포함하여 이러한 파일 형식을 효율적으로 처리합니다.

언어 지원

이 예시는 영어 텍스트에 초점을 맞추고 있지만, IronOCR은 125개 이상의 국제 언어를 지원합니다. 이러한 특징 덕분에 다국어 문서나 영어가 아닌 다른 언어로 작성된 문서를 처리하는 데 이상적입니다.

문서 스캔을 위한 모범 사례

스캔한 문서를 처리할 때 최적의 결과를 얻으려면 다음 사항을 고려하십시오.

  1. 스캔 품질: 최상의 결과를 위해 최소 300 DPI 해상도를 사용하세요
  2. 파일 형식: TIFF 및 PNG 형식은 텍스트 문서에 대한 품질을 JPEG보다 더 잘 보존합니다
  3. 전처리: 문서 상태에 따라 적절한 필터를 적용하세요
  4. 성능 : 대량 처리의 경우 멀티스레딩 기능을 활용하는 것을 고려해 보세요.

일반적인 문제 해결

스캔한 문서를 다룰 때 여러 가지 어려움에 직면할 수 있습니다. 다음은 흔히 발생하는 문제에 대한 해결책입니다.

  • 품질이 낮은 스캔본: OCR 처리 전에 향상 필터를 적용하세요
  • 기울어진 문서: Deskew() 메서드를 사용하여 방향을 수정하십시오
  • 혼합된 콘텐츠: 문서에 텍스트 및 비텍스트 요소가 모두 포함된 경우 특정 영역을 처리하세요

더 자세한 안내를 원하시면 종합적인 C# OCR 튜토리얼을 살펴보시거나, 간단한 OCR 예제를 확인하여 빠르게 시작해 보세요.

다음 단계

스캔한 문서에서 텍스트를 추출하는 방법을 이해했으니 이제 PDF 파일을 검색 가능하게 만들 거나 웹 애플리케이션용 PDF 스트림을 처리하는 등의 고급 기능을 살펴볼 수 있습니다. IronOCR의 유연성은 간단한 문서 디지털화부터 복잡한 기업 문서 처리 워크플로에 이르기까지 모든 용도에 적합합니다.

자주 묻는 질문

C#에서 스캔한 PDF 파일에서 텍스트를 추출하는 방법은 무엇인가요?

IronOCR을 사용하면 C#에서 스캔한 PDF에서 텍스트를 간단하게 추출할 수 있습니다. LoadPdf 메서드를 사용하여 스캔한 PDF를 불러온 다음, ReadDocument 메서드를 호출하여 텍스트를 추출합니다. 예를 들어 다음과 같습니다. var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text; 이 한 줄의 코드는 PDF를 불러오고 모든 텍스트 내용을 추출합니다.

OCR 라이브러리는 텍스트 추출을 위해 어떤 파일 형식을 지원합니까?

IronOCR은 OCR 스캔을 위한 다양한 문서 형식을 지원합니다. 이미지의 경우 JPG, PNG, GIF, TIFF, BMP 형식을 지원하며, PDF의 경우 단일 페이지 및 여러 페이지로 구성된 문서를 모두 처리합니다. 이 라이브러리는 최첨단 Tesseract 5 기술을 사용하여 지원되는 모든 형식에서 높은 정확도를 보장합니다.

OCR 기능을 사용하려면 추가 패키지를 설치해야 하나요?

네, IronOCR의 모든 OCR 기능을 사용하려면 IronOCR 메인 라이브러리 외에 IronOcr.Extensions.AdvancedScan 패키지를 설치해야 합니다. 이 확장 패키지는 스캔한 문서를 처리하는 향상된 스캔 기능을 제공합니다.

스캔한 이미지와 PDF 파일에서도 텍스트를 추출할 수 있나요?

네, IronOCR은 스캔한 이미지와 PDF 파일을 모두 문제없이 처리합니다. 이미지 파일(JPG, PNG, GIF, TIFF, BMP)에는 LoadImage 메서드를, PDF 문서에는 LoadPdf 메서드를 사용하세요. ReadDocument 메서드는 두 가지 입력 유형 모두에서 텍스트 내용을 추출합니다.

OCR은 검색이 불가능한 PDF 문서를 처리하는 데 어떻게 도움이 되나요?

IronOCR은 OCR 기술을 사용하여 텍스트를 추출함으로써 검색이 불가능한 이미지 기반 PDF 파일을 검색 가능한 콘텐츠로 변환합니다. 이러한 변환을 통해 문서 내에서 특정 정보를 더 쉽게 찾을 수 있으며, 특히 시각 장애가 있는 사용자를 위해 문서 접근성을 크게 향상시킵니다.

OCR 텍스트 추출의 주요 비즈니스 응용 분야는 무엇입니까?

IronOCR은 기업이 PDF에서 핵심 데이터를 추출하여 분석 및 시스템 통합에 활용하고 워크플로우를 간소화할 수 있도록 지원합니다. 특히 법률 문서, 연구 논문 처리 및 데이터 입력 자동화에 유용합니다. 디자이너와 마케터는 이미지를 추출하여 다양한 프로젝트에서 활용하고 디자인을 개선할 수도 있습니다.

IronOCR을 기존 애플리케이션에 통합할 수 있습니까?

IronOCR은 C#을 사용하여 쉽게 기존 애플리케이션에 통합되도록 설계되어 있어 개발자가 최소한의 노력으로 소프트웨어에 OCR 기능을 추가할 수 있습니다.

문서 관리에 IronOCR을 사용하는 이점은 무엇입니까?

IronOCR을 문서 관리를 위해 사용하면 스캔된 문서를 검색 및 편집 가능한 텍스트로 변환하여 수동 데이터 입력의 필요성을 줄이고 문서 접근성을 향상시킵니다.

IronOCR이 데이터 정확성을 어떻게 향상시킬 수 있습니까?

IronOCR은 고급 인식 알고리즘과 이미지 보정 기능을 통해 데이터 정확성을 향상시켜 텍스트 추출 프로세스를 신뢰할 수 있고 정확하게 보장합니다.

IronOCR의 무료 체험판이 있나요?

네, Iron Software는 IronOCR의 무료 체험판을 제공하여 사용자가 구매 결정을 내리기 전에 기능과 성능을 테스트해볼 수 있습니다.

커티스 차우
기술 문서 작성자

커티스 차우는 칼턴 대학교에서 컴퓨터 과학 학사 학위를 취득했으며, Node.js, TypeScript, JavaScript, React를 전문으로 하는 프론트엔드 개발자입니다. 직관적이고 미적으로 뛰어난 사용자 인터페이스를 만드는 데 열정을 가진 그는 최신 프레임워크를 활용하고, 잘 구성되고 시각적으로 매력적인 매뉴얼을 제작하는 것을 즐깁니다.

커티스는 개발 분야 외에도 사물 인터넷(IoT)에 깊은 관심을 가지고 있으며, 하드웨어와 소프트웨어를 통합하는 혁신적인 방법을 연구합니다. 여가 시간에는 게임을 즐기거나 디스코드 봇을 만들면서 기술에 대한 애정과 창의성을 결합합니다.

시작할 준비 되셨나요?
Nuget 다운로드 5,896,332 | 버전: 2026.5 just released
Still Scrolling Icon

아직도 스크롤하고 계신가요?

빠른 증거를 원하시나요? PM > Install-Package IronOcr
샘플을 실행하세요 이미지가 검색 가능한 텍스트로 바뀌는 것을 확인해 보세요.