푸터 콘텐츠로 바로가기
OCR 도구

PDF 파일에서 OCR 처리 방법 (무료 온라인 도구 활용)

OCR, 또는 광학 문자 인식은 텍스트 정보를 디지털 형식으로 변환하는 과정입니다. PDF OCR은 비즈니스 프로세스를 개선하기 위해 사용할 수 있는 인기 있는 애플리케이션입니다. PDF OCR의 이점 중 하나는 정보 접근성을 향상시킬 수 있다는 것입니다. 문서가 모두 사용할 수 있는 형식으로 제공되지 않을 때 특히 중요합니다. PDF OCR은 모든 사람이 사용할 수 있는 형식으로 문서 사본을 생성하는 데 사용할 수 있습니다.

PDF OCR의 또 다른 용도는 문서 추적에 있습니다. 문서가 제출되거나 스캔되거나 전사될 때, 어떤 문서 버전이 어떤 파일과 연결되어 있는지를 추적하기 어려울 수 있습니다. PDF OCR을 사용하면 문서에 가해진 변경 사항을 추적하고 어떤 버전이 어떤 파일과 연결되어 있는지를 결정할 수 있습니다. 이는 문서 아카이브를 관리하고 중요한 정보의 손실을 방지하는 데 유용할 수 있습니다.

이 기사에서는 Adobe Acrobat Pro 소프트웨어를 사용하여 모든 PDF 파일에 OCR을 사용하는 방법을 배웁니다. 이 기사에서는 가장 효율적이고 기능이 풍부한 라이브러리 중 하나인 .NET OCR 라이브러리 IronOCR를 소개합니다. Adobe Acrobat Pro로 시작해봅시다.

Adobe Acrobat Pro DC를 사용하여 PDF에 OCR 적용

How to OCR a PDF - Figure 1

Adobe Acrobat Pro DC는 Adobe Acrobat Reader DC의 Pro 버전입니다. PDF 조작을 위한 가장 인기 있고 강력한 도구입니다. 이 소프트웨어를 사용하면 모든 PDF 문서를 생성, 편집, 서명 및 검토할 수 있습니다. 또한 PDF를 PowerPoint 프레젠테이션, Word 문서 또는 Excel 파일로 변환할 수 있습니다. 스캔된 문서를 편집할 수도 있습니다.

Acrobat DC의 새로운 버전은 스캔된 문서를 OCR 기술을 사용하여 디지털 파일로 빠르게 변환할 수 있는 문서 스캐너이기도 합니다. 광학 문자 인식은 물론 자동으로 카드의 연락처 정보를 감지하고 몇 초 만에 저장하는 지능형 명함 스캐닝이 특징입니다.

PDF 파일에서 텍스트를 추출할 수 있는 것과 함께, Acrobat Pro DC는 PDF 전사 도구로서 많은 기능을 제공하여 가치 있는 도구가 됩니다.

Adobe Acrobat Pro를 사용하여 스캔된 문서의 OCR을 사용하는 방법을 보겠습니다.

  • 원하는 PDF 문서를 엽니다. 예시로 스캔된 PDF 파일을 사용합니다.
  • 문서의 오른쪽 창에서 "PDF 편집"을 선택합니다.
How to OCR a PDF - Figure 2

  • 이렇게 하면 Adobe Reader OCR PDF 도구 인터페이스가 열립니다.
  • 상단 리본에서 "편집" 버튼을 클릭합니다.
  • 이렇게 하면 스캔된 PDF 문서가 완전히 편집 가능한 PDF 문서로 변환됩니다. PDF 파일 자체에서 텍스트 및 이미지 파일을 편집할 수 있습니다.
How to OCR a PDF - Figure 3

  • 텍스트 블록 위치, 텍스트 폰트 등을 변경할 수도 있습니다.

변경 사항을 저장하면 문서에 이러한 변경 사항이 반영됩니다.

IronOCR: .NET OCR 라이브러리

How to OCR a PDF - Figure 4

IronOCR는 .NET OCR 라이브러리이자 OCR 도구로서, 텍스트 문서와 이미지를 기계가 읽을 수 있는 형식으로 변환하여 읽을 수 있습니다.

이 광학 문자 인식 라이브러리는 다음과 같은 고려 사항을 염두에 두고 개발되었습니다:

  • 외부 소프트웨어가 필요 없이 다양한 언어로 사용할 수 있는 강력하고 정확한 OCR 엔진에 대한 필요성.
  • Windows, Linux, macOS와 같은 다양한 플랫폼에서 작동하는 사용하기 쉬운 API에 대한 필요성.
  • 다양한 .NET 애플리케이션에 쉽게 통합할 수 있으며 WPF 및 콘솔 앱을 모두 지원하는 OCR 엔진의 필요성.

IronOCR는 개발자가 문서를 스캔하고, 텍스트 및 메타데이터를 추출하며, 스캔된 이미지 파일을 인덱싱하고, 이미지를 검색 가능한 PDF로 변환하거나 스캔된 문서를 읽을 수 있는 텍스트로 변환하는 소프트웨어를 더 쉽게 만들 수 있도록 합니다. IronOCR는 인코딩, 이미지 형식 변환, 텍스트 인식 및 추출에 있어 다양한 옵션을 제공합니다. IronOCR은 125개 언어를 지원합니다.

IronOCR는 스캔된 문서, 사진, 스크린샷에서 텍스트를 인식하고 시간 소모가 많은 페이지 분할 및 레이아웃 분석과 같은 작업을 줄이면서 직관적이고 견고하고 정확한 OCR 프로세스를 제공합니다. 이 라이브러리는 C#로 개발되었으며 API 디자인은 읽기 쉽게 설계되었습니다.

IronOCR를 사용한 몇 가지 코드 예시를 탐색해봅시다:

예제 코드

using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively, OCR selected page numbers
    Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");

    // Read the PDF and output the recognized text
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively, OCR selected page numbers
    Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");

    // Read the PDF and output the recognized text
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
$vbLabelText   $csharpLabel

이 예시는 IronOCR를 사용하여 전체 PDF 문서 또는 문서의 특정 페이지를 처리하는 방법을 보여줍니다.

PDF 파일 (입력)

How to OCR a PDF - Figure 5

콘솔의 출력

How to OCR a PDF - Figure 6

IronOCR를 사용하여 PDF를 선택 가능한 PDF로 변환할 수 있습니다. 매우 간단하고 직관적입니다. 아래의 PDF 변환 코드 스니펫을 참조하세요:

using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // Add PDF for processing
    Input.AddPdf("scan.pdf", "password");

    // Clean up twisted pages to improve OCR results
    Input.Deskew();

    // Run OCR and save as a searchable PDF
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // Add PDF for processing
    Input.AddPdf("scan.pdf", "password");

    // Clean up twisted pages to improve OCR results
    Input.Deskew();

    // Run OCR and save as a searchable PDF
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
$vbLabelText   $csharpLabel

IronOCR는 많은 다른 도구와 기능을 제공합니다. 다음 링크를 방문하여 IronOCR 기능을 탐색할 수 있습니다.

결론

IronOCR 라이브러리는 시장에 나와 있는 다른 라이브러리보다 여러 장점을 가지고 있습니다. 몇 줄의 코드만으로 자체 모듈을 추가하여 기능을 수정하고 확장할 수 있습니다. IronOCR는 현재 125개 이상의 언어로 텍스트를 읽을 수 있습니다. 다른 라이브러리에 비해 시간 및 메모리 자원을 훨씬 적게 소비하면서 더 높은 품질과 신뢰할 수 있는 결과를 생성하도록 개발되었습니다.

IronOCR 개발에 무료로 사용할 수 있습니다. IronOCR는 프로덕션에서 테스트할 수 있도록 무료 체험판도 제공합니다. IronOCR의 가격 및 무료 체험판에 대한 자세한 정보는 링크를 참조하세요.

How to OCR a PDF - Figure 7

칸나오팟 우돈판트
소프트웨어 엔지니어
카나팟은 소프트웨어 엔지니어가 되기 전 일본 홋카이도 대학교에서 환경 자원학 박사 학위를 취득했습니다. 학위 과정 중에는 생물생산공학과 소속 차량 로봇 연구실에서 활동하기도 했습니다. 2022년에는 C# 기술을 활용하여 Iron Software의 엔지니어링 팀에 합류했고, 현재 IronPDF 개발에 집중하고 있습니다. 카나팟은 IronPDF에 사용되는 대부분의 코드를 직접 작성하는 개발자로부터 배울 수 있다는 점에 만족하며, 동료들과의 소통을 통해 배우는 것 외에도 Iron Software에서 일하는 즐거움을 누리고 있습니다. 코딩이나 문서 작업을 하지 않을 때는 주로 PS5로 게임을 하거나 The Last of Us를 다시 시청하는 것을 즐깁니다.

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me