푸터 콘텐츠로 바로가기
OCR 도구

PDF에서 OCR 추출 (무료 온라인 도구)

광학 문자 인식, 또는 OCR은 이미지에서 텍스트를 인식하는 데 사용되는 기술입니다. 이 기술은 인쇄된 텍스트나 이미지 파일을 스캔하여 컴퓨터에서 인식하도록 만들어졌습니다. 이는 오늘날 이메일이나 책과 같은 많은 것들이 디지털화되어 있기 때문입니다. 그러나 OCR 기술은 다양한 폰트의 텍스트를 인식할 수 있는 전문 알고리즘을 사용하여 더 정교하게 발전했습니다. 이는 노이즈나 JPEG 압축과 같은 일반적인 왜곡에 의해 손상된 경우에도 가능합니다. OCR은 또한 98%의 정확도로 종이에 적힌 손글씨를 읽을 수 있습니다.

OCR을 사용하여 스캔된 텍스트는 이후 편집, 인덱싱, 검색, 출력 및 보관할 수 있습니다. OCR 소프트웨어는 의료, 제약, 보험 및 법률 산업에서 널리 사용됩니다. 이는 종이 문서를 디지털 문서로 변환하여 더 쉽게 재사용하고 다른 사람과 공유할 수 있도록 도와줍니다.

다양한 도구를 사용하여 PDF 파일의 OCR을 수행하는 방법을 살펴보겠습니다.

Adobe Acrobat Pro

Adobe는 원래 PDF를 개발한 회사입니다. 그들은 던져진 어떤 PDF 문서라도 편집할 수 있는 빠르고 효율적인 OCR 엔진을 제공합니다. 이는 시장에서 가장 강력한 OCR 엔진 중 하나이며, 편집해야 할 PDF가 많다면 Adobe Acrobat DC를 구매해야 합니다. 이 소프트웨어는 어느 텍스트 기반 문서라도 높은 정확도로 PDF 형식으로 변환할 수 있도록 설계되었습니다. 또한 Custom Font 생성기를 사용하여 원본 문서의 폰트를 보존합니다.

Adobe Acrobat을 사용하여 PDF의 OCR을 수행하는 방법을 살펴보겠습니다:

  • Adobe Acrobat Pro DC에서 파일을 엽니다.
  • 오른쪽 창에서 "PDF 편집" 옵션을 클릭합니다.

    OCR From PDF Free Online Tools - Figure 1

  • 이 기능은 OCR 기능을 사용하여 PDF 파일을 편집 가능한 PDF로 변환합니다.
  • 이제 문서 내 모든 텍스트를 쉽게 편집하고 이미지 파일을 변경할 수 있습니다.

    OCR From PDF Free Online Tools - Figure 2

  • "파일 > 다른 이름으로 저장"을 선택하여 파일을 저장하고 새 PDF 문서에 적절한 이름을 지정합니다.

한 번에 여러 스캔된 PDF 문서의 OCR을 쉽게 수행할 수 있습니다.

Sejda

Sejda는 클라우드에서 호스트되거나 macOS, Windows, 또는 Linux에 데스크톱 응용 프로그램으로 다운로드할 수 있는 OCR 지원 PDF 편집 소프트웨어입니다. Sejda는 사용자가 PDF 파일을 압축, 편집, 디지털 서명, 병합 및 작성할 수 있게 합니다. JPEG 및 Excel과 같은 다양한 형식의 파일을 예로 들어 PDF 파일로 변환할 수 있습니다. PDF는 유사하게 워드 및 파워포인트 문서와 같은 다른 형식으로 변환할 수 있습니다. Sejda OCR을 사용하여 PDF 문서의 OCR을 수행하는 방법을 살펴보겠습니다.

  • Open Sejda OCR website.
  • "PDF 파일 업로드" 버튼을 클릭하여 파일을 업로드하거나 컴퓨터에서 파일을 끌어 놓습니다.
  • 업로드 후 업로드된 파일 이름이 표시됩니다. 문서의 언어를 선택하세요.

    OCR From PDF Free Online Tools - Figure 3

  • 언어를 선택한 후 출력 형식을 선택해야 합니다. "PDF" 또는 "텍스트"를 선택할 수 있습니다. 출력 형식을 설정한 후 "모든 페이지에서 텍스트 인식" 버튼을 클릭합니다. 텍스트 추출이 시작됩니다.

    OCR From PDF Free Online Tools - Figure 4

  • 프로세스가 완료되면 추출된 텍스트를 다운로드할 수 있습니다.

    OCR From PDF Free Online Tools - Figure 5

SodaPDF

SodaPDF OCR은 이미지를 통해 텍스트를 추출할 수 있는 무료 온라인 OCR 소프트웨어입니다. 이는 스캔된 문서, 팩스, 다른 인쇄물을 편집 가능한 텍스트, PDF 및 검색 가능한 PDF로 변환하는 PDF OCR 변환 도구입니다. SodaPDF OCR의 가장 일반적인 사용 사례는 스캔된 문서 또는 팩스를 편집 가능한 파일로 변환하는 것입니다. 이는 무료 온라인 OCR 소프트웨어입니다. 업로드된 모든 문서는 특정 시간이 지나면 서버에서 자동으로 삭제됩니다. 이는 PDF를 Word로 변환하여 Microsoft Word에서 열 수 있는 기능 등 다양한 기능을 제공합니다.

SodaPDF를 사용하여 PDF에서 OCR을 수행하는 방법을 살펴보겠습니다:

  • Open the SodaPDF website.
  • '파일 선택' 버튼을 클릭하고 업로드할 원하는 PDF 문서를 선택하세요.
  • 업로드한 후, PDF 텍스트와 이미지를 편집할 수 있는 사용자 인터페이스를 제공합니다. 다운로드 버튼을 사용하여 파일을 다운로드할 수 있습니다.

    OCR From PDF Free Online Tools - Figure 6

IronOCR: .NET OCR 라이브러리

IronOCR은 .NET Framework에서의 OCR을 위한 강력한 라이브러리입니다. 텍스트와 이미지를 다룰 수 있는 강력한 API를 제공하며, 실시간 인식, 필드 감지, 스캔한 PDF 파일의 광학 문자 인식 기능을 제공합니다. IronPDF는 스캔한 문서를 편집할 수도 있습니다.

IronOCR은 개발자들에게 응용 프로그램에서 텍스트 인식의 기능을 제공합니다. 스캔한 문서를 디지털 형식으로 변환하거나 이미지에 있는 캡션을 인식하는 등의 다양한 목적에 사용할 수 있습니다. The IronOCR .NET Library는 IronOCR SDK에 대한 사용이 간편한 저수준 인터페이스를 제공합니다. 그 위에 저해상도 이미지를 자동으로 처리하고 PDF 문서에서 텍스트를 추출하는 이미지 처리 파이프라인이 포함되어 있습니다.

OCR 도구를 사용하여 PDF 파일의 OCR을 어떻게 수행할 수 있는지 알아봅시다:

전체 PDF 파일의 OCR

다음 코드는 전체 PDF 문서에 대한 OCR을 수행할 수 있습니다.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the entire PDF document for OCR processing
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the entire PDF document for OCR processing
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
$vbLabelText   $csharpLabel

선택된 PDF 페이지의 OCR

선택한 PDF 페이지에 대해 AddPdfPages 기능을 사용하여 OCR을 수행할 수 있습니다.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add specific pages of the PDF document for OCR processing
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add specific pages of the PDF document for OCR processing
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
$vbLabelText   $csharpLabel

PDF를 검색 가능한 PDF로 변환

IronOCR을 사용하여 SaveAsSearchablePdf 기능을 사용해 PDF 파일을 검색 가능한 PDF 파일로 변환할 수 있습니다.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the PDF for processing and specify the password if any
    Input.AddPdf("scan.pdf", "password");

    // Correct twisted or skewed pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    // Save the processed result as a searchable PDF
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the PDF for processing and specify the password if any
    Input.AddPdf("scan.pdf", "password");

    // Correct twisted or skewed pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    // Save the processed result as a searchable PDF
    Result.SaveAsSearchablePdf("searchable.pdf");
}
$vbLabelText   $csharpLabel

결론

광학 문자 인식을 수행하기 위한 몇 가지 뛰어난 소프트웨어 도구를 탐색했습니다. 이 도구들은 텍스트를 인식하고 검색 및 편집 가능한 PDF를 프로그래밍 방식으로 생성할 수 있게 해줍니다.

.NET Framework로 작성하는 경우에는 IronOCR을 추천드립니다. IronOCR은 .NET Framework에서 쉽게 OCR을 수행할 수 있도록 해줍니다; 강력하여 원본 문서가 손상되거나 왜곡되었을 때, 예를 들어 물 손상 등의 경우에도 쉽게 사용할 수 있습니다.

또 다른 사용 사례는 송장 및 판매 영수증과 같은 손으로 작성된 오래된 종이 양식을 디지털 버전으로 변환하는 것입니다. 이를 통해 이러한 문서가 회계 소프트웨어에 의해 자동으로 처리되어 정확성과 효율성이 향상됩니다.

칸나오팟 우돈판트
소프트웨어 엔지니어
카나팟은 소프트웨어 엔지니어가 되기 전 일본 홋카이도 대학교에서 환경 자원학 박사 학위를 취득했습니다. 학위 과정 중에는 생물생산공학과 소속 차량 로봇 연구실에서 활동하기도 했습니다. 2022년에는 C# 기술을 활용하여 Iron Software의 엔지니어링 팀에 합류했고, 현재 IronPDF 개발에 집중하고 있습니다. 카나팟은 IronPDF에 사용되는 대부분의 코드를 직접 작성하는 개발자로부터 배울 수 있다는 점에 만족하며, 동료들과의 소통을 통해 배우는 것 외에도 Iron Software에서 일하는 즐거움을 누리고 있습니다. 코딩이나 문서 작업을 하지 않을 때는 주로 PS5로 게임을 하거나 The Last of Us를 다시 시청하는 것을 즐깁니다.

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me