푸터 콘텐츠로 바로가기
OCR 도구

Mac용 최고의 OCR 도구 [무료 온라인 도구]

1.0 서론

현대 디지털 환경에서 스캔 문서의 사용은 OCR(광학 문자 인식) 기술 덕분에 혁신적인 변화를 겪고 있습니다. 이 기술은 컴퓨터가 스캔된 PDF 문서를 비롯한 다양한 소스의 텍스트를 인식하고 추출할 수 있게 하여 PDF 문서를 빠르게 편집하고 상호 작용할 수 있게 합니다. 광학 문자 인식(OCR) 소프트웨어인 Adobe Acrobat과 같은 도구를 사용하여 스캔 문서에서 텍스트를 빠르고 간단하게 추출하고 이를 편집 가능한 PDF 또는 검색 가능한 이미지 기반 PDF로 변환할 수 있습니다.

개발자는 Tesseract 및 IronOCR과 같은 OCR 라이브러리가 제공하는 강력한 도구 및 API를 기계 학습 기법과 결합하여 광학 문자 인식 기술을 완전히 활용할 수 있도록 하는 최첨단 알고리즘을 활용할 수 있습니다. 이러한 라이브러리는 정확한 텍스트 인식을 가능하게 하여 새로 생성된 문서와 이미 스캔된 문서 모두에서 유용한 데이터를 좀 더 쉽게 조직하고 추출할 수 있게 합니다. OCR을 통해 스캔 문서 및 페이지 이미지를 최대한 활용하여 원활한 콘텐츠 분석을 가능하게 하고, 개인 및 비즈니스 생산성 최적화를 지원합니다. OCR 스캔은 이미지를 검색 가능한 PDF로 변환하여 OCR이 현대 기술에서 필수 도구가 되게 합니다. 종이 기반 기록을 디지털화하고, 송장에서 데이터를 추출하며, 문서 접근성을 향상시키는 데 사용됩니다.

2.0 OCR 도구

이 기사에서는 Mac 사용자를 위한 최고의 OCR 소프트웨어 도구 몇 가지를 논의할 것입니다. 그 목록에는 다음이 포함됩니다:

  1. Adobe Acrobat Pro DC
  2. ABBYY FineReader PDF
  3. Readiris 17
  4. IronOCR

2.1 Adobe Acrobat Pro DC

2023년 맥용 OCR 소프트웨어 중 최고의 선택은 Adobe Acrobat Pro이며, 이는 원본 문서 스캔 OCR 프로그램입니다. Adobe Acrobat Pro는 PDF 문서의 생성 및 편집을 용이하게 하며 PDF 파일을 편집 가능하거나 검색 가능한 형식으로 변환하는 유일한 맥용 프로그램입니다. PDF 형식은 처음에는 Adobe에 의해 개발되었습니다. 현재 시장에 PDF 작업을 처리할 수 있는 많은 제품들이 있지만, Adobe Acrobat Pro DC는 여전히 매우 강력합니다. Adobe Acrobat Pro DC를 온라인에서 액세스할 수 있는 Adobe Document Cloud가 제공됨에도 불구하고, 맥 데스크톱 클라이언트는 뛰어난 특징을 가지고 있습니다. 특히, Adobe Acrobat은 최신 M1 및 M2 맥과 호환되는 유일한 OCR 프로그램으로, 그 매력을 더욱 높여줍니다.

  1. 시작하려면, Acrobat을 실행하고 PDF 파일을 엽니다.
  2. 오른쪽 창에서 'PDF 편집' 도구를 선택합니다. Acrobat은 자동으로 광학 문자 인식(OCR) 스캔을 수행한 직후에 문서를 완전히 편집 가능한 PDF 사본으로 즉시 변환합니다.

Best OCR For Mac, Figure 1 - A PDF with Page 1 opened in Adobe Acrobat.

요소를 편집하려면 클릭하십시오. 추가하는 텍스트는 원본 글꼴의 스타일과 일치할 것입니다. 새로 변경된 문서를 저장하려면 파일 > 다른 이름으로 저장을 선택하십시오.

Adobe Acrobat DC 설치에 대한 자세한 내용은 Adobe Acrobat 웹사이트를 참조하십시오.

2.2 ABBYY FineReader PDF For Mac

맥용 ABBYY FineReader PDF OCR 소프트웨어는 거의 20년 동안 사용 가능했으며, 그 기간 대부분은 ABBYY FineReader Pro로 브랜드화되었습니다. ABBYY는 macOS Big Sur의 출시와 함께 FineReader 제품 라인을 업데이트하여 FineReader PDF를 도입했습니다. 불행히도, 이는 인텔 맥에서만 본래 작동합니다. ABBYY FineReader PDF for Mac은 M1 및 M2 맥과 호환되지만, 인텔 프로세서를 위해 설계된 소프트웨어를 Apple Silicon 칩에서 실행할 수 있도록 변환하는 macOS의 프로그램인 Rosetta로만 사용 가능합니다. M1/M2 칩과 본래 호환되는 FineReader PDF의 맥 버전은 없습니다. 그럼에도 불구하고 맥과 PC 모두에서의 최고의 데스크톱 OCR 프로그램 중 하나는 ABBYY FineReader PDF입니다.

원본 문서의 품질이 정확성에 영향을 미치지만, FineReader PDF의 OCR 텍스트 인식 능력은 매우 뛰어나며 시장에서 확실히 가장 우수합니다. 스캔된 문서의 원본 형식, 즉 텍스트 크기, 글꼴 스타일, 사진, 표 및 레이아웃은 유지됩니다. 또한 텍스트를 빠르고 정확하게 인식하는 점에서도 뛰어납니다. 아래는 OCR을 수행하는 단계입니다:

  1. ABBYY FineReader PDF를 실행합니다.
  2. PDF를 열고 검색 가능한 PDF로 변환할 수 있는 '검색 가능한 PDF' 옵션을 선택합니다. 변환된 PDF 파일도 저장할 수 있습니다.

Mac용 최고의 OCR, 그림 2 - ABBYY FineReader 소스 대화 상자.

ABBYY FineReader에 대한 자세한 내용을 보려면 웹사이트를 방문하세요.

2.3 Readiris 17

Mac 사용자는 OCR 솔루션으로 ReadIris 17을 사용할 수 있습니다. 주로 윈도우에서 사용되기는 하지만, ReadIris는 Mac 사용자를 위해 OCR 기능을 갖춘 PDF 리더 및 편집자를 개발했습니다.

ReadIris 17을 통해 사용자는 쉽게 PDF를 병합, 분할, 보호 및 서명할 수 있습니다. 오프라인 Mac OCR 소프트웨어는 PDF 파일을 Word, Excel, 검색 가능한 PDF 또는 PowerPoint로 변환하면서 문서 형식을 유지합니다. 그러나 프리미엄 버전은 한 번에 스캔할 수 있는 페이지 수에 제한을 둡니다.

Best OCR For Mac, Figure 3 - A PDF In ReadIris 17 with the text Hello world!.

소프트웨어에 이미지를 입력하고 거기서 텍스트를 추출하려고 시도했습니다. 또한 화면에 보이는 요소를 캡처했습니다. 일부 후처리가 필요할 수 있습니다.

자세한 내용은 Iris 웹사이트를 참조하십시오.

2.4 IronOCR

IronOCR는 표준 Tesseract 라이브러리에 비해 Tesseract를 개선하며, 향상된 정확성, 성능, 안정성을 제공하는 네이티브 C# OCR 라이브러리를 제공합니다. 이를 통해 .NET 도구 및 웹사이트를 사용하여 PDF 및 이미지에서 텍스트를 추출할 수 있습니다. 다양한 외국어를 지원하며, IronOCR는 일반 텍스트 또는 구조화된 데이터를 출력할 수 있습니다. 바코드 및 텍스트가 포함된 이미지를 읽을 수 있습니다. Dot NET 콘솔, 웹, MVC, 데스크톱에서 개발한 애플리케이션은 Iron Software OCR 라이브러리를 활용할 수 있습니다. 개발팀은 상용 배포에 직접 지원을 제공합니다. IronOCR는 최신 Visual Studio 버전과 호환됩니다.

IronOCR의 이점

  1. 최신 Tesseract 5 엔진을 활용하여 IronOCR은 다양한 이미지 또는 PDF 파일에서 종이 문서, 바코드 및 QR 코드를 스캔할 수 있습니다. 이 패키지는 데스크톱, 콘솔 및 웹 애플리케이션에 OCR 통합을 단순화합니다.
  2. IronOCR의 도움으로 스캔된 PDF를 검색 가능한 PDF로 변환하는 OCR을 수행할 수 있습니다.
  3. IronOCR은 전 세계에서 125개 이상의 다양한 언어를 지원하며, 사용자 지정 언어 및 단어 목록도 추가적으로 지원합니다.
  4. 이 소프트웨어는 20가지 이상의 서로 다른 바코드 및 QR 코드를 읽을 수 있습니다.
  5. IronOCR은 바코드 데이터와 일반 텍스트 출력 두 가지를 제공합니다. 개발자는 대체 구조화된 데이터 객체 패러다임을 통해 시스템에 직접 입력할 수 있는 모든 콘텐츠에 액세스할 수 있습니다. 여기에는 온라인 애플리케이션 내에서 논리적으로 조직된 제목, 단락, 선, 단어 및 문자가 포함됩니다.

자세한 내용은 IronOCR 웹사이트를 참조하세요.

IronOCR를 사용한 OCR 처리

강력한 OCR 라이브러리인 IronOCR은 PDF 문서의 변환 및 데이터 액세스를 가능하게 합니다. 이것은 데이터를 프라이버시를 침해하지 않고 효율적으로 분석하고 처리할 수 있도록 기계 판독 가능한 텍스트로 변환합니다. 다음은 IronOCR이 OCR을 사용하여 이미지에서 텍스트를 추출하는 방법에 대한 예입니다:

// Instantiate IronTesseract object to use IronOCR capabilities
var Ocr = new IronTesseract();

// Specify the language to use for OCR
Ocr.Language = OcrLanguage.EnglishBest;

// Define the Tesseract version to use
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

// Use an OcrInput object to add images for OCR processing
using (OcrInput ocrInput = new OcrInput("Demo.gif"))
{
    // Perform OCR and obtain the result containing extracted text
    OcrResult ocrResult = Ocr.Read(ocrInput);

    // Print the extracted text to the console
    Console.WriteLine(ocrResult.Text);
}
// Instantiate IronTesseract object to use IronOCR capabilities
var Ocr = new IronTesseract();

// Specify the language to use for OCR
Ocr.Language = OcrLanguage.EnglishBest;

// Define the Tesseract version to use
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

// Use an OcrInput object to add images for OCR processing
using (OcrInput ocrInput = new OcrInput("Demo.gif"))
{
    // Perform OCR and obtain the result containing extracted text
    OcrResult ocrResult = Ocr.Read(ocrInput);

    // Print the extracted text to the console
    Console.WriteLine(ocrResult.Text);
}
$vbLabelText   $csharpLabel

제공된 코드 스니펫에서 IronTesseract은/는 OCR 기능을 향상시킵니다. OcrInput 객체는 텍스트 추출을 위해 이미지를 추가하는 간단한 인터페이스를 만듭니다. 지정된 이미지 경로는 OCR 프로세스를 초기화하는 데 사용되며 IronOCR은/는 이미지를 읽고 텍스트를 문자열 형식으로 추출합니다.

Best OCR For Mac, Figure 4 - A PDF opened in Adobe Acrobat with the text Hello world!.

아래 출력은 제공된 이미지에서 추출된 텍스트를 표시하여 올바르게 추출되었음을 확인합니다. IronOCR은 결과를 저장하기 위한 다양한 출력 포맷도 지원합니다.

Best OCR For Mac, Figure 5 - The text Hello world! is displayed on the command line.

결론

시중에 나와 있는 여러 OCR 도구는 송장에서 데이터 처리를 허용합니다. 이미지의 OCR 처리는 제공된 이미지에서 텍스트 데이터를 번역할 수 있게 합니다. 첫 두 개의 OCR 도구는 송장 데이터를 처리하여 수동 데이터 입력 없이 자동화된 스캔 및 데이터 검증을 가능하게 합니다. 이 도구들은 대개 비싸고 높은 인터넷 연결을 요구하여 특정 환경에만 사용 제한을 가합니다.

반면에, IronOCR은 .NET Framework Standard 2, .NET Framework 4.5 및 .NET Core 2, 3, 5를 포함한 다양한 .NET 프로젝트와 Xamarin, Azure, MAC, Mono와 같은 현대 기술과 함께 지원합니다. IronOCR은 Tesseract의 출력을 향상시키고 IronOCR 방법을 사용하여 잘못 스캔된 단어 또는 이미지를 수정합니다. 복잡한 Tesseract 사전 시스템은 NuGet 패키지에 의해 관리됩니다. Iron OCR 라이브러리는 OCR 도구를 만들기 위해 사용됩니다. 따라서 IronOCR은 송장을 자동화하고 최소한의 코딩으로 데이터를 추출하기 위한 이상적인 송장 OCR 소프트웨어입니다.

수많은 이미지 포맷, PDF 파일 및 MultiFrame TIFF를 지원하며 IronOCR은 추가 설정 없이 매끄러운 환경을 제공합니다. 이 소프트웨어는 광학 문자 인식을 넘어 바코드가 있는 이미지에서 데이터를 추출하는 바코드 식별 기능을 제공합니다. IronOCR의 저렴한 개발 에디션의 무료 체험판이 제공되며, IronOCR 번들을 구매하면 평생 라이선스가 포함됩니다. IronOCR 번들은 여러 시스템을 대상으로 단일 가격을 제공하므로 뛰어난 가치를 제공합니다. IronOCR의 비용에 대한 자세한 내용은 IronOCR 웹사이트를 방문하세요.

칸나오팟 우돈판트
소프트웨어 엔지니어
카나팟은 소프트웨어 엔지니어가 되기 전 일본 홋카이도 대학교에서 환경 자원학 박사 학위를 취득했습니다. 학위 과정 중에는 생물생산공학과 소속 차량 로봇 연구실에서 활동하기도 했습니다. 2022년에는 C# 기술을 활용하여 Iron Software의 엔지니어링 팀에 합류했고, 현재 IronPDF 개발에 집중하고 있습니다. 카나팟은 IronPDF에 사용되는 대부분의 코드를 직접 작성하는 개발자로부터 배울 수 있다는 점에 만족하며, 동료들과의 소통을 통해 배우는 것 외에도 Iron Software에서 일하는 즐거움을 누리고 있습니다. 코딩이나 문서 작업을 하지 않을 때는 주로 PS5로 게임을 하거나 The Last of Us를 다시 시청하는 것을 즐깁니다.

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me