푸터 콘텐츠로 바로가기
OCR 도구

Microsoft OCR 도구 (C# 기반 대안)

OCR(광학 문자 인식)은 모든 규모의 비즈니스에 중요한 기술입니다. 이는 효율적인 스캔, 저장, 그리고 데이터를 분석하는 데 있어 시간 소모적이고 복잡할 수 있는 작업을 간소화할 수 있게 합니다.

Microsoft OCR 도구는 디지털 전환 과정을 간소화하는 강력한 옵션을 제공합니다. 이 도구들은 문서 처리를 더 빠르고 효율적으로 할 수 있게 하여, 귀하가 비즈니스를 성장시키는 중요한 작업에 집중할 수 있도록 시간을 확보해 줍니다. 이 기사에서는 강력한 Microsoft OCR 도구를 활용하여 작업을 간소화하는 방법을 탐색하겠습니다.

OneNote: Microsoft 툴

이미지에서 텍스트를 추출해야 한다면, Microsoft OneNote가 유용한 도구입니다. OneNote는 텍스트, 이미지, 오디오, 비디오 등의 다양한 형태로 정보를 캡처, 저장, 정리할 수 있는 다기능 메모 애플리케이션입니다. 파일 출력 또는 이미지에서 텍스트를 복사하는데에도 유용한 도구로 수작업으로 텍스트를 입력할 필요를 없애 시간을 절약합니다.

OneNote를 사용한 텍스트 추출

OneNote를 사용하여 이미지에서 텍스트를 추출하려면 다음 단계를 따르십시오:

  1. OneNote 애플리케이션을 실행합니다.
  2. '삽입' 옵션을 사용하여 이미지 파일을 삽입하거나 단순히 이미지를 끌어다 OneNote 창에 놓습니다.

    OneNote Insert ribbon

    OneNote 삽입 리본

  3. 이미지를 마우스 오른쪽 버튼으로 클릭하고 메뉴에서 '그림에서 텍스트 복사'를 선택합니다.

    컨텍스트 메뉴에서 그림에서 텍스트 복사

    컨텍스트 메뉴에서 그림에서 텍스트 복사

  4. 마지막으로 복사된 텍스트를 원하는 위치에 붙여넣어, 스캔한 이미지에서 추출한 텍스트에 접근합니다.

    이미지에서 복사된 텍스트로 소스된 텍스트

    이미지에서 복사된 텍스트로 소스된 텍스트

이것이 OneNote를 사용하여 이미지를 스캔할 수 있는 방법입니다.

Microsoft Vision Studio

Microsoft Cognitive Services는 AI를 사용하여 이미지를 스캔하고 텍스트를 정확하게 감지하는 '이미지에서 텍스트 추출' 기능을 제공합니다. 이 서비스는 사용자 친화적이며 이미지 또는 PDF 파일을 업로드하는 것만 필요합니다. 정보는 높은 정확도로 전사되어, 추출된 텍스트가 이미지 또는 PDF 파일의 내용을 정확하게 표현하도록 보장합니다.

추출된 텍스트는 다양한 언어로 제공될 수 있으며, 전 세계 사용자들이 이 서비스를 사용할 수 있습니다. Microsoft Cognitive Services의 '이미지에서 텍스트 추출'을 사용하면, 이미지에서 귀중한 데이터를 쉽게 추출할 수 있으며, 효율적인 분석과 효과적인 작업 완료가 가능합니다.

Microsoft Vision Studio를 사용한 텍스트 추출

'이미지에서 텍스트 추출' 기능을 사용하려면, Microsoft Azure의 Vision Studio 웹사이트를 방문할 수 있습니다. 하지만, 이 서비스는 Azure 구독이 필요합니다. 구독을 구매하면 스캔된 문서에서 추출된 텍스트에 접근할 수 있습니다. 다음은 참조용 샘플 출력 이미지입니다.

텍스트가 스캔된 이미지

텍스트가 스캔된 이미지

A9T9 Microsoft 무료 OCR 소프트웨어

A9T9 무료 OCR 소프트웨어는 Windows 사용자가 종이 문서를 디지털 텍스트로 쉽게 변환할 수 있도록 하는 다기능 도구입니다. 단순한 드래그 앤 드롭 기능을 통해 영어, 독일어, 중국어, 한국어, 힌디어를 포함한 여러 언어로 텍스트를 즉시 인식할 수 있습니다. 이 소프트웨어는 스캔된 이미지 또는 PDF 문서에서 데이터를 추출해 편집 가능하고 검색 가능한 형식으로 변환할 수 있습니다.

이 소프트웨어는 Rich Text, TXT, CSV와 같은 다양한 출력 형식과 BMP, TIF, PDF와 같은 이미지 형식을 지원합니다. 또한 자동 문서 기울임 보정 기능을 제공합니다. 이 소프트웨어는 투명한 배경을 가진 이미지에서도 다양한 언어의 텍스트를 빠르고 정확하게 인식합니다. A9T9의 높은 정확도, 저렴한 가격, 설치의 용이성은 무료 OCR 소프트웨어 솔루션을 찾고 있는 Windows 사용자들에게 최적의 선택입니다.

A9T9를 사용한 텍스트 복사

Microsoft Store에서 A9T9 소프트웨어를 다운로드할 수 있습니다. 설치 후 A9T9 소프트웨어를 열고 이미지 또는 PDF 파일을 업로드합니다.

텍스트가 스캔된 이미지

A9T9를 사용한 텍스트 복사

이미지나 문서가 로드되면 'OCR 시작' 버튼을 클릭합니다. 이렇게 하면 스캔된 문서 또는 이미지에서 텍스트를 추출하여 오른쪽의 텍스트 영역에 표시됩니다.

The text is shown on the right hand side

텍스트는 오른쪽에 표시됩니다

OCR 언어를 선택할 수 있으며, 텍스트를 복사하거나 Word 문서로 저장할 수 있습니다.

Office Lens

Office Lens는 노트, 화이트보드, 메뉴, 표지판 등 다양한 방식의 서면 또는 시각 정보 캡처 및 정리를 위한 정교한 도구입니다. 이 앱은 손으로 쓰는 메모와 중요 정보를 잃어버릴 가능성을 없애 전통적인 메모 방식에 대한 탁월한 대안을 제공합니다.

Office Lens는 사용자가 스케치, 손으로 쓰는 메모, 그림, 방정식을 쉽게 캡처하고 그림자를 비롯해 비뚤어진 각도를 수정하여 판독성을 향상시킬 수 있도록 합니다. 또한 이미지 내의 텍스트를 디지털화하고 편집할 수 있는 OCR(Optical Character Recognition) 기능을 제공합니다.

유감스럽게도, Microsoft는 Office Lens의 Windows 버전을 중단했습니다. 이제 모바일 장치에서만 사용할 수 있습니다. 게다가 Microsoft Office Document Imaging은 Microsoft Word 2010에서 제거되었습니다.

IronOCR: C# OCR 라이브러리

IronOCR는 .NET 개발자를 위한 강력한 C# OCR 라이브러리입니다. 이는 스캔된 문서와 이미지에서 완전한 OCR 기능을 제공하여 개발자가 문서를 기반으로 한 워크플로를 자동화할 수 있도록 합니다. 단순한 API와 최소한의 설정으로 IronOCR는 기존 시스템에 통합하기 쉽습니다.

이 라이브러리는 단순한 API를 제공하여 최소한의 설정으로 기존 시스템에 쉽게 통합될 수 있습니다. JPEG, TIFF, GIF, BMP, PDF, 다중 페이지 TIFF 및 여러 문서 스캔과 같은 다양한 입력 파일 형식을 지원하며, 다양한 방향의 이미지에서 텍스트를 읽을 수 있습니다.

IronOCR의 고급 기능에는 노이즈 제거가 포함되어 있어 이미지 왜곡을 줄이고 텍스트 추출 결과의 정확성을 향상시킵니다. 영어, 프랑스어, 독일어, 스페인어, 일본어를 포함한 125개 이상의 언어를 지원하므로, 수작업 개입 없이 고품질 OCR 결과가 필요한 거의 모든 애플리케이션에 적합합니다.

IronOCR를 사용하여 텍스트 추출

PDF 파일에서 텍스트를 간단하게 추출할 수 있는 기능으로 특정 페이지 번호를 지정하거나 문서의 모든 페이지에서 텍스트를 추출할 수 있습니다. 적절한 도구를 사용하여 프로세스를 간소화하고 더욱 효율적으로 만들 수 있습니다.

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // Add the entire PDF for OCR processing
    ocrInput.AddPdf("example.pdf");

    // Alternatively, OCR selected page numbers from a password-protected PDF
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    // Perform OCR and get the result
    var ocrResult = ocrTesseract.Read(ocrInput);

    // Output the extracted text
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // Add the entire PDF for OCR processing
    ocrInput.AddPdf("example.pdf");

    // Alternatively, OCR selected page numbers from a password-protected PDF
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    // Perform OCR and get the result
    var ocrResult = ocrTesseract.Read(ocrInput);

    // Output the extracted text
    Console.WriteLine(ocrResult.Text);
}
$vbLabelText   $csharpLabel

다음은 출력 결과입니다.

Visual Studio 디버그 콘솔 내부의 출력

Visual Studio 디버그 콘솔 내부의 출력

PDF 파일에서 텍스트를 추출하는 것 외에도 바코드를 쉽게 읽을 수 있습니다. 이 라이브러리는 바코드를 읽기 위한 간단한 코드 구현을 제공하여 다양한 문서 기반 워크플로를 위한 다용도 도구로 만듭니다. 다음 코드를 참조하세요:

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;

// Read barcodes from an image file
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);

    // Iterate through the detected barcodes and print their values
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;

// Read barcodes from an image file
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);

    // Iterate through the detected barcodes and print their values
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
$vbLabelText   $csharpLabel
코드의 입력/출력

코드의 입력/출력

IronOCR는 처리 전에 저 DPI 및 노이즈가 많은 이미지를 향상시켜 지원할 수 있습니다.

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

// Process a noisy image by deskewing and denoising it
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew(); // Corrects for skewness in the image
    ocrInput.DeNoise(); // Reduces visual noise for better recognition

    // Perform OCR and print the text
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

// Process a noisy image by deskewing and denoising it
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew(); // Corrects for skewness in the image
    ocrInput.DeNoise(); // Reduces visual noise for better recognition

    // Perform OCR and print the text
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
$vbLabelText   $csharpLabel

결론

결론적으로, 광학 문자 인식 (OCR)은 모든 규모의 비즈니스에 큰 이익을 줄 수 있는 중요한 도구로, 효율적으로 스캔, 저장, 처리할 수 있으며, 그렇지 않으면 복잡하고 시간이 많이 소요되는 정보를 수동으로 관리해야 합니다. Microsoft는 프로세스를 간소화하고 시간을 절약할 수 있는 OneNote, Microsoft Vision Studio, A9T9 Free OCR Software를 포함한 다양한 OCR 도구를 제공합니다.

기능이 풍부한 OCR 라이브러리인 IronOCR는 사용 가능한 OCR 도구 중에서 탁월한 선택입니다. C# 및 VB.NET 응용 프로그램에 쉽게 통합할 수 있고, 여러 언어와 이미지 형식에 대한 뛰어난 정확도와 인식을 제공하며, 무료 체험 기간이 있으며 라이선스 비용은 $799부터 시작합니다. IronOCR는 디지털 전환을 개선하려는 비즈니스에 소중한 투자입니다. 이 OCR 도구 각각은 독특한 기능을 제공하며 다양한 요구를 충족할 수 있어 디지털 전환을 개선하려는 비즈니스에 귀중한 자산이 됩니다.

칸나오팟 우돈판트
소프트웨어 엔지니어
카나팟은 소프트웨어 엔지니어가 되기 전 일본 홋카이도 대학교에서 환경 자원학 박사 학위를 취득했습니다. 학위 과정 중에는 생물생산공학과 소속 차량 로봇 연구실에서 활동하기도 했습니다. 2022년에는 C# 기술을 활용하여 Iron Software의 엔지니어링 팀에 합류했고, 현재 IronPDF 개발에 집중하고 있습니다. 카나팟은 IronPDF에 사용되는 대부분의 코드를 직접 작성하는 개발자로부터 배울 수 있다는 점에 만족하며, 동료들과의 소통을 통해 배우는 것 외에도 Iron Software에서 일하는 즐거움을 누리고 있습니다. 코딩이나 문서 작업을 하지 않을 때는 주로 PS5로 게임을 하거나 The Last of Us를 다시 시청하는 것을 즐깁니다.

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me