Tesseract에서 여러 언어를 사용하는 방법

C#에서 Tesseract를 사용하여 여러 언어를 사용하는 방법

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR은 Tesseract 엔진을 사용하여 여러 언어로 작성된 문서에서 텍스트를 추출할 수 있도록 지원하며, 단 한 줄의 코드로 기본 및 보조 언어를 설정할 수 있습니다. 또한 125개 이상의 언어 팩을 지원하여 원활한 다국어 OCR 처리를 제공합니다.

소개

IronOCR은 신뢰할 수 있는 OCR 도구인 Tesseract 엔진을 사용하여 다양한 언어와 문자 체계에서 텍스트를 추출합니다.

이 글에서는 IronOCR이 Tesseract를 통해 다국어 텍스트를 처리하는 방식을 살펴봅니다. 이 과정에서는 다국어 OCR 솔루션을 구현하는 방법과 IronOCR 및 Tesseract 엔진 통합의 기능을 이해하게 됩니다.

여러 언어로 된 문서를 처리하는 것은 최신 애플리케이션에 필수적입니다. 국제 비즈니스 문서, 다국어 웹사이트 및 글로벌 커뮤니케이션 플랫폼은 언어 장벽을 넘어 정확한 텍스트 추출을 필요로 합니다. IronOCR은 Tesseract의 광범위한 언어 지원 기능을 통합하여 여러 스크립트와 문자 집합이 포함된 문서에서 텍스트를 동시에 추출할 수 있도록 함으로써 이러한 요구 사항을 해결합니다.

빠른 시작: IronOCR을 사용하여 여러 언어의 텍스트를 인식하기

IronOCR을 기본 언어로 설정하고 보조 언어를 한 줄로 추가하여 다국어 문서 또는 이미지에서 텍스트를 추출할 수 있습니다.

  1. NuGet 패키지 관리자를 사용하여 https://www.nuget.org/packages/IronOcr 설치하기

    PM > Install-Package IronOcr
  2. 다음 코드 조각을 복사하여 실행하세요.

    string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;
  3. 실제 운영 환경에서 테스트할 수 있도록 배포하세요.

    무료 체험판으로 오늘 프로젝트에서 IronOCR 사용 시작하기

    arrow pointer


IronOCR을 사용하여 다국어 PDF를 읽는 방법은 무엇인가요?

IronOcr은 약 125개의 언어 팩을 제공합니다. 기본적으로 영어만 설치됩니다. NuGet에서 추가 언어를 다운로드하세요. 여기에서 사용 가능한 모든 언어 팩을 확인하세요.

여러 언어가 포함된 PDF 파일은 특정 OCR 엔진 구성이 필요합니다. IronOCR을 사용하면 문서를 처리하기 전에 기본 및 보조 언어를 지정할 수 있으므로 다양한 문자 체계와 문자 집합에서 최적의 인식 정확도를 보장합니다.

PDF 추출에 사용할 수 있는 언어는 무엇입니까?

다음 예시는 IronOcr에서 여러 언어를 사용하여 PDF 파일에서 텍스트를 추출하는 방법을 보여줍니다.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
$vbLabelText   $csharpLabel

복잡한 PDF 처리 시나리오의 경우, 다양한 PDF 형식 및 구조에 대한 고급 기술을 다루는 PDF OCR 텍스트 추출 가이드를 참조하십시오.

언어 우선순위는 OCR 결과에 어떤 영향을 미칠까요?

보조 언어를 원하는 만큼 AddSecondaryLanguage 메서드를 사용하여 추가하세요. 참고로, 추가 언어가 속도 및 성능에 영향을 미칠 수 있습니다. 언어 우선순위는 추가된 순서에 따라 결정되며, 가장 먼저 추가된 언어가 더 높은 우선순위를 갖습니다.

다국어 문서를 처리할 때 언어 우선순위를 이해하는 것은 매우 중요합니다. 텍스트 추출 과정에서 기본 언어가 가장 높은 우선순위를 갖습니다. OCR 엔진은 먼저 기본 언어의 문자 집합과 문자를 일치시키려고 시도합니다. 기본 언어의 패턴과 일치하지 않는 문자를 만났을 때 보조 언어를 참조합니다.

최적의 성능을 위해:

  • 문서에서 가장 많이 사용되는 언어를 기본 언어로 설정하세요.
  • 문서에 자주 등장하는 순서대로 보조 언어를 추가합니다.
  • 보조 언어는 사용 사례에 필요한 언어로 제한하세요.

다국어를 지원하는 고성능 애플리케이션의 경우, 처리 속도 최적화를 위해 당사의 고속 OCR 구성 가이드를 참조하십시오.

Tesseract를 사용하여 다국어 이미지를 처리하는 방법은 무엇입니까?

영어가 기본 언어입니다. To change it, set the Language property to your desired language, then add secondary languages as needed.

다국어 텍스트가 포함된 이미지는 세심한 설정이 필요합니다. PDF와 달리 이미지에는 다양한 텍스트 방향, 서로 다른 글꼴, 혼합된 문자 체계가 포함될 수 있습니다. IronOCR의 Tesseract 통합은 이러한 시나리오에 대한 포괄적인 언어 구성 옵션을 제공합니다.

기본 언어 설정을 언제 변경해야 할까요?

다음과 같은 경우 기본 언어를 변경하세요:

  • 문서의 대부분은 영어가 아닌 다른 언어로 작성되어 있습니다.
  • 특정 지역 또는 국가의 문서 처리
  • 귀사의 애플리케이션은 영어가 아닌 콘텐츠를 다루는 사용자를 대상으로 합니다.
  • 특정 문자 집합에 대한 인식 정확도 최적화

다음은 다국어 이미지 처리의 전체 예시입니다.

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
$vbLabelText   $csharpLabel

사용자 지정 언어 또는 특수 글꼴의 경우, 사용자 지정 언어 파일 사용 방법 에 대한 튜토리얼을 참조하세요.

다국어 OCR을 사용하면 어떤 결과를 기대할 수 있나요?

올바르게 설정하면 다음과 같은 결과가 나타납니다.

러시아어와 일본어 콘텐츠를 보여주는 다국어 텍스트 처리 앱으로, 콘솔 출력은 문자 처리를 보여줍니다

다국어 OCR 결과 품질은 여러 요인에 따라 달라집니다.

  1. 이미지 품질 : 해상도가 높을수록(300 DPI 이상) 더 나은 결과를 얻을 수 있습니다. DPI 설정 가이드를 참조하세요.
  2. 텍스트 선명도 : 잡음이나 왜곡 없이 선명하고 또렷한 텍스트는 더 정확한 인식을 가능하게 합니다.
  3. 언어 설정 : 기본 언어와 보조 언어를 올바르게 설정하면 정확한 문자 인식 패턴을 보장합니다.
  4. 전처리 : 적절한 필터를 사용하면 결과가 크게 향상됩니다. 이미지 보정 필터 가이드를 참조하여 향상 기법을 확인하세요.

다국어 OCR의 핵심 요점은 무엇인가요?

IronOCR은 Tesseract 엔진을 사용하여 다국어 문서에서 텍스트를 효과적으로 추출합니다. 이 프로그램은 다양한 언어로 된 텍스트를 읽는 데 따르는 복잡성을 처리하여 다재다능한 솔루션을 제공합니다. 다양한 언어가 포함된 PDF 파일을 처리하든, 다국어 이미지 콘텐츠를 다루든, IronOCR은 언어에 관계없이 텍스트를 인식하고 추출하는 과정을 간소화합니다.

IronOCR을 이용한 다국어 텍스트 추출의 주요 장점:

  • 폭넓은 언어 지원 : NuGet 패키지를 통해 125개 이상의 국제 OCR 언어를 지원합니다.
  • 유연한 구성 : 기본 및 보조 언어 설정을 위한 간편한 API
  • 높은 정확도 : Tesseract 5의 고급 인식 알고리즘을 사용합니다.
  • 성능 최적화 : 내장 멀티스레딩 지원
  • 크로스 플랫폼 호환성 : Windows, Linux 및 macOS에서 작동합니다.

IronOCR은 사용 편의성과 강력한 기능을 결합한 포괄적인 솔루션을 제공하여 다국어 OCR 구현을 지원합니다. 문서 관리 시스템, 번역 도구 또는 다국어 텍스트 추출이 필요한 모든 애플리케이션을 성공에 필요한 유연성과 신뢰성을 갖추고 구축하십시오.

NuGet에서 IronOCR을 다운로드하고 문서와 예제를 살펴보면서 다국어 OCR 프로젝트를 시작해 보세요. 특정 사용 사례 또는 고급 시나리오의 경우, 문제 해결 가이드를 통해 최적의 결과를 얻는 데 필요한 정보를 얻을 수 있습니다.

자주 묻는 질문

여러 언어가 포함된 문서에 대해 OCR을 수행하려면 어떻게 해야 하나요?

IronOCR을 사용하면 단 한 줄의 코드로 다국어 OCR을 구성할 수 있습니다. Language 속성을 사용하여 기본 언어를 설정하고 AddSecondaryLanguage 메서드를 사용하여 보조 언어를 추가하세요. 이를 통해 IronOCR은 여러 스크립트와 문자 집합이 동시에 포함된 문서에서 텍스트를 정확하게 추출할 수 있습니다.

텍스트 추출에 지원되는 언어는 무엇입니까?

IronOCR은 Tesseract 엔진 통합을 통해 125개 이상의 언어 팩을 지원합니다. 기본적으로 영어가 설치되어 있지만, NuGet에서 추가 언어 팩을 다운로드하여 스페인어, 프랑스어, 아랍어, 중국어, 일본어 등 다양한 언어에 대한 OCR 기능을 활성화할 수 있습니다.

OCR 처리에 보조 언어를 추가하려면 어떻게 해야 하나요?

IronOCR에서 AddSecondaryLanguage 메서드를 사용하여 추가 언어를 활성화할 수 있습니다. 예를 들어, 다음과 같이 작성할 수 있습니다. `new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French)`. 이 설정을 통해 IronOCR은 동일한 문서 내에서 스페인어와 프랑스어 텍스트를 모두 인식할 수 있습니다.

다국어 PDF에서 텍스트를 추출할 수 있나요?

네, IronOCR은 여러 언어가 포함된 PDF 파일을 처리할 수 있습니다. 처리하기 전에 기본 언어와 보조 언어를 OCR 엔진에 설정하기만 하면 됩니다. IronOCR은 PDF 내의 다양한 스크립트와 문자 집합을 자동으로 처리하여 문서에 포함된 모든 언어의 텍스트를 정확하게 추출합니다.

언어 팩을 별도로 설치해야 하나요?

네, IronOCR은 기본적으로 영어를 지원하지만, 추가 언어 팩은 NuGet을 통해 설치해야 합니다. 각 언어 팩에는 IronOCR의 Tesseract 엔진이 해당 언어의 텍스트를 인식하는 데 필요한 데이터가 포함되어 있습니다. IronOCR 언어 페이지에서 사용 가능한 모든 언어 팩을 확인하고 다운로드할 수 있습니다.

다국어 OCR을 위한 최소 워크플로는 무엇입니까?

최소 워크플로는 다음 5단계로 구성됩니다. 1) IronOCR 라이브러리 다운로드, 2) PDF 또는 이미지 문서 준비, 3) NuGet을 통해 필요한 언어 팩 설치, 4) AddSecondaryLanguage 메서드를 사용하여 추가 언어 활성화, 5) Language 속성을 기본 언어로 설정. 이 설정을 통해 정확한 다국어 텍스트 추출이 가능합니다.

칸나오팟 우돈판트
소프트웨어 엔지니어
카나팟은 소프트웨어 엔지니어가 되기 전 일본 홋카이도 대학교에서 환경 자원학 박사 학위를 취득했습니다. 학위 과정 중에는 생물생산공학과 소속 차량 로봇 연구실에서 활동하기도 했습니다. 2022년에는 C# 기술을 활용하여 Iron Software의 엔지니어링 팀에 합류했고, 현재 IronPDF 개발에 집중하고 있습니다. 카나팟은 IronPDF에 사용되는 대부분의 코드를 직접 작성하는 개발자로부터 배울 수 있다는 점에 만족하며, 동료들과의 소통을 통해 배우는 것 외에도 Iron Software에서 일하는 즐거움을 누리고 있습니다. 코딩이나 문서 작업을 하지 않을 때는 주로 PS5로 게임을 하거나 The Last of Us를 다시 시청하는 것을 즐깁니다.
검토자:
제프 프리츠
제프리 T. 프리츠
.NET 커뮤니티 팀의 수석 프로그램 관리자
제프는 .NET 및 Visual Studio 팀의 수석 프로그램 관리자이기도 합니다. 그는 .NET Conf 가상 컨퍼런스 시리즈의 총괄 프로듀서이며, 개발자를 위한 라이브 스트림 'Fritz and Friends'를 주 2회 진행하며 시청자들과 함께 기술에 대해 이야기하고 코드를 작성합니다. 제프는 Microsoft Build, Microsoft Ignite, .NET Conf, Microsoft MVP Summit 등 주요 Microsoft 개발자 행사를 위한 워크숍, 프레젠테이션 및 콘텐츠 기획을 담당합니다.
시작할 준비 되셨나요?
Nuget 다운로드 5,525,971 | 버전: 2026.3 방금 출시되었습니다
Still Scrolling Icon

아직도 스크롤하고 계신가요?

빠른 증거를 원하시나요? PM > Install-Package IronOcr
샘플을 실행하세요 이미지가 검색 가능한 텍스트로 바뀌는 것을 확인해 보세요.