Tesseract에서 여러 언어를 사용하는 방법

C#에서 Tesseract를 사용하여 여러 언어를 사용하는 방법

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR은 Tesseract 엔진을 사용하여 여러 언어로 작성된 문서에서 텍스트를 추출할 수 있도록 지원하며, 단 한 줄의 코드로 기본 및 보조 언어를 설정할 수 있습니다. 또한 125개 이상의 언어 팩을 지원하여 원활한 다국어 OCR 처리를 제공합니다.

소개

IronOCR은 신뢰할 수 있는 OCR 도구인 Tesseract 엔진을 사용하여 다양한 언어와 문자 체계에서 텍스트를 추출합니다.

이 글에서는 IronOCR이 Tesseract를 통해 다국어 텍스트를 처리하는 방식을 살펴봅니다. 다국어 OCR 솔루션을 구현하는 방법을 배우고 IronOCR과 Tesseract 엔진 통합의 기능을 이해하게 됩니다.

여러 언어로 된 문서를 처리하는 것은 최신 애플리케이션에 필수적입니다. 국제 비즈니스 문서, 다국어 웹사이트 및 글로벌 커뮤니케이션 플랫폼은 언어 장벽을 넘어 정확한 텍스트 추출을 필요로 합니다. IronOCR은 Tesseract의 광범위한 언어 지원과 통합되어 다중 스크립트와 문자 세트를 포함하는 문서에서 텍스트를 추출할 수 있습니다.

빠른 시작: IronOCR을 사용하여 여러 언어의 텍스트를 인식하기

IronOCR을 기본 언어로 설정하고 보조 언어를 한 줄로 추가하여 다국어 문서 또는 이미지에서 텍스트를 추출할 수 있습니다.

  1. NuGet 패키지 관리자를 사용하여 https://www.nuget.org/packages/IronOcr 설치하기

    PM > Install-Package IronOcr
  2. 다음 코드 조각을 복사하여 실행하세요.

    string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;
  3. 실제 운영 환경에서 테스트할 수 있도록 배포하세요.

    무료 체험판으로 오늘 프로젝트에서 IronOCR 사용 시작하기

    arrow pointer


IronOCR을 사용하여 다국어 PDF를 읽는 방법은 무엇인가요?

IronOCR은 약 125개의 언어 팩을 제공합니다; 기본적으로 영어만 설치됩니다. NuGet에서 추가 언어를 다운로드하세요. 사용 가능한 모든 언어 팩을 여기에 보세요.

여러 언어가 포함된 PDF 파일은 특정 OCR 엔진 구성이 필요합니다. IronOCR을 사용하면 문서를 처리하기 전에 기본 및 보조 언어를 지정할 수 있으므로 다양한 문자 체계와 문자 집합에서 최적의 인식 정확도를 보장합니다.

PDF 추출에 사용할 수 있는 언어는 무엇입니까?

다음 예제는 IronOCR에서 여러 언어를 사용하여 PDF 파일에서 텍스트를 추출하는 방법을 보여줍니다.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

복잡한 PDF 처리 시나리오의 경우, 다양한 PDF 형식 및 구조에 대한 고급 기술을 다루는 PDF OCR 텍스트 추출 가이드를 참조하십시오.

언어 우선순위는 OCR 결과에 어떤 영향을 미칠까요?

AddSecondaryLanguage 방식을 사용하여 원하는 수의 보조 언어를 추가할 수 있습니다. 참고로, 추가 언어가 속도 및 성능에 영향을 미칠 수 있습니다. 언어 우선순위는 추가된 순서에 따라 결정되며, 가장 먼저 추가된 언어가 더 높은 우선순위를 갖습니다.

다국어 문서를 처리할 때 언어 우선순위를 이해하는 것은 매우 중요합니다. 기본 언어는 텍스트 추출 시 가장 높은 우선 순위를 가지며, OCR 엔진은 먼저 문자가 기본 언어의 문자 집합과 일치하는지 확인하려고 시도합니다. 기본 언어 패턴에 맞지 않는 문자를 만났을 때 보조 언어가 참조됩니다.

최적의 성능을 위해:

  • 문서에서 가장 많이 사용되는 언어를 기본 언어로 설정하세요.
  • 문서에 자주 등장하는 순서대로 보조 언어를 추가합니다.
  • 보조 언어는 사용 사례에 필요한 언어로 제한하세요.

다국어를 지원하는 고성능 애플리케이션의 경우, 처리 속도 최적화를 위해 당사의 고속 OCR 구성 가이드를 참조하십시오.

Tesseract를 사용하여 다국어 이미지를 처리하는 방법은 무엇입니까?

영어가 기본 언어입니다. 변경하려면 Language 속성을 원하는 언어로 설정한 후, 필요에 따라 보조 언어를 추가하십시오.

다국어 텍스트가 포함된 이미지는 세심한 설정이 필요합니다. PDF와 달리 이미지에는 다양한 텍스트 방향, 다른 폰트 및 혼합 스크립트가 포함될 수 있습니다. IronOCR의 Tesseract 통합은 이러한 시나리오에 대해 포괄적인 언어 구성 옵션을 제공합니다.

기본 언어 설정을 언제 변경해야 할까요?

다음과 같은 경우 기본 언어를 변경하세요:

  • 문서의 대부분은 영어가 아닌 다른 언어로 작성되어 있습니다.
  • 특정 지역 또는 국가의 문서 처리
  • 귀사의 애플리케이션은 영어가 아닌 콘텐츠를 다루는 사용자를 대상으로 합니다.
  • 특정 문자 집합에 대한 인식 정확도 최적화

다음은 다국어 이미지 처리의 전체 예시입니다.

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
' Example code for reading multi-language image with IronOCR
Imports IronOcr

' Initialize IronTesseract OCR engine
Private Ocr = New IronTesseract()

Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)

' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

사용자 지정 언어 또는 특수 글꼴의 경우, 사용자 지정 언어 파일 사용 방법 에 대한 튜토리얼을 참조하세요.

다국어 OCR을 사용하면 어떤 결과를 기대할 수 있나요?

올바르게 설정하면 다음과 같은 결과가 나타납니다.

러시아어 및 일본어 콘텐츠를 표시하는 다국어 텍스트 처리 앱과 문자 처리 과정을 보여주는 콘솔 출력

다국어 OCR 결과 품질은 여러 요인에 따라 달라집니다.

  1. 이미지 품질 : 해상도가 높을수록(300 DPI 이상) 더 나은 결과를 얻을 수 있습니다. DPI 설정 가이드를 참조하세요.
  2. 텍스트 명확성: 아티팩트 없는 명확하고 잘 정의된 텍스트가 더 정확한 인식을 제공합니다
  3. 언어 구성: 적절한 기본 및 보조 언어 설정이 올바른 문자 인식 패턴을 보장합니다
  4. 전처리 : 적절한 필터를 사용하면 결과가 크게 향상됩니다. 이미지 보정 필터 가이드를 참조하여 향상 기법을 확인하세요.

다국어 OCR의 핵심 요점은 무엇인가요?

IronOCR은 Tesseract 엔진을 사용하여 다국어 문서에서 텍스트를 효과적으로 추출합니다. 이 프로그램은 다양한 언어로 된 텍스트를 읽는 데 따르는 복잡성을 처리하여 다재다능한 솔루션을 제공합니다. 다양한 언어가 포함된 PDF 파일을 처리하든, 다국어 이미지 콘텐츠를 다루든, IronOCR은 언어에 관계없이 텍스트를 인식하고 추출하는 과정을 간소화합니다.

IronOCR을 이용한 다국어 텍스트 추출의 주요 장점:

  • 광범위한 언어 지원: NuGet 패키지를 통해 125개 이상의 국제 OCR 언어
  • 유연한 구성: 주요 및 보조 언어 설정을 위한 간단한 API
  • 높은 정확도: Tesseract 5의 고급 인식 알고리즘 사용
  • 성능 최적화: 내장 멀티스레딩 지원
  • 크로스 플랫폼 호환성 : Windows, Linux 및 macOS에서 작동합니다.

IronOCR은 사용 편의성과 강력한 기능을 결합한 포괄적인 솔루션을 제공하여 다국어 OCR 구현을 지원합니다. 문서 관리 시스템, 번역 도구 또는 다국어 텍스트 추출이 필요한 모든 애플리케이션을 성공에 필요한 유연성과 신뢰성을 갖추고 구축하십시오.

NuGet에서 IronOCR을 다운로드하고 문서와 예제를 살펴보면서 다국어 OCR 프로젝트를 시작해 보세요. 특정 사용 사례 또는 고급 시나리오의 경우, 문제 해결 가이드를 통해 최적의 결과를 얻는 데 필요한 정보를 얻을 수 있습니다.

자주 묻는 질문

여러 언어가 포함된 문서에 대해 OCR을 수행하려면 어떻게 해야 하나요?

IronOCR을 사용하면 단 한 줄의 코드로 다국어 OCR을 구성할 수 있습니다. Language 속성을 사용하여 기본 언어를 설정하고 AddSecondaryLanguage 메서드를 사용하여 보조 언어를 추가하세요. 이를 통해 IronOCR은 여러 스크립트와 문자 집합이 동시에 포함된 문서에서 텍스트를 정확하게 추출할 수 있습니다.

텍스트 추출에 지원되는 언어는 무엇입니까?

IronOCR은 Tesseract 엔진 통합을 통해 125개 이상의 언어 팩을 지원합니다. 기본적으로 영어가 설치되어 있지만, NuGet에서 추가 언어 팩을 다운로드하여 스페인어, 프랑스어, 아랍어, 중국어, 일본어 등 다양한 언어에 대한 OCR 기능을 활성화할 수 있습니다.

OCR 처리에 보조 언어를 추가하려면 어떻게 해야 하나요?

IronOCR에서 AddSecondaryLanguage 메서드를 사용하여 추가 언어를 활성화할 수 있습니다. 예를 들어, 다음과 같이 작성할 수 있습니다. `new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French)`. 이 설정을 통해 IronOCR은 동일한 문서 내에서 스페인어와 프랑스어 텍스트를 모두 인식할 수 있습니다.

다국어 PDF에서 텍스트를 추출할 수 있나요?

네, IronOCR은 여러 언어가 포함된 PDF 파일을 처리할 수 있습니다. 처리하기 전에 기본 언어와 보조 언어를 OCR 엔진에 설정하기만 하면 됩니다. IronOCR은 PDF 내의 다양한 스크립트와 문자 집합을 자동으로 처리하여 문서에 포함된 모든 언어의 텍스트를 정확하게 추출합니다.

언어 팩을 별도로 설치해야 하나요?

네, IronOCR은 기본적으로 영어를 지원하지만, 추가 언어 팩은 NuGet을 통해 설치해야 합니다. 각 언어 팩에는 IronOCR의 Tesseract 엔진이 해당 언어의 텍스트를 인식하는 데 필요한 데이터가 포함되어 있습니다. IronOCR 언어 페이지에서 사용 가능한 모든 언어 팩을 확인하고 다운로드할 수 있습니다.

다국어 OCR을 위한 최소 워크플로는 무엇입니까?

최소 워크플로는 다음 5단계로 구성됩니다. 1) IronOCR 라이브러리 다운로드, 2) PDF 또는 이미지 문서 준비, 3) NuGet을 통해 필요한 언어 팩 설치, 4) AddSecondaryLanguage 메서드를 사용하여 추가 언어 활성화, 5) Language 속성을 기본 언어로 설정. 이 설정을 통해 정확한 다국어 텍스트 추출이 가능합니다.

IronOCR을 기존 애플리케이션에 통합할 수 있습니까?

IronOCR은 C#을 사용하여 쉽게 기존 애플리케이션에 통합되도록 설계되어 있어 개발자가 최소한의 노력으로 소프트웨어에 OCR 기능을 추가할 수 있습니다.

문서 관리에 IronOCR을 사용하는 이점은 무엇입니까?

IronOCR을 문서 관리를 위해 사용하면 스캔된 문서를 검색 및 편집 가능한 텍스트로 변환하여 수동 데이터 입력의 필요성을 줄이고 문서 접근성을 향상시킵니다.

IronOCR이 데이터 정확성을 어떻게 향상시킬 수 있습니까?

IronOCR은 고급 인식 알고리즘과 이미지 보정 기능을 통해 데이터 정확성을 향상시켜 텍스트 추출 프로세스를 신뢰할 수 있고 정확하게 보장합니다.

IronOCR의 무료 체험판이 있나요?

네, Iron Software는 IronOCR의 무료 체험판을 제공하여 사용자가 구매 결정을 내리기 전에 기능과 성능을 테스트해볼 수 있습니다.

칸나오팟 우돈판트
소프트웨어 엔지니어
카나팟은 소프트웨어 엔지니어가 되기 전 일본 홋카이도 대학교에서 환경 자원학 박사 학위를 취득했습니다. 학위 과정 중에는 생물생산공학과 소속 차량 로봇 연구실에서 활동하기도 했습니다. 2022년에는 C# 기술을 활용하여 Iron Software의 엔지니어링 팀에 합류했고, 현재 IronPDF 개발에 집중하고 있습니다. 카나팟은 IronPDF에 사용되는 대부분의 코드를 직접 작성하는 개발자로부터 배울 수 있다는 점에 만족하며, 동료들과의 소통을 통해 배우는 것 외에도 Iron Software에서 일하는 즐거움을 누리고 있습니다. 코딩이나 문서 작업을 하지 않을 때는 주로 PS5로 게임을 하거나 The Last of Us를 다시 시청하는 것을 즐깁니다.
검토자:
제프 프리츠
제프리 T. 프리츠
.NET 커뮤니티 팀의 수석 프로그램 관리자
제프는 .NET 및 Visual Studio 팀의 수석 프로그램 관리자이기도 합니다. 그는 .NET Conf 가상 컨퍼런스 시리즈의 총괄 프로듀서이며, 개발자를 위한 라이브 스트림 'Fritz and Friends'를 주 2회 진행하며 시청자들과 함께 기술에 대해 이야기하고 코드를 작성합니다. 제프는 Microsoft Build, Microsoft Ignite, .NET Conf, Microsoft MVP Summit 등 주요 Microsoft 개발자 행사를 위한 워크숍, 프레젠테이션 및 콘텐츠 기획을 담당합니다.
시작할 준비 되셨나요?
Nuget 다운로드 5,896,332 | 버전: 2026.5 just released
Still Scrolling Icon

아직도 스크롤하고 계신가요?

빠른 증거를 원하시나요? PM > Install-Package IronOcr
샘플을 실행하세요 이미지가 검색 가능한 텍스트로 바뀌는 것을 확인해 보세요.