고급 읽기 기능을 위한 OCR 설정

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR은 표준 OCR을 뛰어넘는 ReadPassport, ReadLicensePlate, ReadPhoto와 같은 고급 스캔 판독 방법을 제공합니다. 이 메서드들은 IronOcr.Extensions.AdvancedScan 패키지를 기반으로 합니다. 이러한 메서드가 텍스트를 처리하는 방식을 세부적으로 조정할 수 있도록, IronOCR은 TesseractConfiguration 클래스를 제공하여 개발자가 문자 허용 목록 및 차단 목록 설정, BarCode 감지, 데이터 테이블 읽기 등을 완벽하게 제어할 수 있게 합니다.

이 글에서는 심화 학습을 위한 TesseractConfiguration 속성과 실제 상황에서 OCR을 구성하는 실용적인 예제를 다룹니다.

빠른 시작: OCR 출력을 허용된 문자 목록으로 제한하기

Read을 호출하기 전에 TesseractConfiguration에서 WhiteListCharacters을 설정하십시오. 화이트리스트에 없는 문자는 결과에서 자동으로 제거되어, 별도의 후처리 과정 없이 불필요한 정보를 제거합니다.

  1. NuGet 패키지 관리자를 사용하여 https://www.nuget.org/packages/IronOcr 설치하기

    PM > Install-Package IronOcr
  2. 다음 코드 조각을 복사하여 실행하세요.

    var result = new IronTesseract() { Configuration = new TesseractConfiguration { WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789- " } }.Read(new OcrInput("image.png")); Console.WriteLine(result.Text);
  3. 실제 운영 환경에서 테스트할 수 있도록 배포하세요.

    무료 체험판으로 오늘 프로젝트에서 IronOCR 사용 시작하기

    arrow pointer


TesseractConfiguration 속성

TesseractConfiguration 클래스는 OCR 동작을 사용자 지정하기 위한 다음 속성을 제공합니다. 이는 IronTesseract.Co/nfiguration을 통해 설정됩니다.

속성 유형 설명
허용된 문자 string 이 문자열에 포함된 문자만 OCR 출력에서 인식됩니다. 그 외의 모든 문자는 제외됩니다.
BlackListCharacters string 이 문자열의 문자는 OCR 출력에서 의도적으로 무시되고 제거됩니다.
ReadBarCodes bool OCR 처리 중 문서 내 BarCode 감지 기능을 활성화하거나 비활성화합니다.
ReadDataTables bool Tesseract를 사용하여 문서 내 테이블 구조 감지 기능을 활성화하거나 비활성화합니다.
PageSegmentationMode TesseractPageSegmentationMode Tesseract가 입력 이미지를 어떻게 분할할지 결정합니다. 옵션에는 AutoOsd, Auto, SingleBlock, SingleLine, SingleWord, 등입니다.
RenderSearchablePdf bool 이 기능을 활성화하면 OCR 출력을 보이지 않는 텍스트 레이어가 포함된 검색 가능한 PDF로 저장할 수 있습니다.
RenderHocr bool 이 기능이 활성화되면 OCR 출력 결과에는 추가 처리나 내보내기를 위한 hOCR 데이터가 포함됩니다.
TesseractVariables Dictionary<string, object> 세밀한 제어를 위해 저수준 Tesseract 구성 변수에 직접 액세스할 수 있습니다.

TesseractVariables 사전은 한 걸음 더 나아가, 상위 레벨 속성만으로는 충분하지 않은 경우를 위해 수백 가지의 기본 Tesseract 엔진 매개변수를 제공합니다.

아래 예시는 문자 허용 목록을 시작으로 각 속성 그룹을 보여줍니다.

번호판 문자 허용 목록 설정

WhiteListCharacters의 일반적인 사용 사례는 OCR 출력을 차량 번호판에 표시될 수 있는 문자(대문자, 숫자, 하이픈, 공백)로만 제한하는 것입니다. 이를 통해 예상된 문자 집합 외의 모든 내용을 무시하도록 엔진에 지시함으로써 불필요한 정보를 제거하고 정확도를 높일 수 있습니다.

입력

다음 차량 등록 기록에는 대문자, 소문자, 특수 기호(@, $, #, |, *), 및 구두점을 포함해야 합니다.

OCR 화이트리스트 시연을 위한 혼합 문자 차량 등록 기록

BlackListCharacters,~@@-와 같은 알려진 노이즈 기호를 적극적으로 제외함으로써 화이트리스트를 보완합니다.-CODE-232--@@@, and*`와 같은 알려진 노이즈 기호를 적극적으로 제외함으로써 화이트리스트를 보완합니다.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-configurations-for-advanced-reading.cs
using IronOcr;

// Initialize the Tesseract OCR engine
IronTesseract ocr = new IronTesseract();

ocr.Configuration = new TesseractConfiguration
{
    // Whitelist only characters that appear on license plates
    WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789- ",

    // Blacklist common noise characters
    BlackListCharacters = "`~@#$%&*",
};

var ocrInput = new OcrInput();
// Load the input image
ocrInput.LoadImage("advanced-input.png");
// Perform OCR on the input image with ReadPhoto method
var results = ocr.ReadPhoto(ocrInput);

// Print the filtered text result to the console
Console.WriteLine(results.Text);
Imports IronOcr

' Initialize the Tesseract OCR engine
Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    ' Whitelist only characters that appear on license plates
    .WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789- ",
    
    ' Blacklist common noise characters
    .BlackListCharacters = "`~@#$%&*"
}

Dim ocrInput As New OcrInput()
' Load the input image
ocrInput.LoadImage("advanced-input.png")
' Perform OCR on the input image with ReadPhoto method
Dim results = ocr.ReadPhoto(ocrInput)

' Print the filtered text result to the console
Console.WriteLine(results.Text)
$vbLabelText   $csharpLabel

번역 결과

허용된 번호판 문자만 표시된 OCR 출력 결과

결과에서 화이트리스트 필터링이 명확하게 확인됩니다:

  • "Plate: ABC-1234"는 "P ABC-1234"로 변경됩니다. 소문자 "late:"는 생략하고, 번호판 번호는 정확히 그대로 유지합니다.
  • "VIN: 1HGBH41JXMN109186"은 "VIN 1HGBH41JXMN109186"으로 표기합니다. 콜론은 생략하되, 대문자로 표기된 VIN과 전체 숫자는 그대로 유지합니다.
  • "Owner: john.doe@email.com"는 "O"로 변경됩니다. 이메일 주소의 소문자와 구두점은 모두 제거되었습니다.
  • "지역: CA-90210 | "Zone #5"는 "R CA-90210 Z 5" **변경됩니다**. 파이프(|) and hash (#)는 제거되지만, 대문자와 숫자는 그대로 유지됩니다.
  • "Fee: $125.00 + tax*"는 "F 12500"으로 표기합니다. 달러 기호, 소수점, 더하기 기호 및 소문자 "tax"는 모두 제거되었습니다.
  • "Ref: ~record_v2^final"은 "R 2"로 변경됩니다. 틸드(~), 밑줄, 캐럿(^) 및 모든 소문자는 제거됩니다.

WhiteListCharactersBlackListCharacters 방식은 차량 번호판뿐만 아니라 모든 문서 유형에 적용 가능합니다. 다음 섹션에서는 단일 처리 단계에서 BarCode와 테이블 구조를 모두 감지하도록 리더를 확장하는 방법을 보여줍니다.

BarCode 및 데이터 테이블 읽기 구성

IronOCR은 문서 내의 텍스트뿐만 아니라 BARCODE 및 구조화된 표도 인식할 수 있습니다. 이러한 기능은 TesseractConfiguration을 통해 제어됩니다:

IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    // Enable barcode detection within documents
    ReadBarCodes = true,

    // Enable table structure detection
    ReadDataTables = true,
};
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    // Enable barcode detection within documents
    ReadBarCodes = true,

    // Enable table structure detection
    ReadDataTables = true,
};
Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .ReadBarCodes = True,
    .ReadDataTables = True
}
$vbLabelText   $csharpLabel
  • ReadBarCodes: true로 설정하면 IronOCR은 텍스트 외에도 문서 내 BarCode를 스캔합니다. BarCode 감지를 건너뛰고 BarCode가 예상되지 않을 때 처리 속도를 높이려면 false로 설정하십시오.
  • ReadDataTables: true로 설정하면 Tesseract는 문서 내의 표 구조를 감지하고 보존하려고 시도합니다. 이는 청구서, 보고서 및 기타 표 형식 문서에 유용합니다.

이 옵션들은 WhiteListCharactersBlackListCharacters와 결합하여 복잡한 문서에서 추출할 내용을 정밀하게 제어할 수 있습니다.

필터링과 탐지 기능은 추출 대상을 제어하지만, 레이아웃 해석은 별개의 문제입니다. 다음 섹션에서는 문서 유형에 적합한 PageSegmentationMode을 선택하는 방법에 대해 다룹니다.

페이지 분할 모드 제어

PageSegmentationMode는 Tesseract에 인식 전에 입력 이미지를 어떻게 분할할지 지시합니다. 주어진 레이아웃에 부적절한 모드를 선택하면 엔진이 텍스트를 잘못 읽거나 완전히 건너뛰게 됩니다.

모드 사용 사례
AutoOsd 방향 및 스크립트 감지를 통한 자동 레이아웃 분석
Auto OSD 없이 자동 레이아웃 분석 (기본값)
SingleColumn 이미지가 단일 열의 텍스트라고 가정합니다
SingleBlock 이미지가 단일한 텍스트 블록으로 구성되어 있다고 가정합니다
SingleLine 이미지가 한 줄의 텍스트라고 가정합니다
SparseText 어떤 순서든 가능한 한 많은 텍스트를 찾아냅니다

한 줄로 구성된 레이블이나 배너의 경우, SingleLine을 사용하면 다중 블록 분석이 필요 없어져 속도와 정확도가 모두 향상됩니다.

입력

single-line-label.png은 굵은 Courier 글꼴로 된 단 한 줄의 텍스트(SHIPPING LABEL: TRK-2024-XR9-001)가 적힌 좁은 배송 라벨입니다.

OCR SingleLine 분할 모드용 단일 행 배송 라벨
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    PageSegmentationMode = TesseractPageSegmentationMode.SingleLine,
};

using OcrInput input = new OcrInput();
input.LoadImage("single-line-label.png");

OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    PageSegmentationMode = TesseractPageSegmentationMode.SingleLine,
};

using OcrInput input = new OcrInput();
input.LoadImage("single-line-label.png");

OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
Imports IronOcr

Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .PageSegmentationMode = TesseractPageSegmentationMode.SingleLine
}

Using input As New OcrInput()
    input.LoadImage("single-line-label.png")

    Dim result As OcrResult = ocr.Read(input)
    Console.WriteLine(result.Text)
End Using
$vbLabelText   $csharpLabel

텍스트 배치가 불규칙한 스캔된 페이지의 경우, SparseTextAuto보다 더 많은 내용을 복원합니다.

입력

receipt-scan.png는 4개의 품목(커피, 머핀, 주스, 그래놀라 바), 점선 구분선, 소계, 세금, 합계가 포함된 Corner Market 열전사 영수증입니다. 이러한 레이아웃에서는 고정 블록 분할 방식이 수평 위치가 다른 항목들을 누락하게 됩니다.

OCR용 열전사 영수증 SparseText 분할 모드
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    PageSegmentationMode = TesseractPageSegmentationMode.SparseText,
};

using OcrInput input = new OcrInput();
input.LoadImage("receipt-scan.png");

OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    PageSegmentationMode = TesseractPageSegmentationMode.SparseText,
};

using OcrInput input = new OcrInput();
input.LoadImage("receipt-scan.png");

OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
Imports IronOcr

Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .PageSegmentationMode = TesseractPageSegmentationMode.SparseText
}

Using input As New OcrInput()
    input.LoadImage("receipt-scan.png")

    Dim result As OcrResult = ocr.Read(input)
    Console.WriteLine(result.Text)
End Using
$vbLabelText   $csharpLabel

문서 유형에 맞게 레이아웃 분할을 조정한 후, 다음 단계는 후속 처리를 위한 출력 형식을 제어하는 것입니다.

검색 가능한 PDF 및 hOCR 출력 생성

RenderSearchablePdfRenderHocr는 IronOCR이 일반 텍스트 결과와 함께 생성하는 출력 형식을 제어합니다.

RenderSearchablePdf 원본 이미지에 보이지 않는 텍스트 레이어를 삽입하여, 스캔된 이미지는 그대로 유지된 상태에서 사용자가 텍스트를 검색하고 복사할 수 있는 PDF를 생성합니다. 이는 문서 보관 워크플로를 위한 표준 출력 형식입니다.

입력

scanned-document.pdf은 IronOCR Solutions Ltd.에서 발송한 1페이지 분량의 비즈니스 서신입니다(발신일: 2024년 3월 15일, 참조 번호: DOC-2024-OCR-0315). 결과는 searchable-output.pdf로 저장됩니다.

IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    RenderSearchablePdf = true,
};

using OcrInput input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

OcrResult result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    RenderSearchablePdf = true,
};

using OcrInput input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

OcrResult result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
Imports IronTesseract

Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .RenderSearchablePdf = True
}

Using input As New OcrInput()
    input.LoadPdf("scanned-document.pdf")

    Dim result As OcrResult = ocr.Read(input)
    result.SaveAsSearchablePdf("searchable-output.pdf")
End Using
$vbLabelText   $csharpLabel

번역 결과

출력물은 원본과 외관상 동일하지만 숨겨진 텍스트 레이어가 포함된 PDF 파일입니다. searchable-output.pdf을 열고 Ctrl+F를 사용하여 삽입된 텍스트를 검색하고 복사할 수 있는지 확인하십시오.

RenderHocr hOCR 문서를 생성합니다. hOCR 문서는 텍스트 콘텐츠와 각 WORD의 경계 상자 좌표를 함께 인코딩한 HTML 파일입니다. 이는 편집 엔진이나 문서 레이아웃 분석과 같이 하류 도구가 정확한 WORD 위치를 필요로 할 때 유용합니다.

입력

document-page.png은 "2024년 1분기 분기 요약"이라는 제목의 문서 페이지로, 매출, 운영 비용 및 성장 동인을 다루는 두 개의 단락으로 구성된 재무 데이터가 포함되어 있습니다. 결과는 output.html로 저장됩니다.

hOCR 경계 상자 출력을 위한 문서 페이지 입력
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    RenderHocr = true,
};

using OcrInput input = new OcrInput();
input.LoadImage("document-page.png");

OcrResult result = ocr.Read(input);
result.SaveAsHocrFile("output.html");
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    RenderHocr = true,
};

using OcrInput input = new OcrInput();
input.LoadImage("document-page.png");

OcrResult result = ocr.Read(input);
result.SaveAsHocrFile("output.html");
Imports IronTesseract

Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .RenderHocr = True
}

Using input As New OcrInput()
    input.LoadImage("document-page.png")

    Dim result As OcrResult = ocr.Read(input)
    result.SaveAsHocrFile("output.html")
End Using
$vbLabelText   $csharpLabel

번역 결과

output.html는 인식된 각 WORD에 바운딩 박스 좌표를 인코딩합니다. 브라우저에서 파일을 열어 hOCR 구조를 확인하거나, 레이아웃 분석 또는 편집을 위해 후속 도구로 전달하십시오.

단일 읽기 호출로 세 가지 출력 형식(일반 텍스트, 검색 가능한 PDF, hOCR)이 모두 필요한 경우 두 플래그를 동시에 활성화할 수 있습니다.

이러한 출력 플래그는 비라틴 문자 집합을 포함하여 읽는 언어와 무관하게 작동합니다. 다음 섹션에서는 일본어 텍스트에 문자 필터링을 적용하는 방법을 보여줍니다.

국제 문서를 위한 유니코드 문자 필터링

중국어, 일본어 또는 한국어로 작성된 국제 문서의 경우, WhiteListCharactersBlackListCharacters 속성은 유니코드 문자와 호환됩니다. 이를 통해 출력을 특정 문자 집합으로 제한할 수 있습니다(예: 일본어의 경우 히라가나와 가타카나만 출력).

참고해 주세요 진행하기 전에 해당 언어 팩(예: IronOcr.Languages.Japanese)이 설치되어 있는지 확인하십시오.

입력

이 문서에는 제목(テスト), 히라가나와 가타카나가 혼합되고 유성음 표기 변형(プ, で)이 포함된 일본어 문장, 블랙리스트에 등재된 잡음 기호(★, ■)와 한자(価格)가 포함된 가격 행, 그리고 또 다른 블랙리스트 기호(§), 추가 한자(購入), 추가 유성음 변형(プ, デ), 기본 가타카나(メモ, ール)가 포함된 메모 행으로 구성됩니다. 화이트리스트는 기본 히라가나, 기본 가타카나, 숫자 및 일반적인 일본어 구두점만 통과시킵니다; 다음 세 가지 잡음 기호는 명시적으로 사용 금지 목록에 포함됩니다.

OCR 고급 설정 일본어 입력

히라가나와 가타카나의 유니코드 문자 범위는 WhiteListCharacters에 문자열 리터럴로 전달되며, 노이즈 기호는 BlackListCharacters에 나열되어 있습니다.

경고 콘솔이 유니코드 문자 표시를 지원하지 않을 수 있습니다. (이러한 문자를 다룰 때 결과를 확인하는 확실한 방법은 출력을 .txt 파일로 리디렉션하는 것입니다.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-configurations-for-advanced-reading-jp.cs
using IronOcr;
using System.IO;

IronTesseract ocr = new IronTesseract();

ocr.Configuration = new TesseractConfiguration
{
    // Whitelist only Hiragana, Katakana, numbers, and common Japanese punctuation
    WhiteListCharacters = "あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわをん" +
                            "アイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワヲン" +
                            "0123456789、。?!()¥ー",

    // Blacklist common noise/symbols you want to ignore
    BlackListCharacters = "★■§",
};

var ocrInput = new OcrInput();

// Load Japanese input image
ocrInput.LoadImage("jp.png");

// Perform OCR on the input image with ReadPhoto method
var results = ocr.ReadPhoto(ocrInput);

// Write the text result directly to a file named "output.txt"
File.WriteAllText("output.txt", results.Text);

// You can add this line to confirm the file was saved:
Console.WriteLine("OCR results saved to output.txt");
Imports IronOcr
Imports System.IO

Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .WhiteListCharacters = "あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわをん" &
                           "アイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワヲン" &
                           "0123456789、。?!()¥ー",
    .BlackListCharacters = "★■§"
}

Dim ocrInput As New OcrInput()

' Load Japanese input image
ocrInput.LoadImage("jp.png")

' Perform OCR on the input image with ReadPhoto method
Dim results = ocr.ReadPhoto(ocrInput)

' Write the text result directly to a file named "output.txt"
File.WriteAllText("output.txt", results.Text)

' You can add this line to confirm the file was saved:
Console.WriteLine("OCR results saved to output.txt")
$vbLabelText   $csharpLabel

번역 결과

OCR 고급 설정 일본어 출력

필터링된 전체 결과물은 jp-output.txt 텍스트 파일로 제공됩니다.

화이트리스트에는 기본 히라가나 및 가타카나 문자만 포함되어 있으므로, プ(pu)나 デ(de)와 같은 유성음 표기 변형은 제외됩니다. 価格(가격) 및 購入(구매)와 같은 한자 역시 허용된 문자 집합에 포함되지 않으므로 제외됩니다. , , §와 같은 블랙리스트 기호는 화이트리스트 여부와 관계없이 적극적으로 제거됩니다.

다음 단계는 무엇인가요?

고급 판독 시나리오에 맞게 IronOCR을 구성하는 방법을 이해하셨다면, 다음 내용을 살펴보세요:

실제 사용 시 워터마크를 제거하고 모든 기능을 이용하려면 라이선스를 취득해야 합니다.

자주 묻는 질문

IronOCR에서 TesseractConfiguration이란 무엇인가요?

IronOCR의 TesseractConfiguration을 사용하면 사용자가 OCR 설정을 사용자 정의하여 문자 화이트리스트, BarCode 인식, 다국어 지원과 같은 고급 인식 기능을 활용할 수 있습니다.

IronOCR에서 문자 허용 목록을 설정하려면 어떻게 해야 하나요?

IronOCR에서는 TesseractConfiguration을 사용하여 문자 허용 목록을 설정할 수 있습니다. 이를 통해 OCR 엔진이 인식해야 할 문자를 지정할 수 있으며, 이는 차량 번호판 판독과 같은 작업에 유용합니다.

IronOCR은 BARCODE와 데이터 테이블을 읽을 수 있나요?

네, IronOCR은 정확한 OCR 데이터 추출을 위해 TesseractConfiguration 속성의 특정 설정을 조정하여 BARCODE와 데이터 테이블을 읽도록 구성할 수 있습니다.

IronOCR은 중국어, 일본어, 한국어와 같은 국제 언어를 지원합니까?

IronOCR은 다국어 TesseractConfiguration 옵션을 통해 중국어, 일본어, 한국어를 포함한 다양한 언어를 지원합니다.

IronOCR에서 고급 OCR 설정을 사용하면 어떤 이점이 있습니까?

IronOCR의 고급 OCR 설정을 활용하면 더 정확하고 효율적인 텍스트 인식이 가능하며, 언어별 텍스트 인식 및 구조화된 데이터 추출과 같은 특수한 작업을 지원합니다.

특정 OCR 작업에 맞게 IronOCR을 최적화할 수 있습니까?

네, IronOCR은 문자 화이트리스트 설정이나 BARCODE 및 표 인식 기능을 활성화하는 등의 설정을 통해 특정 OCR 작업에 최적화할 수 있으며, 이를 통해 대상 애플리케이션의 성능을 향상시킬 수 있습니다.

IronOCR에서 다국어 지원을 활성화하려면 어떻게 해야 하나요?

IronOCR에서 다국어 지원을 활성화하려면 TesseractConfiguration의 언어 설정을 조정하여 OCR 엔진이 여러 언어의 텍스트를 인식할 수 있도록 할 수 있습니다.

문자 허용 목록이란 무엇이며, IronOCR에서 어떻게 사용됩니까?

IronOCR의 문자 허용 목록은 OCR 엔진이 인식하도록 구성된 특정 문자 목록으로, 숫자나 특정 텍스트 패턴을 읽는 것과 같은 집중적인 작업에 이상적입니다.

IronOCR을 사용하여 구조화된 데이터 형식을 읽을 수 있습니까?

네, IronOCR은 BARCODE나 표와 같은 구조화된 데이터 형식을 읽고 처리하도록 구성할 수 있어, 다양한 데이터 추출 요구 사항에 대응할 수 있는 다재다능한 OCR 기능을 제공합니다.

IronOCR에서 고급 텍스트 인식 기능을 위해 사용할 수 있는 구성은 무엇입니까?

IronOCR은 특정 요구 사항에 맞춘 고급 텍스트 인식 기능을 강화하기 위해 문자 허용 목록, 다국어 지원, BARCODE 인식 등의 구성 옵션을 제공합니다.

A PHP Error was encountered

Severity: Warning

Message: Illegal string offset 'name'

Filename: sections/author_component.php

Line Number: 18

Backtrace:

File: /var/www/ironpdf.com/application/views/main/sections/author_component.php
Line: 18
Function: _error_handler

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 63
Function: view

File: /var/www/ironpdf.com/application/views/products/sections/three_column_docs_page_structure.php
Line: 64
Function: main_view

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 88
Function: view

File: /var/www/ironpdf.com/application/views/products/how-to/index.php
Line: 2
Function: view

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 88
Function: view

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 552
Function: view

File: /var/www/ironpdf.com/application/controllers/Products/Howto.php
Line: 31
Function: render_products_view

File: /var/www/ironpdf.com/index.php
Line: 292
Function: require_once

A PHP Error was encountered

Severity: Warning

Message: Illegal string offset 'title'

Filename: sections/author_component.php

Line Number: 38

Backtrace:

File: /var/www/ironpdf.com/application/views/main/sections/author_component.php
Line: 38
Function: _error_handler

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 63
Function: view

File: /var/www/ironpdf.com/application/views/products/sections/three_column_docs_page_structure.php
Line: 64
Function: main_view

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 88
Function: view

File: /var/www/ironpdf.com/application/views/products/how-to/index.php
Line: 2
Function: view

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 88
Function: view

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 552
Function: view

File: /var/www/ironpdf.com/application/controllers/Products/Howto.php
Line: 31
Function: render_products_view

File: /var/www/ironpdf.com/index.php
Line: 292
Function: require_once

A PHP Error was encountered

Severity: Warning

Message: Illegal string offset 'comment'

Filename: sections/author_component.php

Line Number: 48

Backtrace:

File: /var/www/ironpdf.com/application/views/main/sections/author_component.php
Line: 48
Function: _error_handler

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 63
Function: view

File: /var/www/ironpdf.com/application/views/products/sections/three_column_docs_page_structure.php
Line: 64
Function: main_view

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 88
Function: view

File: /var/www/ironpdf.com/application/views/products/how-to/index.php
Line: 2
Function: view

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 88
Function: view

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 552
Function: view

File: /var/www/ironpdf.com/application/controllers/Products/Howto.php
Line: 31
Function: render_products_view

File: /var/www/ironpdf.com/index.php
Line: 292
Function: require_once

시작할 준비 되셨나요?
Nuget 다운로드 5,896,332 | 버전: 2026.5 just released
Still Scrolling Icon

아직도 스크롤하고 계신가요?

빠른 증거를 원하시나요? PM > Install-Package IronOcr
샘플을 실행하세요 이미지가 검색 가능한 텍스트로 바뀌는 것을 확인해 보세요.