IRONOCR 사용

실제로 유용한 데이터를 추출하는 영수증 OCR API를 C#에서 빌드합니다

게시됨:3월 8, 2026

영수증 데이터를 수동으로 입력하는 것은 지루하고 오류가 발생하기 쉬운 일이어서 개발자들이 그들의 직업 선택을 의문시하게 만듭니다. 영수증 OCR API는 광학 문자 인식을 사용하여 영수증 이미지에서 텍스트를 자동으로 추출하고, 이를 애플리케이션이 실제로 사용할 수 있는 구조화된 데이터로 변환하여 수동 데이터 입력을 없애줍니다. 목표가 비용 관리 자동화, 회계 소프트웨어 통합, 로열티 프로그램의 구동이든 관계없이, 확실한 영수증 OCR 솔루션은 무거운 작업을 처리합니다.

이 문서에서는 IronOCR를 사용하여 C#에서 영수증 OCR API를 빌드하는 방법을 시연할 것입니다. 이 .NET 라이브러리는 전적으로 온프레미스에서 실행되며, 영수증 이미지를 로컬에서 처리하며, 민감한 영수증 데이터를 제3자 클라우드 서비스로 보내는 것이 필요하지 않습니다. 이는 정확성을 희생하지 않고 데이터 보호를 완전하게 보장합니다.

IronOCR의 무료 체험판을 시작해 아래의 예제를 따라 하세요.

영수증 OCR 기술은 어떻게 작동합니까?

C#에서 실제로 유용한 데이터를 추출하는 영수증 OCR API 구축: 이미지 1 - 영수증 OCR API 출력 예시

영수증 OCR (OCR 광학 문자 인식)은 영수증 이미지의 인쇄된 텍스트를 기계가 읽을 수 있는 텍스트로 변환하여 영수증에서 데이터를 자동으로 추출합니다. 내부적으로, AI 기술과 심층 학습 모델은 영수증의 시각적 레이아웃을 분석하고, 텍스트 영역을 식별하며, 문자를 인식하여 무결점의 정확도를 달성하며, 종종 깨끗한 스캔에서 99% 이상의 정확도를 달성합니다.

현대의 영수증 OCR API는 기계 학습을 사용하여 판매자 이름, 날짜, 개별 항목, 합계, 세금 금액과 같은 중요한 정보를 다양한 영수증 형식과 레이아웃에서 구문 분석합니다. 심층 학습 기술은 이러한 모델이 대규모 데이터셋에서 학습하여 지속적으로 개선되도록 하며, 시간이 지남에 따라 새로운 영수증 디자인과 언어에 적응하게 합니다. 이는 각 산업에서 발생할 수 있는 오류가 많은 수동 입력을 대체하는 빠르고 신뢰할 수 있는 영수증 데이터 추출을 가능하게 합니다.

영수증 스캔 기술은 여러 언어를 처리할 수 있으며, JPG, PNG, PDF 등의 형식으로 문서를 처리하고, 기존 시스템과의 원활한 통합을 단순화하여 구조화된 JSON 같은 표준화된 형식으로 결과를 전달합니다.

C#을 사용하여 영수증 데이터를 추출하는 방법은 무엇입니까?

C#에서 IronOCR를 사용하여 영수증에서 데이터를 추출하는 것은 몇 줄의 코드로 가능합니다. 핵심 워크플로는 영수증 이미지 파일을 로드하고, OCR 엔진을 실행하며, 전체 추출된 텍스트를 반환합니다.

using IronOcr;
// Initialize the OCR engine for receipt scanning
var ocr = new IronTesseract();
ocr.Language = OcrLanguage.English;
// Load the receipt image for data extraction
using var input = new OcrInput();
input.LoadImage("receipt.jpg");
// Extract text from the receipt
OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);

using IronOcr;
// Initialize the OCR engine for receipt scanning
var ocr = new IronTesseract();
ocr.Language = OcrLanguage.English;
// Load the receipt image for data extraction
using var input = new OcrInput();
input.LoadImage("receipt.jpg");
// Extract text from the receipt
OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);

Imports IronOcr

' Initialize the OCR engine for receipt scanning
Dim ocr As New IronTesseract()
ocr.Language = OcrLanguage.English

' Load the receipt image for data extraction
Using input As New OcrInput()
    input.LoadImage("receipt.jpg")
    ' Extract text from the receipt
    Dim result As OcrResult = ocr.Read(input)
    Console.WriteLine(result.Text)
End Using

$vbLabelText $csharpLabel

산출

C#에서 실제로 유용한 데이터를 추출하는 영수증 OCR API 구축: 이미지 2 - IronOCR 영수증 읽기 출력

IronTesseract 클래스는 주요 OCR 엔진으로, Tesseract 5를 감싸는 관리형 래퍼로써 본격적인 C++ 상호 운용과 수동 설정의 번거로움을 제거합니다. OcrLanguage.English를 설정하면 엔진이 사용할 언어 모델을 지정합니다. IronOCR는 전 세계 영수증 처리를 위한 125개 이상의 언어를 지원합니다.

OcrInput는 사실상 모든 일반 형식(JPG, PNG, BMP, TIFF, GIF, WEBP)과 PDF의 영수증 이미지를 수용합니다. Read 메서드는 실제 OCR을 수행하고 OcrResult 객체를 반환합니다. 이 객체는 단순한 텍스트만이 아니라 문단, 줄, 단어, 개별 문자에 대한 신뢰도 점수를 포함한 구조화된 접근을 제공하는 풍부한 문서 객체 모델입니다. 이것은 세밀한 수준에서 데이터를 추출해야 하는 영수증 파싱 워크플로에 이상적입니다.

이미지 전처리가 영수증 스캔에서 오류를 줄일 수 있는 방법은 무엇입니까?

현실 세계의 영수증 이미지는 거의 완벽하지 않습니다. 구겨진 종이, 나쁜 조명, 약간의 회전은 모두 데이터 추출 중에 오류를 일으킬 수 있는 노이즈를 도입합니다. OCR을 실행하기 전에 이미지를 전처리하면 정확도가 크게 향상되고, 그렇지 않으면 영수증 데이터를 손상시킬 오류를 줄일 수 있습니다.

using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadImage("receipt.jpg");
// Preprocess the receipt image to improve OCR accuracy
input.DeNoise();    // Remove digital noise from the scanned receipt
input.Deskew();     // Straighten a tilted or rotated receipt capture
input.Sharpen();    // Enhance text clarity for better recognition
OcrResult result = ocr.Read(input);
Console.WriteLine($"Confidence: {result.Confidence}%");
Console.WriteLine(result.Text);

using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadImage("receipt.jpg");
// Preprocess the receipt image to improve OCR accuracy
input.DeNoise();    // Remove digital noise from the scanned receipt
input.Deskew();     // Straighten a tilted or rotated receipt capture
input.Sharpen();    // Enhance text clarity for better recognition
OcrResult result = ocr.Read(input);
Console.WriteLine($"Confidence: {result.Confidence}%");
Console.WriteLine(result.Text);

Imports IronOcr

Dim ocr As New IronTesseract()
Using input As New OcrInput()
    input.LoadImage("receipt.jpg")
    ' Preprocess the receipt image to improve OCR accuracy
    input.DeNoise()    ' Remove digital noise from the scanned receipt
    input.Deskew()     ' Straighten a tilted or rotated receipt capture
    input.Sharpen()    ' Enhance text clarity for better recognition
    Dim result As OcrResult = ocr.Read(input)
    Console.WriteLine($"Confidence: {result.Confidence}%")
    Console.WriteLine(result.Text)
End Using

$vbLabelText $csharpLabel

C#에서 실제로 유용한 데이터를 추출하는 영수증 OCR API 구축: 이미지 3 - 품질 낮은 영수증 이미지의 예시 출력

이미지 전처리 함수

텍스트 추출 정확성을 높이기 위해 IronOCR는 OCR 프로세스가 시작되기 전에 이미지를 정리하기 위한 여러 내장된 필터를 제공됩니다.

기능	목적
`DeNoise()`	스캔된 문서에 흔한 점과 디지털 아티팩트를 제거합니다.
`Deskew()`	비꼬인 이미지나 기울어진 이미지의 회전을 감지하고 수정합니다.
`Sharpen()`	흐릿한 가장자리를 개선하여 옅은 텍스트가 더 읽기 쉽게 만듭니다.
`Binarize()`	대비를 높이기 위해 이미지를 흑백으로 변환합니다.
`ToGrayScale()`	OCR 엔진을 위해 이미지를 단순화하기 위해 색상을 제거합니다.
`EnhanceResolution()`	저해상도 이미지를 업스케일하여 문자 인식을 향상시킵니다.

신뢰 점수를 사용한 데이터 검증

간단한 텍스트 추출을 넘어서, Confidence 속성은 OcrResult에서 출력의 신뢰도를 나타내는 백분율 점수를 반환합니다.

대량의 영수증을 처리하는 자동 영수증 처리 파이프라인에서는 이 점수가 매우 유용합니다. 이 시스템은 예를 들어 90% 이상의 결과를 자동으로 처리하면서 낮은 신뢰성의 결과는 수동 검토를 위해 표시하여 임계값을 설정할 수 있습니다. 이것은 사람이 모든 영수증을 확인할 필요 없이 높은 데이터 품질을 보장합니다.

OCR 텍스트에서 특정 영수증 필드를 어떻게 구문 분석할 수 있습니까?

OCR 엔진에서 원시 텍스트를 가져오는 것은 훌륭한 시작이지만, 그것은 단지 시작에 불과합니다. 실시간 처리를 사용하는 경비 보고서나 회계 도구를 만들 경우, 단순한 텍스트 '블롭'이 아닌 날짜, 상인의 이름, 최종 합계와 같은 특정 데이터 필드가 필요합니다.

IronOCR가 이미지를 읽는 고된 작업을 하면, 우리는 영수증 API에서 표준 C# 논리와 정규 표현식(Regex)을 사용하여 우리가 찾고 있는 특정 필드를 추출할 수 있습니다.

using IronOcr;
using System.Text.RegularExpressions;

var ocr = new IronTesseract();
using var input = new OcrInput("receipt.jpg");
input.DeNoise();
OcrResult result = ocr.Read(input);
string ocrText = result.Text;

// Parse the date from receipt data
var dateMatch = Regex.Match(ocrText, @"\d{1,2}/\d{1,2}/\d{2,4}");
string receiptDate = dateMatch.Success ? dateMatch.Value : "Not found";

// Parse the total amount
var totalMatch = Regex.Match(ocrText, @"(?i)total[\s:$]*(\d+\.\d{2})");
string total = totalMatch.Success ? totalMatch.Groups[1].Value : "Not found";

Console.WriteLine($"Date: {receiptDate}");
Console.WriteLine($"Total: ${total}");

using IronOcr;
using System.Text.RegularExpressions;

var ocr = new IronTesseract();
using var input = new OcrInput("receipt.jpg");
input.DeNoise();
OcrResult result = ocr.Read(input);
string ocrText = result.Text;

// Parse the date from receipt data
var dateMatch = Regex.Match(ocrText, @"\d{1,2}/\d{1,2}/\d{2,4}");
string receiptDate = dateMatch.Success ? dateMatch.Value : "Not found";

// Parse the total amount
var totalMatch = Regex.Match(ocrText, @"(?i)total[\s:$]*(\d+\.\d{2})");
string total = totalMatch.Success ? totalMatch.Groups[1].Value : "Not found";

Console.WriteLine($"Date: {receiptDate}");
Console.WriteLine($"Total: ${total}");

Imports IronOcr
Imports System.Text.RegularExpressions

Dim ocr As New IronTesseract()
Using input As New OcrInput("receipt.jpg")
    input.DeNoise()
    Dim result As OcrResult = ocr.Read(input)
    Dim ocrText As String = result.Text

    ' Parse the date from receipt data
    Dim dateMatch As Match = Regex.Match(ocrText, "\d{1,2}/\d{1,2}/\d{2,4}")
    Dim receiptDate As String = If(dateMatch.Success, dateMatch.Value, "Not found")

    ' Parse the total amount
    Dim totalMatch As Match = Regex.Match(ocrText, "(?i)total[\s:$]*(\d+\.\d{2})")
    Dim total As String = If(totalMatch.Success, totalMatch.Groups(1).Value, "Not found")

    Console.WriteLine($"Date: {receiptDate}")
    Console.WriteLine($"Total: ${total}")
End Using

$vbLabelText $csharpLabel

C#에서 실제로 유용한 데이터를 추출하는 영수증 OCR API 구축: 이미지 4 - IronOCR 및 간단한 정규식 패턴을 사용한 예제 출력

이 예제는 원시 OCR 영수증 텍스트에서 날짜와 합계를 자동으로 추출하기 위해 간단한 정규 표현식 패턴을 사용합니다. 날짜 패턴은 2026년 3월 15일과 같은 일반적인 영수증 날짜 형식을 일치시키며, 합계 패턴은 'TOTAL'이라는 단어 뒤에 달러 금액을 찾습니다. 실제 시스템에서는 이러한 패턴을 조정해 마주치는 특정 영수증 형식에 맞춰야 합니다.

개별 제품 이름, 수량 및 가격을 포함한 항목 데이터를 추출하려면 OCR 텍스트를 줄마다 나누고 항목 행을 식별하는 패턴을 적용합니다. 이 접근법은 영수증 이미지를 JSON 형식 출력에 적합한 구조적 데이터로 변환하는 데 효과적이며, 경비 관리 워크플로우 및 회계 소프트웨어와의 직접적인 통합에도 유용합니다. 다양한 레이아웃에 걸쳐 고급 영수증 파싱을 위해, 특정 영수증 섹션에서 라인 항목 데이터를 추출하려면 IronOCR의 문서 구조 기능과 지역 기반 OCR 읽기(ContentArea 사각형 사용)를 결합하는 것을 고려해보세요.

정규 표현식에 대한 개발자의 현실 점검

솔직해 집시다: 정규 표현식은 시작하기 위한 '빠르고 간단한' 방법이지만, 완벽하지는 않습니다. 실제 영수증은 엉망입니다. 어떤 상인은 'TOTAL'을 인쇄하고, 다른 상인은 'Balance Due'라고 표시하며, 세 번째는 달러 기호 위에 커피 얼룩이 있을 수 있습니다.

이를 생산 시스템으로 가져가는 경우, 단일 패턴에만 의존하지 마십시오. 이를 더 강력하게 만드는 방법은 다음과 같습니다:

신뢰도 점수 사용: IronOCR는 읽은 모든 단어에 대해 신뢰도를 백분율로 제공합니다. 'Total' 금액에 대한 신뢰도가 80% 이하인 경우, 해당 영수증을 사람이 이중 확인하도록 플래그를 지정해야 합니다.
데이터 검증: 단순히 문자열을 믿지 마십시오. 그 'Total'을 10진수로 구문 분석해 보십시오. 실패하면, 표시가 '5'를 'S'로 잘못 읽었을 수 있습니다.
위치가 중요합니다: 복잡한 레이아웃의 경우, IronOCR의 OcrResult.Blocks 또는 Lines를 사용하여 페이지 내 위치로 텍스트를 찾으세요. 'Total'이 항상 오른쪽 아래에 있으면, 해당 특정 영역을 대상으로 하면 영수증의 다른 숫자에서 오는 '노이즈'를 줄일 수 있습니다.

영수증 OCR API는 경비 관리 시스템과 어떻게 통합됩니까?

영수증 OCR API가 실제로 강력해지는 것은 비즈니스 시스템에 구조화된 영수증 데이터를 직접 제공할 때입니다. IronOCR는 모든 .NET 응용 프로그램, 즉 ASP.NET 웹 서비스, 데스크톱 경비 추적기 또는 배치로 영수증을 처리하는 백그라운드 워커와 원활하게 통합되는 개발자 친화적인 API를 제공합니다.

API는 추출된 텍스트를 OcrResult 객체로 반환하며, 이를 통해 개별 페이지, 문단 및 줄에 대한 접근을 제공합니다. 이로 인해 OCR 텍스트를 구조화된 JSON으로 구문 분석하고, 데이터를 검증(중복 감지 및 구매 검증 포함)하여 회계 소프트웨어, ERP 시스템 또는 데이터베이스로 전달하는 영수증 처리 파이프라인을 구축하는 것이 간단합니다.

IronOCR은 모든 OCR 처리를 로컬에서 실행하므로, 클라우드 의존성 없이, 무료 플랜 체험판에 신용 카드가 필요하지 않고, 민감한 금융 문서에 대한 완전한 제어가 가능합니다. 이 로컬 우선 접근법은 영수증 OCR API가 대량의 디지털 영수증을 지연 우려 없이 처리할 수 있게 하며, 엄격한 규정 준수 요구 사항이 있는 다양한 산업의 조직에 대한 내재된 데이터 보호를 제공합니다. 라이브러리는 포괄적인 문서를 제공하고 NuGet을 통해 기존 시스템과 원활하게 통합되며, 성능과 단순성을 모두 중시하는 팀에 실용적인 선택입니다.

완전한 영수증 스캔 솔루션을 구축하려는 개발자를 위해, IronOCR은 바코드 및 QR 코드 읽기, 검색 가능한 PDF 생성, 다중 페이지 문서 처리도 지원하며, 모든 것이 같은 라이브러리 내에서 가능합니다.

오늘부터 영수증 데이터 추출 자동화를 시작하십시오

IronOCR로 C#에서 영수증 OCR API를 구축하면 수동 데이터 입력의 고통을 덜고, 빠르고 정확한 자동 데이터 추출로 대체됩니다. 기본적인 영수증 스캔에서 필드 수준 추출로 고급 영수증 구문 분석에 이르기까지, 이 라이브러리는 영수증 이미지를 가치 있고 실행 가능한 구조화된 데이터로 변환하는 데 필요한 모든 것을 제공하며, 문서를 외부로 송출하지 않아도 됩니다.

강력한 전처리 필터와 깨끗한 .NET API, 기계 학습 개선 인식 및 로컬 처리의 결합이 IronOCR을 경비 관리, 영수증 처리 및 영수증으로부터 데이터를 신뢰할 수 있고 대규모로 추출해야 하는 모든 워크플로우에 적합하게 만듭니다.

귀사의 영수증 워크플로우에서 수작업 입력을 제거할 준비가 되셨나요? IronOCR 라이센싱 옵션 탐색을 통해 팀에 적합한 플랜을 찾거나, 무료 체험으로 시작하여 결과를 직접 확인하세요.

Install-Package IronOcr

칸나팟 우돈판트

지금 바로 엔지니어링 팀과 채팅하세요

소프트웨어 엔지니어

카나팟은 소프트웨어 엔지니어가 되기 전 일본 홋카이도 대학교에서 환경 자원학 박사 학위를 취득했습니다. 학위 과정 중에는 생물생산공학과 소속 차량 로봇 연구실에서 활동하기도 했습니다. 2022년에는 C# 기술을 활용하여 Iron Software의 엔지니어링 팀에 합류했고, 현재 IronPDF 개발에 집중하고 있습니다. 카나팟은 IronPDF에 사용되는 대부분의 코드를 직접 작성하는 개발자로부터 배울 수 있다는 점에 만족하며, 동료들과의 소통을 통해 배우는 것 외에도 Iron Software에서 일하는 즐거움을 누리고 있습니다. 코딩이나 문서 작업을 하지 않을 때는 주로 PS5로 게임을 하거나 The Last of Us를 다시 시청하는 것을 즐깁니다.

고객 성공 사례:

주목할 만한 개발자:

웹 세미나:

30일 무료 체험 시작하기

실제로 유용한 데이터를 추출하는 영수증 OCR API를 C#에서 빌드합니다

영수증 OCR 기술은 어떻게 작동합니까?

C#을 사용하여 영수증 데이터를 추출하는 방법은 무엇입니까?

산출

이미지 전처리가 영수증 스캔에서 오류를 줄일 수 있는 방법은 무엇입니까?

이미지 전처리 함수

신뢰 점수를 사용한 데이터 검증

OCR 텍스트에서 특정 영수증 필드를 어떻게 구문 분석할 수 있습니까?

정규 표현식에 대한 개발자의 현실 점검

영수증 OCR API는 경비 관리 시스템과 어떻게 통합됩니까?

오늘부터 영수증 데이터 추출 자동화를 시작하십시오

아이언 서포트 팀

30일 무료 체험 시작하기

실제로 유용한 데이터를 추출하는 영수증 OCR API를 C#에서 빌드합니다

영수증 OCR 기술은 어떻게 작동합니까?

C#을 사용하여 영수증 데이터를 추출하는 방법은 무엇입니까?

산출

이미지 전처리가 영수증 스캔에서 오류를 줄일 수 있는 방법은 무엇입니까?

이미지 전처리 함수

신뢰 점수를 사용한 데이터 검증

OCR 텍스트에서 특정 영수증 필드를 어떻게 구문 분석할 수 있습니까?

정규 표현식에 대한 개발자의 현실 점검

영수증 OCR API는 경비 관리 시스템과 어떻게 통합됩니까?

오늘부터 영수증 데이터 추출 자동화를 시작하십시오

관련 기사

IronOCR 이용한 텍스트 인식 (C# GitHub )

.NET OCR SDK: C#용 텍스트 인식 라이브러리

C#으로 PDF에서 OCR을 수행하는 방법: .NET 을 사용하여 스캔한 문서에서 텍스트 추출

다음 단계: 30일 무료 체험 시작하기

다음 단계: 30일 무료 체험 시작하기

전 세계 수백만 엔지니어들이 신뢰하는 제품입니다.

아이언 서포트 팀