푸터 콘텐츠로 바로가기
IRONOCR 사용
IronOCR 로 검색 가능한 PDF의 잠재력을 최대한 활용하세요

IronOCR 로 검색 가능한 PDF의 잠재력을 최대한 활용하기: 웨비나 요약

IronOCR로 문서 변환을 간소화하는 웨비나에서는 Chipego Kalinda(소프트웨어 영업 엔지니어)와 Darren Steddy(영업 운영 관리자)가 실시간 코드 및 실제 사례를 통해 IronOCR의 세 가지 실용적 사용 사례를 탐구하여 스캔한 PDF를 검색 가능하고 준수 문서로 변환하는 것이 얼마나 효과적이고 쉬운지를 보여주었습니다.

IronOCR를 사용하면 기업이 몇 줄의 코드만으로 스캔한 PDF를 검색 가능하고 준수 문서로 변환하여 데이터 추출을 자동화하고 법적 준수 및 운영 효율성을 위한 PDF/UA와 같은 접근성 표준을 충족할 수 있습니다.

PDF를 PDF/UA에 맞게 만들려면 어떻게 해야 합니까?

PDF/UA 표준은 비즈니스에 왜 중요한가요?

많은 조직이 내부 정책, 공공 부문 의무 또는 장기 아카이빙을 위해 PDF/UA와 같은 접근성 및 준수 표준을 충족해야 합니다. PDF/UA(Universal Accessibility) 표준은 특히 스크린 리더와 같은 보조 기술을 사용하는 장애인이 PDF에 완전히 접근할 수 있도록 보장합니다. 이것은 단지 규정을 준수하는 것에 관한 것이 아닙니다. 모든 사용자가 정보를 동등하게 접근할 수 있도록 보장하고 접근성 위반과 관련된 잠재적인 법적 문제를 피하는 것에 관한 것입니다.

IronOCR 접근 방식이 이렇게 간단한 이유는 무엇일까요?

Chipego는 IronOCR이 일반적인 비준수 PDF를 PDF/UA 준수 문서로 단 몇 몇 줄의 코드만으로 변환하는 방법을 보여주었습니다.

using IronOcr;
using IronPdf;

// Initialize IronOCR
var ocr = new IronTesseract();

// Configure OCR for accessibility compliance
ocr.Configuration.ReadBarCodes = true;
ocr.Configuration.RenderSearchablePdf = true;

// Read the scanned PDF
using var input = new OcrInput();
input.AddPdf("scanned-document.pdf");

// Perform OCR and create searchable PDF/UA compliant document
var result = ocr.Read(input);
result.SaveAsSearchablePdf("compliant-output.pdf");
using IronOcr;
using IronPdf;

// Initialize IronOCR
var ocr = new IronTesseract();

// Configure OCR for accessibility compliance
ocr.Configuration.ReadBarCodes = true;
ocr.Configuration.RenderSearchablePdf = true;

// Read the scanned PDF
using var input = new OcrInput();
input.AddPdf("scanned-document.pdf");

// Perform OCR and create searchable PDF/UA compliant document
var result = ocr.Read(input);
result.SaveAsSearchablePdf("compliant-output.pdf");
$vbLabelText   $csharpLabel

결과는 접근성과 아카이브 표준을 위한 검증 도구인 VeraPDF를 사용하여 검증되었습니다. 이 검증 단계는 감사 또는 규제 요구 사항의 준수를 입증해야 하는 조직에 매우 중요합니다.

PDF/UA 준수로 가장 큰 혜택을 받는 사람은 누구일까요?

PDF/UA 준수는 시각 장애 사용자가 화면 판독기를 사용하여 문서에 접근할 수 있도록 하여 법적 준수와 포용적 디자인을 지원합니다. 정부 기관, 교육 기관, 의료 기관은 특히 더 엄격한 접근성 요구 사항을 가지고 있기 때문에 큰 혜택을 받습니다. 또한, 유럽에서 사업을 하는 회사는 유럽 접근성 법안을 준수해야 하므로 PDF/UA 준수는 시장 접근에 필수적입니다.

IronOCR로 검색 가능한 PDF 생성 데모, 문서 비교 전후 보기

스캔된 PDF를 어떻게 검색 가능하게 만들 수 있을까요?

이 문제가 어떤 문제를 해결하나요?

PDF처럼 보이지만 이미지처럼 작동하는 스캔된 문서를 가지고 있었던 적이 있나요? 그때가 OCR 기술이 필요한 순간입니다. 많은 비즈니스는 수천 개의 스캔된 PDF를 포함하는 기존 문서 아카이브로 인해 어려움을 겪고 있으며, 이러한 파일은 저장 공간을 차지하지만 검색 가능성이나 데이터 추출 기능을 제공하지 않습니다. OCR이 없으면 직원들은 문서를 수동으로 검색하는 데 수많은 시간을 낭비하여 생산성이 감소하고 운영비용이 증가합니다.

변환 프로세스는 어떻게 작동하나요?

Chipego는 IronOCR이 검색 불가능한 스캔된 PDF를 검색 가능한 PDF로 변환하는 방법을 보여주었으며, 즉시 전체 텍스트 검색 기능을 활성화합니다. 이 프로세스는 여러 고급 단계를 포함합니다:

using IronOcr;

// Create a new OCR engine instance
var ocr = new IronTesseract();

// Configure language and accuracy settings
ocr.Language = OcrLanguage.English;
ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;

// Load the scanned PDF
using var input = new OcrInput();
input.AddPdf("invoice-scan.pdf");

// Apply image improve for better accuracy
input.DeNoise();
input.Deskew();
input.EnhanceResolution(225);

// Perform OCR and save as searchable PDF
var result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-invoice.pdf");

// Extract text for indexing
string extractedText = result.Text;
Console.WriteLine($"Extracted {extractedText.Length} characters");
using IronOcr;

// Create a new OCR engine instance
var ocr = new IronTesseract();

// Configure language and accuracy settings
ocr.Language = OcrLanguage.English;
ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;

// Load the scanned PDF
using var input = new OcrInput();
input.AddPdf("invoice-scan.pdf");

// Apply image improve for better accuracy
input.DeNoise();
input.Deskew();
input.EnhanceResolution(225);

// Perform OCR and save as searchable PDF
var result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-invoice.pdf");

// Extract text for indexing
string extractedText = result.Text;
Console.WriteLine($"Extracted {extractedText.Length} characters");
$vbLabelText   $csharpLabel

변환 후 사용자는 Ctrl+F를 사용하거나 날짜, 이름, 문서 주제와 같은 키워드로 검색하여 특정 콘텐츠를 찾을 수 있습니다. OCR 엔진은 원본 문서의 레이아웃을 지능적으로 유지하면서 콘텐츠를 검색 가능하고 선택 가능하게 만드는 보이지 않는 텍스트 레이어를 추가합니다.

어떤 산업이 검색 가능한 PDF로 가장 큰 혜택을 받을까요?

완벽한 산업:

  • 사건 파일 및 계약을 처리하는 법률 회사
  • 환자 기록을 관리하는 의료 제공자
  • 빠른 콘텐츠 검색이 필요한 종이 기록을 디지털화하는 팀
  • 송장 처리 및 준수를 위한 금융 기관
  • 부동산 문서를 디지털화하는 부동산 회사

산업 추정에 따르면 대규모 문서 저장소에서 특정 정보를 빠르게 찾을 수 있는 능력은 검색 시간을 최대 90%까지 줄일 수 있습니다.

IronOCR 인터페이스를 통해 변환된 PDF에서 텍스트 추출 및 검색 기능을 보여주는 중

PDF에서 특정 데이터를 어떻게 추출할 수 있을까요?

언제 타겟 추출을 사용해야 하나요?

영수증, 구매 주문서 또는 송장과 같은 대량의 구조화된 문서를 처리하는 기업을 위해 Chipego는 IronOCR이 경계 상자 좌표를 사용하여 특정 PDF 영역에서 데이터를 추출하는 방법을 보여주었습니다 . 이 타겟 접근 방식은 송장상의 총액, 계약상의 날짜 또는 주문서 양식상의 고객 ID와 같이 중요한 정보가 일관된 위치에 나타나는 표준화된 양식 작업에서 특히 가치가 있습니다.

지역 처리로 성능이 어떻게 개선되나요?

전체 파일을 처리하는 대신, IronOCR은 주문 번호, 총액, 주소와 같은 관련 필드에만 집중하여 속도를 크게 개선하고 클라우드 또는 컴퓨팅 비용을 줄입니다. 타겟 추출을 구현하는 방법은 다음과 같습니다:

using IronOcr;
using System.Drawing;

var ocr = new IronTesseract();

// Load PDF and define extraction regions
using var input = new OcrInput();
input.AddPdf("purchase-order.pdf", 1); // Process first page only

// Define bounding box for PO number field (x, y, width, height)
var poNumberArea = new Rectangle(450, 100, 150, 50);
input.AddPdfPage("purchase-order.pdf", 1, poNumberArea);

// Extract just the PO number
var result = ocr.Read(input);
string poNumber = result.Text.Trim();

// Define multiple regions for batch extraction
var regions = new Dictionary<string, Rectangle>
{
    { "PONumber", new Rectangle(450, 100, 150, 50) },
    { "TotalAmount", new Rectangle(450, 600, 150, 50) },
    { "VendorName", new Rectangle(50, 200, 300, 50) }
};

// Extract data from each region
var extractedData = new Dictionary<string, string>();
foreach (var region in regions)
{
    input.Clear();
    input.AddPdfPage("purchase-order.pdf", 1, region.Value);
    var regionResult = ocr.Read(input);
    extractedData[region.Key] = regionResult.Text.Trim();
}
using IronOcr;
using System.Drawing;

var ocr = new IronTesseract();

// Load PDF and define extraction regions
using var input = new OcrInput();
input.AddPdf("purchase-order.pdf", 1); // Process first page only

// Define bounding box for PO number field (x, y, width, height)
var poNumberArea = new Rectangle(450, 100, 150, 50);
input.AddPdfPage("purchase-order.pdf", 1, poNumberArea);

// Extract just the PO number
var result = ocr.Read(input);
string poNumber = result.Text.Trim();

// Define multiple regions for batch extraction
var regions = new Dictionary<string, Rectangle>
{
    { "PONumber", new Rectangle(450, 100, 150, 50) },
    { "TotalAmount", new Rectangle(450, 600, 150, 50) },
    { "VendorName", new Rectangle(50, 200, 300, 50) }
};

// Extract data from each region
var extractedData = new Dictionary<string, string>();
foreach (var region in regions)
{
    input.Clear();
    input.AddPdfPage("purchase-order.pdf", 1, region.Value);
    var regionResult = ocr.Read(input);
    extractedData[region.Key] = regionResult.Text.Trim();
}
$vbLabelText   $csharpLabel

이 타겟 접근 방식은 전체 페이지 OCR과 비교하여 처리 시간을 70-80% 줄일 수 있으므로, 대량 문서 처리 시나리오에 이상적입니다.

사업상의 이점은 무엇인가요?

이는 반복적인 데이터 입력 작업을 자동화하여 수작업 노력을 줄이고 정확성을 개선하며 팀이 더 높은 가치의 작업을 할 수 있도록 합니다. 기업들은 데이터 입력만으로 주당 20-30시간을 절약할 수 있다고 보고합니다. 추출된 데이터는 자동으로 데이터베이스로 내보내거나 기존 시스템과 통합하거나 자동화된 워크플로우를 촉발할 수 있습니다. 예를 들어, 추출된 송장 총액은 자동으로 회계 시스템을 업데이트할 수 있으며, 추출된 고객 정보는 수동 개입 없이 CRM 기록에 입력될 수 있습니다.

IronOCR은 대규모 자동화를 어떻게 처리하나요?

IronOCR은 여러 파일을 동시에 처리할 수 있나요?

웨비나에서 개별 코드 예를 보였지만, IronOCR은 대규모 배치 처리를 위해 구축되었습니다. 수백 개 또는 수백만 개의 파일을 변환하든, IronOCR은 기존 시스템에 쉽게 통합됩니다. Enterprise 솔루션은 다중 스레딩 및 분산 처리를 지원하여 조직이 시간당 수천 개의 문서를 처리할 수 있도록 합니다. 다음은 배치 처리 예입니다:

using IronOcr;
using System.IO;
using System.Threading.Tasks;

public async Task ProcessDocumentBatch(string folderPath)
{
    var ocr = new IronTesseract();
    ocr.Configuration.RenderSearchablePdf = true;

    // Get all PDF files in directory
    var pdfFiles = Directory.GetFiles(folderPath, "*.pdf");

    // Process files in parallel for maximum efficiency
    await Parallel.ForEachAsync(pdfFiles, async (file, ct) =>
    {
        using var input = new OcrInput();
        input.AddPdf(file);

        var result = await Task.Run(() => ocr.Read(input));

        // Save searchable version
        var outputPath = Path.Combine(folderPath, "searchable", Path.GetFileName(file));
        result.SaveAsSearchablePdf(outputPath);

        // Log processing results
        Console.WriteLine($"Processed: {file} - {result.Pages.Length} pages");
    });
}
using IronOcr;
using System.IO;
using System.Threading.Tasks;

public async Task ProcessDocumentBatch(string folderPath)
{
    var ocr = new IronTesseract();
    ocr.Configuration.RenderSearchablePdf = true;

    // Get all PDF files in directory
    var pdfFiles = Directory.GetFiles(folderPath, "*.pdf");

    // Process files in parallel for maximum efficiency
    await Parallel.ForEachAsync(pdfFiles, async (file, ct) =>
    {
        using var input = new OcrInput();
        input.AddPdf(file);

        var result = await Task.Run(() => ocr.Read(input));

        // Save searchable version
        var outputPath = Path.Combine(folderPath, "searchable", Path.GetFileName(file));
        result.SaveAsSearchablePdf(outputPath);

        // Log processing results
        Console.WriteLine($"Processed: {file} - {result.Pages.Length} pages");
    });
}
$vbLabelText   $csharpLabel

어떤 지원 옵션이 있나요?

도움이 필요하신가요? Iron Software는 24/5 기술 지원을 채팅과 이메일을 통해 제공하여 빠르게 시작할 수 있도록 도와드립니다. 그들의 지원 팀에는 OCR 전문가가 포함되어 있어, 복잡한 문서 유형, 다국어 또는 복잡한 통합 요구 사항을 다루더라도 사용 사례를 개선하는 데 도움을 줄 수 있습니다. 완벽한 문서 및 코드 예제 또한 개발자가 독립적으로 솔루션을 구현하는 데 도움이 됩니다.

PDF를 검색 가능하게, 규정 준수 가능하게, 자동화 준비 완료 상태로 만들 준비가 되셨습니까?

IronOCR은 수작업으로 인한 병목 현상을 자동화된 워크플로로 변환합니다. 125개 이상의 언어, 고급 이미지 전처리 및 부드러운 PDF 처리를 지원하여, 현대적인 문서 관리에 완벽한 솔루션입니다. 규정 준수를 보장하고 검색을 가능하게 하거나 중요한 데이터를 추출하는 등, IronOCR은 개발자 친화적인 구현과 함께 전문가 수준의 OCR 기능을 제공합니다.

IronOCR의 전체 문서를 확인하고 오늘 바로 시작하세요:

30일 체험판 시도하기

자주 묻는 질문

스캔한 PDF 파일을 검색 가능한 문서로 변환하려면 어떻게 해야 하나요?

IronOCR 사용하면 검색이 불가능한 스캔 PDF 파일을 완벽하게 검색 가능한 문서로 변환할 수 있습니다. OCR 기술을 적용하여 전체 텍스트 검색 기능을 활성화함으로써 키워드나 구문을 사용하여 특정 콘텐츠를 찾을 수 있습니다.

PDF를 PDF/UA 표준에 맞추면 어떤 이점이 있나요?

PDF/UA 표준을 준수하는 PDF 문서를 만들면 화면 낭독기를 통해 시각 장애가 있는 사용자도 접근성을 확보할 수 있습니다. IronOCR 단 몇 줄의 코드로 PDF/UA 표준을 준수하지 않는 PDF 문서를 변환할 수 있으며, VeraPDF와 같은 도구를 통해 변환 결과를 검증할 수 있습니다.

IronOCR PDF에서 특정 데이터를 추출하는 데 어떻게 도움을 줍니까?

IronOCR 경계 상자 좌표를 사용하여 PDF의 특정 영역에서 데이터를 추출할 수 있습니다. 이 기능은 송장이나 영수증과 같은 구조화된 문서에 특히 유용하며, 관련 필드에 집중하고 처리 효율성을 향상시킬 수 있도록 해줍니다.

IronOCR 은 문서 처리 작업 자동화에서 어떤 역할을 하나요?

IronOCR 대규모 일괄 처리에 최적화되어 있어 문서 변환 작업을 자동화하는 데 이상적입니다. 대용량 파일을 효율적으로 처리할 수 있으며, 기존 시스템에 원활하게 통합되어 워크플로우를 간소화합니다.

스캔한 PDF 파일을 검색 가능한 형식으로 변환하면 누가 이득을 볼까요?

법률 회사나 의료 기관과 같은 조직은 스캔한 PDF 파일을 검색 가능한 형식으로 변환함으로써 많은 이점을 얻습니다. 이를 통해 방대한 아카이브에서 콘텐츠 기반의 빠른 검색이 가능해지고 정보 검색이 간소화됩니다.

IronOCR 도입하는 사용자를 위해 어떤 지원 옵션이 제공되나요?

Iron Software IronOCR 구현을 지원하기 위해 채팅 및 이메일을 통해 연중무휴 24시간(주말 제외) 기술 지원을 제공합니다. 이러한 지원을 통해 사용자는 문서 변환 프로젝트를 효율적으로 관리하고 기술적인 문제를 해결할 수 있습니다.

문서 변환 프로젝트의 성공을 어떻게 보장할 수 있을까요?

성공적인 결과를 얻으려면 IronOCR 의 강력한 기능을 활용하고 Iron Software 에서 제공하는 기술 지원을 적극적으로 활용하십시오. 공식 웹사이트에서 전체 문서를 확인하고 30일 무료 평가판을 통해 기능을 직접 체험해 보시기 바랍니다.

칸나오팟 우돈판트
소프트웨어 엔지니어
카나팟은 소프트웨어 엔지니어가 되기 전 일본 홋카이도 대학교에서 환경 자원학 박사 학위를 취득했습니다. 학위 과정 중에는 생물생산공학과 소속 차량 로봇 연구실에서 활동하기도 했습니다. 2022년에는 C# 기술을 활용하여 Iron Software의 엔지니어링 팀에 합류했고, 현재 IronPDF 개발에 집중하고 있습니다. 카나팟은 IronPDF에 사용되는 대부분의 코드를 직접 작성하는 개발자로부터 배울 수 있다는 점에 만족하며, 동료들과의 소통을 통해 배우는 것 외에도 Iron Software에서 일하는 즐거움을 누리고 있습니다. 코딩이나 문서 작업을 하지 않을 때는 주로 PS5로 게임을 하거나 The Last of Us를 다시 시청하는 것을 즐깁니다.

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me