IronOCR 방법 hOCR HTML로 내보내기 C#에서 IronOCR을 사용하여 hOCR HTML로 OCR 결과 저장하기 커티스 차우 업데이트됨:1월 20, 2026 다운로드 IronOCR NuGet 다운로드 DLL 다운로드 윈도우 설치 프로그램 무료 체험 시작하기 LLM용 사본 LLM용 사본 LLM용 마크다운 형식으로 페이지를 복사하세요 ChatGPT에서 열기 ChatGPT에 이 페이지에 대해 문의하세요 제미니에서 열기 제미니에게 이 페이지에 대해 문의하세요 Grok에서 열기 Grok에게 이 페이지에 대해 문의하세요 혼란 속에서 열기 Perplexity에게 이 페이지에 대해 문의하세요 공유하다 페이스북에 공유하기 트위터에 공유하기 LinkedIn에 공유하기 URL 복사 이메일로 기사 보내기 This article was translated from English: Does it need improvement? Translated View the article in English IronOCR 하면 개발자는 RenderHocr를 true로 설정하고 SaveAsHocrFile 또는 SaveAsHocrString 메서드를 사용하여 OCR 결과를 hOCR HTML 파일로 저장할 수 있으며, 텍스트 레이아웃과 문자 좌표를 구조화된 HTML 형식으로 유지합니다. 빠른 시작: OCR 출력 결과를 hOCR HTML 파일로 저장하기 hOCR 렌더링을 활성화하고 단일 설정과 단일 메서드 호출로 결과를 바로 HTML 파일로 내보낼 수 있습니다. NuGet 패키지 관리자를 사용하여 https://www.nuget.org/packages/IronOcr 설치하기 PM > Install-Package IronOcr 다음 코드 조각을 복사하여 실행하세요. var hocr = new IronTesseract { Configuration = { RenderHocr = true } }.Read(new OcrInput("image.png")).SaveAsHocrString(); 실제 운영 환경에서 테스트할 수 있도록 배포하세요. 무료 체험판으로 오늘 프로젝트에서 IronOCR 사용 시작하기 Free 30 Day Trial 최소 워크플로우(5단계) C# 라이브러리를 다운로드하여 결과를 HTML 파일로 hOCR로 저장하기 대상 이미지와 PDF 문서를 준비하세요. **RenderHocr** 속성을 true로 설정하십시오 `SaveAsHocrFile` 메서드를 사용하여 HTML 파일로 출력하십시오 `SaveAsHocrString` 메서드를 사용하여 HTML 문자열로 출력하십시오 hOCR란 무엇이며, 왜 사용해야 하는가? hOCR는 "HTML 기반 OCR"의 약자로, 광학 문자 인식(OCR)의 결과를 구조적인 방식으로 표현하는 데 사용되는 파일 형식입니다. hOCR 파일은 HTML로 작성되며 인식된 텍스트, 레이아웃 정보, 이미지나 문서 내 각 인식된 문자 좌표를 저장하는 방법을 제공합니다. 이 구조화 형식은 문서 인덱싱, 접근성 도구, 고급 검색 구현과 같은 텍스트 위치 데이터를 요구하는 응용 프로그램에 특히 유용합니다. hOCR 형식은 개발자가 텍스트가 단순히 무엇인지 뿐만 아니라 원본 문서에서 어디에 나타나는지를 이해해야 하는 응용 프로그램을 구축할 때 필수적입니다. 이 공간 정보는 디버깅을 위한 텍스트 강조 표시나 원본 이미지에 클릭할 수 있는 오버레이 생성, 스캔된 문서를 접근 가능한 형식으로 변환할 때 문서 레이아웃의 무결성을 유지하는 것과 같은 기능을 제공합니다. 기업 응용 프로그램이 스캔된 문서를 처리할 때, hOCR은 고급 문서 이해와 추출 작업 흐름의 기초를 제공합니다. OCR 결과를 hOCR 파일로 내보내려면 어떻게 해야 하나요? 결과를 hOCR로 내보내려면, 먼저 Configuration.RenderHocr 속성을 true로 설정하여 활성화하십시오. Read 메서드에서 OcrResult 객체를 얻은 후, SaveAsHocrFile 메서드를 사용하여 OCR 결과를 HTML로 내보냅니다. 이 메서드는 입력 문서의 읽기 결과를 포함하는 HTML 파일을 출력합니다. 아래의 코드는 파일을 사용하는 방법을 설명합니다. :path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html.cs using IronOcr; // Instantiate IronTesseract IronTesseract ocrTesseract = new IronTesseract(); // Enable render as hOCR ocrTesseract.Configuration.RenderHocr = true; // Add image using var imageInput = new OcrImageInput("Potter.tiff"); imageInput.Title = "Html Title"; // Perform OCR OcrResult ocrResult = ocrTesseract.Read(imageInput); // Export as HTML ocrResult.SaveAsHocrFile("result.html"); $vbLabelText $csharpLabel OcrInput 클래스는 OCR 처리 전에 이미지를 준비하는 데 사용할 수 있는 광범위한 옵션을 제공합니다. 필터를 적용하고, 관심 영역을 지정하며, 다중 페이지 TIFF 파일을 포함한 다양한 입력 형식을 처리할 수 있습니다. PDF OCR 텍스트 추출 작업 시, 동일한 hOCR 내보내기 방법이 원활하게 적용됩니다. RenderHocr 설정이 왜 중요한가요? RenderHocr 속성을 true로 설정하면 IronOCR OCR 프로세스 중에 필요한 hOCR 구조를 생성합니다. 이 설정이 없으면 SaveAsHocrFile 및 SaveAsHocrString 메서드는 레이아웃을 유지하면서 올바르게 형식화된 hOCR 출력을 생성하지 않습니다. 이 설정은 Tesseract 엔진이 출력 데이터를 처리하고 구성하는 방식에 영향을 미치므로 Read 메서드를 호출하기 전에 설정해야 합니다. hOCR 형식은 중요한 메타데이터를 보존합니다: 문자 단위 경계 상자 단어 신뢰도 점수 줄 및 단락 구조 페이지 크기 및 DPI 정보 감지 가능할 때 글꼴 특성 컴퓨터 비전 작업 흐름을 구현하거나 단순 텍스트 추출 이상의 문서 구조 이해가 필요한 시스템을 구축할 때 이 메타데이터가 특히 유용합니다. 어떤 파일 유형이 hOCR 내보내기를 지원하나요? IronOCR은 TIFF, PNG, JPEG, BMP, GIF를 포함한 다양한 이미지 형식에서 hOCR 내보내기를 지원합니다. PDF 문서 또한 처리되고 각 페이지의 텍스트 및 레이아웃 정보가 HTML 구조에 보존된 hOCR로 내보낼 수 있습니다. 라이브러리는 단일 페이지 이미지와 다중 페이지 문서를 모두 원활하게 처리합니다. 다양한 파일 형식에 대한 최적의 결과를 얻으려면: TIFF: 스캔된 문서에 이상적이며 다중 페이지 처리를 지원합니다 PDF: 텍스트와 이미지 등의 혼합 콘텐츠에 탁월합니다 PNG/JPEG: OCR이 필요한 사진이나 스크린샷에 가장 적합합니다 BMP: 고품질 스캔에 적합한 비압축 형식 여권이나 번호판과 같은 특수 문서 유형을 처리할 때, hOCR 형식은 서로 다른 텍스트 요소 간의 공간적 관계를 보존하여 지정된 필드를 위치에 따라 더 쉽게 추출할 수 있게 도와줍니다. OCR 결과를 HTML 문자열로 내보내려면 어떻게 해야 하나요? 동일한 TIFF 샘플 이미지를 사용하여 SaveAsHocrString 메서드를 이용해 OCR 결과를 HTML 문자열로 내보냅니다. 이 메서드는 HTML 문자열을 반환합니다. :path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html-string.cs // Export as HTML string string hocr = ocrResult.SaveAsHocrString(); $vbLabelText $csharpLabel 문자열 출력은 추가 처리하거나 데이터베이스에 저장하거나 웹 애플리케이션에 통합할 수 있는 완전한 hOCR 마크업을 포함합니다. 검색 가능한 PDF 시스템을 구축하거나 사용자 정의 문서 인덱싱 솔루션을 구현할 때 이 접근 방식이 특히 유용합니다. 125개의 국제 언어로 작업하는 개발자는 hOCR 형식이 언어별 텍스트 속성과 읽기 방향 정보를 보존합니다. 언제 파일 대신 문자열 출력을 사용해야 하나요? 문자열 출력은 메모리 내에서 hOCR 데이터를 처리하거나 조작하고 웹 서비스와 통합하거나 데이터베이스에 결과를 저장해야 할 때 이상적입니다. 이 접근 방식은 파일 시스템에 대한 의존성을 피하고 웹 애플리케이션에 대한 동적 HTML 생성을 가능하게 합니다. 일반적인 사용 사례에는 다음이 포함됩니다: 웹 API 통합: API 응답에 hOCR 데이터를 직접 반환 데이터베이스 저장: 문서 메타데이터와 함께 OCR 결과 저장 실시간 처리: 디스크 I/O 오버헤드 없이 결과 처리 클라우드 기능: 제한된 파일 접근을 가진 서버리스 환경에서 작업 콘텐츠 관리 시스템: 기존 문서 작업 흐름에 OCR 결과 통합 진행 추적이 필요한 응용 프로그램의 경우, 문자열 출력은 사용 가능한 부분 결과의 즉시 처리를 가능하게 합니다. 다중 스레드 OCR 처리를 구현할 때 특히 유리하며 여러 문서가 동시에 처리됩니다. 다중 페이지를 HTML 문자열로 처리하려면 어떻게 해야 하나요? 여러 페이지로 구성된 문서를 작업할 때, SaveAsHocrString는 모든 페이지를 적절한 페이지 구분과 함께 단일 HTML 문자열로 통합합니다. 각 페이지의 내용은 적절한 hOCR 요소로 감싸져 있으며, 문서 구조와 페이지 경계를 유지합니다. // Processing multi-page documents using var multiPageInput = new OcrPdfInput("multi-page-document.pdf"); multiPageInput.Title = "Multi-Page Document"; // Configure for hOCR output IronTesseract tesseract = new IronTesseract(); tesseract.Configuration.RenderHocr = true; // Read all pages OcrResult result = tesseract.Read(multiPageInput); // Export as single HTML string with all pages string fullHocr = result.SaveAsHocrString(); // Or process page by page foreach (var page in result.Pages) { string pageHocr = page.SaveAsHocrString(); // Process individual page hOCR } // Processing multi-page documents using var multiPageInput = new OcrPdfInput("multi-page-document.pdf"); multiPageInput.Title = "Multi-Page Document"; // Configure for hOCR output IronTesseract tesseract = new IronTesseract(); tesseract.Configuration.RenderHocr = true; // Read all pages OcrResult result = tesseract.Read(multiPageInput); // Export as single HTML string with all pages string fullHocr = result.SaveAsHocrString(); // Or process page by page foreach (var page in result.Pages) { string pageHocr = page.SaveAsHocrString(); // Process individual page hOCR } $vbLabelText $csharpLabel 이 접근 방식은 PDF 스트림에 원활하게 작동하며, 특정 페이지 범위를 처리하거나 다른 페이지에 다른 OCR 구성을 적용하는 등의 고급 시나리오를 지원합니다. 고급 hOCR 구현 팁 hOCR 출력 품질을 최대화하는 최적의 방법은 무엇인가요? 이미지 최적화 필터를 처리 전 적용하여 hOCR 출력 품질을 최대화하십시오: var input = new OcrImageInput("document.png"); input.DeNoise(); // Remove image noise input.Deskew(); // Correct image rotation input.Scale(2); // Upscale for better recognition IronTesseract ocr = new IronTesseract(); ocr.Configuration.RenderHocr = true; var result = ocr.Read(input); var input = new OcrImageInput("document.png"); input.DeNoise(); // Remove image noise input.Deskew(); // Correct image rotation input.Scale(2); // Upscale for better recognition IronTesseract ocr = new IronTesseract(); ocr.Configuration.RenderHocr = true; var result = ocr.Read(input); $vbLabelText $csharpLabel 저품질 스캔의 경우, 추가적인 전처리 단계가 hOCR 정확성을 크게 향상시킬 수 있습니다. 필터 마법사는 특정 문서 유형에 대한 최적의 필터 조합을 결정하는 데 도움을 줍니다. hOCR 구조가 고급 처리에 어떻게 지원되나요? 생성된 hOCR은 문서 계층 구조를 나타내는 중첩된 div 요소가 있는 표준 명세를 따릅니다: <div class='ocr_page' title='bbox 0 0 2480 3508'> <div class='ocr_carea' title='bbox 156 114 2324 3395'> <p class='ocr_par' title='bbox 157 114 2323 164'> <span class='ocr_line' title='bbox 157 114 2323 164'> <span class='ocr_word' title='bbox 157 114 294 161'>Hello</span> <span class='ocr_word' title='bbox 334 119 483 161'>World</span> </span> </p> </div> </div> <div class='ocr_page' title='bbox 0 0 2480 3508'> <div class='ocr_carea' title='bbox 156 114 2324 3395'> <p class='ocr_par' title='bbox 157 114 2323 164'> <span class='ocr_line' title='bbox 157 114 2323 164'> <span class='ocr_word' title='bbox 157 114 294 161'>Hello</span> <span class='ocr_word' title='bbox 334 119 483 161'>World</span> </span> </p> </div> </div> HTML 이 구조는 정확한 텍스트 위치 추출 및 고급 문서 분석 기능을 가능하게 하여 공간적 텍스트 관계나 레이아웃 보존이 필요한 응용 프로그램에 유용합니다. 테이블 추출 작업 시, hOCR 형식은 표의 구조와 셀 관계를 유지하는 데 도움을 줍니다. bbox(경계 상자) 속성에는 'bbox left top right bottom' 형식의 좌표가 포함되어 있으며 각 텍스트 요소에 대해 픽셀 단위의 위치 데이터를 제공합니다. 이 정보는 다음에 중요합니다: 텍스트 선택이 가능한 상호작용형 문서 뷰어 생성 레이아웃을 보존하는 수정 시스템 구현 읽기 순서를 유지하는 접근성 도구 구축 문서 비교 시스템 개발 더욱 세밀한 구성 옵션이 필요한 개발자의 경우 Tesseract 상세 구성 가이드는 hOCR 출력 품질과 구조에 영향을 미치는 고급 설정을 제공합니다. 자주 묻는 질문 hOCR이란 무엇이며 OCR 응용 분야에서 왜 유용한가요? hOCR(HTML 기반 OCR)은 OCR 결과를 구조화된 HTML 형식으로 표현하는 파일 형식으로, 인식된 텍스트와 문자 좌표와 같은 공간 정보를 모두 저장합니다. IronOCR은 hOCR 내보내기를 지원하며, 이는 텍스트 위치 데이터, 문서 색인, 접근성 도구, 스캔 문서 처리 시 레이아웃 무결성 유지 등이 필요한 애플리케이션에 유용합니다. C# OCR 애플리케이션에서 hOCR 출력을 활성화하려면 어떻게 해야 하나요? IronOCR에서 hOCR 출력을 활성화하려면 IronTesseract 인스턴스의 Configuration.RenderHocr 속성을 true로 설정하십시오. 이렇게 하면 IronOCR이 OCR 결과를 hOCR 형식으로 준비하므로 SaveAsHocrFile 또는 SaveAsHocrString 메서드를 사용하여 내보낼 수 있습니다. hOCR 결과를 내보내는 데 사용할 수 있는 방법에는 어떤 것들이 있습니까? IronOCR은 hOCR 결과를 내보내는 두 가지 방법을 제공합니다. SaveAsHocrFile()은 출력을 디스크의 HTML 파일로 직접 저장하고, SaveAsHocrString()은 hOCR HTML을 문자열로 반환하여 애플리케이션에서 추가 처리 또는 저장할 수 있도록 합니다. 단 한 줄의 코드로 OCR 결과를 hOCR 형식으로 내보낼 수 있나요? 네, IronOCR은 메서드 체이닝을 사용하여 한 줄짜리 hOCR 내보내기를 지원합니다. RenderHocr이 활성화된 IronTesseract 인스턴스를 생성하고, 입력을 읽고, SaveAsHocrString()을 호출하는 모든 작업을 단일 구문으로 수행할 수 있습니다. 예를 들어 다음과 같습니다. var hocr = new IronTesseract { Configuration = { RenderHocr = true } }.Read(new OcrInput("image.png")).SaveAsHocrString(); hOCR은 OCR 결과에서 어떤 유형의 공간 정보를 보존합니까? hOCR은 원본 이미지 또는 문서 내에서 인식된 각 문자의 레이아웃 정보와 좌표를 보존합니다. IronOCR의 hOCR 내보내기 기능은 이러한 공간 데이터를 유지하여 디버깅을 위한 텍스트 강조 표시, 이미지에 클릭 가능한 오버레이 생성, 원본 문서에서 텍스트가 나타나는 위치 파악과 같은 기능을 사용할 수 있도록 합니다. 커티스 차우 지금 바로 엔지니어링 팀과 채팅하세요 기술 문서 작성자 커티스 차우는 칼턴 대학교에서 컴퓨터 과학 학사 학위를 취득했으며, Node.js, TypeScript, JavaScript, React를 전문으로 하는 프론트엔드 개발자입니다. 직관적이고 미적으로 뛰어난 사용자 인터페이스를 만드는 데 열정을 가진 그는 최신 프레임워크를 활용하고, 잘 구성되고 시각적으로 매력적인 매뉴얼을 제작하는 것을 즐깁니다. 커티스는 개발 분야 외에도 사물 인터넷(IoT)에 깊은 관심을 가지고 있으며, 하드웨어와 소프트웨어를 통합하는 혁신적인 방법을 연구합니다. 여가 시간에는 게임을 즐기거나 디스코드 봇을 만들면서 기술에 대한 애정과 창의성을 결합합니다. 검토자: 제프리 T. 프리츠 .NET 커뮤니티 팀의 수석 프로그램 관리자 제프는 .NET 및 Visual Studio 팀의 수석 프로그램 관리자이기도 합니다. 그는 .NET Conf 가상 컨퍼런스 시리즈의 총괄 프로듀서이며, 개발자를 위한 라이브 스트림 'Fritz and Friends'를 주 2회 진행하며 시청자들과 함께 기술에 대해 이야기하고 코드를 작성합니다. 제프는 Microsoft Build, Microsoft Ignite, .NET Conf, Microsoft MVP Summit 등 주요 Microsoft 개발자 행사를 위한 워크숍, 프레젠테이션 및 콘텐츠 기획을 담당합니다. 시작할 준비 되셨나요? Nuget 다운로드 5,525,971 | 버전: 2026.3 방금 출시되었습니다 무료 체험 시작하기 NuGet 무료 다운로드 총 다운로드 수: 5,525,971 라이선스 보기 아직도 스크롤하고 계신가요? 빠른 증거를 원하시나요? PM > Install-Package IronOcr 샘플을 실행하세요 이미지가 검색 가능한 텍스트로 바뀌는 것을 확인해 보세요. NuGet 무료 다운로드 총 다운로드 수: 5,525,971 라이선스 보기