HTMLファイルに結果をhOCRとして保存する方法

This article was translated from English: Does it need improvement?
Translated
View the article in English

によって チャクニット・ビン

hOCR(「HTMLベースのOCR」の略)は、光学文字認識の結果を表現するために使用されるファイルフォーマットです。 (OCR (光学式文字認識)) 構造化された方法で。 HOCRファイルは通常、HTMLで記述されています。 (ハイパーテキストマークアップ言語) 画像やドキュメント内の認識された各文字の座標とレイアウト情報、認識されたテキストを保存する方法を提供します。

IronOCRは、ドキュメント上で光学文字認識を実行し、その結果をHTML形式のhOCRとしてエクスポートするためのソリューションを提供します。 HTMLファイルと文字列の両方に対応しています。


OCR 用 C# NuGet ライブラリ

でインストール NuGet

Install-Package IronOcr
または
Java PDF JAR(ジャバPDF JAR)

ダウンロード DLL (ディーエルエル)

DLLをダウンロード

プロジェクトに手動でインストールする

OCR 用 C# NuGet ライブラリ

でインストール NuGet

Install-Package IronOcr
または
Java PDF JAR(ジャバPDF JAR)

ダウンロード DLL (ディーエルエル)

DLLをダウンロード

プロジェクトに手動でインストールする

今日からプロジェクトでIronPDFを使い始めましょう。無料のトライアルをお試しください。

最初のステップ:
green arrow pointer

チェックアウト IronOCR オン Nuget 迅速なインストールと展開のために。8百万以上のダウンロード数により、OCRをC#で変革しています。

OCR 用 C# NuGet ライブラリ nuget.org/packages/IronOcr/
Install-Package IronOcr

インストールを検討してください IronOCR DLL 直接。ダウンロードして、プロジェクトまたはGACの形式で手動でインストールしてください。 IronOcr.zip

プロジェクトに手動でインストールする

DLLをダウンロード

hOCRとして結果をエクスポートする例

結果をhOCRとしてエクスポートするには、まずユーザーが Configuration.RenderHocr プロパティをtrueに設定して有効化する必要があります。 ReadメソッドからOCR結果オブジェクトを取得した後、SaveAsHocrFileメソッドを使用してOCR結果をHTMLとしてエクスポートします。 このメソッドは、入力ドキュメントの読み取り結果を含むHTMLファイルを出力します。 以下のコードは、次のものの使用方法を示しています サンプルTIFF ファイル。

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
imageInput.Title = "Html Title";

// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as HTML
ocrResult.SaveAsHocrFile("result.html");
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
imageInput.Title = "Html Title"

' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as HTML
ocrResult.SaveAsHocrFile("result.html")
VB   C#

HTML文字列として結果をエクスポート

同じTIFFサンプル画像を使用して、SaveAsHocrStringメソッドを利用することで、OCR結果をHTML文字列としてエクスポートすることができます。 このメソッドはHTML文字列を返します。

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html-string.cs
// Export as HTML string
string hocr = ocrResult.SaveAsHocrString();
' Export as HTML string
Dim hocr As String = ocrResult.SaveAsHocrString()
VB   C#

チャクニット・ビン

ソフトウェアエンジニア

チャクニットは開発者のシャーロック・ホームズです。彼がソフトウェアエンジニアリングの将来性に気付いたのは、楽しみでコーディングチャレンジをしていたときでした。彼のフォーカスはIronXLとIronBarcodeにありますが、すべての製品でお客様を助けることに誇りを持っています。チャクニットは顧客と直接話すことで得た知識を活用して、製品自体のさらなる改善に貢献しています。彼の逸話的なフィードバックは、単なるJiraチケットを超えて、製品開発、ドキュメントおよびマーケティングをサポートし、顧客の全体的な体験を向上させます。オフィスにいないときは、機械学習やコーディングについて学んだり、ハイキングを楽しんだりしています。