HTMLファイルに結果をhOCRとして保存する方法
hOCR(「HTMLベースのOCR」の略)は、光学文字認識の結果を表現するために使用されるファイルフォーマットです。(OCR (光学式文字認識))構造化された方法で。 HOCRファイルは通常、HTMLで記述されています。(ハイパーテキストマークアップ言語)画像やドキュメント内の認識された各文字の座標とレイアウト情報、認識されたテキストを保存する方法を提供します。
IronOCRは、ドキュメント上で光学文字認識を実行し、その結果をHTML形式のhOCRとしてエクスポートするためのソリューションを提供します。 HTMLファイルと文字列の両方に対応しています。
IronOCRを始めましょう
今日から無料トライアルでIronOCRをあなたのプロジェクトで使い始めましょう。
HTMLファイルに結果をhOCRとして保存する方法
hOCRとして結果をエクスポートする例
結果をhOCRとしてエクスポートするには、まずユーザーが Configuration.RenderHocr プロパティをtrueに設定して有効化する必要があります。 Read
メソッドからOCR結果オブジェクトを取得した後、SaveAsHocrFile
メソッドを使用してOCR結果をHTMLとしてエクスポートします。 このメソッドは、入力ドキュメントの読み取り結果を含むHTMLファイルを出力します。 以下のコードは、次のものの使用方法を示していますサンプルTIFFファイル。
:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html.cs
using IronOcr;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = true;
// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
imageInput.Title = "Html Title";
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);
// Export as HTML
ocrResult.SaveAsHocrFile("result.html");
Imports IronOcr
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = True
' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
imageInput.Title = "Html Title"
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)
' Export as HTML
ocrResult.SaveAsHocrFile("result.html")
HTML文字列として結果をエクスポート
同じTIFFサンプル画像を使用して、SaveAsHocrString
メソッドを利用することで、OCR結果をHTML文字列としてエクスポートすることができます。 このメソッドはHTML文字列を返します。
:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html-string.cs
// Export as HTML string
string hocr = ocrResult.SaveAsHocrString();
' Export as HTML string
Dim hocr As String = ocrResult.SaveAsHocrString()