So speichern Sie Ergebnisse als hOCR in einer HTML-Datei
hOCR, das für "HTML-basierte OCR" steht, ist ein Dateiformat, das verwendet wird, um die Ergebnisse der Optischen Zeichenerkennung (OCR) in strukturierter Form darzustellen. HOCR-Dateien werden normalerweise in HTML (Hypertext Markup Language) geschrieben und bieten eine Möglichkeit, erkannten Text, Layout-Informationen und die Koordinaten jedes erkannten Zeichens innerhalb eines Bildes oder Dokuments zu speichern.
IronOCR bietet eine Lösung für die Durchführung der optischen Zeichenerkennung auf Dokumenten und den Export der Ergebnisse als hOCR im HTML-Format. Es unterstützt sowohl HTML-Dateien als auch Strings.
Legen Sie los mit IronOCR
Beginnen Sie noch heute mit der Verwendung von IronOCR in Ihrem Projekt mit einer kostenlosen Testversion.
So speichern Sie Ergebnisse als hOCR in einer HTML-Datei
- Laden Sie eine C#-Bibliothek herunter, um Ergebnisse als hOCR in einer HTML-Datei zu speichern
- Bereiten Sie das Zielbild und das PDF-Dokument vor
- Setzen Sie die RenderHocr-Eigenschaft auf wahr
- Verwenden Sie die
SaveAsHocrFile
-Methode, um eine HTML-Datei auszugeben - Verwenden Sie die
SaveAsHocrString
-Methode, um eine HTML-Zeichenfolge auszugeben
Ergebnis als hOCR exportieren Beispiel
Um das Ergebnis als hOCR zu exportieren, muss der Benutzer zuerst die Configuration.RenderHocr-Eigenschaft aktivieren, indem er sie auf true setzt. Nach dem Erhalt des OCR-Ergebnisobjekts aus der Read
-Methode, verwenden Sie die SaveAsHocrFile
-Methode, um das OCR-Ergebnis als HTML zu exportieren. Diese Methode gibt eine HTML-Datei aus, die das Leseergebnis der Eingabedokumente enthält. Der folgende Code demonstriert die Verwendung der Beispiel-TIFF-Datei.
:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html.cs
using IronOcr;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = true;
// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
imageInput.Title = "Html Title";
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);
// Export as HTML
ocrResult.SaveAsHocrFile("result.html");
Imports IronOcr
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = True
' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
imageInput.Title = "Html Title"
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)
' Export as HTML
ocrResult.SaveAsHocrFile("result.html")
Ergebnis als HTML-String exportieren
Verwenden Sie dasselbe TIFF-Beispielbild, können Sie die Methode SaveAsHocrString
nutzen, um das OCR-Ergebnis als HTML-String zu exportieren. Diese Methode gibt eine HTML-Zeichenkette zurück.
:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html-string.cs
// Export as HTML string
string hocr = ocrResult.SaveAsHocrString();
' Export as HTML string
Dim hocr As String = ocrResult.SaveAsHocrString()