So speichern Sie Ergebnisse als hOCR in einer HTML-Datei

Chaknith related to So speichern Sie Ergebnisse als hOCR in einer HTML-Datei
Chaknith Bin
22. Oktober 2023
Aktualisiert 10. Dezember 2024
Teilen Sie:
This article was translated from English: Does it need improvement?
Translated
View the article in English

hOCR, das für "HTML-basierte OCR" steht, ist ein Dateiformat, das verwendet wird, um die Ergebnisse der Optischen Zeichenerkennung (OCR) in strukturierter Form darzustellen. HOCR-Dateien werden normalerweise in HTML (Hypertext Markup Language) geschrieben und bieten eine Möglichkeit, erkannten Text, Layout-Informationen und die Koordinaten jedes erkannten Zeichens innerhalb eines Bildes oder Dokuments zu speichern.

IronOCR bietet eine Lösung für die Durchführung der optischen Zeichenerkennung auf Dokumenten und den Export der Ergebnisse als hOCR im HTML-Format. Es unterstützt sowohl HTML-Dateien als auch Strings.

Legen Sie los mit IronOCR

Beginnen Sie noch heute mit der Verwendung von IronOCR in Ihrem Projekt mit einer kostenlosen Testversion.

Erster Schritt:
green arrow pointer



Ergebnis als hOCR exportieren Beispiel

Um das Ergebnis als hOCR zu exportieren, muss der Benutzer zuerst die Configuration.RenderHocr-Eigenschaft aktivieren, indem er sie auf true setzt. Nach dem Erhalt des OCR-Ergebnisobjekts aus der Read-Methode, verwenden Sie die SaveAsHocrFile-Methode, um das OCR-Ergebnis als HTML zu exportieren. Diese Methode gibt eine HTML-Datei aus, die das Leseergebnis der Eingabedokumente enthält. Der folgende Code demonstriert die Verwendung der Beispiel-TIFF-Datei.

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
imageInput.Title = "Html Title";

// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as HTML
ocrResult.SaveAsHocrFile("result.html");
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
imageInput.Title = "Html Title"

' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as HTML
ocrResult.SaveAsHocrFile("result.html")
$vbLabelText   $csharpLabel

Ergebnis als HTML-String exportieren

Verwenden Sie dasselbe TIFF-Beispielbild, können Sie die Methode SaveAsHocrString nutzen, um das OCR-Ergebnis als HTML-String zu exportieren. Diese Methode gibt eine HTML-Zeichenkette zurück.

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html-string.cs
// Export as HTML string
string hocr = ocrResult.SaveAsHocrString();
' Export as HTML string
Dim hocr As String = ocrResult.SaveAsHocrString()
$vbLabelText   $csharpLabel
Chaknith related to Ergebnis als HTML-String exportieren
Software-Ingenieur
Chaknith ist der Sherlock Holmes der Entwickler. Zum ersten Mal kam ihm der Gedanke, dass er eine Zukunft in der Softwareentwicklung haben könnte, als er zum Spaß an Code Challenges teilnahm. Sein Schwerpunkt liegt auf IronXL und IronBarcode, aber er ist stolz darauf, Kunden mit jedem Produkt zu helfen. Chaknith nutzt sein Wissen aus direkten Gesprächen mit Kunden, um die Produkte selbst weiter zu verbessern. Sein anekdotisches Feedback geht über Jira-Tickets hinaus und unterstützt die Produktentwicklung, die Dokumentation und das Marketing, um das Gesamterlebnis der Kunden zu verbessern.Wenn er nicht im Büro ist, lernt er über maschinelles Lernen, programmiert und wandert.