So speichern Sie Ergebnisse als hOCR in einer HTML-Datei

This article was translated from English: Does it need improvement?
Translated
View the article in English

von Chaknith Bin

hOCR, die Abkürzung für "HTML-based OCR", ist ein Dateiformat, das zur Darstellung der Ergebnisse von Optical Character Recognition(OCR) auf strukturierte Weise. HOCR-Dateien sind normalerweise in HTML geschrieben(Hypertext Markup Language) und bieten eine Möglichkeit, erkannten Text, Layoutinformationen und die Koordinaten jedes erkannten Zeichens in einem Bild oder Dokument zu speichern.

IronOCR bietet eine Lösung für die Durchführung der optischen Zeichenerkennung auf Dokumenten und den Export der Ergebnisse als hOCR im HTML-Format. Es unterstützt sowohl HTML-Dateien als auch Strings.


C# NuGet-Bibliothek für OCR

Installieren mit NuGet

Install-Package IronOcr
oder
Java PDF JAR

Herunterladen DLL

DLL herunterladen

Manuelle Installation in Ihr Projekt

C# NuGet-Bibliothek für OCR

Installieren mit NuGet

Install-Package IronOcr
oder
Java PDF JAR

Herunterladen DLL

DLL herunterladen

Manuelle Installation in Ihr Projekt

Fangen Sie noch heute an, IronPDF in Ihrem Projekt mit einer kostenlosen Testversion zu verwenden.

Erster Schritt:
green arrow pointer

Schau dir an IronOCR an Nuget Für schnelle Installation und Bereitstellung. Mit über 8 Millionen Downloads verwandelt es OCR mit C#.

C# NuGet-Bibliothek für OCR nuget.org/packages/IronOcr/
Install-Package IronOcr

Erwägen Sie die Installation der IronOCR DLL direkt. Laden Sie es herunter und installieren Sie es manuell für Ihr Projekt oder die GAC-Form: IronOcr.zip

Manuelle Installation in Ihr Projekt

DLL herunterladen

Ergebnis als hOCR exportieren Beispiel

Um das Ergebnis als hOCR zu exportieren, muss der Benutzer zunächst die Eigenschaft Configuration.RenderHocr aktivieren, indem er sie auf true setzt. Nachdem Sie das OCR-Ergebnisobjekt mit der Methode "Read" erhalten haben, exportieren Sie das OCR-Ergebnis mit der Methode "SaveAsHocrFile" als HTML-Datei. Diese Methode gibt eine HTML-Datei aus, die das Leseergebnis der Eingabedokumente enthält. Der nachstehende Code veranschaulicht dies anhand des folgenden Beispielsbeispiel-TIFF datei.

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
imageInput.Title = "Html Title";

// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as HTML
ocrResult.SaveAsHocrFile("result.html");
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
imageInput.Title = "Html Title"

' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as HTML
ocrResult.SaveAsHocrFile("result.html")
VB   C#

Ergebnis als HTML-String exportieren

Unter Verwendung desselben TIFF-Beispielbildes können Sie die Methode "SaveAsHocrString" verwenden, um das OCR-Ergebnis als HTML-String zu exportieren. Diese Methode gibt eine HTML-Zeichenkette zurück.

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html-string.cs
// Export as HTML string
string hocr = ocrResult.SaveAsHocrString();
' Export as HTML string
Dim hocr As String = ocrResult.SaveAsHocrString()
VB   C#

Chaknith Bin

Software-Ingenieur

Chaknith ist der Sherlock Holmes der Entwickler. Zum ersten Mal kam ihm der Gedanke, dass er eine Zukunft in der Softwareentwicklung haben könnte, als er zum Spaß an Code Challenges teilnahm. Sein Schwerpunkt liegt auf IronXL und IronBarcode, aber er ist stolz darauf, Kunden mit jedem Produkt zu helfen. Chaknith nutzt sein Wissen aus direkten Gesprächen mit Kunden, um die Produkte selbst weiter zu verbessern. Sein anekdotisches Feedback geht über Jira-Tickets hinaus und unterstützt die Produktentwicklung, die Dokumentation und das Marketing, um das Gesamterlebnis der Kunden zu verbessern.Wenn er nicht im Büro ist, lernt er über maschinelles Lernen, programmiert und wandert.