Wie man Ergebnisse als hOCR in einer HTML-Datei speichert | IronOCR

How to Save Results as hOCR in an HTML File

This article was translated from English: Does it need improvement?
Translated
View the article in English

hOCR, das für "HTML-based OCR" steht, ist ein Dateiformat, das zur Darstellung der Ergebnisse der optischen Zeichenerkennung (OCR) in strukturierter Weise verwendet wird. HOCR-Dateien werden typischerweise in HTML (Hypertext Markup Language) geschrieben und bieten eine Möglichkeit, erkannten Text, Layoutinformationen und die Koordinaten jedes erkannten Zeichens innerhalb eines Bildes oder Dokuments zu speichern.

als Überschrift:2(Schnellstart: OCR-Ausgabe als hOCR HTML-Datei speichern)

Hier ist der einfachste Weg, um mit IronOCR loszulegen: Aktivieren Sie das hOCR-Rendering und exportieren Sie die Ergebnisse direkt in eine HTML-Datei mit nur einer Einrichtung und einem Aufruf. Entwickler können schnell starten und die OCR-Ergebnisse in nutzbarem HTML-Markup innerhalb von Augenblicken sehen.

Nuget IconGet started making PDFs with NuGet now:

  1. Install IronOCR with NuGet Package Manager

    PM > Install-Package IronOcr

  2. Copy and run this code snippet.

    var hocr = new IronTesseract { Configuration = { RenderHocr = true } }.Read(new OcrInput("image.png")).SaveAsHocrString();
  3. Deploy to test on your live environment

    Start using IronOCR in your project today with a free trial
    arrow pointer
class="hsg-featured-snippet">

Minimaler Arbeitsablauf (5 Schritte)

  1. Laden Sie eine C#-Bibliothek herunter, um Ergebnisse als hOCR in einer HTML-Datei zu speichern
  2. Bereiten Sie das Zielbild und das PDF-Dokument vor
  3. Setzen Sie die Eigenschaft RenderHocr auf true
  4. Verwenden Sie die Methode SaveAsHocrFile, um eine HTML-Datei auszugeben
  5. Verwenden Sie die Methode SaveAsHocrString, um einen HTML-String auszugeben


Ergebnis als hOCR exportieren Beispiel

Um das Ergebnis als hOCR zu exportieren, muss der Benutzer zuerst die Eigenschaft Configuration.RenderHocr aktivieren, indem er sie auf true setzt. Nachdem das OCR-Ergebnisobjekt mit der Methode Read erhalten wurde, verwenden Sie die Methode SaveAsHocrFile, um das OCR-Ergebnis als HTML zu exportieren. Diese Methode gibt eine HTML-Datei aus, die das Leseergebnis der Eingabedokumente enthält. Der untenstehende Code zeigt die Verwendung der folgenden Beispiel-TIFF-Datei.

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
imageInput.Title = "Html Title";

// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as HTML
ocrResult.SaveAsHocrFile("result.html");
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as hOCR
ocrTesseract.Configuration.RenderHocr = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
imageInput.Title = "Html Title"

' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as HTML
ocrResult.SaveAsHocrFile("result.html")
$vbLabelText   $csharpLabel

Ergebnis als HTML-String exportieren

Unter Verwendung des gleichen Beispiel-TIFF-Bildes können Sie die Methode SaveAsHocrString verwenden, um das OCR-Ergebnis als HTML-String zu exportieren. Diese Methode gibt einen HTML-String zurück.

:path=/static-assets/ocr/content-code-examples/how-to/html-export-export-html-string.cs
// Export as HTML string
string hocr = ocrResult.SaveAsHocrString();
' Export as HTML string
Dim hocr As String = ocrResult.SaveAsHocrString()
$vbLabelText   $csharpLabel

Häufig gestellte Fragen

Was ist hOCR und warum wird es verwendet?

hOCR steht für 'HTML-basierte OCR' und ist ein Dateiformat, das verwendet wird, um die Ergebnisse der optischen Zeichenerkennung in strukturierter Form darzustellen. Es wird verwendet, um erkannte Texte, Layoutinformationen und die Koordinaten jedes Zeichens innerhalb eines Bildes oder Dokuments zu speichern, typischerweise im HTML-Format.

Wie kann ich OCR-Ergebnisse als hOCR-Datei mit C# speichern?

Sie können OCR-Ergebnisse als hOCR-Datei speichern, indem Sie in IronOCR zuerst die RenderHocr-Eigenschaft auf true setzen und dann die SaveAsHocrFile-Methode verwenden, um die Ergebnisse als HTML-Datei auszugeben.

Können OCR-Ergebnisse als HTML-String exportiert werden?

Ja, OCR-Ergebnisse können als HTML-String exportiert werden, indem Sie in IronOCR die RenderHocr-Eigenschaft auf true setzen und die SaveAsHocrString-Methode verwenden, die die OCR-Ergebnisse im HTML-String-Format zurückgibt.

Unterstützt IronOCR die OCR-Verarbeitung sowohl für Bilder als auch für PDFs?

IronOCR unterstützt die OCR-Verarbeitung sowohl für Bilder als auch für PDF-Dokumente und ermöglicht Benutzern, die Ergebnisse als hOCR im HTML-Format zu exportieren.

Welche Schritte sind erforderlich, um OCR-Ergebnisse als hOCR in C# zu exportieren?

Um OCR-Ergebnisse als hOCR mit C# zu exportieren, laden Sie die IronOCR-Bibliothek herunter, bereiten Sie Ihr Bild- oder PDF-Dokument vor, setzen Sie die RenderHocr-Eigenschaft auf true und verwenden Sie entweder SaveAsHocrFile oder SaveAsHocrString, um die Ergebnisse zu exportieren.

Welche Programmierumgebung eignet sich für die Verwendung von IronOCR?

IronOCR eignet sich für die Verwendung innerhalb der .NET C#-Programmierumgebung, was es ideal für Entwickler macht, die mit C# arbeiten.

Gibt es Beispielcode zum Speichern von OCR-Ergebnissen als hOCR?

Ja, IronOCR bietet Beispiel-C#-Code, der zeigt, wie man Text aus einer Bilddatei liest und die OCR-Ergebnisse als hOCR-Datei oder -String speichert, mit praktischen Beispielen unter Verwendung von Beispiel-TIFF-Dateien.

Wie wird die RenderHocr-Eigenschaft in IronOCR genutzt?

Die RenderHocr-Eigenschaft in IronOCR wird verwendet, um den Export von OCR-Ergebnissen im hOCR-Format zu ermöglichen. Wenn sie auf true gesetzt ist, können die Ergebnisse entweder als HTML-Datei oder -String exportiert werden.

Chaknith Bin
Software Ingenieur
Chaknith arbeitet an IronXL und IronBarcode. Er hat umfassende Expertise in C# und .NET und hilft, die Software zu verbessern und Kunden zu unterstützen. Seine Einblicke aus Benutzerinteraktionen tragen zu besseren Produkten, Dokumentationen und einem insgesamt besseren Erlebnis bei.
Rezensiert von
Jeff Fritz
Jeffrey T. Fritz
Principal Program Manager - .NET Community Team
Jeff ist außerdem Principal Program Manager für das .NET- und Visual Studio-Team. Er ist der ausführende Produzent der .NET Conf Virtual Conference Series und moderiert ‚Fritz and Friends‘, einen Livestream für Entwickler, der zweimal wöchentlich ausgestrahlt wird. Dort spricht er über Technik und schreibt gemeinsam mit den Zuschauern Code. Jeff schreibt Workshops, Präsentationen und plant Inhalte für die größten Microsoft-Entwicklerveranstaltungen, einschließlich Microsoft Build, Microsoft Ignite, .NET Conf und dem Microsoft MVP Summit.
Bereit anzufangen?
Nuget Downloads 5,044,537 | Version: 2025.11 gerade veröffentlicht