Han Simplified Alphabet OCR in C# and .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English

126 Weitere Sprachen

IronOCR ist eine C#-Softwarekomponente, die .NET-Entwicklern ermöglicht, Text aus Bildern und PDF-Dokumenten in 126 Sprachen, einschließlich des Han Vereinfachten Alphabets, zu lesen.

Es ist eine erweiterte Abspaltung von Tesseract, die exklusiv for .NET-Entwickler entwickelt wurde und regelmäßig andere Tesseract-Engines sowohl in Bezug auf Geschwindigkeit als auch Genauigkeit übertrifft.

Inhalt von IronOcr.Languages.Han

Dieses Paket enthält 400 OCR-Sprachen for .NET:

  • HanSimplifiedAlphabet
  • HanSimplifiedAlphabetBest
  • HanSimplifiedAlphabetFast
  • HanSimplifiedVerticalAlphabet
  • HanSimplifiedVerticalAlphabetBest
  • HanSimplifiedVerticalAlphabetFast
  • HanTraditionalAlphabet
  • HanTraditionalAlphabetBest
  • HanTraditionalAlphabetFast
  • HanTraditionalVerticalAlphabet
  • HanTraditionalVerticalAlphabetBest
  • HanTraditionalVerticalAlphabetFast

Download

Han Vereinfachtes Alphabet Sprachpaket [Samhan]

  • Download as Zip
  • Installieren mit NuGet

Installation

Das Erste, was wir tun müssen, ist, unser Han Vereinfachtes Alphabet OCR-Paket in Ihrem .NET-Projekt zu installieren.

Führen Sie den folgenden Befehl in der Paket-Manager-Konsole aus:

Install-Package IronOcr.Languages.Han

Beispielcode

Dieses C#-Codebeispiel liest Han Vereinfachtes Alphabet Text aus einem Bild oder PDF-Dokument.

// Reference the IronOcr library
using IronOcr;

class Program
{
    static void Main()
    {
        // Create an IronTesseract OCR engine
        var Ocr = new IronTesseract();

        // Load the Han language for OCR processing
        Ocr.Language = OcrLanguage.Han;

        // Using a 'using' statement for resource management
        using (var Input = new OcrInput(@"images\Han.png"))
        {
            // Process the image to extract text
            var Result = Ocr.Read(Input);

            // Retrieve and display the extracted text
            string AllText = Result.Text;
            System.Console.WriteLine(AllText);
        }
    }
}
// Reference the IronOcr library
using IronOcr;

class Program
{
    static void Main()
    {
        // Create an IronTesseract OCR engine
        var Ocr = new IronTesseract();

        // Load the Han language for OCR processing
        Ocr.Language = OcrLanguage.Han;

        // Using a 'using' statement for resource management
        using (var Input = new OcrInput(@"images\Han.png"))
        {
            // Process the image to extract text
            var Result = Ocr.Read(Input);

            // Retrieve and display the extracted text
            string AllText = Result.Text;
            System.Console.WriteLine(AllText);
        }
    }
}
$vbLabelText   $csharpLabel

Erklärung

  • Wir beginnen damit, die IronOcr-Bibliothek zu referenzieren, um ihre OCR-Fähigkeiten zu nutzen.
  • Zur Verarbeitung der Bild-/PDF-Dokumente wird eine Instanz von IronTesseract erstellt.
  • Die Sprache für den OCR-Prozess ist auf Han unter Verwendung von Ocr.Language eingestellt.
  • Ein Bild wird mit OcrInput geladen und durch Aufruf von Ocr.Read() verarbeitet. Das Ergebnis des OCR-Prozesses wird in Result.Text gespeichert, das den aus dem Dokument extrahierten Text enthält.
  • Schließlich drucken wir den Text auf die Konsole.

Achten Sie darauf, die richtigen using Direktiven zu verwenden und Ressourcen effizient mit using Anweisungen zu verwalten, insbesondere beim Umgang mit nicht verwalteten Ressourcen wie Dateiströmen.