Japanese OCR in C# and .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English

**Andere Versionen dieses Dokuments: 日本語で

IronOCR ist eine C#-Softwarekomponente, die es .NET-Programmierern ermöglicht, Text aus Bildern und PDF-Dokumenten in 126 Sprachen, einschließlich Japanisch, zu lesen. Es ist eine fortgeschrittene Abzweigung von Tesseract, die exklusiv für .NET-Entwickler entwickelt wurde und regelmäßig andere Tesseract-Engines sowohl in Geschwindigkeit als auch in Genauigkeit übertrifft.

Es wurde auf vielen verschiedenen Hardwareplattformen getestet, und die Softwarebibliothek wurde auf die neueste Version von .NET aktualisiert. Es ist eine gute Wahl für Entwickler, die OCR in ihren Apps oder Projekten durchführen müssen. IronOCR bietet Anwendungsentwicklern eine benutzerfreundliche API, die mit vielen Sprachen arbeitet und auf verschiedene Weise in Anwendungen integriert werden kann. IronOCR unterstützt 125 OCR-Sprachen. Es ist ein fantastisches OCR-Tool.

Inhalte von IronOcr.Languages.Japanese

Das IronOCR Japanische Paket führt eine Vielzahl von Operationen aus. Dieses Paket enthält mehrere OCR-Sprachen für .NET:

  • JapanischAlphabet
  • JapanischAlphabetBest
  • JapanischAlphabetFast
  • JapanischVertikalAlphabet
  • JapanischVertikalAlphabetBest
  • JapanischVertikalAlphabetFast
  • Japanisch
  • JapanischBest
  • JapanischFast
  • JapanischVertical
  • JapanischVerticalBest
  • JapanischVerticalFast

Download

Sie können das IronOCR Japanische Sprachpaket [日本語 (にほんご)] von den folgenden Links herunterladen:

  • Herunterladen als [Zip]( Zip )
  • Installieren mit [NuGet]( NuGet )

Wir werden die Installation von IronOCR in den folgenden Abschnitten betrachten.

Verwendung von IronOCR für die japanische Sprache

Ein C# Projekt erstellen oder öffnen

Lassen Sie uns mit der Erstellung eines C#-Projekts beginnen. Wir verwenden Visual Studio 2022, um ein C#-Projekt zu erstellen – Sie können jede beliebige Version nach Ihren Wünschen wählen. Die neueste Version von Visual Studio wird empfohlen. Befolgen Sie die folgenden Schritte, um ein C#-Projekt zu erstellen:

  • Öffnen Sie Visual Studio 2022.
  • Klicken Sie auf die Schaltfläche „Ein neues Projekt erstellen“.
class="content-img-align-center">
class="center-image-wrapper"> Chinese Ocr 1 related to Ein C# Projekt erstellen oder öffnen
  • Schreiben Sie "Windows" in die Suchleiste, wählen Sie die "Windows Form" Applikation aus den Suchergebnissen und klicken Sie auf die Schaltfläche "Weiter".
class="content-img-align-center">
class="center-image-wrapper"> Chinese Ocr 2 related to Ein C# Projekt erstellen oder öffnen
  • Geben Sie dem Projekt einen Namen. Ich habe das Projekt "JapanischeOCR" benannt. Nach Benennung klicken Sie auf die Schaltfläche "Weiter".
class="content-img-align-center">
class="center-image-wrapper"> Japanese Ocr 1 related to Ein C# Projekt erstellen oder öffnen
  • Wählen Sie das .NET Framework im nächsten Bildschirm. Wählen Sie das .NET Framework entsprechend den Anforderungen Ihres Projekts. Wir wählen die .NET 5.0 Version für dieses Tutorial.
class="content-img-align-center">
class="center-image-wrapper"> Chinese Ocr 4 related to Ein C# Projekt erstellen oder öffnen
  • Nach der Auswahl klicken Sie auf die Schaltfläche „Erstellen“. Es wird das C# Windows Form-Projekt in Visual Studio mühelos erstellen.

Das Projekt wurde erstellt! Wir können es jetzt in unserer IronOCR-Bibliothek verwenden. Wir können es auch mit einem bestehenden C#-Projekt verwenden. Öffnen Sie das Projekt und beginnen Sie mit der Installation der IronOCR-Bibliothek. Der folgende Abschnitt erklärt, wie Sie die IronOCR Bibliothek in C# Projekten installieren.

Installation

Es ist jetzt an der Zeit, die IronOCR-Bibliothek in unserem Projekt zu installieren. Die IronOCR-Bibliothek kann auf zwei verschiedene Arten installiert werden. Wir können IronOCR mithilfe der Paket-Manager-Konsole und des NuGet-Paket-Managers installieren. Lassen Sie uns beide Methoden genauer betrachten.

Verwendung des NuGet Package Managers

Um die IronOCR Bibliothek mit dem NuGet Package Manager zu installieren, müssen wir die NuGet Package Manager-Oberfläche öffnen. Befolgen Sie die folgenden Schritte, um die IronOCR-Bibliothek zu installieren:

  • Klicken Sie auf "Tools" aus dem Hauptmenü, bewegen Sie den Mauszeiger im Dropdown-Menü auf "NuGet Paket-Manager" und wählen Sie "Manage NuGet Packages for Solution" aus.
class="content-img-align-center">
class="center-image-wrapper"> Chinese Ocr 5 related to Verwendung des NuGet Package Managers
  • Dies öffnet die NuGet Package Manager-Oberfläche. Gehen Sie zur Registerkarte "Durchsuchen" und schreiben Sie "IronOCR Japanese" in die Suchleiste. Wählen Sie das Japanische Paket aus den Suchergebnissen und klicken Sie auf die Schaltfläche "Installieren", um die Installation zu beginnen.
class="content-img-align-center">
class="center-image-wrapper"> Japanese Ocr 2 related to Verwendung des NuGet Package Managers
  • Es wird beginnen, die Bibliothek zu installieren. Nach der Installation können Sie die IronOCR-Bibliothek in Ihrem Projekt verwenden.

Verwendung der Package Manager Console

Wir werden die IronOCR-Bibliothek mithilfe der Paket-Manager-Konsole installieren. Es ist ziemlich einfach, die Bibliothek mithilfe der Konsole zu installieren. Lassen Sie uns betrachten, wie wir die IronOCR-Bibliothek mit der Konsole installieren können:

  • Öffnen Sie das Projekt und gehen Sie zur Paket-Manager-Konsole in Visual Studio. Diese befindet sich normalerweise am unteren Rand von Visual Studio.
  • Schreiben Sie den folgenden Befehl in die Konsole, um die japanische OCR-Sprache von IronOCR zu installieren:

    PM> Install-Package IronOCR.Languages.Japanese
    PM> Install-Package IronOCR.Languages.Japanese
    SHELL
  • Die Installation wird beginnen und Sie werden den Fortschritt in der Konsole sehen. Nach der Installation werden Sie die IronOCR-Abhängigkeit im Bereich "Abhängigkeiten" im Lösungsexplorer sehen.

Nach der Installation können Sie die Bibliothek ohne fremde Software verwenden. Als nächstes ist es an der Zeit, die Frontend unserer Anwendung einzurichten.

Codebeispiel: Japanische Sprache für OCR

Jetzt ist es Zeit, den Code zu schreiben, um die IronOCR-Bibliothek für die japanische Sprache zu implementieren. Zuerst müssen wir das Frontend für die Auswahl der Bilddatei entwickeln. Lassen Sie uns ansehen, wie das geht.

Entwicklung des Frontends

Für die Frontend-Entwicklung werden wir die "Toolbox" in Visual Studio nutzen. Es bietet viele vorgefertigte Elemente, die wir verwenden können, um unser Frontend zu gestalten. Wir werden eine Bildbox, ein Rich-Text-Feld, einen Button und zwei Etiketten zur Kennzeichnung verwenden. Wir werden diese Elemente entsprechend unseren Bedürfnissen in eine angemessene Form und eine gute Benutzeroberfläche geben. Sie können die Größe und Eigenschaften der Elemente nach Belieben ändern. Wir machen das Ausgabe-Textfeld nicht editierbar und die Bildeigenschaft der Bildbox ist "Zoom", sodass alle Bilder in die Bildbox passen. Unser Frontend wird ungefähr so aussehen:

class="content-img-align-center">
class="center-image-wrapper"> Japanese Ocr 3 related to Entwicklung des Frontends

Backend-Code für IronOCR

Unser Frontend ist bereit. Jetzt ist es an der Zeit, es zum Leben zu erwecken. Aber zuerst müssen wir den IronOCR-Namespace importieren, um IronOCR in unserem Code zu verwenden. Schreiben Sie die folgende Zeile oben in die Datei:

using IronOCR;
using IronOCR;
Imports IronOCR
$vbLabelText   $csharpLabel

Der "Bild auswählen"-Button wird zum Auswählen von Bildern auf Japanisch verwendet. Wenn wir das Bild auswählen, wird es automatisch in die Bildbox geladen und sichtbar. Gleichzeitig beginnt IronOCR, japanische Wörter aus hochgeladenen Bildern zu erkennen. Nach Abschluss des Prozesses wird die Ausgabe im Rich-Text-Feld angezeigt. Lassen Sie uns diese Funktionen durch Doppelklicken auf den Button hinzufügen. Hier ist das Beispiel für den Code zur Button-Funktionalität. Es wird auch den Ausgabetext in einer "txt"-Datei speichern.

private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();

    // Display the image selection dialog, and upon successful image selection, proceed
    if (open.ShowDialog() == DialogResult.OK)
    {
        // Display selected image in the picture box
        img_image.Image = new Bitmap(open.FileName);

        // Initialize IronTesseract for OCR processing
        var Ocr = new IronTesseract
        {
            // Set the OCR language to JapaneseBest for optimal accuracy
            Language = OcrLanguage.JapaneseBest
        };

        // Using 'OcrInput' to process the selected image file
        using (var Input = new OcrInput(open.FileName))
        {
            // Perform OCR to extract text from the image
            var Result = Ocr.Read(Input);

            // Display recognized text in the rich text box
            txt_output.Text = Result.Text;

            // Save the output as a text file named "JapaneseText.txt"
            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();

    // Display the image selection dialog, and upon successful image selection, proceed
    if (open.ShowDialog() == DialogResult.OK)
    {
        // Display selected image in the picture box
        img_image.Image = new Bitmap(open.FileName);

        // Initialize IronTesseract for OCR processing
        var Ocr = new IronTesseract
        {
            // Set the OCR language to JapaneseBest for optimal accuracy
            Language = OcrLanguage.JapaneseBest
        };

        // Using 'OcrInput' to process the selected image file
        using (var Input = new OcrInput(open.FileName))
        {
            // Perform OCR to extract text from the image
            var Result = Ocr.Read(Input);

            // Display recognized text in the rich text box
            txt_output.Text = Result.Text;

            // Save the output as a text file named "JapaneseText.txt"
            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
	Dim open As New OpenFileDialog()

	' Display the image selection dialog, and upon successful image selection, proceed
	If open.ShowDialog() = DialogResult.OK Then
		' Display selected image in the picture box
		img_image.Image = New Bitmap(open.FileName)

		' Initialize IronTesseract for OCR processing
		Dim Ocr = New IronTesseract With {.Language = OcrLanguage.JapaneseBest}

		' Using 'OcrInput' to process the selected image file
		Using Input = New OcrInput(open.FileName)
			' Perform OCR to extract text from the image
			Dim Result = Ocr.Read(Input)

			' Display recognized text in the rich text box
			txt_output.Text = Result.Text

			' Save the output as a text file named "JapaneseText.txt"
			Result.SaveAsTextFile("JapaneseText.txt")
		End Using
	End If
End Sub
$vbLabelText   $csharpLabel

In dieser Funktion erscheint beim Klicken auf den Button ein Dialogfeld zur Auswahl, das den Benutzer auffordert, ein Bild zu wählen, das japanischen Text enthält. Wenn der Benutzer das Bild auswählt, nimmt die Bitmap-Funktion den Bildpfad und lädt es in die Bildbox. Nach dem Laden initialisieren wir die IronOCR-Bibliothek und setzen die Sprache auf Japanisch. IronOCR nimmt den Bildpfad als Eingabe und beginnt zu scannen. Nach dem Scannen speichert es den Ausgabetext in der Result-Variablen und zeigt ihn als Ausgabe im Rich-Text-Feld an. Schließlich speichert es die Ausgabedatei als "txt"-Datei mit dem Namen "JapanischerText".

Projekt ausführen

Wir haben den Code entworfen und das Backend implementiert. Jetzt ist es an der Zeit, das Programm auszuführen, um zu überprüfen, ob die Funktionen gut funktionieren oder nicht.

  • Klicken Sie auf den grünen Abspielen-Button, um das Projekt auszuführen. Wir werden diesen Bildschirm in der Mitte unserer Betriebssystembildschirme sehen.
class="content-img-align-center">
class="center-image-wrapper"> Japanese Ocr 4 related to Projekt ausführen
  • Klicken Sie auf den "Bild auswählen"-Button und wählen Sie das Bild, das japanischen Text enthält.
class="content-img-align-center">
class="center-image-wrapper"> Japanese Ocr 5 related to Projekt ausführen
  • Sie werden den Ausgabe-Bildtext im Rich-Text-Feld sehen.
class="content-img-align-center">
class="center-image-wrapper"> Japanese Ocr 6 related to Projekt ausführen
  • Eine Textdatei des OCR-Ergebnisses wird mit "JapanischerText" gespeichert.
class="content-img-align-center">
class="center-image-wrapper"> Japanese Ocr 7 related to Projekt ausführen

Die OCR-Genauigkeit von IronOCR ist exzellent.

Zusammenfassung

In diesem Tutorial haben wir gelernt, wie man die IronOCR-Bibliothek für japanischen Text verwendet. Wenn Sie mehr über IronOCR erfahren möchten, klicken Sie bitte auf diesen Link.

Für weitere Informationen über Iron Software klicken Sie bitte auf diesen Link. Wenn Sie die IronOCR-Bibliothek ausprobieren möchten, können Sie den kostenlosen Test ohne Zahlung aktivieren. Iron Software bietet derzeit ein Sonderangebot an, bei dem Sie ein Paket von fünf Softwareprodukten zum Preis von nur zwei kaufen können. Für mehr Informationen klicken Sie bitte hier.