Chinesische OCR in C# und .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English

Andere Versionen dieses Dokuments:

  • 简体中文版
  • 125 Weitere OCR-Sprachen

    IronOCR ist eine C#-Softwarekomponente, die es .NET-Programmierern ermöglicht, Text aus Bildern und PDF-Dokumenten in 126 Sprachen, einschließlich Chinesisch, zu lesen. Das Chinese Language Pack enthält sowohl vereinfachte als auch traditionelle chinesische Zeichen.

    Es handelt sich dabei um einen fortschrittlichen Fork von Tesseract, der ausschließlich für .NET-Entwickler entwickelt wurde und andere Tesseract-Engines regelmäßig in Bezug auf Geschwindigkeit und Genauigkeit übertrifft. Die Bibliothek ermöglicht die Erkennung von Bildern und Dokumenten unterschiedlicher Formate in verschiedenen Sprachen, einschließlich Chinesisch. Es unterstützt über 125 Sprachen und bietet im Vergleich zur Konkurrenz eine hohe Erkennungsgenauigkeit. Die API von IronOCR wurde im Hinblick auf Erweiterbarkeit und Anpassung entwickelt. Sie können IronOCR dabei helfen, einen hohen Durchsatz und eine hohe Genauigkeit zu erreichen, indem Sie dem Tracker Ihre Tuning-Daten oder Features hinzufügen. IronOCR verwendet viele optische Zeichenerkennungsverfahren. Wir können es auf einem Windows-PC, Linux, macOS und anderen bekannten Plattformen verwenden.

Inhalt von IronOcr.Languages.Chinese

Dieses Paket enthält 352 OCR-Sprachen für .NET:

  • ChinesischVereinfacht
  • ChineseSimplifiedBest
  • ChineseSimplifiedFast
  • ChineseSimplifiedVertical
  • ChineseSimplifiedVerticalBest
  • ChineseSimplifiedVerticalFast
  • ChinesischTraditionell
  • ChinesischTraditionellBest
  • ChinesischTraditionellFast
  • ChinesischTraditionellVertikal
  • ChinesischTraditionellVertikalBest
  • ChinesischTraditionellVertikalSchnell

Herunterladen

Wir können das Chinese Language Pack herunterladen[中文(Zhōngwén)] unter den folgenden Links:

Verwendung von IronOCR für die chinesische Sprache

Erstellen oder Öffnen eines C#-Projekts

Um mit IronOCR zu beginnen, müssen wir ein C# .NET-Projekt erstellen. Wir verwenden zu diesem Zweck Visual Studio 2022. Sie können eine Version wählen, die Ihren Bedürfnissen entspricht. Für ein reibungsloses Arbeiten wird die neueste Version von Visual Studio empfohlen. Wir werden eine GUI-Schnittstelle zur Auswahl des Bildes erstellen. Wir können IronOCR auch in einer Konsolenanwendung verwenden, indem wir den direkten Pfad des Bildes angeben. Führen Sie die folgenden Schritte aus, um ein C#-Projekt in Visual Studio 2022 zu erstellen:

  • Öffnen Sie Visual Studio 2022.
  • Klicken Sie auf die Schaltfläche "Ein neues Projekt erstellen".

    Chinese Ocr 1 related to Erstellen oder Öffnen eines C#-Projekts
  • Geben Sie "Windows" in die Suchleiste ein, wählen Sie die Anwendung "Windows Form " aus den Suchergebnissen aus und klicken Sie auf die Schaltfläche "Weiter".

    Chinese Ocr 2 related to Erstellen oder Öffnen eines C#-Projekts
  • Geben Sie dem Projekt einen Namen. Ich weise dem Projekt den Namen "ChineseOCR " zu. Klicken Sie nach dem Namen auf die Schaltfläche "Weiter".

    Chinese Ocr 3 related to Erstellen oder Öffnen eines C#-Projekts
  • Wählen Sie auf dem nächsten Bildschirm das .NET-Framework aus. Wählen Sie das .NET-Framework entsprechend den Anforderungen Ihres Projekts. Wir wählen für dieses Tutorial die Version .NET 5.0.

    Chinese Ocr 4 related to Erstellen oder Öffnen eines C#-Projekts
  • Klicken Sie nach der Auswahl auf die Schaltfläche "Erstellen". Es wird einfach das C# Windows Form Projekt in Visual Studio erstellen.

    Das Projekt wurde erstellt und ist nun bereit, in der IronOCR-Bibliothek verwendet zu werden. Wir können auch das bereits vorhandene C#-Projekt verwenden. Öffnen Sie das Projekt und starten Sie die Installation der IronOCR-Bibliothek. Im folgenden Abschnitt werden die Methoden zur Installation der IronOCR-Bibliothek in C#-Projekten erläutert.

Einrichtung

NuGet-Paketmanager verwenden

Um die IronOCR-Bibliothek mit dem NuGet Package Manager zu installieren, müssen wir die NuGet Package Manager-Schnittstelle öffnen. Folgen Sie den folgenden Schritten, um die IronOCR-Bibliothek zu installieren:

  • Klicken Sie im Hauptmenü auf "Tools", wählen Sie aus dem Dropdown-Menü den Punkt "NuGet Package Manager" und wählen Sie "Manage NuGet Package Manager for Solution"

    Chinese Ocr 5 related to NuGet-Paketmanager verwenden
  • Dadurch wird die Oberfläche des NuGet-Paketmanagers geöffnet. Gehen Sie auf die Registerkarte Durchsuchen und suchen Sie nach IronOCR Chinese. Wählen Sie das richtige Paket aus den Suchergebnissen aus und klicken Sie auf die Schaltfläche "Installieren", um es zu installieren.

    Chinese Ocr 6 related to NuGet-Paketmanager verwenden
  • Es wird mit der Installation der Bibliothek begonnen. Nach der Installation können Sie die IronOCR-Bibliothek in Ihrem Projekt verwenden.

Verwendung der Paketmanager-Konsole

Die Verwendung einer Konsole ist immer eine einfache Option. Wir können die IronOCR-Bibliothek auch über die Paketmanager-Konsole installieren. Folgen Sie den angegebenen Schritten, um die IronOCR-Bibliothek zu installieren:

  • Öffnen Sie die Paketmanager-Konsole in Visual Studio. Sie befindet sich normalerweise am unteren Rand von Visual Studio.
  • Schreiben Sie den folgenden Befehl in die Konsole:
Install-Package IronOCR.Languages.Chinese
  • Der Fortschritt der Installation der Bibliothek wird in der Konsole angezeigt. Dadurch wird die Bibliothek automatisch installiert. Nach der Installation ist unser Projekt bereit für die IronOCR-Bibliothek.

Code-Beispiel: OCR für die chinesische Sprache

Nun ist es an der Zeit, den Code für die Implementierung der IronOCR-Bibliothek für die chinesische Sprache zu schreiben. Zunächst müssen wir das Frontend für die Auswahl der Bilddatei entwickeln. Schauen wir uns an, wie wir dies tun können.

Entwicklung des Frontends

Wir werden die "Toolbox"-Elemente für die Gestaltung der Vorderseite verwenden. Wir werden eine Schaltfläche, eine Picture Box, eine Rich Textbox und zwei Beschriftungen erstellen. Wir ziehen diese Elemente per Drag & Drop aus der Toolbox und platzieren sie im Fensterformular. Wir werden diese Elemente mit Stil verwalten.

Die Schaltfläche dient zur Auswahl der Bilddatei auf dem PC. Picture Box lädt die ausgewählte Bilddatei, und Rich Textbox zeigt den Ausgabetext an. Sie können die Größe der einzelnen Elemente an Ihre Bedürfnisse anpassen. Das endgültige Frontend-Design wird wie folgt aussehen:

Chinese Ocr 7 related to Entwicklung des Frontends

Dieses Fenster wird angezeigt, wenn Sie das Projekt starten. Wir haben die Ausrichtung der Fenster so festgelegt, dass sie sich in der Mitte des Bildschirms befinden. Dieser Bildschirm wird dann in der Mitte angezeigt.

Unser Frontend ist fertig. Als Nächstes ist es an der Zeit, die Backend-Funktionalität der Schaltfläche hinzuzufügen.

Backend-Code für IronOCR

Wir müssen zunächst den IronOCR-Namensraum importieren, um ihn in unserem Code verwenden zu können. Schreiben Sie die folgende Zeile an den Anfang der Datei:

using IronOCR;
using IronOCR;
Imports IronOCR
VB   C#

Wir werden die Schaltfläche "Bild auswählen" verwenden, um das Bild auszuwählen und in die Picture Box zu laden. IronOCR verarbeitet das vereinfachte chinesische Textbild und zeigt den ausgegebenen Text in der Rich Text Box an. Fügen wir die Funktionalität der Schaltfläche durch einen Doppelklick auf die Schaltfläche hinzu. Schreiben Sie die folgenden Codezeilen, um die beschriebene Funktionalität hinzuzufügen:

private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);

        var Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.ChineseTraditional;

using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;
        }
    }
}
private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);

        var Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.ChineseTraditional;

using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;
        }
    }
}
Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
	Dim open As New OpenFileDialog()
	If open.ShowDialog() = DialogResult.OK Then
		' display image in picture box  
		img_image.Image = New Bitmap(open.FileName)

		Dim Ocr = New IronTesseract()

Ocr.Language = OcrLanguage.ChineseTraditional

Using Input = New OcrInput(open.FileName)
			Dim Result = Ocr.Read(Input)

			txt_output.Text = Result.Text
End Using
	End If
End Sub
VB   C#

Wenn ein Benutzer auf die Schaltfläche klickt, erscheint ein Dialog zur Auswahl des Bildes. Wenn der Benutzer das Bild auswählt, wird es automatisch in den Bildrahmen geladen. Wir verwenden Bitmap() zum Drucken von Bildern im Bildrahmen. Danach wandelt IronOCR die Bilder in chinesischen Text um. Wir setzen Ocr. Sprache zu ChineseTraditional, um Text in traditionellem Chinesisch zu erkennen. Ocr. Die Lesefunktion liest den Prozess und speichert das OCR-Ergebnis in der Variablen Ergebnis. Wenn Sie den Text im PDF-, Text- oder HTML-Format speichern möchten, verwenden Sie die Funktion SaveAs, um die Datei in jedem gewünschten Ausgabeformat zu speichern - IronOCR unterstützt mehrere Ausgabeformate.

Das Projekt ausführen

Jetzt ist es an der Zeit, das Projekt zu starten. Klicken Sie in Visual Studio auf die Schaltfläche Ausführen. Wir werden diesen Bildschirm auf unserem Bildschirm sehen.

Chinese Ocr 8 related to Das Projekt ausführen

Klicken Sie auf die Schaltfläche "Bild auswählen". Daraufhin wird das Dialogfeld Dateien auswählen geöffnet. Wählen Sie eine Bilddatei aus und drücken Sie die Eingabetaste.

Chinese Ocr 9 related to Das Projekt ausführen

Es wird in den Bildrahmen geladen, das Bild automatisch gescannt und das Ergebnis im Textfeld angezeigt.

Chinese Ocr 10 related to Das Projekt ausführen

Dies ist die Ausgabe des ausgewählten Bildes. IronOCR unterstützt auch das Lesen und Scannen von PDF-Dateien. Wir können das bearbeitbare Format von PDF-Dateien nutzen, um mit IronOCR Text zu scannen und zu erkennen. Dies kann auch in verschiedenen Sprachen geschehen. IronOCR kann das vorhandene PDF-Dokument in ein durchsuchbares PDF-Dokument umwandeln. IronOCR verfügt über zahlreiche Bildfilter, um die Bilder übersichtlich und verständlich zu gestalten. Hier sind die Filter:

  • Input.Binarize()
  • Eingabe.Kontrast()
  • Input.Deskew()
  • Input.DeNoise()
  • Input.Dilate()
  • Input.EnhanceResolution(300)

    All diese Funktionen erhöhen die Sichtbarkeit der Zeichen. IronOCR verwendet diese Funktionen, um PDF-Dateien zu löschen und durchsuchbar zu machen. Schauen wir uns an, wie dies geschehen kann:

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf")
    // clean up twisted pages
    Input.Deskew();
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf")
    // clean up twisted pages
    Input.Deskew();
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddPdf("scan.pdf") Input.Deskew()
	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

Lizenzvergabe

IronOCR ist frei für die Entwicklung. Sie können alle Funktionen aktiv und kostenlos nutzen. IronOCR bietet auch eine kostenloser Test für die Produktion, ohne dass eine Zahlung erforderlich ist. Iron Software bietet derzeit auch ein beliebtes Angebot - eine Suite von fünf Softwareprodukten zum Preis von nur zwei. Bezahlen Sie einfach einmalig die Gebühr für zwei Softwareprodukte, und Sie erhalten alle fünf Produkte, einschließlich IronPDF und IronXL. Weitere Informationen finden Sie auf dieser Website link über die Lizenzierung.