Latin Alphabet OCR in C# and .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English

126 Weitere Sprachen

IronOCR ist eine C#-Softwarekomponente, die .NET-Programmierern ermöglicht, Text aus Bildern und PDF-Dokumenten in 126 Sprachen, einschließlich des lateinischen Alphabets, zu lesen.

Es ist eine erweiterte Abspaltung von Tesseract, die exklusiv für .NET-Entwickler entwickelt wurde und regelmäßig andere Tesseract-Engines sowohl in Bezug auf Geschwindigkeit als auch Genauigkeit übertrifft.

Inhalt von IronOcr.Languages.LatinAlphabet

Dieses Paket enthält 64 OCR-Sprachen für .NET:

  • LatinAlphabet
  • LatinAlphabetBest
  • LatinAlphabetFast

Download

Sprachpaket für das lateinische Alphabet [latine]

  • Herunterladen als Zip
  • Installation mit NuGet

Installation

Das Erste, was wir tun müssen, ist das Lateinische Alphabet OCR-Paket in Ihr .NET-Projekt zu installieren.

Install-Package IronOCR.Languages.LatinAlphabet

Beispielcode

Dieses C#-Codebeispiel liest Text in lateinischem Alphabet aus einem Bild oder PDF-Dokument.

// Install the IronOCR.languages.LatinAlphabet package first
using IronOcr;

var Ocr = new IronTesseract(); // Initialize IronTesseract instance

// Set the OCR language to LatinAlphabet
Ocr.Language = OcrLanguage.LatinAlphabet;

// Define the input image or PDF you want to read
using (var Input = new OcrInput(@"images\LatinAlphabet.png"))
{
    // Perform OCR reading on the input
    var Result = Ocr.Read(Input);

    // Extract the recognized text
    var AllText = Result.Text;

    // Output the recognized text
    Console.WriteLine(AllText);
}
// Install the IronOCR.languages.LatinAlphabet package first
using IronOcr;

var Ocr = new IronTesseract(); // Initialize IronTesseract instance

// Set the OCR language to LatinAlphabet
Ocr.Language = OcrLanguage.LatinAlphabet;

// Define the input image or PDF you want to read
using (var Input = new OcrInput(@"images\LatinAlphabet.png"))
{
    // Perform OCR reading on the input
    var Result = Ocr.Read(Input);

    // Extract the recognized text
    var AllText = Result.Text;

    // Output the recognized text
    Console.WriteLine(AllText);
}
' Install the IronOCR.languages.LatinAlphabet package first
Imports IronOcr

Private Ocr = New IronTesseract() ' Initialize IronTesseract instance

' Set the OCR language to LatinAlphabet
Ocr.Language = OcrLanguage.LatinAlphabet

' Define the input image or PDF you want to read
Using Input = New OcrInput("images\LatinAlphabet.png")
	' Perform OCR reading on the input
	Dim Result = Ocr.Read(Input)

	' Extract the recognized text
	Dim AllText = Result.Text

	' Output the recognized text
	Console.WriteLine(AllText)
End Using
$vbLabelText   $csharpLabel

Erklärung

  1. IronTesseract Initialisierung: Eine Instanz von IronTesseract wird initialisiert, die die OCR-Verarbeitung übernimmt.

  2. Spracheinstellung: Die OCR-Sprache wird auf LatinAlphabet gesetzt, eine der verfügbaren Sprachen im IronOCR-Paket.

  3. Eingabespezifikation: Ein OcrInput-Objekt wird erstellt, welches den Pfad zum Bild oder PDF angibt, aus dem Text extrahiert werden soll.

  4. OCR-Ausführung: Die Read-Methode der IronTesseract-Instanz wird aufgerufen, um die OcrInput zu verarbeiten. Dies gibt ein Result-Objekt zurück, das den extrahierten Text enthält.

  5. Textextraktion: Die Text-Eigenschaft des Result-Objekts wird verwendet, um auf den erkannten Text zuzugreifen.

  6. Ausgabe: Der erkannte Text wird zur Überprüfung auf der Konsole ausgegeben.

Stellen Sie sicher, dass der Dateipfad in OcrInput korrekt auf Ihre Bild- oder PDF-Datei zeigt, um Dateinichtgefunden-Ausnahmen zu vermeiden.