Tamil OCR in C# and .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English
Andere Versionen dieses Dokuments:

IronOCR ist eine C# Softwarekomponente, die es .NET-Entwicklern ermöglicht, Text aus Bildern und PDF-Dokumenten in 126 Sprachen, einschließlich Tamil, zu lesen.

Es ist eine fortschrittliche Abspaltung von Tesseract, die ausschließlich for .NET-Entwickler gebaut wurde und regelmäßig andere Tesseract-Engines sowohl in Geschwindigkeit als auch Genauigkeit übertrifft.

Inhalte von IronOcr.Languages.Tamil

Dieses Paket enthält 102 OCR-Sprachen for .NET:

  • Tamil
  • TamilBest
  • TamilFast
  • TamilAlphabet
  • TamilAlphabetBest
  • TamilAlphabetFast

Download

Tamil Sprachpaket [தமிழ]

Installation

Das erste, was wir tun müssen, ist unser Tamil OCR-Paket in Ihr .NET-Projekt zu installieren.

Install-Package IronOcr.Languages.Tamil

Beispielcode

Dieses C#-Codebeispiel liest Tamiltext aus einem Bild oder PDF-Dokument.

// Ensure IronOcr.Languages.Tamil package is installed
using IronOcr;

var Ocr = new IronTesseract();

// Set the language to Tamil for OCR processing
Ocr.Language = OcrLanguage.Tamil;

using (var Input = new OcrInput(@"images\Tamil.png"))
{
    // Perform OCR on the input image
    var Result = Ocr.Read(Input);

    // Get the recognized text
    var AllText = Result.Text;

    // Display the recognized text (for example purpose)
    Console.WriteLine(AllText);
}
// Ensure IronOcr.Languages.Tamil package is installed
using IronOcr;

var Ocr = new IronTesseract();

// Set the language to Tamil for OCR processing
Ocr.Language = OcrLanguage.Tamil;

using (var Input = new OcrInput(@"images\Tamil.png"))
{
    // Perform OCR on the input image
    var Result = Ocr.Read(Input);

    // Get the recognized text
    var AllText = Result.Text;

    // Display the recognized text (for example purpose)
    Console.WriteLine(AllText);
}
$vbLabelText   $csharpLabel

Die Klasse IronTesseract dient zur Initialisierung und Einrichtung der OCR-Engine.

  • Die Eigenschaft Ocr.Language gibt das für die OCR zu verwendende Sprachpaket an.
  • Die Klasse OcrInput wird mit dem Pfad zur Bilddatei verwendet, die tamilischen Text enthält. Die Methode Ocr.Read() verarbeitet das Bild und extrahiert den Text. Schließlich wird der erkannte Text in AllText gespeichert und kann bei Bedarf verwendet werden.