Tamil OCR in C# and .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English
Outras versões deste documento:

O IronOCR é um componente de software em C# que permite aos programadores .NET ler texto de imagens e documentos PDF em 126 idiomas, incluindo o tâmil.

Trata-se de uma versão avançada do Tesseract, criada exclusivamente para desenvolvedores .NET e que supera regularmente outros mecanismos do Tesseract em termos de velocidade e precisão.

Conteúdo de IronOcr.Languages.Tamil

Este pacote contém 102 linguagens de OCR for .NET:

  • Tâmil
  • TâmilBest
  • TâmilFast
  • Alfabeto Tamil
  • Alfabeto TamilBest
  • Alfabeto TamilFast

Baixar

Pacote de idioma Tamil [தமிழ]

Instalação

A primeira coisa que precisamos fazer é instalar nosso pacote OCR Tamil em seu projeto .NET.

Install-Package IronOcr.Languages.Tamil

Exemplo de código

Este exemplo de código C# lê texto em tâmil a partir de uma imagem ou documento PDF.

// Ensure IronOcr.Languages.Tamil package is installed
using IronOcr;

var Ocr = new IronTesseract();

// Set the language to Tamil for OCR processing
Ocr.Language = OcrLanguage.Tamil;

using (var Input = new OcrInput(@"images\Tamil.png"))
{
    // Perform OCR on the input image
    var Result = Ocr.Read(Input);

    // Get the recognized text
    var AllText = Result.Text;

    // Display the recognized text (for example purpose)
    Console.WriteLine(AllText);
}
// Ensure IronOcr.Languages.Tamil package is installed
using IronOcr;

var Ocr = new IronTesseract();

// Set the language to Tamil for OCR processing
Ocr.Language = OcrLanguage.Tamil;

using (var Input = new OcrInput(@"images\Tamil.png"))
{
    // Perform OCR on the input image
    var Result = Ocr.Read(Input);

    // Get the recognized text
    var AllText = Result.Text;

    // Display the recognized text (for example purpose)
    Console.WriteLine(AllText);
}
$vbLabelText   $csharpLabel
  • A classe IronTesseract é usada para inicializar e configurar o mecanismo de OCR.
  • A propriedade Ocr.Language especifica o pacote de idiomas a ser usado para OCR.
  • A classe OcrInput é usada com o caminho para o arquivo de imagem contendo texto em Tamil.
  • O método Ocr.Read() processa a imagem e extrai o texto.
  • Finalmente, o texto reconhecido é armazenado em AllText e pode ser utilizado conforme necessário.