Estonian OCR in C# and .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English
Outras versões deste documento:

O IronOCR é um componente de software C# que permite aos desenvolvedores .NET ler texto de imagens e documentos PDF em 126 idiomas, incluindo o estoniano. Trata-se de uma versão avançada do Tesseract, criada exclusivamente para desenvolvedores .NET e que supera regularmente outros mecanismos do Tesseract em termos de velocidade e precisão.

Conteúdo de IronOcr.Idiomas.Estoniano

Este pacote contém as seguintes linguagens OCR for .NET:

  • Estoniano
  • EstonianBest
  • EstonianFast

Baixar

Pacote de idioma estoniano [eesti]

Instalação

A primeira coisa que precisamos fazer é instalar nosso pacote de OCR para estoniano em seu projeto .NET .

Install-Package IronOcr.Languages.Estonian

Exemplo de código

Este exemplo de código C# lê texto em estoniano a partir de uma imagem ou documento PDF.

// Import the IronOcr namespace
using IronOcr;

// Create a new instance of the IronTesseract class
var Ocr = new IronTesseract();

// Set the OCR language to Estonian
Ocr.Language = OcrLanguage.Estonian;

// Load the image or PDF from which text needs to be extracted
using (var Input = new OcrInput(@"images\Estonian.png"))
{
    // Perform OCR to read text from the specified input
    var Result = Ocr.Read(Input);

    // Extract all the recognized text from the OCR result
    var AllText = Result.Text;
}
// Import the IronOcr namespace
using IronOcr;

// Create a new instance of the IronTesseract class
var Ocr = new IronTesseract();

// Set the OCR language to Estonian
Ocr.Language = OcrLanguage.Estonian;

// Load the image or PDF from which text needs to be extracted
using (var Input = new OcrInput(@"images\Estonian.png"))
{
    // Perform OCR to read text from the specified input
    var Result = Ocr.Read(Input);

    // Extract all the recognized text from the OCR result
    var AllText = Result.Text;
}
$vbLabelText   $csharpLabel

Explicação do código:

  • IronTesseract: Esta é uma classe primária fornecida pelo IronOCR para realizar operações de OCR.
  • Ocr.Language: Ao definir esta propriedade, definimos qual idioma deve ser usado durante o OCR. Aqui, está configurado para estoniano.
  • OcrInput: Este parâmetro é usado para especificar a imagem ou o documento PDF que desejamos ler. Ela recebe um caminho de arquivo como entrada.
  • Ocr.Read(Input): Este método processa a entrada especificada e realiza o OCR nela.
  • Result.Text: Esta propriedade contém todo o texto que foi reconhecido e extraído com sucesso da imagem ou do documento PDF.