Cyrillic Alphabet OCR in C#

This article was translated from English: Does it need improvement?
Translated
View the article in English

Mais 126 idiomas

O IronOCR é um componente de software C# que permite aos programadores .NET ler texto de imagens e documentos PDF em 126 idiomas, incluindo o alfabeto cirílico.

Trata-se de uma versão avançada do Tesseract, criada exclusivamente para desenvolvedores .NET e que supera regularmente outros mecanismos do Tesseract em termos de velocidade e precisão.

Conteúdo de IronOcr.Idiomas.Cirílico

Este pacote contém 73 linguagens OCR for .NET:

  • Alfabeto cirílico
  • Melhor Alfabeto Cirílico
  • AlfabetoCirílicoRápido

Baixar

Pacote de idiomas do alfabeto cirílico [escritas cirílicas]

Instalação

A primeira coisa que você precisa fazer é instalar o pacote OCR do alfabeto cirílico no seu projeto .NET .

Install-Package IronOcr.Languages.Cyrillic

Exemplo de código

Este exemplo de código C# lê texto em alfabeto cirílico de uma imagem ou documento PDF.

using IronOcr;

public class OcrExample
{
    public void ReadCyrillicText()
    {
        // Initialize a new instance of the IronTesseract OCR engine
        var Ocr = new IronTesseract();

        // Set the OCR engine to use the Cyrillic language package
        Ocr.Language = OcrLanguage.Cyrillic;

        // Create a new OCR input from an image file
        using (var Input = new OcrInput(@"images\Cyrillic.png"))
        {
            // Read the image using the OCR engine
            var Result = Ocr.Read(Input);

            // Retrieve Recognized Text
            var AllText = Result.Text;

            // Output the recognized text to the console
            Console.WriteLine(AllText);
        }
    }
}
using IronOcr;

public class OcrExample
{
    public void ReadCyrillicText()
    {
        // Initialize a new instance of the IronTesseract OCR engine
        var Ocr = new IronTesseract();

        // Set the OCR engine to use the Cyrillic language package
        Ocr.Language = OcrLanguage.Cyrillic;

        // Create a new OCR input from an image file
        using (var Input = new OcrInput(@"images\Cyrillic.png"))
        {
            // Read the image using the OCR engine
            var Result = Ocr.Read(Input);

            // Retrieve Recognized Text
            var AllText = Result.Text;

            // Output the recognized text to the console
            Console.WriteLine(AllText);
        }
    }
}
$vbLabelText   $csharpLabel
  • IronTesseract: Esta é a classe de mecanismo de OCR que você usa para configurar e executar tarefas de OCR.
  • OcrInput: Uma classe que representa a imagem ou documento de entrada no qual você deseja realizar OCR.
  • OcrLanguage.Cyrillic: Especifica que o mecanismo de OCR deve usar o pacote de idioma cirílico para reconhecimento.
  • Result.Text: Acessa o texto reconhecido do objeto de resultado OCR.

Este exemplo demonstra um caso de uso simples onde uma imagem com texto cirílico é processada para extrair o texto.