Han Simplified Alphabet OCR in C# and .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English

Mais 126 idiomas

O IronOCR é um componente de software C# que permite que programadores .NET leiam texto de imagens e documentos PDF em 126 idiomas, incluindo o Alfabeto Han Simplificado.

Trata-se de uma versão avançada do Tesseract, criada exclusivamente para desenvolvedores .NET e que supera regularmente outros mecanismos do Tesseract em termos de velocidade e precisão.

Conteúdos de IronOcr.Languages.Han

Este pacote contém 400 idiomas OCR for .NET:

  • HanSimplifiedAlphabet
  • HanSimplifiedAlphabetBest
  • HanSimplifiedAlphabetFast
  • HanSimplifiedVerticalAlphabet
  • HanSimplifiedVerticalAlphabetBest
  • HanSimplifiedVerticalAlphabetFast
  • HanTraditionalAlphabet
  • HanTraditionalAlphabetBest
  • HanTraditionalAlphabetFast
  • HanTraditionalVerticalAlphabet
  • HanTraditionalVerticalAlphabetBest
  • HanTraditionalVerticalAlphabetFast

Baixar

Pacote de Idioma do Alfabeto Han Simplificado [Samhan]

Instalação

A primeira coisa que precisamos fazer é instalar nosso pacote OCR do Alfabeto Han Simplificado no seu projeto .NET.

Execute o seguinte comando no Console do Gerenciador de Pacotes:

Install-Package IronOcr.Languages.Han

Exemplo de código

Este exemplo de código C# lê texto do Alfabeto Han Simplificado de uma imagem ou documento PDF.

// Reference the IronOcr library
using IronOcr;

class Program
{
    static void Main()
    {
        // Create an IronTesseract OCR engine
        var Ocr = new IronTesseract();

        // Load the Han language for OCR processing
        Ocr.Language = OcrLanguage.Han;

        // Using a 'using' statement for resource management
        using (var Input = new OcrInput(@"images\Han.png"))
        {
            // Process the image to extract text
            var Result = Ocr.Read(Input);

            // Retrieve and display the extracted text
            string AllText = Result.Text;
            System.Console.WriteLine(AllText);
        }
    }
}
// Reference the IronOcr library
using IronOcr;

class Program
{
    static void Main()
    {
        // Create an IronTesseract OCR engine
        var Ocr = new IronTesseract();

        // Load the Han language for OCR processing
        Ocr.Language = OcrLanguage.Han;

        // Using a 'using' statement for resource management
        using (var Input = new OcrInput(@"images\Han.png"))
        {
            // Process the image to extract text
            var Result = Ocr.Read(Input);

            // Retrieve and display the extracted text
            string AllText = Result.Text;
            System.Console.WriteLine(AllText);
        }
    }
}
$vbLabelText   $csharpLabel

Explicação

  • Começamos referenciando a biblioteca IronOcr para usar suas capacidades de OCR.
  • Uma instância de IronTesseract é criada para processar os documentos de imagem/PDF.
  • O idioma para o processo de OCR é definido para Han usando Ocr.Language.
  • Uma imagem é carregada usando OcrInput e processada chamando Ocr.Read().
  • O resultado do processo de OCR é armazenado em Result.Text, que contém o texto extraído do documento.
  • Finalmente imprimimos o texto no console.

Certifique-se de ter as diretivas using adequadas e gerencie os recursos eficientemente com as declarações using, especialmente ao lidar com recursos não gerenciados, como fluxos de arquivos.