Japanese OCR in C# and .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English

**Outras versões deste documento: 日本語で

IronOCR é um componente de software C# que permite aos desenvolvedores .NET ler texto de imagens e documentos PDF em 126 idiomas, incluindo japonês. Trata-se de uma versão avançada do Tesseract, criada exclusivamente para desenvolvedores .NET , e que supera regularmente outros mecanismos do Tesseract tanto em velocidade quanto em precisão.

Foi testado em muitas plataformas de hardware diferentes, e a biblioteca de software foi atualizada para a versão mais recente do .NET. É uma boa escolha para desenvolvedores que precisam realizar OCR em seus aplicativos ou projetos. IronOCR fornece aos desenvolvedores de aplicativos uma API fácil de usar que funciona com muitos idiomas e pode ser integrada em aplicativos de várias maneiras. IronOCR suporta 125 idiomas de OCR. É uma ferramenta fantástica de OCR.

Conteúdo de IronOcr.Languages.Japanese

O pacote japonês do IronOCR realiza uma grande variedade de operações. Este pacote contém diversas linguagens de OCR for .NET:

  • JapaneseAlphabet
  • JapaneseAlphabetBest
  • JapaneseAlphabetFast
  • JapaneseVerticalAlphabet
  • JapaneseVerticalAlphabetBest
  • JapaneseVerticalAlphabetFast
  • Japanese
  • JapaneseBest
  • JapaneseFast
  • JapaneseVertical
  • JapaneseVerticalBest
  • JapaneseVerticalFast

Baixar

Você pode baixar o Pacote de Idiomas Japonês do IronOCR [日本語 (にほんご)] dos seguintes links:

  • Baixar como [ Zip ](<a class=)'>Zip
  • Instalar com [ NuGet ](<a target=)'>NuGet

Vamos examinar a instalação do IronOCR nas seções a seguir.

Usando IronOCR para o Idioma Japonês

Criar ou abrir um projeto C

Vamos começar criando um projeto C#. Estamos usando o Visual Studio 2022 para criar um projeto C# — você pode escolher qualquer versão de acordo com sua preferência. Recomenda-se a versão mais recente do Visual Studio. Siga os passos abaixo para criar um projeto C#:

  • Abra o Visual Studio 2022.
  • Clique no botão "Criar um novo projeto".
Chinese Ocr 1 related to Criar ou abrir um projeto C

Digite "Windows" na barra de pesquisa, selecione o aplicativo "Windows Forms"* nos resultados da pesquisa e clique no botão "Avançar".

Chinese Ocr 2 related to Criar ou abrir um projeto C
  • Dê um nome ao projeto. Nomeei o projeto como 'JapaneseOCR'. Uma vez nomeado, clique no botão 'Next'.
Japanese Ocr 1 related to Criar ou abrir um projeto C

Selecione o .NET Framework* na próxima tela. Selecione o .NET Framework de acordo com as necessidades do seu projeto. Para este tutorial, selecionamos a versão .NET 5.0.

Chinese Ocr 4 related to Criar ou abrir um projeto C
  • Após selecionar, clique no botão "Criar". Isso criará facilmente o projeto C# Windows Form no Visual Studio.

O projeto foi criado! Agora podemos usá-lo em nossa biblioteca IronOCR. Também podemos usá-lo com um projeto C# existente. Abra o projeto e comece a instalação da biblioteca IronOCR. A seção a seguir explica como instalar a biblioteca IronOCR em projetos C#.

Instalação

Agora é hora de instalar a biblioteca IronOCR em nosso projeto. A biblioteca IronOCR pode ser instalada de duas maneiras diferentes. Podemos instalar o IronOCR usando o Console do Gerenciador de Pacotes e o Gerenciador de Pacotes NuGet. Vamos dar uma olhada em ambos os métodos.

Usando o Gerenciador de Pacotes NuGet

Para instalar a biblioteca IronOCR com o Gerenciador de Pacotes NuGet , precisamos abrir a interface do Gerenciador de Pacotes NuGet . Siga os passos abaixo para instalar a biblioteca IronOCR :

  • Clique em "Tools" no menu principal, no menu suspenso, passe o mouse sobre "NuGet Package Manager," e selecione "Manage NuGet Packages for Solution."
Chinese Ocr 5 related to Usando o Gerenciador de Pacotes NuGet
  • Isso abrirá a interface do Gerenciador de Pacotes NuGet . Vá para a aba Browse e escreva "IronOCR Japanese" na barra de pesquisa. Selecione o pacote japonês dos resultados da pesquisa e clique no botão "Install" para iniciar a instalação.
Japanese Ocr 2 related to Usando o Gerenciador de Pacotes NuGet
  • Ele começará a instalar a biblioteca. Após a instalação, você poderá usar a biblioteca IronOCR em seu projeto.

Utilizando o Console do Gerenciador de Pacotes

Vamos instalar a biblioteca IronOCR usando o Console do Gerenciador de Pacotes. É bem simples instalar a biblioteca usando o console. Vamos ver como podemos instalar a biblioteca IronOCR usando o console:

  • Abra o projeto e vá para o Console do Gerenciador de Pacotes no Visual Studio. Ele geralmente é encontrado na parte inferior do Visual Studio.
  • Escreva o seguinte comando no console para instalar a linguagem OCR japonesa do IronOCR:

    PM> Install-Package IronOcr.Languages.Japanese
    PM> Install-Package IronOcr.Languages.Japanese
    SHELL
  • A instalação começará e você verá o progresso no console. Após a instalação, você verá a dependência IronOCR na seção "dependencies" no Solution Explorer.

Após a instalação, você poderá usar a biblioteca sem qualquer software de terceiros. Em seguida, é hora de configurar o front-end do nosso programa.

Exemplo de Código: Idioma Japonês para OCR

É hora de escrever o código para implementar a biblioteca IronOCR para o idioma japonês. Primeiro, temos que desenvolver o front-end para selecionar o arquivo de imagem. Vamos ver como fazer isso.

Desenvolvimento do Frontend

Para o desenvolvimento do front-end, aproveitaremos o "Toolbox" no Visual Studio. Ele possui muitos elementos pré-fabricados que podemos usar para projetar nosso front-end. Usaremos uma caixa de imagem, uma caixa de texto rica, um botão e dois rótulos para identificação. Daremos a esses elementos uma forma adequada e uma boa IU de acordo com nossas necessidades. Você pode alterar o tamanho e as propriedades dos elementos de acordo com sua escolha. Tornamos a caixa de texto de saída não editável, e a propriedade da imagem da caixa de imagem é "Zoom", para que cada imagem se encaixe na caixa de imagem. Nosso front-end parecerá assim:

Japanese Ocr 3 related to Desenvolvimento do Frontend

Código de Backend para IronOCR

Nosso front-end está pronto. Agora é hora de colocá-lo ao vivo. Mas primeiro, temos que importar o namespace IronOCR para usar o IronOCR em nosso código. Escreva a seguinte linha no topo do arquivo:

using IronOCR;
using IronOCR;
$vbLabelText   $csharpLabel

O botão "Select Image" será usado para selecionar imagens japonesas. Quando escolhemos a imagem, ela será carregada automaticamente na caixa de imagem e visível. Ao mesmo tempo, o IronOCR começará a reconhecer palavras japonesas das imagens carregadas. Após o término do processo, a saída será exibida na caixa de texto rica. Vamos adicionar essas funcionalidades ao botão, clicando duas vezes nele. Aqui está o exemplo de código para a funcionalidade do botão. Ele também salvará o texto de saída em um arquivo "txt".

private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();

    // Display the image selection dialog, and upon successful image selection, proceed
    if (open.ShowDialog() == DialogResult.OK)
    {
        // Display selected image in the picture box
        img_image.Image = new Bitmap(open.FileName);

        // Initialize IronTesseract for OCR processing
        var Ocr = new IronTesseract
        {
            // Set the OCR language to JapaneseBest for optimal accuracy
            Language = OcrLanguage.JapaneseBest
        };

        // Using 'OcrInput' to process the selected image file
        using (var Input = new OcrInput(open.FileName))
        {
            // Perform OCR to extract text from the image
            var Result = Ocr.Read(Input);

            // Display recognized text in the rich text box
            txt_output.Text = Result.Text;

            // Save the output as a text file named "JapaneseText.txt"
            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();

    // Display the image selection dialog, and upon successful image selection, proceed
    if (open.ShowDialog() == DialogResult.OK)
    {
        // Display selected image in the picture box
        img_image.Image = new Bitmap(open.FileName);

        // Initialize IronTesseract for OCR processing
        var Ocr = new IronTesseract
        {
            // Set the OCR language to JapaneseBest for optimal accuracy
            Language = OcrLanguage.JapaneseBest
        };

        // Using 'OcrInput' to process the selected image file
        using (var Input = new OcrInput(open.FileName))
        {
            // Perform OCR to extract text from the image
            var Result = Ocr.Read(Input);

            // Display recognized text in the rich text box
            txt_output.Text = Result.Text;

            // Save the output as a text file named "JapaneseText.txt"
            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
$vbLabelText   $csharpLabel

Nesta função, quando o usuário clica no botão, uma caixa de diálogo de seleção aparecerá, solicitando que o usuário selecione uma imagem que contenha texto em japonês. Quando o usuário seleciona a imagem, a função Bitmap pega o caminho da imagem e a carrega na caixa de imagem. Após o carregamento, inicializamos a biblioteca IronOCR e ajustamos o idioma para japonês. O IronOCR pega o caminho da imagem como entrada e começa a escanear. Após a digitalização, ele armazena o texto de saída na variável Result e o exibe como saída na caixa de texto rica. Finalmente, ele salva o arquivo de saída como um arquivo "txt" nomeado "JapaneseText".

Execute o projeto

Projetamos o código e implementamos o backend. Agora é hora de executar o programa para verificar se a funcionalidade está funcionando bem ou não.

  • Clique no botão verde de play para executar o projeto. Veremos esta tela no meio das telas do nosso sistema operacional.
Japanese Ocr 4 related to Execute o projeto
  • Clique no botão "Select Image" e selecione a imagem que contém texto em japonês.
Japanese Ocr 5 related to Execute o projeto
  • Você verá o texto da imagem de saída na caixa de texto rica.
Japanese Ocr 6 related to Execute o projeto
  • Um arquivo de texto do resultado do OCR será salvo com "JapaneseText."
Japanese Ocr 7 related to Execute o projeto

A precisão do OCR do IronOCR é excelente.

Resumo

Neste tutorial, aprendemos como usar a biblioteca IronOCR para texto em japonês. Se você deseja saber mais sobre o IronOCR, por favor, clique neste link.

Para mais informações sobre o Iron Software, por favor, clique neste link. Se você quiser experimentar a biblioteca IronOCR, pode ativar a versão gratuita sem qualquer pagamento. A Iron Software está atualmente oferecendo uma oferta especial onde você pode comprar um conjunto de cinco produtos de software pelo preço de apenas dois. Para mais informações, por favor, clique aqui.