Japanese OCR in C# and .NET
**Outras versões deste documento: 日本語で
IronOCR é um componente de software C# que permite aos desenvolvedores .NET ler texto de imagens e documentos PDF em 126 idiomas, incluindo japonês. Trata-se de uma versão avançada do Tesseract, criada exclusivamente para desenvolvedores .NET , e que supera regularmente outros mecanismos do Tesseract tanto em velocidade quanto em precisão.
Foi testado em muitas plataformas de hardware diferentes, e a biblioteca de software foi atualizada para a versão mais recente do .NET. É uma boa escolha para desenvolvedores que precisam realizar OCR em seus aplicativos ou projetos. IronOCR fornece aos desenvolvedores de aplicativos uma API fácil de usar que funciona com muitos idiomas e pode ser integrada em aplicativos de várias maneiras. IronOCR suporta 125 idiomas de OCR. É uma ferramenta fantástica de OCR.
Conteúdo de IronOcr.Languages.Japanese
O pacote japonês do IronOCR realiza uma grande variedade de operações. Este pacote contém diversas linguagens de OCR for .NET:
- JapaneseAlphabet
- JapaneseAlphabetBest
- JapaneseAlphabetFast
- JapaneseVerticalAlphabet
- JapaneseVerticalAlphabetBest
- JapaneseVerticalAlphabetFast
- Japanese
- JapaneseBest
- JapaneseFast
- JapaneseVertical
- JapaneseVerticalBest
- JapaneseVerticalFast
Baixar
Você pode baixar o Pacote de Idiomas Japonês do IronOCR [日本語 (にほんご)] dos seguintes links:
- Baixar como [ Zip ](<a class=)'>Zip
- Instalar com [ NuGet ](<a target=)'>NuGet
Vamos examinar a instalação do IronOCR nas seções a seguir.
Usando IronOCR para o Idioma Japonês
Criar ou abrir um projeto C
Vamos começar criando um projeto C#. Estamos usando o Visual Studio 2022 para criar um projeto C# — você pode escolher qualquer versão de acordo com sua preferência. Recomenda-se a versão mais recente do Visual Studio. Siga os passos abaixo para criar um projeto C#:
- Abra o Visual Studio 2022.
- Clique no botão "Criar um novo projeto".
Digite "Windows" na barra de pesquisa, selecione o aplicativo "Windows Forms"* nos resultados da pesquisa e clique no botão "Avançar".
- Dê um nome ao projeto. Nomeei o projeto como 'JapaneseOCR'. Uma vez nomeado, clique no botão 'Next'.
Selecione o .NET Framework* na próxima tela. Selecione o .NET Framework de acordo com as necessidades do seu projeto. Para este tutorial, selecionamos a versão .NET 5.0.
- Após selecionar, clique no botão "Criar". Isso criará facilmente o projeto C# Windows Form no Visual Studio.
O projeto foi criado! Agora podemos usá-lo em nossa biblioteca IronOCR. Também podemos usá-lo com um projeto C# existente. Abra o projeto e comece a instalação da biblioteca IronOCR. A seção a seguir explica como instalar a biblioteca IronOCR em projetos C#.
Instalação
Agora é hora de instalar a biblioteca IronOCR em nosso projeto. A biblioteca IronOCR pode ser instalada de duas maneiras diferentes. Podemos instalar o IronOCR usando o Console do Gerenciador de Pacotes e o Gerenciador de Pacotes NuGet. Vamos dar uma olhada em ambos os métodos.
Usando o Gerenciador de Pacotes NuGet
Para instalar a biblioteca IronOCR com o Gerenciador de Pacotes NuGet , precisamos abrir a interface do Gerenciador de Pacotes NuGet . Siga os passos abaixo para instalar a biblioteca IronOCR :
- Clique em "Tools" no menu principal, no menu suspenso, passe o mouse sobre "NuGet Package Manager," e selecione "Manage NuGet Packages for Solution."
- Isso abrirá a interface do Gerenciador de Pacotes NuGet . Vá para a aba Browse e escreva "IronOCR Japanese" na barra de pesquisa. Selecione o pacote japonês dos resultados da pesquisa e clique no botão "Install" para iniciar a instalação.
- Ele começará a instalar a biblioteca. Após a instalação, você poderá usar a biblioteca IronOCR em seu projeto.
Utilizando o Console do Gerenciador de Pacotes
Vamos instalar a biblioteca IronOCR usando o Console do Gerenciador de Pacotes. É bem simples instalar a biblioteca usando o console. Vamos ver como podemos instalar a biblioteca IronOCR usando o console:
- Abra o projeto e vá para o Console do Gerenciador de Pacotes no Visual Studio. Ele geralmente é encontrado na parte inferior do Visual Studio.
-
Escreva o seguinte comando no console para instalar a linguagem OCR japonesa do IronOCR:
PM> Install-Package IronOcr.Languages.JapanesePM> Install-Package IronOcr.Languages.JapaneseSHELL - A instalação começará e você verá o progresso no console. Após a instalação, você verá a dependência IronOCR na seção "dependencies" no Solution Explorer.
Após a instalação, você poderá usar a biblioteca sem qualquer software de terceiros. Em seguida, é hora de configurar o front-end do nosso programa.
Exemplo de Código: Idioma Japonês para OCR
É hora de escrever o código para implementar a biblioteca IronOCR para o idioma japonês. Primeiro, temos que desenvolver o front-end para selecionar o arquivo de imagem. Vamos ver como fazer isso.
Desenvolvimento do Frontend
Para o desenvolvimento do front-end, aproveitaremos o "Toolbox" no Visual Studio. Ele possui muitos elementos pré-fabricados que podemos usar para projetar nosso front-end. Usaremos uma caixa de imagem, uma caixa de texto rica, um botão e dois rótulos para identificação. Daremos a esses elementos uma forma adequada e uma boa IU de acordo com nossas necessidades. Você pode alterar o tamanho e as propriedades dos elementos de acordo com sua escolha. Tornamos a caixa de texto de saída não editável, e a propriedade da imagem da caixa de imagem é "Zoom", para que cada imagem se encaixe na caixa de imagem. Nosso front-end parecerá assim:
Código de Backend para IronOCR
Nosso front-end está pronto. Agora é hora de colocá-lo ao vivo. Mas primeiro, temos que importar o namespace IronOCR para usar o IronOCR em nosso código. Escreva a seguinte linha no topo do arquivo:
using IronOCR;
using IronOCR;
Imports IronOCR
O botão "Select Image" será usado para selecionar imagens japonesas. Quando escolhemos a imagem, ela será carregada automaticamente na caixa de imagem e visível. Ao mesmo tempo, o IronOCR começará a reconhecer palavras japonesas das imagens carregadas. Após o término do processo, a saída será exibida na caixa de texto rica. Vamos adicionar essas funcionalidades ao botão, clicando duas vezes nele. Aqui está o exemplo de código para a funcionalidade do botão. Ele também salvará o texto de saída em um arquivo "txt".
private void btn_image_Click(object sender, EventArgs e)
{
OpenFileDialog open = new OpenFileDialog();
// Display the image selection dialog, and upon successful image selection, proceed
if (open.ShowDialog() == DialogResult.OK)
{
// Display selected image in the picture box
img_image.Image = new Bitmap(open.FileName);
// Initialize IronTesseract for OCR processing
var Ocr = new IronTesseract
{
// Set the OCR language to JapaneseBest for optimal accuracy
Language = OcrLanguage.JapaneseBest
};
// Using 'OcrInput' to process the selected image file
using (var Input = new OcrInput(open.FileName))
{
// Perform OCR to extract text from the image
var Result = Ocr.Read(Input);
// Display recognized text in the rich text box
txt_output.Text = Result.Text;
// Save the output as a text file named "JapaneseText.txt"
Result.SaveAsTextFile("JapaneseText.txt");
}
}
}
private void btn_image_Click(object sender, EventArgs e)
{
OpenFileDialog open = new OpenFileDialog();
// Display the image selection dialog, and upon successful image selection, proceed
if (open.ShowDialog() == DialogResult.OK)
{
// Display selected image in the picture box
img_image.Image = new Bitmap(open.FileName);
// Initialize IronTesseract for OCR processing
var Ocr = new IronTesseract
{
// Set the OCR language to JapaneseBest for optimal accuracy
Language = OcrLanguage.JapaneseBest
};
// Using 'OcrInput' to process the selected image file
using (var Input = new OcrInput(open.FileName))
{
// Perform OCR to extract text from the image
var Result = Ocr.Read(Input);
// Display recognized text in the rich text box
txt_output.Text = Result.Text;
// Save the output as a text file named "JapaneseText.txt"
Result.SaveAsTextFile("JapaneseText.txt");
}
}
}
Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
Dim open As New OpenFileDialog()
' Display the image selection dialog, and upon successful image selection, proceed
If open.ShowDialog() = DialogResult.OK Then
' Display selected image in the picture box
img_image.Image = New Bitmap(open.FileName)
' Initialize IronTesseract for OCR processing
Dim Ocr = New IronTesseract With {.Language = OcrLanguage.JapaneseBest}
' Using 'OcrInput' to process the selected image file
Using Input = New OcrInput(open.FileName)
' Perform OCR to extract text from the image
Dim Result = Ocr.Read(Input)
' Display recognized text in the rich text box
txt_output.Text = Result.Text
' Save the output as a text file named "JapaneseText.txt"
Result.SaveAsTextFile("JapaneseText.txt")
End Using
End If
End Sub
Nesta função, quando o usuário clica no botão, uma caixa de diálogo de seleção aparecerá, solicitando que o usuário selecione uma imagem que contenha texto em japonês. Quando o usuário seleciona a imagem, a função Bitmap pega o caminho da imagem e a carrega na caixa de imagem. Após o carregamento, inicializamos a biblioteca IronOCR e ajustamos o idioma para japonês. O IronOCR pega o caminho da imagem como entrada e começa a escanear. Após a digitalização, ele armazena o texto de saída na variável Result e o exibe como saída na caixa de texto rica. Finalmente, ele salva o arquivo de saída como um arquivo "txt" nomeado "JapaneseText".
Execute o projeto
Projetamos o código e implementamos o backend. Agora é hora de executar o programa para verificar se a funcionalidade está funcionando bem ou não.
- Clique no botão verde de play para executar o projeto. Veremos esta tela no meio das telas do nosso sistema operacional.
- Clique no botão "Select Image" e selecione a imagem que contém texto em japonês.
- Você verá o texto da imagem de saída na caixa de texto rica.
- Um arquivo de texto do resultado do OCR será salvo com "JapaneseText."
A precisão do OCR do IronOCR é excelente.
Resumo
Neste tutorial, aprendemos como usar a biblioteca IronOCR para texto em japonês. Se você deseja saber mais sobre o IronOCR, por favor, clique neste link.
Para mais informações sobre o Iron Software, por favor, clique neste link. Se você quiser experimentar a biblioteca IronOCR, pode ativar a versão gratuita sem qualquer pagamento. A Iron Software está atualmente oferecendo uma oferta especial onde você pode comprar um conjunto de cinco produtos de software pelo preço de apenas dois. Para mais informações, por favor, clique aqui.

