Ir para o conteúdo do rodapé
FERRAMENTAS DE OCR
Como instalar o Tesseract OCR no Windows em C#

Instalar o Tesseract (Tutorial passo a passo com imagens)

O que é Tesseract OCR?

Tesseract é uma biblioteca de software de código aberto, lançado sob o acordo de licença Apache. Foi originalmente desenvolvido pela Hewlett Packard na década de 1980. É uma ferramenta de reconhecimento de texto usada principalmente para identificar e extrair textos de imagens. Tesseract OCR fornece uma interface de linha de comando para realizar essa funcionalidade.

Como Baixar o Tesseract OCR no Windows

  1. Baixar o Instalador do Tesseract para Windows
  2. Instalar o Tesseract OCR
  3. Adicionar o caminho de instalação nas Variáveis de Ambiente
  4. Executar o Tesseract OCR

1. Baixar o Instalador do Tesseract para Windows

Para usar o comando do Tesseract no Windows, primeiro precisamos baixar os binários do Tesseract OCR .exe Instalador para Windows.

Há muitos lugares onde você pode baixar a versão mais recente do Tesseract OCR. One such place is from UB Mannheim, which is forked from tesseract-ocr/tesseract (Main Repository).

Install Tesseract, Figure 1: Wiki do Tesseract

Wiki do Tesseract

Download the tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 bit) Windows Installer.

Para usuários de macOS, o Tesseract pode ser instalado no terminal usando qualquer um dos comandos abaixo:

brew install tesseract
brew install tesseract
SHELL
sudo port install tesseract
sudo port install tesseract
SHELL

2. Instalar o Tesseract OCR

Em seguida, instalaremos o Tesseract usando o arquivo .exe que baixamos no passo anterior. Inicie o instalador .exe para começar a instalação do Tesseract.

Idioma do Instalador

Assim que a descompactação da configuração estiver concluída, o diálogo de dados do idioma do instalador aparecerá. Você pode instalar o Tesseract para usar vários idiomas selecionando pacotes de idiomas adicionais, mas aqui apenas instalaremos os dados de idiomas para o idioma inglês.

Install Tesseract, Figure 2: Instalador do Tesseract

Instalador do Tesseract

Clique em OK, e o idioma do Instalador para Tesseract OCR está definido.

Configuração do Tesseract OCR

Em seguida, o assistente de configuração aparecerá. Este Assistente de Configuração guiará a instalação do Tesseract para Windows.

Install Tesseract, Figure 3: Tesseract OCR

Assistente de Configuração do Tesseract OCR

Clique em Avançar para continuar a instalação.

Aceitar Acordo de Licença

Tesseract OCR é licenciado sob a Licença Apache Versão 2.0. Como é open source e gratuito para usar, você pode redistribuir e modificar versões do Tesseract sem preocupações com royalties.

Install Tesseract, Figure 4: Tesseract License

Tesseract OCR é licenciado sob a Licença Apache v2.0. Por favor, aceite esta licença para continuar com a instalação.

Clique em Aceito para prosseguir com a instalação.

Escolher Usuários

Você pode escolher instalar o Tesseract para vários usuários ou para um único usuário.

Install Tesseract, Figure 5: Tesseract Choose Users

Escolha instalar o Tesseract OCR para o Usuário Atual (você) ou para todas as contas de usuário

Clique em Avançar para escolher os componentes a instalar com o Tesseract.

Escolher Componentes

Na lista de componentes a instalar, ScrollView, Ferramentas de Treinamento, criação de Atalhos e dados de Idioma são todos selecionados por padrão. Manteremos todas as opções selecionadas por padrão. Você pode escolher qualquer componente ou pular qualquer componente com base nas necessidades. Normalmente, todos são necessários para instalar.

Install Tesseract, Figure 6: Tesseract Components

Aqui, você pode escolher incluir ou excluir componentes do Tesseract OCR. Para melhores resultados, continue a instalação com os componentes padrão selecionados.

Clique em Avançar para escolher o local da instalação.

Escolher Local da Instalação

Em seguida, escolheremos o local para instalar o Tesseract. Certifique-se de copiar o caminho da pasta de destino. Precisaremos disso mais tarde para adicionar o local da instalação à Variável de Ambiente do sistema.

Install Tesseract, Figure 7: Tesseract Install Location

Selecione um local de instalação para a biblioteca do Tesseract OCR, e lembre-se desse local para mais tarde.

Clique em Avançar para continuar a configuração da instalação do Tesseract.

Escolher a Pasta do Menu Iniciar

Este é o último passo no qual criaremos atalhos no menu Iniciar. Você pode nomear a pasta como quiser, mas deixei como o padrão.

Install Tesseract, Figure 8: Tesseract Start Menu

Escolha o nome da Pasta do Menu Iniciar do Tesseract OCR

Agora, clique em Instalar e aguarde a conclusão da instalação. Assim que a instalação estiver concluída, a seguinte tela aparecerá. Clique em Concluir, e terminamos de instalar o Tesseract OCR no Windows com sucesso.

Install Tesseract, Figure 9: Instalador do Tesseract

A instalação do Tesseract OCR está agora completa.

3. Adicionar Caminho de Instalação às Variáveis de Ambiente do Sistema

Agora, adicionaremos o caminho de instalação do Tesseract às Variáveis de Ambiente do Windows.

No menu Iniciar, digite "variáveis de ambiente" ou "configurações avançadas do sistema"

Install Tesseract, Figure 10: System Path Variables

A Caixa de Diálogo de Propriedades do Sistema do Windows

Propriedades do Sistema

Assim que a caixa de diálogo de Propriedades do Sistema abrir, clique na guia Avançado e, em seguida, clique no botão Variáveis de Ambiente, localizado na parte inferior direita da tela.

A caixa de diálogo de Variáveis de Ambiente será apresentada a você.

Variáveis ​​de ambiente

Em variáveis do sistema, clique na variável Caminho.

Install Tesseract, Figure 11: Environment Variables

Acesse as Variáveis de Ambiente do Sistema do Windows

Agora, clique em Editar.

Adicionar Diretório de Instalação do Tesseract OCR para Windows às Variáveis de Ambiente

Na caixa de diálogo Editar variável de ambiente, clique em Novo. Cole o caminho do local de instalação que foi copiado durante o segundo passo e clique em OK.

Install Tesseract, Figure 12: Edit Environment Variable

Edite a variável de ambiente do sistema Caminho do Windows adicionando uma entrada que inclua o caminho absoluto para a instalação do Tesseract OCR

É isso! Baixamos, instalamos e configuramos com sucesso a variável de ambiente para o Tesseract OCR em uma máquina Windows.

4. Execute o Tesseract OCR

Para verificar se o Tesseract OCR para Windows foi instalado com sucesso e adicionado às Variáveis de Ambiente, abra o Prompt de Comando (cmd) em sua máquina Windows e, em seguida, execute o comando "tesseract". Se tudo funcionou bem, um guia rápido de uso deve ser exibido com OCR e outras opções únicas, como a versão do Tesseract.

Install Tesseract, Figure 13: Edit Environment Variable

Execute o comando `tesseract` na Linha de Comando do Windows (ou Windows Powershell) para garantir que as etapas de instalação acima foram feitas corretamente. A saída do console é o resultado esperado de uma instalação bem-sucedida no Windows.

Parabéns! Instalamos com sucesso o Tesseract OCR para Windows.

Biblioteca IronOCR

IronOCR é uma biblioteca C# baseada no Tesseract que permite a desenvolvedores de software .NET identificar e extrair texto de imagens e documentos PDF. Ela é completamente construída em .NET, usando o motor Tesseract mais avançado conhecido em qualquer lugar.

Instale com o Gerenciador de Pacotes NuGet

Instalar o IronOCR no Visual Studio ou usando a Linha de Comando com o Gerenciador de Pacotes NuGet é simples. No Visual Studio, navegue até as opções de Menu com:

Ferramentas > Gerenciador de Pacotes NuGet > Console do Gerenciador de Pacotes

Em seguida, na Linha de Comando, digite o seguinte comando:

Install-Package IronOcr

Isso instalará o IronOCR com facilidade, e agora você pode usá-lo para explorar todo o seu potencial.

Você também pode baixar outros Pacotes NuGet do IronOCR para diferentes plataformas:

IronOCR com Tesseract 5

O exemplo de código abaixo mostra como é fácil usar o IronOCR Tesseract para ler texto de uma imagem e realizar OCR usando C#.

// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;

// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;

// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
$vbLabelText   $csharpLabel

Se você deseja um código mais robusto, então os seguintes devem ajudá-lo a atingir a mesma tarefa:

// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
    // Add an image to the input collection
    Input.AddImage("test-files/redacted-employmentapp.png");
    // You can add any number of images

    // Read the OCR text from the input
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
    // Add an image to the input collection
    Input.AddImage("test-files/redacted-employmentapp.png");
    // You can add any number of images

    // Read the OCR text from the input
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
$vbLabelText   $csharpLabel

Imagem de Entrada

Install Tesseract, Figure 14: Input Image

Imagem de entrada de exemplo para processamento de IronOCR

Imagem de saída

A saída é impressa no Console como:

Install Tesseract, Figure 15: Output Image

O console retornou da execução do IronOCR na imagem de exemplo.

Por que escolher o IronOCR?

O IronOCR é muito fácil de instalar. Ele fornece uma biblioteca de software .NET completa e bem documentada.

IronOCR alcança uma taxa de precisão de detecção de texto de 99,8% sem a necessidade de outras bibliotecas de terceiros ou serviços web.

Ele também fornece suporte a multithreading. Mais importante, IronOCR pode trabalhar com mais de 125 idiomas internacionais.

Conclusão

Neste tutorial, aprendemos como baixar e instalar o Tesseract OCR para uma máquina Windows. Tesseract OCR é um excelente software para desenvolvedores C++, mas ele tem alguns limites. Ele não é totalmente desenvolvido for .NET. Arquivos de imagem escaneados ou fotografados precisam ser processados e padronizados para alta resolução, mantendo-os livres de ruído digital. Só então o Tesseract pode trabalhar neles com precisão.

Em contraste, IronOCR pode trabalhar com qualquer imagem fornecida, sejam imagens escaneadas ou fotografadas, com apenas uma linha de código. IronOCR também usa o Tesseract como seu motor OCR interno, mas é refinado para obter o melhor do Tesseract, especialmente construído para C#, com alto desempenho e recursos melhorados.

Você pode baixar o produto de software IronOCR deste link.

Kannaopat Udonpant
Engenheiro de Software
Antes de se tornar Engenheiro de Software, Kannapat concluiu um doutorado em Recursos Ambientais pela Universidade de Hokkaido, no Japão. Durante o doutorado, Kannapat também integrou o Laboratório de Robótica Veicular, que faz parte do Departamento de Engenharia de Bioprodução. Em 2022, ele utilizou suas habilidades ...
Leia mais

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me