Instalar o Tesseract (Tutorial passo a passo com imagens)
O que é Tesseract OCR?
Tesseract é uma biblioteca de software de código aberto, lançado sob o acordo de licença Apache. Foi originalmente desenvolvido pela Hewlett Packard na década de 1980. É uma ferramenta de reconhecimento de texto usada principalmente para identificar e extrair textos de imagens. Tesseract OCR fornece uma interface de linha de comando para realizar essa funcionalidade.
Saiba mais sobre as características do IronOCR ou inscreva-se para um teste hoje!
Como Baixar o Tesseract OCR no Windows
- Baixar o Instalador do Tesseract para Windows
- Instalar o Tesseract OCR
- Adicionar o caminho de instalação nas Variáveis de Ambiente
- Executar o Tesseract OCR
1. Baixar o Instalador do Tesseract para Windows
Para usar o comando do Tesseract no Windows, primeiro precisamos baixar os binários do Tesseract OCR .exe Instalador para Windows.
Há muitos lugares onde você pode baixar a versão mais recente do Tesseract OCR. One such place is from UB Mannheim, which is forked from tesseract-ocr/tesseract (Main Repository).
Wiki do Tesseract
Download the tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 bit) Windows Installer.
Para usuários de macOS, o Tesseract pode ser instalado no terminal usando qualquer um dos comandos abaixo:
brew install tesseract
brew install tesseract
sudo port install tesseract
sudo port install tesseract
2. Instalar o Tesseract OCR
Em seguida, instalaremos o Tesseract usando o arquivo .exe que baixamos no passo anterior. Inicie o instalador .exe para começar a instalação do Tesseract.
Idioma do Instalador
Assim que a descompactação da configuração estiver concluída, o diálogo de dados do idioma do instalador aparecerá. Você pode instalar o Tesseract para usar vários idiomas selecionando pacotes de idiomas adicionais, mas aqui apenas instalaremos os dados de idiomas para o idioma inglês.
Instalador do Tesseract
Clique em OK, e o idioma do Instalador para Tesseract OCR está definido.
Configuração do Tesseract OCR
Em seguida, o assistente de configuração aparecerá. Este Assistente de Configuração guiará a instalação do Tesseract para Windows.
Assistente de Configuração do Tesseract OCR
Clique em Avançar para continuar a instalação.
Aceitar Acordo de Licença
Tesseract OCR é licenciado sob a Licença Apache Versão 2.0. Como é open source e gratuito para usar, você pode redistribuir e modificar versões do Tesseract sem preocupações com royalties.
Tesseract OCR é licenciado sob a Licença Apache v2.0. Por favor, aceite esta licença para continuar com a instalação.
Clique em Aceito para prosseguir com a instalação.
Escolher Usuários
Você pode escolher instalar o Tesseract para vários usuários ou para um único usuário.
Escolha instalar o Tesseract OCR para o Usuário Atual (você) ou para todas as contas de usuário
Clique em Avançar para escolher os componentes a instalar com o Tesseract.
Escolher Componentes
Na lista de componentes a instalar, ScrollView, Ferramentas de Treinamento, criação de Atalhos e dados de Idioma são todos selecionados por padrão. Manteremos todas as opções selecionadas por padrão. Você pode escolher qualquer componente ou pular qualquer componente com base nas necessidades. Normalmente, todos são necessários para instalar.
Aqui, você pode escolher incluir ou excluir componentes do Tesseract OCR. Para melhores resultados, continue a instalação com os componentes padrão selecionados.
Clique em Avançar para escolher o local da instalação.
Escolher Local da Instalação
Em seguida, escolheremos o local para instalar o Tesseract. Certifique-se de copiar o caminho da pasta de destino. Precisaremos disso mais tarde para adicionar o local da instalação à Variável de Ambiente do sistema.
Selecione um local de instalação para a biblioteca do Tesseract OCR, e lembre-se desse local para mais tarde.
Clique em Avançar para continuar a configuração da instalação do Tesseract.
Escolher a Pasta do Menu Iniciar
Este é o último passo no qual criaremos atalhos no menu Iniciar. Você pode nomear a pasta como quiser, mas deixei como o padrão.
Escolha o nome da Pasta do Menu Iniciar do Tesseract OCR
Agora, clique em Instalar e aguarde a conclusão da instalação. Assim que a instalação estiver concluída, a seguinte tela aparecerá. Clique em Concluir, e terminamos de instalar o Tesseract OCR no Windows com sucesso.
A instalação do Tesseract OCR está agora completa.
3. Adicionar Caminho de Instalação às Variáveis de Ambiente do Sistema
Agora, adicionaremos o caminho de instalação do Tesseract às Variáveis de Ambiente do Windows.
No menu Iniciar, digite "variáveis de ambiente" ou "configurações avançadas do sistema"
A Caixa de Diálogo de Propriedades do Sistema do Windows
Propriedades do Sistema
Assim que a caixa de diálogo de Propriedades do Sistema abrir, clique na guia Avançado e, em seguida, clique no botão Variáveis de Ambiente, localizado na parte inferior direita da tela.
A caixa de diálogo de Variáveis de Ambiente será apresentada a você.
Variáveis de ambiente
Em variáveis do sistema, clique na variável Caminho.
Acesse as Variáveis de Ambiente do Sistema do Windows
Agora, clique em Editar.
Adicionar Diretório de Instalação do Tesseract OCR para Windows às Variáveis de Ambiente
Na caixa de diálogo Editar variável de ambiente, clique em Novo. Cole o caminho do local de instalação que foi copiado durante o segundo passo e clique em OK.
Edite a variável de ambiente do sistema Caminho do Windows adicionando uma entrada que inclua o caminho absoluto para a instalação do Tesseract OCR
É isso! Baixamos, instalamos e configuramos com sucesso a variável de ambiente para o Tesseract OCR em uma máquina Windows.
4. Execute o Tesseract OCR
Para verificar se o Tesseract OCR para Windows foi instalado com sucesso e adicionado às Variáveis de Ambiente, abra o Prompt de Comando (cmd) em sua máquina Windows e, em seguida, execute o comando "tesseract". Se tudo funcionou bem, um guia rápido de uso deve ser exibido com OCR e outras opções únicas, como a versão do Tesseract.
Execute o comando `tesseract` na Linha de Comando do Windows (ou Windows Powershell) para garantir que as etapas de instalação acima foram feitas corretamente. A saída do console é o resultado esperado de uma instalação bem-sucedida no Windows.
Parabéns! Instalamos com sucesso o Tesseract OCR para Windows.
Biblioteca IronOCR
IronOCR é uma biblioteca C# baseada no Tesseract que permite a desenvolvedores de software .NET identificar e extrair texto de imagens e documentos PDF. Ela é completamente construída em .NET, usando o motor Tesseract mais avançado conhecido em qualquer lugar.
Instale com o Gerenciador de Pacotes NuGet
Instalar o IronOCR no Visual Studio ou usando a Linha de Comando com o Gerenciador de Pacotes NuGet é simples. No Visual Studio, navegue até as opções de Menu com:
Ferramentas > Gerenciador de Pacotes NuGet > Console do Gerenciador de Pacotes
Em seguida, na Linha de Comando, digite o seguinte comando:
Install-Package IronOcr
Isso instalará o IronOCR com facilidade, e agora você pode usá-lo para explorar todo o seu potencial.
Você também pode baixar outros Pacotes NuGet do IronOCR para diferentes plataformas:
IronOCR com Tesseract 5
O exemplo de código abaixo mostra como é fácil usar o IronOCR Tesseract para ler texto de uma imagem e realizar OCR usando C#.
// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;
// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;
// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
' Import the IronOCR library
Imports IronOcr
' Create an instance of IronTesseract
Private Ocr = New IronTesseract()
Private Text As String = Ocr.Read("test-files/redacted-employmentapp.png").Text
' Output the extracted text to the console
Console.WriteLine(Text) ' Printed text
Se você deseja um código mais robusto, então os seguintes devem ajudá-lo a atingir a mesma tarefa:
// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
// Add an image to the input collection
Input.AddImage("test-files/redacted-employmentapp.png");
// You can add any number of images
// Read the OCR text from the input
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
}
// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
// Add an image to the input collection
Input.AddImage("test-files/redacted-employmentapp.png");
// You can add any number of images
// Read the OCR text from the input
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
}
' Import the IronOCR library
Imports IronOcr
' Create an instance of IronTesseract
Private Ocr = New IronTesseract()
' Using the OcrInput class to handle multiple images
Using Input = New OcrInput()
' Add an image to the input collection
Input.AddImage("test-files/redacted-employmentapp.png")
' You can add any number of images
' Read the OCR text from the input
Dim Result = Ocr.Read(Input)
' Output the extracted text to the console
Console.WriteLine(Result.Text)
End Using
Imagem de Entrada
Imagem de entrada de exemplo para processamento de IronOCR
Imagem de saída
A saída é impressa no Console como:
O console retornou da execução do IronOCR na imagem de exemplo.
Por que escolher o IronOCR?
O IronOCR é muito fácil de instalar. Ele fornece uma biblioteca de software .NET completa e bem documentada.
IronOCR alcança uma taxa de precisão de detecção de texto de 99,8% sem a necessidade de outras bibliotecas de terceiros ou serviços web.
Ele também fornece suporte a multithreading. Mais importante, IronOCR pode trabalhar com mais de 125 idiomas internacionais.
Conclusão
Neste tutorial, aprendemos como baixar e instalar o Tesseract OCR para uma máquina Windows. Tesseract OCR é um excelente software para desenvolvedores C++, mas ele tem alguns limites. Ele não é totalmente desenvolvido for .NET. Arquivos de imagem escaneados ou fotografados precisam ser processados e padronizados para alta resolução, mantendo-os livres de ruído digital. Só então o Tesseract pode trabalhar neles com precisão.
Em contraste, IronOCR pode trabalhar com qualquer imagem fornecida, sejam imagens escaneadas ou fotografadas, com apenas uma linha de código. IronOCR também usa o Tesseract como seu motor OCR interno, mas é refinado para obter o melhor do Tesseract, especialmente construído para C#, com alto desempenho e recursos melhorados.
Você pode baixar o produto de software IronOCR deste link.




