Ir para o conteúdo do rodapé
FERRAMENTAS DE OCR

Como criar um OCR em Python

O mundo está inundado com grandes quantidades de informações textuais. Há uma riqueza de conteúdo valioso que poderia ser imensamente útil se fosse apenas um pouco mais acessível.

É aqui que a tecnologia de Reconhecimento Óptico de Caracteres (OCR) entra em jogo. Imagine um computador sendo capaz de "ler" texto de imagens exatamente como um humano faz, apenas isso é visão computacional, que representa uma seção da ciência da computação onde podemos treinar computadores para reconhecer e identificar diferentes assuntos em uma imagem.

Neste tutorial, vamos guiá-lo pelo processo de construir seu próprio sistema de OCR usando Python, uma linguagem de programação conhecida por sua simplicidade e versatilidade. Com a ajuda de bibliotecas como Tesseract, IronOCR, e OpenCV, você logo poderá desbloquear o potencial de extrair, manipular e trabalhar com texto a partir de imagens de documentos.

Pré-requisitos do Motor OCR (Reconhecimento Óptico de Caracteres)

Antes de mergulharmos nos detalhes de construir nosso sistema de OCR, há algumas coisas que você precisará:

  1. Python: Certifique-se de ter o Python instalado em seu computador. Você pode baixá-lo do site oficial do Python.
  2. Instalar Tesseract OCR: Tesseract OCR é um motor OCR de código aberto desenvolvido pelo Google. É uma ferramenta poderosa que estaremos usando em nosso projeto. Você pode baixar a biblioteca Tesseract do GitHub e ler sobre o processo de instalação do Tesseract OCR.
  3. Bibliotecas Python: Usaremos duas bibliotecas Python importantes para este projeto: pytesseract e a biblioteca opencv-python. Você pode instalá-las usando o seguinte comando em seu prompt de comando ou terminal:

    pip install pytesseract opencv-python
    pip install pytesseract opencv-python
    SHELL

Como Construir um OCR em Python: Figura 1

Passos para Construir o Sistema OCR

Você pode facilmente construir OCR usando código Python com a ajuda de Bibliotecas OCR Python e um script Python simples.

Passo 1: Importar Bibliotecas

Primeiro de tudo, você precisará importar as bibliotecas necessárias:

import cv2  # OpenCV library for computer vision
import pytesseract  # Tesseract library for OCR
import cv2  # OpenCV library for computer vision
import pytesseract  # Tesseract library for OCR
PYTHON

Passo 2: Ler e Processar uma Imagem

Carregue a imagem usando OpenCV e pré-processe-a para melhorar a precisão do OCR:

# Load the image using OpenCV
image = cv2.imread('sample_image.png') 

# Convert the image to grayscale
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) 

# Apply thresholding or other preprocessing techniques if needed
# This step helps in enhancing the quality for better OCR results
# Load the image using OpenCV
image = cv2.imread('sample_image.png') 

# Convert the image to grayscale
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) 

# Apply thresholding or other preprocessing techniques if needed
# This step helps in enhancing the quality for better OCR results
PYTHON

Passo 3: Usar Tesseract para OCR

Agora é hora de usar o motor OCR Tesseract para realizar OCR na imagem processada:

# Set the path to the Tesseract executable
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'

# Use pytesseract to perform OCR on the grayscale image
text = pytesseract.image_to_string(gray_image)
# Set the path to the Tesseract executable
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'

# Use pytesseract to perform OCR on the grayscale image
text = pytesseract.image_to_string(gray_image)
PYTHON

Passo 4: Exibir Resultados

Se você quiser visualizar a imagem original e o texto extraído, pode usar o OpenCV para exibi-los:

# Display the original image using OpenCV
cv2.imshow('Original Image', image) 
cv2.waitKey(0) 

# Print the extracted text to the console
print("Extracted Text:", text) 

cv2.destroyAllWindows()  # Close the OpenCV window
# Display the original image using OpenCV
cv2.imshow('Original Image', image) 
cv2.waitKey(0) 

# Print the extracted text to the console
print("Extracted Text:", text) 

cv2.destroyAllWindows()  # Close the OpenCV window
PYTHON

Imagem Original

Como Construir um OCR em Python: Figura 2

Texto Extraído

Como Construir um OCR em Python: Figura 3

Como você pode ver, o resultado pode variar dependendo da qualidade e complexidade da imagem, e em certos casos, treinamento adicional (semelhante ao treinamento de aprendizado de máquina) pode ser necessário para imagens com estruturas complexas, como conter tabelas.

IronOCR

Em um mundo inundado de dados, a capacidade de converter texto impresso em conteúdo legível por máquina sem esforço é uma habilidade transformadora.

Conheça o IronOCR – uma tecnologia de ponta que capacita os desenvolvedores a integrar recursos robustos de Reconhecimento Óptico de Caracteres (OCR) em suas aplicações com facilidade.

Seja extraindo dados de documentos digitalizados, automatizando a entrada de dados ou melhorando a acessibilidade, IronOCR oferece uma solução abrangente que transcende os limites do reconhecimento de texto tradicional.

Nesta exploração, mergulhamos no reino do IronOCR, descobrindo suas versáteis funcionalidades e destacando seu potencial para preencher a lacuna entre os mundos físico e digital.

Instalando o IronOCR

Você pode facilmente instalar IronOCR usando o Console do Gerenciador de Pacotes NuGet, apenas executando o seguinte comando.

Install-Package IronOcr

IronOCR também está disponível para download no Site Oficial do NuGet.

Extraindo Texto de Imagem usando IronOCR

Nesta seção, veremos como você pode facilmente extrair texto de imagens usando IronOCR. Abaixo está o código fonte que extrai texto da imagem.

using IronOcr;
using System;

var ocr = new IronTesseract();

using (var input = new OcrInput())
{
    input.AddImage("r3.png");
    OcrResult result = ocr.Read(input);
    string text = result.Text;
    Console.WriteLine(result.Text);
}
using IronOcr;
using System;

var ocr = new IronTesseract();

using (var input = new OcrInput())
{
    input.AddImage("r3.png");
    OcrResult result = ocr.Read(input);
    string text = result.Text;
    Console.WriteLine(result.Text);
}
$vbLabelText   $csharpLabel

Saída

Como Construir um OCR em Python: Figura 4

Conclusão

Neste tutorial, exploramos o processo de construção de um sistema de Reconhecimento Óptico de Caracteres (OCR) em Python, revelando a capacidade de extrair texto de imagens com notável facilidade.

Ao aproveitar bibliotecas como Tesseract e OpenCV, navegamos por passos essenciais, desde o carregamento e pré-processamento de imagens até a utilização do motor OCR Tesseract para extração de texto.

Também abordamos possíveis desafios como limitações de precisão, que soluções avançadas como IronOCR visam resolver.

Quer você escolha o caminho faça-você-mesmo ou adote ferramentas sofisticadas, o mundo do OCR chama com a promessa de transformar imagens em texto acionável, agilizando a entrada de dados e ampliando a acessibilidade. Com este novo conhecimento, você está preparado para embarcar em uma jornada que mescla os reinos visual e digital perfeitamente.

Para começar com o IronOCR visite o seguinte link. Para ver todo o tutorial sobre como extrair texto de imagens visite aqui.

Se você quiser experimentar o IronOCR gratuitamente hoje, certifique-se de optar pela licença de teste oferecida pelo IronOCR para explorar todos os seus usos e potenciais em um ambiente comercial sem a marca d'água. Para continuar usando uma vez que os 15 dias terminarem, simplesmente compre uma licença.

Kannaopat Udonpant
Engenheiro de Software
Antes de se tornar Engenheiro de Software, Kannapat concluiu um doutorado em Recursos Ambientais pela Universidade de Hokkaido, no Japão. Durante o doutorado, Kannapat também integrou o Laboratório de Robótica Veicular, que faz parte do Departamento de Engenharia de Bioprodução. Em 2022, ele utilizou suas habilidades ...
Leia mais

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me