Ir para o conteúdo do rodapé
FERRAMENTAS DE OCR

Como converter uma imagem em texto

Na era digital atual, transformar conteúdo baseado em imagem em texto legível, editável e pesquisável é crucial. Isso é particularmente importante em cenários como arquivar documentos em papel, extrair informações principais de imagens ou digitalizar materiais impressos. A tecnologia de Reconhecimento Óptico de Caracteres (OCR) oferece uma solução para automatizar esse processo de conversão. Uma ferramenta altamente confiável e eficiente para conseguir isso é IronOCR, uma robusta biblioteca de OCR for .NET.

Este artigo explicará como converter uma imagem para texto usando IronOCR e explorará como essa conversão pode economizar tempo, reduzir erros e simplificar processos como extração de dados, arquivamento e processamento de documentos.

Como Converter Imagem para Texto

  1. Baixe uma biblioteca C# para trabalho com OCR
  2. Crie uma nova instância IronTesseract
  3. Carregue sua imagem usando OcrImageInput
  4. Leia o conteúdo da imagem usando OcrRead
  5. Exporte os resultados do OCR para um arquivo de texto

Por que Converter uma Imagem para Texto?

Existem muitas razões pelas quais você pode querer converter uma imagem em texto, incluindo:

  • Extração de dados: Extraindo texto de documentos e imagens digitalizadas para fins de arquivamento ou processamento de dados.
  • Editando conteúdo digitalizado: Editar ou atualizar texto em documentos anteriormente digitalizados, economizando o tempo de redigitar manualmente o conteúdo.
  • Melhorando a acessibilidade: Converter material impresso em texto digital, tornando-o acessível para leitores de tela ou aplicativos de texto para fala.
  • Automação: Automatizar a entrada e o processamento de dados lendo texto de faturas, recibos ou cartões de visita.

Como Começar a Converter Imagens para Texto

Antes de explorarmos como as poderosas capacidades de imagem para texto do IronOCR podem ser aproveitadas para extrair texto de imagens, vamos primeiro dar uma olhada no processo passo a passo geral usando uma ferramenta online, Docsumo. Ferramentas de OCR online são uma opção útil para aqueles que procuram realizar tarefas de OCR ocasionais, ou até mesmo únicas, graças à ausência de necessidade de qualquer configuração manual. Claro, se precisar realizar tarefas de OCR regularmente, então ter uma ferramenta de OCR poderosa como IronOCR pode funcionar melhor para você.

  1. Navegue até a ferramenta de OCR online
  2. Faça o upload da sua imagem e inicie o processo de extração
  3. Baixe os dados resultantes como um documento de Texto

Passo Um: Navegue até a Ferramenta de OCR Online

Para começar a utilizar a tecnologia OCR para extrair texto de arquivos de imagem, primeiro navegamos até a ferramenta online de OCR de imagem que queremos usar.

Como Converter Imagem em Texto: Figura 1 - Docsumo Ferramenta OCR

Passo Dois: Faça o Upload da Sua Imagem e Inicie o Processo de Extração

Agora, clicando no botão 'Upload File', podemos fazer o upload do arquivo de imagem do qual queremos extrair texto. A ferramenta começará imediatamente a processar a imagem.

Como Converter Imagem em Texto: Figura 2 - Docsumo - Processamento de Arquivo

Passo Três: Baixe os Dados Resultantes como um Documento de Texto

Agora que a imagem terminou de ser processada, podemos baixar o texto extraído como um novo documento de Texto, para uso ou manipulação posterior.

Como Converter Imagem em Texto: Figura 3 - Docsumo - Processamento de Imagem Concluído

Você também pode visualizar o arquivo, destacando as várias seções para ver o texto contido nelas. Isso pode ser particularmente útil se você deseja apenas visualizar o texto em certas seções. Depois, você ainda pode baixar o texto como um documento de Texto, XLS ou JSON.

Como Converter Imagem em Texto: Figura 4

Começando com IronOCR

IronOCR é uma biblioteca versátil .NET que permite realizar operações de OCR em imagens. Com uma ampla gama de recursos para oferecer, pode processar vários formatos de arquivo (como PNG, JPEG, TIFF e PDF), realizar correção de imagem, digitalizar documentos especializados (passaportes, placas de veículos, etc), fornecer informações avançadas sobre os arquivos digitalizados, converter documentos digitalizados e destacar texto.

Instale a Biblioteca IronOCR

Antes de começar a ler imagens usando o IronOCR, você precisará instalá-lo se ainda não estiver instalado em seu projeto. Você pode facilmente instalar o IronOCR usando o NuGet no Visual Studio. Abra o Console do Gerenciador de Pacotes NuGet e execute o seguinte comando:

Install-Package IronOcr

Alternativamente, você pode instalar o IronOCR através da página do Gerenciador de Pacotes NuGet para Solução pesquisando por IronOCR.

Como Converter Imagem em Texto: Figura 5

Para usar o IronOCR em seu código, certifique-se de ter a declaração de importação correta no topo do seu código:

using IronOcr;
using IronOcr;
$vbLabelText   $csharpLabel

Converter Imagem em Texto: Um Exemplo Básico

Para começar, vamos dar uma olhada em um exemplo básico de imagem para texto usando o IronOCR. Esta é uma funcionalidade essencial de qualquer ferramenta OCR, e para este exemplo, usaremos o arquivo PNG que usamos para a ferramenta online. Neste exemplo, primeiro instanciamos a classe IronTesseract e atribuimos à variável ocr. Em seguida, usamos a classe OcrImageInput para criar um novo objeto OcrImageInput a partir do arquivo de imagem fornecido. Finalmente, o método Read é usado para ler o texto da imagem e retorna um objeto OcrResult. Podemos então acessar o texto extraído e exibi-lo no console usando ocrResult.Text.

using IronOcr;

IronTesseract ocr = new IronTesseract();

// Load the image from which to extract text
using OcrImageInput image = new OcrImageInput("example.png");

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Output the extracted text to the console
Console.WriteLine(ocrResult.Text);
using IronOcr;

IronTesseract ocr = new IronTesseract();

// Load the image from which to extract text
using OcrImageInput image = new OcrImageInput("example.png");

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Output the extracted text to the console
Console.WriteLine(ocrResult.Text);
$vbLabelText   $csharpLabel

Imagem de Saída

Como Converter Imagem em Texto: Figura 6

Manipulando Diferentes Formatos de Imagem

O IronOCR suporta múltiplos formatos de imagem como PNG, JPEG, BMP, GIF e TIFF. O processo para ler texto de diferentes formatos de imagem permanece o mesmo, você só precisa carregar o arquivo com a extensão correta.

using IronOcr;

IronTesseract ocr = new IronTesseract();

// Load a BMP image
using OcrImageInput image = new OcrImageInput("example.bmp");

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Output the extracted text to the console
Console.WriteLine(ocrResult.Text);
using IronOcr;

IronTesseract ocr = new IronTesseract();

// Load a BMP image
using OcrImageInput image = new OcrImageInput("example.bmp");

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Output the extracted text to the console
Console.WriteLine(ocrResult.Text);
$vbLabelText   $csharpLabel

Melhorando a Precisão do OCR

O desempenho do OCR pode ser melhorado otimizando a imagem e configurando opções como idioma, resolução da imagem e nível de ruído na imagem. Veja como ajustar o OCR para aumentar a precisão da extração de texto em uma imagem cuja qualidade precisa ser melhorada através do uso dos métodos DeNoise() e Sharpen():

using IronOcr;

IronTesseract ocr = new IronTesseract();

// Load the image and apply image processing to improve accuracy
using OcrImageInput image = new OcrImageInput("example.png");
image.DeNoise();
image.Sharpen();

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Output the extracted text to the console
Console.WriteLine(ocrResult.Text);
using IronOcr;

IronTesseract ocr = new IronTesseract();

// Load the image and apply image processing to improve accuracy
using OcrImageInput image = new OcrImageInput("example.png");
image.DeNoise();
image.Sharpen();

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Output the extracted text to the console
Console.WriteLine(ocrResult.Text);
$vbLabelText   $csharpLabel

Exportando o Texto Extraído

Agora que conhecemos o básico do processo de imagem para texto, vamos agora ver como podemos exportar o texto resultante para uso posterior. Para este exemplo, vamos usar o mesmo processo anterior para carregar e digitalizar a imagem. Então, usando File.WriteAllText("output.txt", ocrResult.Text), criamos um novo arquivo de texto chamado output.txt e salvamos o texto extraído no arquivo.

using IronOcr;
using System.IO;

IronTesseract ocr = new IronTesseract();

// Load the image
using OcrImageInput image = new OcrImageInput("example.png");

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Save the extracted text to a file
File.WriteAllText("output.txt", ocrResult.Text);
using IronOcr;
using System.IO;

IronTesseract ocr = new IronTesseract();

// Load the image
using OcrImageInput image = new OcrImageInput("example.png");

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Save the extracted text to a file
File.WriteAllText("output.txt", ocrResult.Text);
$vbLabelText   $csharpLabel

Como Converter Imagem em Texto: Figura 7

Principais Recursos do IronOCR

  1. Alta Precisão: O IronOCR usa algoritmos avançados de OCR Tesseract e inclui ferramentas incorporadas para lidar com imagens complexas, garantindo alta precisão.
  2. Suporte Multilíngue: Suporta mais de 125 idiomas, incluindo múltiplos scripts de escrita como caracteres Latinos, Cirílicos, Árabes e Asiáticos. Deve-se notar, no entanto, que apenas o inglês é instalado junto com o IronOCR. Para usar outros idiomas, você precisará instalar o pacote de idiomas adicional para aquele idioma.
  3. OCR de PDF: O IronOCR pode extrair texto de PDFs digitalizados, tornando-o uma ferramenta valiosa para digitalização de documentos.
  4. Limpeza de Imagem: Ele fornece ferramentas de pré-processamento como correção de inclinação, remoção de ruído e inversão para melhorar a qualidade da imagem para uma melhor precisão do OCR.
  5. Integração Fácil: A API se integra perfeitamente com qualquer projeto .NET, seja um aplicativo de console, um aplicativo web ou software de desktop.

Casos de Uso Comuns para Conversão de Imagens em Texto

  • Automatização de Entrada de Dados: Empresas podem usar o OCR para extrair automaticamente dados de formulários, recibos ou cartões de visita.
  • Arquivamento de Documentos: Organizações podem digitalizar documentos físicos, tornando-os pesquisáveis e mais fáceis de armazenar.
  • Acessibilidade: Converta materiais impressos em texto para uso em leitores de tela ou outras tecnologias assistivas.
  • Pesquisa e Análise: Converta rapidamente materiais de pesquisa digitalizados em texto para análise ou integração em outras ferramentas de software.
  • Estudo: Converta notas de estudo digitalizadas em texto editável que você pode então salvar como um documento Word para manipulação posterior em ferramentas como IronWord, Microsoft Word ou Google Docs.

Conclusão

Converter texto de uma imagem usando o IronOCR é uma maneira rápida, precisa e eficiente de lidar com tarefas de processamento de documentos. Seja trabalhando com documentos digitalizados, imagens digitais ou documentos em PDF, o IronOCR simplifica o processo, oferecendo alta precisão, suporte a múltiplos idiomas e ferramentas poderosas de processamento de imagem. Esta ferramenta é ideal para empresas que buscam agilizar seus fluxos de trabalho de gerenciamento de documentos, automatizar a extração de dados ou aumentar a acessibilidade.

Use a avaliação gratuita para experimentar as poderosas características do IronOCR por si mesmo hoje. Leva apenas alguns minutos para deixá-lo totalmente operante em seu ambiente de trabalho para que você possa começar a processar tarefas de OCR rapidamente!

Kannaopat Udonpant
Engenheiro de Software
Antes de se tornar Engenheiro de Software, Kannapat concluiu um doutorado em Recursos Ambientais pela Universidade de Hokkaido, no Japão. Durante o doutorado, Kannapat também integrou o Laboratório de Robótica Veicular, que faz parte do Departamento de Engenharia de Bioprodução. Em 2022, ele utilizou suas habilidades ...
Leia mais

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me