Ir para o conteúdo do rodapé
FERRAMENTAS DE OCR

Ferramentas de OCR da Microsoft (Alternativas em C#)

OCR (Reconhecimento Óptico de Caracteres) é uma tecnologia crucial para empresas de todos os tamanhos. Ela permite escaneamento, armazenamento e análise eficiente de dados que, de outra forma, seriam demorados e complexos de gerir.

As ferramentas de OCR da Microsoft oferecem opções robustas para simplificar seu processo de transformação digital. Essas ferramentas permitem um processamento de documentos mais rápido e eficiente, liberando tempo para você se concentrar na importante tarefa de fazer seu negócio crescer. Neste artigo, exploraremos como utilizar as poderosas ferramentas de OCR da Microsoft para otimizar suas operações.

OneNote: Ferramenta da Microsoft

Se você precisa extrair texto de uma imagem, o Microsoft OneNote é uma ferramenta útil. O OneNote é uma aplicação versátil de anotação que fornece uma plataforma para capturar, armazenar e organizar informações em várias formas, como texto, imagens, áudio e vídeo. Também é uma ferramenta valiosa para copiar texto de imagens ou arquivos de impressão, economizando tempo e esforço ao eliminar a necessidade de digitar o texto manualmente.

Extrair Texto usando o OneNote

Para extrair texto de uma imagem usando o OneNote, siga estas etapas:

  1. Inicie o aplicativo OneNote.
  2. Insira o arquivo de imagem usando a opção "Inserir" ou simplesmente arraste e solte o arquivo de imagem na janela do OneNote.

    OneNote Insert ribbon

    Barra de Inserção do OneNote

  3. Clique com o botão direito na imagem e selecione "Copiar Texto da Imagem" no menu.

    Copiar Texto da Imagem no menu de contexto

    Copiar Texto da Imagem no menu de contexto

  4. Finalmente, cole o texto copiado em qualquer local desejado para acessar o texto extraído da imagem digitalizada.

    Texto obtido a partir de texto copiado de uma imagem

    Texto obtido a partir de texto copiado de uma imagem

É assim que você pode usar o OneNote para escanear qualquer imagem.

Microsoft Vision Studio

Os Serviços Cognitivos da Microsoft oferecem um recurso de 'Extrair Texto de Imagens', utilizando IA para escanear imagens e detectar texto com precisão. Este serviço é fácil de usar e requer apenas o upload de uma imagem ou arquivo PDF. A informação é então transcrita com alta precisão, garantindo que o texto extraído represente com precisão o conteúdo da imagem ou arquivo PDF.

Além disso, o texto extraído pode estar em vários idiomas, tornando o serviço acessível a usuários de todo o mundo. Com o recurso 'Extrair Texto de Imagens' dos Serviços Cognitivos da Microsoft, extrair dados valiosos de imagens é simplificado, permitindo uma análise eficiente e uma finalização eficaz de tarefas.

Extrair Texto usando o Microsoft Vision Studio

Para usar o recurso 'Extrair Texto de Imagens', você pode visitar o site do Vision Studio da Microsoft Azure. No entanto, este serviço requer uma assinatura do Azure. Uma vez que você tenha adquirido uma assinatura, terá acesso ao texto extraído de documentos escaneados. Abaixo está uma imagem de saída de exemplo para referência.

Imagem escaneada para seu texto

Imagem escaneada para seu texto

Software OCR Gratuito A9T9 da Microsoft

O software OCR Gratuito A9T9 é uma ferramenta versátil que permite aos usuários do Windows converterem facilmente documentos em papel em texto digital. Sua funcionalidade de arrastar e soltar simples permite o reconhecimento instantâneo de texto em vários idiomas, incluindo inglês, alemão, chinês, coreano e indic. Este software pode extrair dados de imagens escaneadas ou documentos PDF e convertê-los em um formato editável e pesquisável.

Este software suporta vários formatos de saída, como Rich Text, TXT ou CSV, e formatos de imagem como BMP, TIF ou PDF. Também possui um recurso de correção automática de documentos. Este software é rápido e preciso ao reconhecer texto em imagens de vários idiomas, mesmo aquelas com fundos transparentes. A alta taxa de precisão do A9T9, acessibilidade e facilidade de instalação fazem dele uma escolha principal para os usuários do Windows que procuram uma solução gratuita de OCR.

Copiar Texto usando A9T9

Você pode baixar o software A9T9 na Microsoft Store. Após a instalação, abra o software A9T9 e faça upload das imagens ou arquivos PDF.

Imagem escaneada para seu texto

Copiar Texto usando A9T9

Uma vez que a imagem ou documento seja carregado, clique no botão 'Iniciar OCR'. Isso extrairá o texto do documento ou imagem escaneada e o exibirá na área de texto à direita.

The text is shown on the right hand side

O texto é exibido no lado direito

Você pode selecionar o idioma do OCR e pode copiar o texto ou salvá-lo como um documento do Word.

Office Lens

O Office Lens é uma ferramenta sofisticada criada para capturar e organizar anotações, quadros brancos, cardápios, sinais e outros tipos de informações escritas ou visuais. Este app oferece uma alternativa superior à anotação tradicional, eliminando a necessidade de anotações à mão e a possibilidade de perder informações importantes.

O Office Lens permite aos usuários capturar facilmente esboços, anotações manuscritas, desenhos e equações, e corrigir imagens para sombras e ângulos desalinhados para melhorar a legibilidade. Também possui tecnologia OCR (Reconhecimento Óptico de Caracteres), permitindo que os usuários digitalizem e editem textos dentro de imagens.

Infelizmente, a Microsoft descontinuou a versão para Windows do Office Lens. Agora está disponível apenas em dispositivos móveis. Além disso, o Microsoft Office Document Imaging foi removido do Microsoft Word 2010.

IronOCR: Biblioteca OCR para C

IronOCR é uma poderosa biblioteca OCR em C# para desenvolvedores .NET. Ela permite capacidades completas de OCR em documentos e imagens escaneados, tornando fácil para os desenvolvedores automatizar fluxos de trabalho baseados em documentos. Com sua API simples e configuração mínima, o IronOCR é fácil de integrar em sistemas existentes.

A biblioteca oferece uma API simples, tornando fácil a integração em sistemas existentes com configuração mínima. Suporta uma ampla gama de formatos de arquivo de entrada, incluindo JPEG, TIFF, GIF, BMP, PDF, TIFFs de múltiplas páginas e múltiplas digitalizações de documentos, e pode ler texto de imagens com diferentes orientações.

Os recursos avançados do IronOCR incluem remoção de ruídos, que ajudam a reduzir distorções de imagem e melhoram a precisão dos resultados de extração de texto. Com suporte para mais de 125 idiomas, incluindo inglês, francês, alemão, espanhol e japonês, a biblioteca é adequada para quase qualquer aplicação que requer resultados de OCR de alta qualidade sem intervenção manual.

Extrair Texto usando IronOCR

Com a capacidade de extrair texto de arquivos PDF com facilidade, é possível especificar números de página específicos ou extrair texto de todas as páginas do documento. O processo pode ser simplificado e tornado mais eficiente com as ferramentas adequadas.

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // Add the entire PDF for OCR processing
    ocrInput.AddPdf("example.pdf");

    // Alternatively, OCR selected page numbers from a password-protected PDF
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    // Perform OCR and get the result
    var ocrResult = ocrTesseract.Read(ocrInput);

    // Output the extracted text
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // Add the entire PDF for OCR processing
    ocrInput.AddPdf("example.pdf");

    // Alternatively, OCR selected page numbers from a password-protected PDF
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    // Perform OCR and get the result
    var ocrResult = ocrTesseract.Read(ocrInput);

    // Output the extracted text
    Console.WriteLine(ocrResult.Text);
}
$vbLabelText   $csharpLabel

Aqui está o resultado:

A saída dentro do Console de Depuração do Visual Studio

A saída dentro do Console de Depuração do Visual Studio

Você também pode facilmente ler códigos de barras além de extrair texto de arquivos PDF. A biblioteca fornece uma implementação de código simples para ler códigos de barras, tornando-a uma ferramenta versátil para vários fluxos de trabalho baseados em documentos. Veja o seguinte código:

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;

// Read barcodes from an image file
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);

    // Iterate through the detected barcodes and print their values
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;

// Read barcodes from an image file
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);

    // Iterate through the detected barcodes and print their values
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
$vbLabelText   $csharpLabel
Entrada/Saída do código

Entrada/Saída do código

IronOCR é capaz de suportar imagens de baixa resolução e ruidosas aprimorando-as antes do processamento.

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

// Process a noisy image by deskewing and denoising it
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew(); // Corrects for skewness in the image
    ocrInput.DeNoise(); // Reduces visual noise for better recognition

    // Perform OCR and print the text
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

// Process a noisy image by deskewing and denoising it
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew(); // Corrects for skewness in the image
    ocrInput.DeNoise(); // Reduces visual noise for better recognition

    // Perform OCR and print the text
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
$vbLabelText   $csharpLabel

Conclusão

Em conclusão, o Reconhecimento Óptico de Caracteres (OCR) é uma ferramenta vital que pode beneficiar grandemente empresas de todos os tamanhos, permitindo-lhes digitalizar, armazenar e processar informações com eficiência que, de outra forma, seriam complexas e demoradas para gerenciar manualmente. A Microsoft oferece várias ferramentas de OCR, incluindo OneNote, Microsoft Vision Studio, e A9T9 Free OCR Software, que podem simplificar processos e economizar tempo.

IronOCR, uma biblioteca de OCR bem equipada, é uma opção de destaque entre as ferramentas de OCR disponíveis. É facilmente integrável com aplicativos C# e VB.NET, oferece excelente precisão e reconhecimento de vários idiomas e formatos de imagem, e tem um período de teste gratuito, com custos de licença a partir de $799. IronOCR é um investimento valioso para empresas que buscam melhorar sua transformação digital. Cada uma dessas ferramentas de OCR oferece características únicas e pode atender a diferentes necessidades, tornando-as ativos valiosos para empresas que procuram melhorar sua transformação digital.

Kannaopat Udonpant
Engenheiro de Software
Antes de se tornar Engenheiro de Software, Kannapat concluiu um doutorado em Recursos Ambientais pela Universidade de Hokkaido, no Japão. Durante o doutorado, Kannapat também integrou o Laboratório de Robótica Veicular, que faz parte do Departamento de Engenharia de Bioprodução. Em 2022, ele utilizou suas habilidades ...
Leia mais

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me