Ferramentas de OCR da Microsoft (Alternativas em C#)
OCR (Reconhecimento Óptico de Caracteres) é uma tecnologia crucial para empresas de todos os tamanhos. Ela permite escaneamento, armazenamento e análise eficiente de dados que, de outra forma, seriam demorados e complexos de gerir.
As ferramentas de OCR da Microsoft oferecem opções robustas para simplificar seu processo de transformação digital. Essas ferramentas permitem um processamento de documentos mais rápido e eficiente, liberando tempo para você se concentrar na importante tarefa de fazer seu negócio crescer. Neste artigo, exploraremos como utilizar as poderosas ferramentas de OCR da Microsoft para otimizar suas operações.
OneNote: Ferramenta da Microsoft
Se você precisa extrair texto de uma imagem, o Microsoft OneNote é uma ferramenta útil. O OneNote é uma aplicação versátil de anotação que fornece uma plataforma para capturar, armazenar e organizar informações em várias formas, como texto, imagens, áudio e vídeo. Também é uma ferramenta valiosa para copiar texto de imagens ou arquivos de impressão, economizando tempo e esforço ao eliminar a necessidade de digitar o texto manualmente.
Extrair Texto usando o OneNote
Para extrair texto de uma imagem usando o OneNote, siga estas etapas:
- Inicie o aplicativo OneNote.
-
Insira o arquivo de imagem usando a opção "Inserir" ou simplesmente arraste e solte o arquivo de imagem na janela do OneNote.
Barra de Inserção do OneNote
-
Clique com o botão direito na imagem e selecione "Copiar Texto da Imagem" no menu.
Copiar Texto da Imagem no menu de contexto
-
Finalmente, cole o texto copiado em qualquer local desejado para acessar o texto extraído da imagem digitalizada.
Texto obtido a partir de texto copiado de uma imagem
É assim que você pode usar o OneNote para escanear qualquer imagem.
Microsoft Vision Studio
Os Serviços Cognitivos da Microsoft oferecem um recurso de 'Extrair Texto de Imagens', utilizando IA para escanear imagens e detectar texto com precisão. Este serviço é fácil de usar e requer apenas o upload de uma imagem ou arquivo PDF. A informação é então transcrita com alta precisão, garantindo que o texto extraído represente com precisão o conteúdo da imagem ou arquivo PDF.
Além disso, o texto extraído pode estar em vários idiomas, tornando o serviço acessível a usuários de todo o mundo. Com o recurso 'Extrair Texto de Imagens' dos Serviços Cognitivos da Microsoft, extrair dados valiosos de imagens é simplificado, permitindo uma análise eficiente e uma finalização eficaz de tarefas.
Extrair Texto usando o Microsoft Vision Studio
Para usar o recurso 'Extrair Texto de Imagens', você pode visitar o site do Vision Studio da Microsoft Azure. No entanto, este serviço requer uma assinatura do Azure. Uma vez que você tenha adquirido uma assinatura, terá acesso ao texto extraído de documentos escaneados. Abaixo está uma imagem de saída de exemplo para referência.
Imagem escaneada para seu texto
Software OCR Gratuito A9T9 da Microsoft
O software OCR Gratuito A9T9 é uma ferramenta versátil que permite aos usuários do Windows converterem facilmente documentos em papel em texto digital. Sua funcionalidade de arrastar e soltar simples permite o reconhecimento instantâneo de texto em vários idiomas, incluindo inglês, alemão, chinês, coreano e indic. Este software pode extrair dados de imagens escaneadas ou documentos PDF e convertê-los em um formato editável e pesquisável.
Este software suporta vários formatos de saída, como Rich Text, TXT ou CSV, e formatos de imagem como BMP, TIF ou PDF. Também possui um recurso de correção automática de documentos. Este software é rápido e preciso ao reconhecer texto em imagens de vários idiomas, mesmo aquelas com fundos transparentes. A alta taxa de precisão do A9T9, acessibilidade e facilidade de instalação fazem dele uma escolha principal para os usuários do Windows que procuram uma solução gratuita de OCR.
Copiar Texto usando A9T9
Você pode baixar o software A9T9 na Microsoft Store. Após a instalação, abra o software A9T9 e faça upload das imagens ou arquivos PDF.
Copiar Texto usando A9T9
Uma vez que a imagem ou documento seja carregado, clique no botão 'Iniciar OCR'. Isso extrairá o texto do documento ou imagem escaneada e o exibirá na área de texto à direita.
O texto é exibido no lado direito
Você pode selecionar o idioma do OCR e pode copiar o texto ou salvá-lo como um documento do Word.
Office Lens
O Office Lens é uma ferramenta sofisticada criada para capturar e organizar anotações, quadros brancos, cardápios, sinais e outros tipos de informações escritas ou visuais. Este app oferece uma alternativa superior à anotação tradicional, eliminando a necessidade de anotações à mão e a possibilidade de perder informações importantes.
O Office Lens permite aos usuários capturar facilmente esboços, anotações manuscritas, desenhos e equações, e corrigir imagens para sombras e ângulos desalinhados para melhorar a legibilidade. Também possui tecnologia OCR (Reconhecimento Óptico de Caracteres), permitindo que os usuários digitalizem e editem textos dentro de imagens.
Infelizmente, a Microsoft descontinuou a versão para Windows do Office Lens. Agora está disponível apenas em dispositivos móveis. Além disso, o Microsoft Office Document Imaging foi removido do Microsoft Word 2010.
IronOCR: Biblioteca OCR para C
IronOCR é uma poderosa biblioteca OCR em C# para desenvolvedores .NET. Ela permite capacidades completas de OCR em documentos e imagens escaneados, tornando fácil para os desenvolvedores automatizar fluxos de trabalho baseados em documentos. Com sua API simples e configuração mínima, o IronOCR é fácil de integrar em sistemas existentes.
A biblioteca oferece uma API simples, tornando fácil a integração em sistemas existentes com configuração mínima. Suporta uma ampla gama de formatos de arquivo de entrada, incluindo JPEG, TIFF, GIF, BMP, PDF, TIFFs de múltiplas páginas e múltiplas digitalizações de documentos, e pode ler texto de imagens com diferentes orientações.
Os recursos avançados do IronOCR incluem remoção de ruídos, que ajudam a reduzir distorções de imagem e melhoram a precisão dos resultados de extração de texto. Com suporte para mais de 125 idiomas, incluindo inglês, francês, alemão, espanhol e japonês, a biblioteca é adequada para quase qualquer aplicação que requer resultados de OCR de alta qualidade sem intervenção manual.
Extrair Texto usando IronOCR
Com a capacidade de extrair texto de arquivos PDF com facilidade, é possível especificar números de página específicos ou extrair texto de todas as páginas do documento. O processo pode ser simplificado e tornado mais eficiente com as ferramentas adequadas.
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput())
{
// Add the entire PDF for OCR processing
ocrInput.AddPdf("example.pdf");
// Alternatively, OCR selected page numbers from a password-protected PDF
ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
// Perform OCR and get the result
var ocrResult = ocrTesseract.Read(ocrInput);
// Output the extracted text
Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput())
{
// Add the entire PDF for OCR processing
ocrInput.AddPdf("example.pdf");
// Alternatively, OCR selected page numbers from a password-protected PDF
ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
// Perform OCR and get the result
var ocrResult = ocrTesseract.Read(ocrInput);
// Output the extracted text
Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System
Private ocrTesseract = New IronTesseract()
Using ocrInput As New OcrInput()
' Add the entire PDF for OCR processing
ocrInput.AddPdf("example.pdf")
' Alternatively, OCR selected page numbers from a password-protected PDF
ocrInput.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")
' Perform OCR and get the result
Dim ocrResult = ocrTesseract.Read(ocrInput)
' Output the extracted text
Console.WriteLine(ocrResult.Text)
End Using
Aqui está o resultado:
A saída dentro do Console de Depuração do Visual Studio
Você também pode facilmente ler códigos de barras além de extrair texto de arquivos PDF. A biblioteca fornece uma implementação de código simples para ler códigos de barras, tornando-a uma ferramenta versátil para vários fluxos de trabalho baseados em documentos. Veja o seguinte código:
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
// Read barcodes from an image file
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
var ocrResult = ocrTesseract.Read(ocrInput);
// Iterate through the detected barcodes and print their values
foreach (var barcode in ocrResult.Barcodes)
{
Console.WriteLine(barcode.Value);
}
}
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
// Read barcodes from an image file
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
var ocrResult = ocrTesseract.Read(ocrInput);
// Iterate through the detected barcodes and print their values
foreach (var barcode in ocrResult.Barcodes)
{
Console.WriteLine(barcode.Value);
}
}
Imports IronOcr
Imports System
Private ocrTesseract = New IronTesseract()
ocrTesseract.Configuration.ReadBarCodes = True
' Read barcodes from an image file
Using ocrInput As New OcrInput("images\imageWithBarcode.png")
Dim ocrResult = ocrTesseract.Read(ocrInput)
' Iterate through the detected barcodes and print their values
For Each barcode In ocrResult.Barcodes
Console.WriteLine(barcode.Value)
Next barcode
End Using
Entrada/Saída do código
IronOCR é capaz de suportar imagens de baixa resolução e ruidosas aprimorando-as antes do processamento.
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
// Process a noisy image by deskewing and denoising it
using (var ocrInput = new OcrInput(@"images\image.png"))
{
ocrInput.Deskew(); // Corrects for skewness in the image
ocrInput.DeNoise(); // Reduces visual noise for better recognition
// Perform OCR and print the text
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
// Process a noisy image by deskewing and denoising it
using (var ocrInput = new OcrInput(@"images\image.png"))
{
ocrInput.Deskew(); // Corrects for skewness in the image
ocrInput.DeNoise(); // Reduces visual noise for better recognition
// Perform OCR and print the text
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System
Private ocrTesseract = New IronTesseract()
' Process a noisy image by deskewing and denoising it
Using ocrInput As New OcrInput("images\image.png")
ocrInput.Deskew() ' Corrects for skewness in the image
ocrInput.DeNoise() ' Reduces visual noise for better recognition
' Perform OCR and print the text
Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)
End Using
Conclusão
Em conclusão, o Reconhecimento Óptico de Caracteres (OCR) é uma ferramenta vital que pode beneficiar grandemente empresas de todos os tamanhos, permitindo-lhes digitalizar, armazenar e processar informações com eficiência que, de outra forma, seriam complexas e demoradas para gerenciar manualmente. A Microsoft oferece várias ferramentas de OCR, incluindo OneNote, Microsoft Vision Studio, e A9T9 Free OCR Software, que podem simplificar processos e economizar tempo.
IronOCR, uma biblioteca de OCR bem equipada, é uma opção de destaque entre as ferramentas de OCR disponíveis. É facilmente integrável com aplicativos C# e VB.NET, oferece excelente precisão e reconhecimento de vários idiomas e formatos de imagem, e tem um período de teste gratuito, com custos de licença a partir de $799. IronOCR é um investimento valioso para empresas que buscam melhorar sua transformação digital. Cada uma dessas ferramentas de OCR oferece características únicas e pode atender a diferentes necessidades, tornando-as ativos valiosos para empresas que procuram melhorar sua transformação digital.




