Ir para o conteúdo do rodapé
FERRAMENTAS DE OCR

Tutorial de como usar OCR em um PDF (Ferramentas online gratuitas)

OCR ou Reconhecimento Óptico de Caracteres é um processo de conversão de informações textuais em formato digital. OCR de PDF é uma aplicação popular que pode ser usada para melhorar processos empresariais. Um dos benefícios do OCR de PDF é que ele pode ser usado para melhorar a acessibilidade da informação. Isso é especialmente importante para documentos que não estão disponíveis em um formato que todos possam usar ou ler. O OCR de PDF pode ser usado para produzir uma cópia do documento que esteja disponível em um formato que todos possam usar.

Outro uso do OCR de PDF é no rastreamento de documentos. Quando um documento é arquivado, digitalizado ou transcrito, pode ser difícil rastrear qual versão do documento está associada a qual arquivo. Com o OCR de PDF, é possível rastrear as alterações feitas em um documento e determinar quais versões estão associadas a qual arquivo. Isso pode ser útil para gerenciar arquivos de documentos e prevenir a perda de informações importantes.

Neste artigo, você aprenderá como usar o OCR para qualquer arquivo PDF usando o software Adobe Acrobat Pro. Este artigo também apresentará a biblioteca .NET OCR IronOCR, que é uma das bibliotecas mais eficientes e ricas em recursos disponíveis. Vamos começar com o Adobe Acrobat Pro.

OCR em um PDF usando Adobe Acrobat Pro DC

How to OCR a PDF - Figure 1

Adobe Acrobat Pro DC é a versão Pro do Adobe Acrobat Reader DC. É a ferramenta mais popular e poderosa para manipulação de PDFs. Com este software, você pode criar, editar, assinar e revisar qualquer documento PDF. Além disso, ele permite converter PDFs em apresentações de PowerPoint, documentos do Word, ou arquivos do Excel. Também pode editar documentos digitalizados.

A nova versão do Acrobat DC é também um scanner de documentos que pode rapidamente transformar documentos digitalizados em arquivos digitais usando tecnologia OCR. Ele apresenta Reconhecimento Óptico de Caracteres, bem como digitalização de cartões de visita inteligente que automaticamente detecta e salva informações de contato de cartões em segundos.

Além de poder extrair texto de arquivos PDF, o Acrobat Pro DC possui muitas funcionalidades que o tornam uma ferramenta valiosa para transcrição de PDF.

Vamos ver como podemos usar OCR em um documento digitalizado usando Adobe Acrobat Pro.

  • Abra o documento PDF desejado, em nosso exemplo um arquivo PDF digitalizado, no Adobe Acrobat.
  • Selecione "Editar PDF" no painel direito do documento.
How to OCR a PDF - Figure 2

  • Isso abrirá a interface da ferramenta Adobe Reader OCR PDF.
  • Clique no botão "Editar" na faixa superior.
  • Isso converterá os documentos PDF digitalizados em documentos PDF totalmente editáveis. Você poderá editar arquivos de texto e imagem no próprio arquivo PDF.
How to OCR a PDF - Figure 3

  • Você também pode alterar a localização do bloco de texto, fonte do texto, etc.

Após fazer quaisquer alterações, salve o arquivo e você verá essas alterações refletidas no documento.

IronOCR: Uma Biblioteca OCR .NET

How to OCR a PDF - Figure 4

IronOCR é uma biblioteca OCR .NET e ferramenta OCR que pode ler documentos de texto e imagens, convertendo-os em um formato legível por máquina.

Esta biblioteca de Reconhecimento Óptico de Caracteres foi desenvolvida com as seguintes considerações em mente:

  • A necessidade de um motor de OCR robusto e preciso que possa ser usado com diferentes idiomas sem precisar de qualquer software externo.
  • A necessidade de uma API fácil de usar que funcione em diferentes plataformas, como Windows, Linux e macOS.
  • A necessidade de um motor OCR que possa ser facilmente integrado em várias aplicações .NET e suporte tanto aplicativos WPF quanto de console.

IronOCR facilita para os desenvolvedores a criação de software que suporta escaneamento de documentos, extração de texto e metadados, indexação de arquivos de imagem digitalizados, conversão de imagens em PDFs pesquisáveis e conversão de documentos digitalizados em texto legível. IronOCR oferece muitas opções em termos de codificação, conversão de formato de imagem e reconhecimento e extração de texto. IronOCR suporta 125 idiomas.

IronOCR fornece um processo OCR intuitivo, robusto e preciso para reconhecer texto de documentos digitalizados, fotografias e capturas de tela, enquanto reduz tarefas demoradas como segmentação de páginas e análise de layout. A biblioteca é desenvolvida em C# e seu design de API é direto, com boa legibilidade.

Vamos explorar alguns exemplos de código usando IronOCR:

Exemplos de Código

using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively, OCR selected page numbers
    Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");

    // Read the PDF and output the recognized text
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively, OCR selected page numbers
    Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");

    // Read the PDF and output the recognized text
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
$vbLabelText   $csharpLabel

Este exemplo demonstra como usar IronOCR para processar um documento PDF inteiro ou páginas específicas do documento.

Arquivo PDF (entrada)

How to OCR a PDF - Figure 5

Saída no Console

How to OCR a PDF - Figure 6

Você pode converter um PDF em um PDF selecionável usando IronOCR. É muito simples e direto. Veja o trecho de código de conversão de PDF abaixo:

using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // Add PDF for processing
    Input.AddPdf("scan.pdf", "password");

    // Clean up twisted pages to improve OCR results
    Input.Deskew();

    // Run OCR and save as a searchable PDF
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // Add PDF for processing
    Input.AddPdf("scan.pdf", "password");

    // Clean up twisted pages to improve OCR results
    Input.Deskew();

    // Run OCR and save as a searchable PDF
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
$vbLabelText   $csharpLabel

IronOCR oferece muitas outras ferramentas e funcionalidades. Você pode explorar as funcionalidades do IronOCR visitando o seguinte link.

Conclusão

A biblioteca IronOCR tem várias vantagens sobre outras bibliotecas disponíveis no mercado. Você pode modificar e estender sua funcionalidade adicionando seus próprios módulos com apenas algumas linhas de código. IronOCR atualmente pode ler textos em mais de 125 idiomas. Ela foi desenvolvida para produzir resultados de qualidade superior, mais confiáveis, enquanto consome muito menos tempo e recursos de memória quando comparada a outras bibliotecas.

O IronOCR é gratuito para desenvolvimento. IronOCR também oferece um teste gratuito para experimentação em produção. Para mais detalhes sobre preços e um teste gratuito do IronOCR, siga o link.

How to OCR a PDF - Figure 7

Kannaopat Udonpant
Engenheiro de Software
Antes de se tornar Engenheiro de Software, Kannapat concluiu um doutorado em Recursos Ambientais pela Universidade de Hokkaido, no Japão. Durante o doutorado, Kannapat também integrou o Laboratório de Robótica Veicular, que faz parte do Departamento de Engenharia de Bioprodução. Em 2022, ele utilizou suas habilidades ...
Leia mais

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me