Ir para o conteúdo do rodapé
FERRAMENTAS DE OCR

OCR a partir de PDF (Ferramentas online gratuitas)

Reconhecimento Óptico de Caracteres, ou OCR, é uma tecnologia utilizada para reconhecer texto em imagens. Esta tecnologia foi criada para escanear texto impresso ou um arquivo de imagem e reconhecê-los em computadores. Isso ocorre porque muitas coisas hoje em dia são digitais, como e-mails ou livros. No entanto, a tecnologia OCR evoluiu para algo mais sofisticado com algoritmos especializados capazes de reconhecer texto em muitas fontes diferentes, mesmo que tenham sido distorcidas por ruído ou outras distorções comuns como compressão JPEG. O OCR também pode ler a caligrafia no papel com 98% de precisão.

Texto escaneado usando OCR pode então ser editado, indexado, pesquisado, impresso e arquivado. Software OCR é amplamente usado nas indústrias de saúde, farmacêutica, seguros e jurídica. Ele ajuda a converter documentos em papel para documentos digitais para que possam ser reutilizados mais facilmente e compartilhados com outros.

Vamos ver como você pode fazer OCR de arquivos PDF usando diferentes ferramentas.

Adobe Acrobat Pro

Adobe é a empresa que inicialmente desenvolveu o PDF. Eles oferecem um motor de OCR rápido e eficiente que pode editar qualquer documento PDF que você precisar. É um dos motores de OCR mais poderosos no mercado, e se você tem muitos PDFs para editar, o Adobe Acrobat DC é o que você deve adquirir. Este software foi projetado de forma a converter qualquer documento baseado em texto em formato PDF com grande precisão. Ele também mantém a fonte do documento original usando seu gerador de Fontes Personalizadas.

Vamos ver como podemos fazer OCR em PDF usando o Adobe Acrobat:

  • Abra o arquivo no Adobe Acrobat Pro DC.
  • Clique na opção "Editar PDF" no painel direito.

    OCR From PDF Free Online Tools - Figure 1

  • Ele converterá um arquivo PDF em um PDF editável usando suas capacidades de OCR.
  • Agora, você pode editar qualquer texto e alterar arquivos de imagem nos documentos facilmente.

    OCR From PDF Free Online Tools - Figure 2

  • Você pode salvar o arquivo escolhendo "Arquivo > Salvar Como" e dando um nome adequado ao novo documento PDF.

Você pode facilmente realizar OCR de múltiplos documentos PDF escaneados ao mesmo tempo.

Sejda

Sejda é um software de edição de PDF compatível com OCR que pode ser hospedado na nuvem ou baixado como um aplicativo para desktop para macOS, Windows ou Linux. Sejda permite que os usuários comprimam, editem, assinem digitalmente, mesclem e preencham arquivos PDF. Arquivos em vários formatos, incluindo JPEG e Excel, por exemplo, podem ser transformados em arquivos PDF. PDFs também podem ser transformados em outros formatos, como documentos Word e PowerPoint. Vamos ver como você pode fazer OCR de documentos PDF usando Sejda OCR.

  • Open Sejda OCR website.
  • Clique no botão "Upload PDF file" para fazer upload de arquivos, ou arraste e solte arquivos do seu computador.
  • Após o upload, você verá o nome do arquivo carregado. Selecione o idioma do documento.

    OCR From PDF Free Online Tools - Figure 3

  • Após selecionar o idioma, você deve escolher o formato de saída. Você pode escolher "PDF" ou "Texto". Após definir o formato de saída, clique no botão "Recognize text on all pages". Ele começará a extrair o texto.

    OCR From PDF Free Online Tools - Figure 4

  • Quando o processo for concluído, você poderá baixar o texto extraído.

    OCR From PDF Free Online Tools - Figure 5

SodaPDF

SodaPDF OCR é um software OCR online gratuito que pode extrair texto de imagens. É uma ferramenta de conversão OCR de PDF que converte documentos escaneados, faxes e outras impressões em texto editável, PDFs e PDFs pesquisáveis. O caso de uso mais comum do SodaPDF OCR é para converter documentos escaneados ou faxes em arquivos editáveis. É um software OCR online gratuito. Todos os documentos carregados são automaticamente excluídos do servidor após um determinado tempo. Ele possui vários recursos, como converter PDF para Word, que pode ser aberto usando o Microsoft Word.

Vamos ver como podemos realizar OCR em um PDF usando o SodaPDF:

  • Open the SodaPDF website.
  • Clique no botão "Escolher Arquivo" e selecione os documentos PDF desejados para upload.
  • Após o upload, ele fornecerá uma interface para edição do texto e imagens do PDF. Você pode baixar o arquivo usando o botão de Download.

    OCR From PDF Free Online Tools - Figure 6

IronOCR: Biblioteca OCR for .NET

IronOCR é uma biblioteca robusta para OCR no .NET Framework. Ela oferece uma API poderosa para trabalhar com texto e imagens, oferecendo recursos como reconhecimento em tempo real, detecção de campos e reconhecimento óptico de caracteres para arquivos PDF escaneados. IronPDF também pode editar documentos escaneados.

IronOCR dá aos desenvolvedores o poder de reconhecimento de texto em suas aplicações. Ela pode ser usada para vários propósitos, como converter documentos escaneados em formatos digitais ou reconhecer legendas em imagens. A Biblioteca IronOCR .NET fornece uma interface de baixo nível fácil de usar para o IronOCR SDK. Além disso, inclui um pipeline de processamento de imagens que lida automaticamente com imagens de baixa DPI e extrai texto de documentos PDF.

Vamos ver como podemos fazer OCR de um arquivo PDF usando a ferramenta OCR:

OCR de um Arquivo PDF Completo

O seguinte código pode realizar OCR em um documento PDF inteiro.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the entire PDF document for OCR processing
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the entire PDF document for OCR processing
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
$vbLabelText   $csharpLabel

OCR de Páginas Selecionadas de um PDF

Você pode fazer OCR em páginas PDF selecionadas usando a função AddPdfPages.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add specific pages of the PDF document for OCR processing
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add specific pages of the PDF document for OCR processing
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
$vbLabelText   $csharpLabel

Converter PDF em PDF Pesquisável

Você pode converter um arquivo PDF em um arquivo PDF pesquisável usando o IronOCR pela função SaveAsSearchablePdf.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the PDF for processing and specify the password if any
    Input.AddPdf("scan.pdf", "password");

    // Correct twisted or skewed pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    // Save the processed result as a searchable PDF
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the PDF for processing and specify the password if any
    Input.AddPdf("scan.pdf", "password");

    // Correct twisted or skewed pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    // Save the processed result as a searchable PDF
    Result.SaveAsSearchablePdf("searchable.pdf");
}
$vbLabelText   $csharpLabel

Conclusão

Exploramos algumas excelentes ferramentas de software para realizar reconhecimento óptico de caracteres. Essas ferramentas permitem reconhecer texto programaticamente e criar PDFs pesquisáveis e editáveis.

Se estiver escrevendo no .NET Framework, IronOCR é nossa recomendação. IronOCR permite que você realize OCR facilmente no .NET Framework; ele é poderoso e pode ser usado facilmente mesmo quando o documento original foi danificado ou distorcido, como por danos causados por água.

Outro caso de uso é converter formulários antigos preenchidos à mão, como faturas e recibos de vendas, em versões digitais. Isso permite que esses documentos sejam processados automaticamente por software de contabilidade, aumentando assim a precisão e a eficiência.

Kannaopat Udonpant
Engenheiro de Software
Antes de se tornar Engenheiro de Software, Kannapat concluiu um doutorado em Recursos Ambientais pela Universidade de Hokkaido, no Japão. Durante o doutorado, Kannapat também integrou o Laboratório de Robótica Veicular, que faz parte do Departamento de Engenharia de Bioprodução. Em 2022, ele utilizou suas habilidades ...
Leia mais

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me