Extração de texto OCR de PDF

VB C#

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using var ocrInput = new OcrInput();

// OCR entire document
ocrInput.LoadPdf("example.pdf", Password: "password");

int[] pages = { 1, 2, 3, 4, 5 };

// Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password: "password");

var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);

Install-Package IronOcr

Extração de texto OCR de PDF

O Iron Tesseract consegue ler diversos formatos de imagem, bem como documentos PDF. Essa funcionalidade não é possível com os mecanismos Tesseract gratuitos convencionais.

OcrInput oferece a opção de corrigir automaticamente as características do PDF caso as digitalizações sejam de má qualidade.

Os desenvolvedores podem especificar a leitura de um PDF inteiro, de uma seleção de páginas ou de uma única área recortada.

## Como realizar OCR em um arquivo PDF usando C#

Baixe a biblioteca C# para OCR de arquivos PDF.
Utilize o método `AddPdf` para adicionar um documento PDF.
Adicione páginas específicas de um documento PDF com o método `AddPdfPages`
Utilize o método `Read` para realizar o OCR no PDF adicionado.
Visualize todos os valores de código QR na propriedade `Barcodes` . Acesse a propriedade Texto para recuperar o resultado do OCR.

OCR de PDF em C

Muitas ferramentas de OCR funcionam bem em condições ideais, mas quando você precisa de algo que execute a tarefa com estabilidade e precisão aprimoradas em quaisquer condições, a solução de extração de texto IronOCR é o que você precisa.

O IronOCR para extração de texto foi desenvolvido do zero e é capaz de converter imagens do mundo real com 99% de precisão.

IronTesseract, nossa biblioteca nativa de OCR em C#, consegue reconhecer caracteres de forma quase humana a partir de imagens do mundo real que nem sempre são de boa qualidade e às vezes estão distorcidas.

Nosso sistema OCR permite que as características de PDFs ou imagens sejam corrigidas automaticamente caso as digitalizações sejam de baixa qualidade.

Ao apresentar a melhor solução de OCR disponível atualmente, você poderá comprovar por si mesmo.

Por que usar o IronOCR para extração de texto por OCR em imagens ou PDFs?

Escolher a solução IronOCR para gerenciamento do Tesseract é a opção óbvia se considerarmos suas capacidades únicas, que incluem:

O mecanismo de extração de texto OCR do IronOCR para PDF funciona imediatamente em .NET puro, sem necessidade de configuração adicional.
Não é necessário que o Tesseract esteja instalado em sua máquina.
Funciona excepcionalmente bem com os motores mais recentes: Tesseract 5 (assim como Tesseract 4 e 3).
Está disponível para qualquer projeto .NET : .NET Framework 4.5 ou superior, .NET Standard 2 ou superior e .NET Core 2, 3 e 5!
Possui precisão e velocidade aprimoradas em comparação com outros Tesseracts de código aberto.
O IronOCR é compatível com as plataformas de desenvolvimento Xamarin, Mono, Azure e Docker.
Você pode gerenciar sistemas complexos de dicionários Tesseract usando pacotes NuGet .
Ele consegue extrair texto de PDFs, TIFFs MultiFrame e todos os principais arquivos de imagem sem qualquer configuração adicional.
Ele pode corrigir digitalizações de imagens de baixa qualidade e distorcidas para obter os melhores resultados em seu projeto de extração de texto.

Você tem digitalizações de baixa qualidade? Sem problemas!

O IronOCR se destaca em um nível superior quando se trata de tarefas de OCR. Na realidade, muitos produtos similares são feitos para funcionar bem com textos ou imagens impressos à máquina, de alta resolução e perfeitos, e por isso tornam-se imprecisos ou falham em aplicações do mundo real. No entanto, esse não é o caso do IronOCR.

O IronOCR se destaca na correção de documentos imperfeitos. Ele pode endireitar uma imagem digitalizada distorcida e melhorar fotos de baixa qualidade para que se tornem documentos PDF ou imagens pesquisáveis. É isso que faz com que nosso produto se destaque dos demais.

Ajuste o desempenho do IronOCR para se adequar ao seu fluxo de trabalho.

Com a solução OCR da Iron Software , você pode ajustar o desempenho das suas tarefas de extração de texto para obter o equilíbrio ideal para o seu fluxo de trabalho. Sabemos que isso é muito importante para muitos usuários e desenvolvedores, por isso criamos nossa solução de OCR para ser ajustável em termos de desempenho e flexível.

Por exemplo, um fator muito importante que influencia a velocidade de uma tarefa de OCR é a qualidade da imagem de entrada. Quando há menos ruído de fundo e a imagem tem uma resolução mais alta (200 dpi é um bom intervalo), o processamento é mais rápido e os resultados do OCR são mais precisos. No entanto, com o recurso de otimização de desempenho do IronOCR , até mesmo tarefas com imagens de baixa qualidade podem ser concluídas rapidamente.

Além disso, selecionar imagens de entrada ou formatos de texto digitalizado com menos ruído digital, como PNG ou TIFF, também pode gerar resultados mais rápidos do que formatos de imagem de qualidade inferior, como JPEG.

Instalar a solução IronOCR é muito fácil.

O pacote de Iron Software é muito fácil de instalar e executar. Está disponível para as plataformas de desenvolvimento mais populares. Nossa solução oferece suporte multiplataforma, incluindo Windows, Linux, macOS, Azure, AWS e Docker — não é à toa que o C# é o mecanismo de OCR Tesseract preferido entre os desenvolvedores.

Suporte para mais de 125 idiomas internacionais.

Para tarefas de OCR, um software específico torna-se mais útil quando suporta vários idiomas. A solução IronOCR torna-se indispensável por suportar 125 idiomas internacionais. Esses idiomas podem ser instalados por meio de pacotes de idiomas distribuídos como arquivos DLL. Eles podem ser baixados deste site ou do Gerenciador de Pacotes NuGet para Visual Studio.

Como instalar pacotes de idiomas OCR

Cento e vinte idiomas são suportados. Você pode baixar pacotes de idiomas OCR adicionais usando dois métodos:

Instale o pacote NuGet

Procure por "IronOCR Languages" no NuGet .

Utilizando o método de dados OCR

Download the ocrdata file and add it to your .NET project or program files.

Crie facilmente documentos pesquisáveis a partir de seus arquivos ou imagens digitalizados.

Uma funcionalidade da qual nos orgulhamos muito é a capacidade do nosso software Tesseract de criar um documento PDF pesquisável ou texto pesquisável a partir de imagens ou arquivos PDF digitalizados. Você pode exportar o resultado do OCR como um PDF que será um documento PDF pesquisável em C# e VB .NET. Isso pode realmente ajudar empresas e governos com a criação de bancos de dados, SEO e PDFs.

Aproveite o poder da melhor ferramenta de OCR.

O IronOCR é a melhor ferramenta da categoria para extrair texto de imagens e documentos. Ele vem com uma série de recursos, funcionalidades e soluções que proporcionam uma experiência fácil e tranquila ao realizar tarefas de OCR.

Nossas bibliotecas OCR Tesseract C# podem ajudá-lo a extrair texto de imagens e documentos digitalizados em ambientes de desenvolvimento como aplicativos C# e .NET .

Com o IronOCR, você pode até mesmo abrir documentos PDF protegidos por senha com facilidade, além de extrair texto sem problemas.

Possui também as seguintes características:

Não requer arquivos executáveis nem código C++
Suporte completo para OCR em PDF
Compatível com MVC, aplicativos Web, aplicativos desktop, aplicativos de console e aplicativos de servidor.
Suporte completo for .NET Core, Standard e Framework
Read using C# & VB .NET
Lê códigos QR e códigos de barras
Exporta OCR para XHTML ou para um documento PDF pesquisável
Suporta multithreading
Extrai imagens, coordenadas, estatísticas, fontes e muito mais

Dê o passo ousado rumo ao IronOCR

Considerando os recursos incríveis desta solução de OCR, você não se arrependerá se decidir experimentar o IronOCR.

Utilizar o nosso software está a apenas alguns cliques de distância. Comece instalando o IronOCR — uma tarefa incrivelmente fácil. Além disso, oferecemos guias passo a passo incrivelmente úteis e detalhados sobre como usar qualquer uma de nossas ferramentas e tutoriais , sem mencionar nossa eficiente central de suporte que responde às dúvidas o mais rápido possível (quase imediatamente).

Não hesite — escolha IronOCR hoje mesmo. Este é o primeiro e mais importante passo para aprender a ler arquivos PDF em C#.

Se ainda tiver alguma dúvida, nossa chave de licença de avaliação gratuita é perfeita para você. Isso pode ajudá-lo a explorar todo o potencial da versão mais recente do IronOCR sem quaisquer condições financeiras. Isso pode te ajudar a decidir qual licença de software é a mais adequada para você. Caso tenha alguma dúvida, não hesite em contatar nossa equipe de especialistas, independentemente de onde você esteja.

Aprenda a criar PDFs pesquisáveis com o IronOCR.