Como ler documentos digitalizados em C# | IronOCR

Leia documentos digitalizados em C# usando o IronOCR.

This article was translated from English: Does it need improvement?
Translated
View the article in English

O IronOCR permite que desenvolvedores C# extraiam texto de PDFs e imagens digitalizadas usando a tecnologia OCR, convertendo documentos baseados em imagens não pesquisáveis ​​em conteúdo pesquisável e acessível com apenas algumas linhas de código.

Muitos PDFs contêm texto baseado em imagens que não permite buscas. O IronOCR converte isso em conteúdo pesquisável, facilitando a localização de informações específicas e melhorando a acessibilidade do documento, especialmente para pessoas com deficiência visual.

Em vez de copiar ou recriar textos e imagens manualmente, a extração automatizada garante precisão e eficiência. Isso é particularmente útil para pesquisas, documentos jurídicos e criação de conteúdo, onde a reutilização de partes específicas de PDFs é comum.

As empresas podem extrair dados críticos de PDFs para análise ou integração de sistemas, otimizando os fluxos de trabalho. Designers e profissionais de marketing também podem extrair imagens para aprimorá-las e reutilizá-las em diversos projetos.

Neste tutorial, exploraremos os métodos OcrPdfInput, cobrindo as opções e os parâmetros disponíveis para mostrar como o IronOCR simplifica a extração de texto e imagem de PDFs para várias aplicações.

Para usar esta função, você também deve instalar o pacote IronOcr.Extensions.AdvancedScan.

Início Rápido: Extrair Texto de um PDF ou Imagem Digitalizada

Comece em segundos—com uma linha de código você carregará seu PDF ou imagem escaneada usando OcrInput.LoadPdf ou LoadImage do IronOCR e instantaneamente extrairá o texto via ReadDocument. Ideal para desenvolvedores que desejam implementar OCR rapidamente.

  1. Instale IronOCR com o Gerenciador de Pacotes NuGet

    PM > Install-Package IronOcr
  2. Copie e execute este trecho de código.

    var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text;
  3. Implante para testar em seu ambiente de produção.

    Comece a usar IronOCR em seu projeto hoje com uma avaliação gratuita

    arrow pointer

Como extrair texto de documentos digitalizados?

Para extrair texto de todas as imagens dentro de um documento, use o método ReadDocument. Este método processa o documento e retorna um objeto contendo o texto extraído, que pode ser acessado através da propriedade Text. O exemplo abaixo demonstra como usar esse método com um arquivo TIFF de amostra .

O IronOCR suporta uma ampla variedade de formatos de documentos para digitalização. Para imagens, você pode trabalhar com os formatos JPG, PNG, GIF, TIFF e BMP , enquanto o suporte a PDF inclui documentos de uma ou várias páginas . A biblioteca utiliza a tecnologia avançada Tesseract 5 para garantir alta precisão em todos os formatos suportados.

Observe

  • Atualmente, este método funciona apenas para os alfabetos inglês, chinês, japonês, coreano e latino.
  • O uso da verificação avançada no .NET Framework exige que o projeto seja executado em arquitetura x64.
    )}]

Qual é a aparência do documento de entrada?

Página do livro Harry Potter mostrando o Capítulo Oito 'A Festa de Aniversário da Morte' com texto narrativo sobre Hogwarts em Outubro

Como faço para implementar o código OCR?

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");

// Perform OCR
OcrResult result = ocr.ReadDocument(input);

Console.WriteLine(result.Text);
$vbLabelText   $csharpLabel

Que resultados posso esperar do processamento OCR?

Janela de Depuração do Visual Studio exibindo saída de texto processada por OCR do exemplo de documento escaneado de Harry Potter

Se precisar realizar OCR em um arquivo PDF, substitua simplesmente o método LoadImage pelo LoadPdf. Isso permite que o IronOCR processe e extraia texto de PDFs digitalizados da mesma forma.

Opções avançadas de processamento de documentos

Ao trabalhar com documentos digitalizados, muitas vezes é necessário ter mais controle sobre o processo de OCR. O IronOCR oferece diversos recursos avançados para aprimorar os resultados da extração de texto.

Processamento de documentos com várias páginas

Para documentos com várias páginas, o IronOCR lida de forma eficiente com o processamento em lote:

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");

// Process all pages
OcrResult result = ocr.ReadDocument(input);

// Access individual page results
foreach (var page in result.Pages)
{
    Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");

// Process all pages
OcrResult result = ocr.ReadDocument(input);

// Access individual page results
foreach (var page in result.Pages)
{
    Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}
$vbLabelText   $csharpLabel

Otimizando o desempenho do OCR

A qualidade dos seus documentos digitalizados afeta diretamente a precisão do OCR. O IronOCR inclui filtros de otimização de imagem integrados para melhorar o reconhecimento de texto:

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew();  // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white

OcrResult result = ocr.ReadDocument(input);
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew();  // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white

OcrResult result = ocr.ReadDocument(input);
$vbLabelText   $csharpLabel

Criando PDFs pesquisáveis

Uma das funcionalidades mais valiosas no processamento de documentos digitalizados é a capacidade de criar PDFs pesquisáveis . Isso mantém a aparência original do documento enquanto adiciona uma camada de texto:

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
$vbLabelText   $csharpLabel

Trabalhando com diferentes tipos de documentos

O IronOCR se destaca no processamento de diversos tipos de documentos comumente encontrados em ambientes empresariais. Quer você esteja lidando com faturas, contratos ou documentos históricos, a biblioteca oferece recursos especializados para extrair dados de diferentes fontes.

Processamento de documentos antigos

Muitas organizações possuem arquivos de documentos digitalizados em formatos antigos. O IronOCR lida com esses arquivos de forma eficiente, incluindo suporte para arquivos TIFF de várias páginas, comumente usados ​​em sistemas de gerenciamento de documentos.

Suporte linguístico

Embora este exemplo se concentre em texto em inglês, o IronOCR suporta mais de 125 idiomas internacionais . Isso o torna ideal para processar documentos multilíngues ou documentos em idiomas que não sejam o inglês.

Melhores práticas para digitalização de documentos

Para obter resultados ótimos no processamento de documentos digitalizados:

  1. Qualidade da digitalização : Use uma resolução mínima de 300 DPI para obter os melhores resultados.
  2. Formato de arquivo : Os formatos TIFF e PNG preservam melhor a qualidade do que o JPEG para documentos de texto.
  3. Pré-processamento : Aplique filtros apropriados com base nas condições do seu documento.
  4. Desempenho : Para lotes grandes, considere usar recursos de multithreading.

Solução de problemas comuns

Ao trabalhar com documentos digitalizados, você pode encontrar diversos desafios. Aqui estão soluções para problemas comuns:

  • Digitalizações de baixa qualidade : Aplique filtros de aprimoramento antes do processamento OCR.
  • Documentos inclinados: Use o método Deskew() para corrigir a orientação
  • Conteúdo misto : Processe regiões específicas se os documentos contiverem elementos de texto e não textuais.

Para obter orientações mais detalhadas, explore nosso tutorial completo de OCR em C# ou confira exemplos simples de OCR para começar rapidamente.

Próximos passos

Agora que você entende como extrair texto de documentos digitalizados, pode explorar recursos mais avançados, como tornar qualquer PDF pesquisável ou processar fluxos de PDF para aplicativos da web. A flexibilidade do IronOCR o torna adequado para tudo, desde a simples digitalização de documentos até fluxos de trabalho complexos de processamento de documentos empresariais.

Perguntas frequentes

Como extrair texto de um PDF digitalizado em C#?

O IronOCR facilita a extração de texto de PDFs digitalizados em C#. Use o método LoadPdf para importar o PDF digitalizado e, em seguida, chame o método ReadDocument para extrair o texto. Por exemplo: var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text; Esta única linha de código carrega o PDF e extrai todo o conteúdo de texto.

Quais formatos de arquivo a biblioteca OCR suporta para extração de texto?

O IronOCR oferece suporte a uma ampla gama de formatos de documentos para digitalização OCR. Para imagens, funciona com os formatos JPG, PNG, GIF, TIFF e BMP. Para PDFs, processa documentos de uma ou várias páginas. A biblioteca utiliza a tecnologia avançada do Tesseract 5 para garantir alta precisão em todos os formatos suportados.

Preciso instalar pacotes adicionais para a funcionalidade de OCR?

Sim, para usar todas as funcionalidades de OCR com o IronOCR, você precisa instalar o pacote IronOcr.Extensions.AdvancedScan além da biblioteca principal do IronOCR. Este pacote de extensão oferece recursos de digitalização aprimorados para o processamento de documentos digitalizados.

Posso extrair texto de imagens digitalizadas, assim como de PDFs?

Sim, o IronOCR processa tanto imagens digitalizadas quanto PDFs com a mesma eficiência. Use o método LoadImage para arquivos de imagem (JPG, PNG, GIF, TIFF, BMP) ou LoadPdf para documentos PDF. O método ReadDocument funciona com ambos os tipos de entrada para extrair o conteúdo de texto.

Como o OCR ajuda com documentos PDF que não permitem buscas?

O IronOCR converte PDFs baseados em imagens, que não permitem buscas, em conteúdo pesquisável, extraindo o texto por meio da tecnologia OCR. Essa transformação facilita a localização de informações específicas dentro dos documentos e melhora significativamente a acessibilidade, principalmente para pessoas com deficiência visual.

Quais são as principais aplicações comerciais da extração de texto por OCR?

O IronOCR permite que empresas extraiam dados críticos de PDFs para análise e integração de sistemas, otimizando fluxos de trabalho. É particularmente útil para processar documentos jurídicos, artigos de pesquisa e automatizar a entrada de dados. Designers e profissionais de marketing também podem extrair imagens para aprimoramento e reutilização em diversos projetos.

Curtis Chau
Redator Técnico

Curtis Chau é bacharel em Ciência da Computação (Universidade Carleton) e se especializa em desenvolvimento front-end, com experiência em Node.js, TypeScript, JavaScript e React. Apaixonado por criar interfaces de usuário intuitivas e esteticamente agradáveis, Curtis gosta de trabalhar com frameworks modernos e criar manuais ...

Leia mais
Pronto para começar?
Nuget Downloads 5,525,971 | Versão: 2026.3 acaba de ser lançado
Still Scrolling Icon

Ainda está rolando a tela?

Quer provas rápidas? PM > Install-Package IronOcr
executar um exemplo Veja sua imagem se transformar em texto pesquisável.