Como ler fotos em C# com IronOCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

O método ReadPhoto do IronOCR extrai texto de formatos de foto complexos como TIFF e GIF, fornecendo resultados estruturados com regiões de texto e pontuações de confiança, otimizados para documentos escaneados de alta qualidade que exigem processamento OCR preciso.

Ao lidar com grandes volumes de documentos, especialmente imagens digitalizadas como arquivos TIFF, a extração manual de texto torna-se demorada e propensa a erros. O Reconhecimento Óptico de Caracteres (OCR) automatiza esse processo, convertendo texto de imagens em dados digitais. A tecnologia OCR processa imagens complexas, como documentos digitalizados e fotografias, transformando-as em texto pesquisável e editável. Isso agiliza o processamento de documentos e garante a extração precisa dos dados.

O uso de OCR em formatos como TIFF e GIF permite a digitalização rápida de grandes quantidades de dados, independentemente do tamanho, da profundidade de cor ou dos desafios de compressão. Com a função ReadPhoto do IronOCR, os desenvolvedores extraem texto de imagens e realizam operações avançadas, como pesquisa por palavra-chave ou conversão de dados escaneados em PDFs pesquisáveis. Essa tecnologia beneficia setores que lidam com documentos jurídicos, arquivos ou recibos, onde a recuperação eficiente de dados é fundamental.

Este tutorial demonstra o uso de ReadPhoto e a manipulação do objeto results. Discutiremos quando usar ReadPhoto em vez do padrão Read do IronOCR. Para processamento geral de imagens, explore a leitura de vários formatos de imagem .

Para usar essa função, instale o pacote IronOcr.Extension.AdvancedScan .

Início rápido: Use o ReadPhoto para extrair texto de imagens complexas

Comece rapidamente: use o método ReadPhoto do IronOCR em um OcrInput carregado com o quadro da sua imagem para extrair todo o texto e regiões. É otimizado para arquivos TIFF, GIF e formatos de foto similares.

  1. Instale IronOCR com o Gerenciador de Pacotes NuGet

    PM > Install-Package IronOcr
  2. Copie e execute este trecho de código.

    var result = new IronTesseract().ReadPhoto(new OcrInput().LoadImageFrame("photo.tiff", 0));
  3. Implante para testar em seu ambiente de produção.

    Comece a usar IronOCR em seu projeto hoje com uma avaliação gratuita

    arrow pointer

Como extrair texto de imagens TIFF usando o ReadPhoto?

Ler formatos de fotos de alta qualidade, como TIFF e GIF, é muito fácil usando o IronOCR. Primeiro, crie uma variável OcrInput e carregue a imagem usando LoadImageFrame. Em seguida, use o método ReadPhoto para obter os resultados. O tutorial de OCR TIFF com várias páginas fornece exemplos adicionais de documentos com várias páginas.

Observe

  • O formato TIFF contém vários quadros; o parâmetro PageNumber é necessário com indexação baseada em zero.
  • O método atualmente suporta os alfabetos inglês, chinês, japonês, coreano e latino.
  • O uso da verificação avançada no .NET Framework requer arquitetura x64.

)}]

Qual formato de entrada devo usar?

Como os navegadores não oferecem suporte nativo ao formato TIFF, faça o download do arquivo de entrada TIFF aqui . A versão exibida abaixo foi convertida para WEBP.

Input

Como faço para implementar o método ReadPhoto?

Esta implementação demonstra a extração de texto e informações regionais de uma imagem TIFF. Para mais exemplos, veja nosso exemplo de código de leitura de fotos .

:path=/static-assets/ocr/content-code-examples/how-to/read-photo-read-photo.cs
using IronOcr;
using IronSoftware.Drawing;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

using var inputPhoto = new OcrInput();
inputPhoto.LoadImageFrame("ocr.tiff", 0);

// Read photo
OcrPhotoResult result = ocr.ReadPhoto(inputPhoto);

// Index number refer to region order in the page
int number = result.TextRegions[0].PageNumber;

// Extract the text in the first region
string textinregion = result.TextRegions[0].TextInRegion;

//Extract the co_ordinates of the first text region
Rectangle region = result.TextRegions[0].Region;

var output = $"Text in First Region: {textinregion}\n"
             + $"Text Region:\n"
             + $"Starting X: {region.X}\n"
             + $"Starting Y: {region.Y}\n"
             + $"Region Width: {region.Width}\n"
             + $"Region Height: {region.Height}\n"
             + $"Result Confidence: {result.Confidence}\n\n"
             + $"Full Scnned Photo Text: {result.Text}";

Console.WriteLine(output);
$vbLabelText   $csharpLabel

Quais propriedades o OcrPhotoResult fornece?

Saída de depuração mostrando extração de texto OCR com número de telefone, coordenadas e pontuação de confiança da imagem processada

A classe OcrPhotoResult fornece propriedades chave para analisar o texto extraído. Para obter informações detalhadas sobre como trabalhar com resultados de OCR, consulte nosso guia sobre saída de dados e manipulação de resultados .

Text: O texto extraído da entrada OCR.
Confidence: Confiança de precisão estatística (escala de 0-1, 1 sendo o mais alto). Saiba mais sobre os índices de confiança dos resultados .
TextRegions: Lista de regiões de texto com dados de localização. Semelhante à definição de regiões OCR para extração direcionada.


Quando devo usar ReadPhoto em vez de Read?

A principal diferença entre ReadPhoto e o padrão Read é o objeto result e os formatos de arquivo suportados. LoadImageFrame aceita especificamente TIFF e GIF, não formatos como JPEG. ReadPhoto é otimizado para formatos de imagens complexos, enquanto o padrão Read é adequado para imagens mais simples e tarefas gerais de extração de texto.

Por que o ReadPhoto suporta apenas os formatos TIFF e GIF?

TIFF é um formato sem perdas para condensar várias páginas e quadros em um único arquivo. É usado para armazenamento de alta qualidade de múltiplas imagens, como documentos jurídicos e imagens médicas. Por ser mais complexo que o JPEG, requer métodos diferentes para a extração de texto. O manuseio especializado garante resultados ótimos com formatos de imagem de nível profissional.

As imagens TIFF utilizam métodos de compressão diferentes, portanto o IronOCR emprega algoritmos especializados para decifrar o texto. Os algoritmos avançados em ReadPhoto lidam com características de compressão TIFF, garantindo extração precisa de documentos complexos com camadas múltiplas.

Aqui está uma comparação entre os formatos TIFF e JPEG:

Recurso TIFF (Formato de Arquivo de Imagem com Etiquetas) JPG/JPEG (Grupo Conjunto de Especialistas em Fotografia)
Compressão Sem perdas ou não comprimido (preserva a qualidade) Compressão com perda (reduz a qualidade para diminuir o tamanho do arquivo)
Tamanho do arquivo Grande (devido à alta qualidade e à opção de não compressão) Menor, otimizado para uso na web e com carregamento rápido.
Qualidade da imagem Alta resolução (ideal para uso profissional, preserva todos os detalhes) Menor (devido à compressão com perdas, alguma qualidade é sacrificada)
Profundidade de cor Suporta alta profundidade de cor (até 16 bits ou 32 bits por canal). Cores de 24 bits (16,7 milhões de cores)
Caso de uso Fotografia profissional, publicação, digitalização, arquivamento. Imagens da web, redes sociais, fotos do dia a dia
Transparência Suporta canais de transparência e alfa. **Não** apoia a transparência.
Edição Ideal para múltiplas edições (sem perda de qualidade ao salvar novamente) A qualidade se deteriora com edições e salvamentos repetidos.
Compatibilidade Amplamente utilizado em softwares profissionais Compatível universalmente com todas as plataformas e dispositivos.
Animação Não suporta animação. Não suporta animação.
Metadados Armazena metadados extensos (EXIF, camadas, etc.) Armazena metadados EXIF, mas é mais limitado.

Como escolher entre ReadPhoto e Read para minha aplicação?

Considere cada caso de uso de produção para otimizar o desempenho do aplicativo. Enquanto ReadPhoto é adequado para imagens TIFF complexas, ele processa mais lentamente. O formato JPEG oferece processamento mais rápido, porém com qualidade inferior, o que pode resultar em baixas taxas de confiança no OCR. Utilize filtros de correção de qualidade de imagem para melhorar os resultados quando necessário.

A propriedade confidence em OcrPhotoResults ou qualquer classe de interface IOcrResult indica a precisão do resultado, permitindo que os desenvolvedores testem e otimizem. Para requisitos de maior precisão, ReadPhoto com imagens TIFF de alta qualidade proporciona os melhores resultados, especialmente para processamento de documentos arquivísticos ou legais onde a precisão é importante.

Encontre o equilíbrio entre eficiência e precisão, garantindo que as imagens atendam a determinados limites de qualidade. Para tipos de documentos mistos, implemente uma abordagem híbrida: use ReadPhoto para documentos críticos que exigem alta precisão e o padrão Read para tarefas rotineiras que priorizam a velocidade.

Perguntas frequentes

Quais formatos de imagem o método ReadPhoto suporta?

O método ReadPhoto do IronOCR é otimizado para formatos de fotos complexos, como TIFF e GIF. Ele foi projetado especificamente para extrair texto de documentos e fotografias digitalizados de alta qualidade, fornecendo resultados estruturados com regiões de texto e pontuações de confiança.

Como extrair texto de uma imagem TIFF?

Para extrair texto de imagens TIFF usando o IronOCR, crie uma variável OcrInput, carregue a imagem usando LoadImageFrame e, em seguida, aplique o método ReadPhoto. O processo é simples: var result = new IronTesseract().ReadPhoto(new OcrInput().LoadImageFrame("photo.tiff", 0));

Que pacote adicional é necessário para usar a função ReadPhoto?

Para usar a função ReadPhoto no IronOCR, você precisa instalar o pacote IronOcr.Extension.AdvancedScan do NuGet. Essa extensão fornece os recursos avançados de digitalização necessários para o método ReadPhoto.

Quando devo usar ReadPhoto em vez do método Read padrão?

Utilize o método ReadPhoto do IronOCR ao lidar com formatos de imagem complexos, como TIFF e GIF, especialmente para documentos digitalizados de alta qualidade que exigem processamento OCR preciso. O método Read padrão é mais adequado para tarefas gerais de processamento de imagem.

Que tipo de resultados o ReadPhoto fornece?

O método ReadPhoto do IronOCR fornece resultados de OCR estruturados que incluem regiões de texto extraídas com pontuações de confiança. Você pode acessar esses dados por meio da propriedade OcrPhotoResult para visualizá-los e manipulá-los.

O ReadPhoto consegue lidar com documentos de várias páginas?

Sim, o método ReadPhoto do IronOCR consegue processar documentos com várias páginas, especialmente arquivos TIFF, que frequentemente contêm vários quadros. O método LoadImageFrame permite especificar qual quadro processar em documentos com várias páginas.

Quais setores se beneficiam com o uso da tecnologia OCR para fotos?

O IronOCR beneficia setores que lidam com documentos jurídicos, arquivos, recibos e qualquer negócio que lide com grandes volumes de documentos digitalizados, onde a recuperação eficiente de dados é fundamental. O método ReadPhoto automatiza a extração de texto desses formatos de imagem complexos.

Curtis Chau
Redator Técnico

Curtis Chau é bacharel em Ciência da Computação (Universidade Carleton) e se especializa em desenvolvimento front-end, com experiência em Node.js, TypeScript, JavaScript e React. Apaixonado por criar interfaces de usuário intuitivas e esteticamente agradáveis, Curtis gosta de trabalhar com frameworks modernos e criar manuais ...

Leia mais
Pronto para começar?
Nuget Downloads 5,525,971 | Versão: 2026.3 acaba de ser lançado
Still Scrolling Icon

Ainda está rolando a tela?

Quer provas rápidas? PM > Install-Package IronOcr
executar um exemplo Veja sua imagem se transformar em texto pesquisável.