Comment lire des photos en C# ; avec IronOCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

La méthode ReadPhoto d'IronOcr extrait du texte à partir de formats de photos complexes tels que TIFF et GIF, fournissant des résultats structurés avec des régions de texte et des scores de confiance, optimisés pour les documents numérisés de haute qualité nécessitant un traitement OCR précis.

Lorsque l'on traite de gros volumes de documents, en particulier des images numérisées comme les fichiers TIFF, l'extraction manuelle du texte prend beaucoup de temps et est sujette à des erreurs. La reconnaissance optique de caractères (ROC) automatise ce processus en convertissant le texte des images en données numériques. La technologie OCR traite des images complexes telles que des documents scannés et des photographies, les transformant en texte consultable et modifiable. Cela permet d'accélérer le traitement des documents et de garantir une extraction précise des données.

<TODO : Ajouter une image ici -->

<Description : Diagramme ou capture d'écran illustrant le concept de code -->

L'utilisation de l'OCR sur des formats tels que TIFF et GIF permet de numériser rapidement de grandes quantités de données, en dépit de leur taille, de la profondeur des couleurs ou des problèmes de compression. Avec la fonction ReadPhoto d'IronOcr, les développeurs extraient du texte à partir d'images et effectuent des opérations avancées telles que la recherche par mot-clé ou la conversion de données numérisées en PDF consultables. Cette technologie est utile aux industries qui traitent des documents juridiques, des archives ou des reçus pour lesquels une récupération efficace des données est essentielle.

Ce tutoriel présente l'utilisation de ReadPhoto et la manipulation de l'objet results. Nous discuterons des cas où il convient d'utiliser ReadPhoto au lieu du Read standard d'IronOcr. Pour le traitement général des images, explorez la lecture de divers formats d'images.

Pour utiliser cette fonction, installez le paquet IronOcr.Extension.AdvancedScan.

Démarrage rapide : Utiliser ReadPhoto pour extraire du texte à partir d'images complexes

Commencez rapidement : utilisez la méthode ReadPhoto d'IronOCR sur un OcrInput chargé avec votre cadre d'image pour extraire tout le texte et toutes les régions. Elle est optimisée pour les fichiers TIFF, GIF et autres formats de photos similaires.

Nuget IconCommencez dès maintenant à créer des PDF avec NuGet :

  1. Installez IronOCR avec le gestionnaire de packages NuGet

    PM > Install-Package IronOcr

  2. Copiez et exécutez cet extrait de code.

    var result = new IronTesseract().ReadPhoto(new OcrInput().LoadImageFrame("photo.tiff", 0));
  3. Déployez pour tester sur votre environnement de production.

    Commencez à utiliser IronOCR dans votre projet dès aujourd'hui grâce à un essai gratuit.
    arrow pointer

Comment extraire du texte à partir d'images TIFF à l'aide de ReadPhoto?

La lecture des formats de photos de haute qualité, tels que TIFF et GIF, est simple avec IronOCR. Tout d'abord, créez une variable OcrInput et chargez l'image à l'aide de LoadImageFrame. Utilisez ensuite la méthode ReadPhoto pour obtenir des résultats. Le tutoriel d'OCR TIFF multipage fournit des exemples supplémentaires de documents multipages.

[{i:(

  • Le format TIFF contient plusieurs images ; le paramètre PageNumber est nécessaire avec l'indexation basée sur le zéro.
  • La méthode prend actuellement en charge l'anglais, le chinois, le japonais, le coréen et l'alphabet latin.
  • L'utilisation de l'analyse avancée sur .NET Framework nécessite une architecture x64.

@@--BRACKET-FERMETURE--@@

Quel format d'entrée dois-je utiliser?

Étant donné que les navigateurs ne prennent pas en charge le format TIFF de manière native, téléchargez l'entrée TIFF ici. La version affichée ci-dessous est convertie en WEBP.

! Saisir

Comment implémenter la méthode ReadPhoto?

Cette mise en œuvre démontre l'extraction de texte et d'informations régionales à partir d'une image TIFF. Pour plus d'exemples, consultez notre exemple de code de lecture de photos.

:path=/static-assets/ocr/content-code-examples/how-to/read-photo-read-photo.cs
using IronOcr;
using IronSoftware.Drawing;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

using var inputPhoto = new OcrInput();
inputPhoto.LoadImageFrame("ocr.tiff", 0);

// Read photo
OcrPhotoResult result = ocr.ReadPhoto(inputPhoto);

// Index number refer to region order in the page
int number = result.TextRegions[0].PageNumber;

// Extract the text in the first region
string textinregion = result.TextRegions[0].TextInRegion;

//Extract the co_ordinates of the first text region
Rectangle region = result.TextRegions[0].Region;

var output = $"Text in First Region: {textinregion}\n"
             + $"Text Region:\n"
             + $"Starting X: {region.X}\n"
             + $"Starting Y: {region.Y}\n"
             + $"Region Width: {region.Width}\n"
             + $"Region Height: {region.Height}\n"
             + $"Result Confidence: {result.Confidence}\n\n"
             + $"Full Scnned Photo Text: {result.Text}";

Console.WriteLine(output);
Imports Microsoft.VisualBasic
Imports IronOcr
Imports IronSoftware.Drawing
Imports System

' Instantiate OCR engine
Private ocr = New IronTesseract()

Private inputPhoto = New OcrInput()
inputPhoto.LoadImageFrame("ocr.tiff", 0)

' Read photo
Dim result As OcrPhotoResult = ocr.ReadPhoto(inputPhoto)

' Index number refer to region order in the page
Dim number As Integer = result.TextRegions(0).PageNumber

' Extract the text in the first region
Dim textinregion As String = result.TextRegions(0).TextInRegion

'Extract the co_ordinates of the first text region
Dim region As Rectangle = result.TextRegions(0).Region

Dim output = $"Text in First Region: {textinregion}" & vbLf & $"Text Region:" & vbLf & $"Starting X: {region.X}" & vbLf & $"Starting Y: {region.Y}" & vbLf & $"Region Width: {region.Width}" & vbLf & $"Region Height: {region.Height}" & vbLf & $"Result Confidence: {result.Confidence}" & vbLf & vbLf & $"Full Scnned Photo Text: {result.Text}"

Console.WriteLine(output)
$vbLabelText   $csharpLabel

Quelles sont les propriétés d'OcrPhotoResult ? [Sortie de débogage montrant l'extraction de texte OCR avec le numéro de téléphone, les coordonnées et le score de confiance à partir de l'image traitée](/static-assets/ocr/how-to/read-photo/output.webp) La classe `OcrPhotoResult` fournit des propriétés clés pour l'analyse du texte extrait. Pour obtenir des informations détaillées sur l'utilisation des résultats de l'OCR, consultez notre guide sur [la sortie des données et la manipulation des résultats](https://ironsoftware.com/csharp/ocr/how-to/read-results/). **`Text`** : Le texte extrait de l'entrée OCR. **`Confiance`** : Confiance en la précision statistique (échelle de 0 à 1, 1 étant la valeur la plus élevée). En savoir plus sur [les scores de confiance des résultats](https://ironsoftware.com/csharp/ocr/how-to/tesseract-result-confidence/). **`TextRegions`** : Liste des régions de texte contenant des données de localisation. Similaire à [la définition des régions OCR](https://ironsoftware.com/csharp/ocr/how-to/ocr-region-of-an-image/) pour une extraction ciblée.
## Quand devrais-je utiliser ReadPhoto au lieu de Read? La principale différence entre `ReadPhoto` et `Read` standard est l'objet `result` et les formats de fichiers pris en charge. `LoadImageFrame` accepte spécifiquement les formats TIFF et GIF, et non les formats tels que JPEG. `ReadPhoto` est optimisé pour les formats d'image complexes, tandis que `Read` standard convient aux images plus simples et aux [tâches générales d'extraction de texte](https://ironsoftware.com/csharp/ocr/features/document/).

Pourquoi ReadPhoto ne prend-il en charge que les formats TIFF et GIF ? Le format TIFF est un format sans perte permettant de condenser plusieurs pages et images en un seul fichier. Il est utilisé pour le stockage d'images multiples de haute qualité, comme les documents juridiques et les images médicales. Plus complexe que le format JPEG, il nécessite différentes méthodes d'extraction de texte. La manipulation spécialisée garantit des résultats optimaux avec des formats d'image de qualité professionnelle. Les images TIFF utilisent différentes méthodes de compression, c'est pourquoi IronOCR emploie des algorithmes spécialisés pour déchiffrer le texte. Les algorithmes avancés de `ReadPhoto` gèrent les caractéristiques de compression TIFF, garantissant une extraction précise à partir de documents complexes multicouches. Voici une comparaison entre les formats TIFF et JPEG :
Caractéristique TIFF (Tagged Image File Format) JPG/JPEG (Groupe mixte d'experts en photographie)
Compression Sans perte ou non compressé (préserve la qualité) Compression avec perte (réduit la qualité pour une taille de fichier plus petite)
Taille du fichier Grand (en raison de sa haute qualité et de l'absence optionnelle de compression) Plus compact, optimisé pour le web et chargement rapide
Qualité de l'image Haute qualité (idéale pour un usage professionnel, conserve tous les détails) Inférieur (en raison de la compression avec perte, une partie de la qualité est sacrifiée)
Profondeur de couleur Prend en charge une profondeur de couleur élevée (jusqu'à 16 ou 32 bits par canal) Couleurs 24 bits (16,7 millions de couleurs)
Cas d'utilisation Photographie professionnelle, édition, numérisation, archivage Images web, réseaux sociaux, photos du quotidien
Transparence Prend en charge la transparence et les canaux alpha. Ne favorise pas la transparence
Édition Idéal pour de multiples modifications (aucune perte de qualité lors de la réenregistrement) La qualité se dégrade avec les modifications et les enregistrements répétés.
Compatibilité Largement pris en charge par les logiciels professionnels Prise en charge universelle sur toutes les plateformes et tous les appareils
Animation Ne prend pas en charge l'animation Ne prend pas en charge l'animation
Métadonnées Stocke des métadonnées exhaustives (EXIF, calques, etc.) Stocke les métadonnées EXIF, mais avec des limitations plus importantes.

Comment choisir entre ReadPhoto et Read pour mon application ? Prenez en compte chaque cas d'utilisation en production afin d'optimiser les performances de l'application. Bien que `ReadPhoto` convienne aux images TIFF complexes, son traitement est plus lent. Le format JPEG offre un traitement plus rapide mais une qualité moindre, ce qui peut se traduire par un faible taux de confiance de l'OCR. Utilisez les filtres de correction de la qualité de l'image pour améliorer les résultats si nécessaire. La propriété `confidence` dans `OcrPhotoResults` ou toute classe d'interface `IOcrResult` indique la précision du résultat, ce qui permet aux développeurs de tester et d'optimiser. Pour les exigences de précision les plus élevées, `ReadPhoto` avec des images TIFF de haute qualité fournit les meilleurs résultats, en particulier pour l'archivage ou le traitement de documents juridiques où la précision est importante. Trouvez l'équilibre entre efficacité et précision en veillant à ce que les images respectent certains seuils de qualité. Pour les types de documents mixtes, mettez en œuvre une approche hybride : utilisez `ReadPhoto` pour les documents critiques nécessitant une grande précision et `Read` standard pour les tâches courantes privilégiant la rapidité.

Questions Fréquemment Posées

Quels formats d'image la méthode ReadPhoto supporte-t-elle ?

La méthode ReadPhoto d'IronOCR est optimisée pour les formats de photos complexes tels que TIFF et GIF. Elle est spécialement conçue pour extraire du texte à partir de documents et de photographies numérisés de haute qualité, et fournit des résultats structurés avec des régions de texte et des scores de confiance.

Comment extraire du texte d'une image TIFF ?

Pour extraire du texte d'images TIFF à l'aide d'IronOcr, créez une variable OcrInput, chargez l'image à l'aide de LoadImageFrame, puis appliquez la méthode ReadPhoto. Le processus est simple : var result = new IronTesseract().ReadPhoto(new OcrInput().LoadImageFrame("photo.tiff", 0)) ;

Quel progiciel supplémentaire est nécessaire pour utiliser la fonction ReadPhoto ?

Pour utiliser la fonction ReadPhoto dans IronOCR, vous devez installer le package IronOcr.Extension.AdvancedScan de NuGet. Cette extension fournit les capacités d'analyse avancées requises pour la méthode ReadPhoto.

Quand dois-je utiliser ReadPhoto au lieu de la méthode Read standard ?

Utilisez la méthode ReadPhoto d'IronOcr lorsque vous traitez des formats de photo complexes tels que TIFF et GIF, en particulier pour les documents numérisés de haute qualité nécessitant un traitement OCR précis. La méthode standard Read est mieux adaptée aux tâches générales de traitement d'images.

Quel type de résultats ReadPhoto fournit-il ?

La méthode ReadPhoto d'IronOcr fournit des résultats d'OCR structurés qui incluent les régions de texte extraites avec des scores de confiance. Vous pouvez y accéder par le biais de la propriété OcrPhotoResult pour visualiser et manipuler les données extraites.

ReadPhoto peut-il gérer des documents de plusieurs pages ?

Oui, la méthode ReadPhoto d'IronOcr peut traiter des documents de plusieurs pages, notamment des fichiers TIFF qui contiennent souvent plusieurs images. La méthode LoadImageFrame vous permet de spécifier le cadre à traiter dans les documents multipages.

Quels sont les secteurs qui bénéficient de l'utilisation de la technologie OCR pour les photos ?

IronOCR est utile aux industries qui traitent des documents juridiques, des archives, des reçus et à toute entreprise traitant de grands volumes de documents numérisés où la récupération efficace des données est essentielle. La méthode ReadPhoto automatise l'extraction de texte à partir de ces formats d'image complexes.

Curtis Chau
Rédacteur technique

Curtis Chau détient un baccalauréat en informatique (Université de Carleton) et se spécialise dans le développement front-end avec expertise en Node.js, TypeScript, JavaScript et React. Passionné par la création d'interfaces utilisateur intuitives et esthétiquement plaisantes, Curtis aime travailler avec des frameworks modernes ...

Lire la suite
Prêt à commencer?
Nuget Téléchargements 5,246,844 | Version : 2025.12 vient de sortir