Comment extraire des résultats de lecture en C# ; avec IronOCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

La méthode Read d'IronOcr renvoie un objet OcrResult contenant le texte extrait plus des métadonnées détaillées, notamment les coordonnées précises, les dimensions, la direction du texte et la structure hiérarchique (paragraphes, lignes, mots, caractères) pour chaque élément détecté.

Le résultat de l'OCR contient des informations complètes sur les paragraphes, les lignes, les mots et les caractères individuels détectés.

Pour chaque élément, il fournit le contenu textuel, les coordonnées X et Y précises, les dimensions (largeur et hauteur), la direction du texte (de gauche à droite ou de haut en bas) et l'emplacement dans un objet CropRectangle .

Démarrage rapide : Récupérer le texte du premier mot détecté

Utilisez la méthode Read d'IronTesseract pour OCR une image et extraire le texte du premier mot à l'aide de la collection Words.

Nuget IconCommencez dès maintenant à créer des PDF avec NuGet :

  1. Installez IronOCR avec le gestionnaire de packages NuGet

    PM > Install-Package IronOcr

  2. Copiez et exécutez cet extrait de code.

    string wordText = new IronTesseract().Read("file.jpg").Words[0].Text;
  3. Déployez pour tester sur votre environnement de production.

    Commencez à utiliser IronOCR dans votre projet dès aujourd'hui grâce à un essai gratuit.
    arrow pointer

Quelles données puis-je extraire des résultats de l'OCR ? La valeur du résultat contient non seulement le texte extrait, mais aussi des informations sur les pages, les paragraphes, les lignes, les mots, les caractères et les codes-barres découverts dans les documents PDF et les documents image par IronOCR. Vous pouvez accéder à ces informations à partir de l'objet [OcrResult](https://ironsoftware.com/csharp/ocr/examples/results-objects/) retourné en utilisant la méthode `Read`. Le système de résultats complet d'IronOcr s'appuie sur le puissant moteur [Tesseract 5](https://ironsoftware.com/csharp/ocr/features/tesseract/), offrant aux développeurs des capacités d'extraction de données structurées allant au-delà de la simple reconnaissance de texte. Qu'il s'agisse de traiter des [documents numérisés](https://ironsoftware.com/csharp/ocr/examples/read-scanned-document/), des [photos](https://ironsoftware.com/csharp/ocr/examples/read-photo/) ou des [captures d'écran](https://ironsoftware.com/csharp/ocr/examples/read-screenshot/), la classe `OcrResult` vous offre un contrôle granulaire sur les données extraites. ```csharp :path=/static-assets/ocr/content-code-examples/how-to/read-results-output-information.cs ```
Débogueur Visual Studio montrant les résultats de l'extraction OCR avec les coordonnées et le texte d'un document commercial japonais
### Comment accéder au contenu textuel des résultats de l'OCR? L'objet `OcrResult` présente le texte extrait de manière simple et intuitive, ce qui permet aux développeurs de l'utiliser directement ou de l'intégrer dans d'autres composants d'application. La structure hiérarchique reflète l'organisation naturelle du texte du document, ce qui facilite le travail avec le contenu à différents niveaux de granularité. Pour les applications nécessitant une [prise en charge de plusieurs langues](https://ironsoftware.com/csharp/ocr/how-to/ocr-multiple-languages/), IronOCR gère de manière transparente les documents multilingues, en conservant le même format de résultat structuré dans les [125 langues prises en charge](https://ironsoftware.com/csharp/ocr/examples/intl-languages/). L'exemple de code suivant imprime du texte dans une boucle pour vérifier les résultats. ```csharp :path=/static-assets/ocr/content-code-examples/how-to/read-results-output-text.cs ``` #### Sortie
Terminal affichant les résultats de la détection de paragraphes OCR avec le texte extrait sur Masayoshi Son et Yasumitsu Shigeta
La sortie de la console montre qu'IronOCR extrait le texte du paragraphe ligne par ligne avec précision. Le moteur détecte automatiquement les limites des paragraphes, ce qui le rend idéal pour le traitement de documents complexes comportant plusieurs blocs de texte. ### Comment obtenir les coordonnées de l'emplacement du texte détecté? Outre le texte extrait, le `OcrResult` fournit des données de localisation détaillées. Ces informations spatiales sont cruciales pour les applications qui doivent maintenir la fidélité de la mise en page ou effectuer une extraction de texte ciblée à partir de régions spécifiques du document. Le système de coordonnées utilise des mesures standard en pixels à partir du coin supérieur gauche de la page. Pour améliorer la précision des opérations basées sur les coordonnées, envisagez d'utiliser [OCR region targeting](https://ironsoftware.com/csharp/ocr/how-to/ocr-region-of-an-image/) pour vous concentrer sur des zones spécifiques, ou exploitez [Computer Vision capabilities](https://ironsoftware.com/csharp/ocr/how-to/computer-vision/) pour identifier automatiquement les zones de texte. Le code suivant montre comment itérer sur chaque paragraphe et imprimer ses coordonnées (X et Y) sur la console. ```csharp :path=/static-assets/ocr/content-code-examples/how-to/read-results-output-text.cs ``` #### Sortie
Sortie du terminal montrant les coordonnées des paragraphes détectés par l'OCR avec les valeurs X,Y : (29,30), (28,74), et (27,362)
Le résultat montre trois ensembles de coordonnées correspondant à trois paragraphes. Ces coordonnées peuvent être utilisées pour dessiner des boîtes de délimitation, extraire des régions spécifiques ou maintenir des relations spatiales entre des éléments de texte.

Quels sont les autres attributs disponibles dans les résultats de l'OCR ? Outre le texte et les coordonnées du texte, IronOCR fournit des informations supplémentaires. Pour chaque élément de texte (paragraphes, lignes, mots et caractères individuels), les informations suivantes sont disponibles : - **Texte** : Le texte réel sous forme de chaîne de caractères. - **X** : La position du bord gauche de la page en pixels. - **Y** : La position par rapport au bord supérieur de la page en pixels. - **Largeur** : La largeur en pixels. - **Hauteur** : La hauteur en pixels. - **Direction du texte** : La direction dans laquelle le texte a été lu (de gauche à droite ou de haut en bas). - : Un rectangle indiquant l'emplacement de ce texte sur la page en pixels. Ces attributs sont particulièrement utiles lors de la mise en œuvre : - Systèmes de surlignage de texte et d'annotation - Détection automatisée des champs de formulaire - Préservation de la mise en page lors de la conversion de documents - Analyse de textes spatiaux pour l'extraction de données Pour le débogage et la visualisation, utilisez la fonction [highlight texts](https://ironsoftware.com/csharp/ocr/examples/highlight-texts-for-debugging/) pour vérifier visuellement l'exactitude des régions détectées. ### Comment les paragraphes, les lignes, les mots et les caractères se comparent-ils? La structure hiérarchique du texte d'IronOCR permet aux développeurs de travailler au niveau de détail approprié pour leur cas d'utilisation spécifique. Comprendre les différences entre ces éléments permet de choisir la bonne granularité pour votre application. Vous trouverez ci-dessous la comparaison des paragraphes, lignes, mots et caractères détectés.
Profils biographiques des entrepreneurs technologiques japonais Masayoshi Son et Yasumitsu Shigeta
Document surligné en rouge présentant les profils des dirigeants japonais de l'industrie technologique Masayoshi Son et Yasumitsu Shigeta
Mise en évidence du texte par des encadrés rouges superposés aux mots sélectionnés dans un paragraphe sur les investissements technologiques
Détection de texte au niveau des caractères montrant les limites des caractères individuels dans les résultats de l'OCR
Chaque niveau de granularité répond à des objectifs différents : - **Paragraphees** : idéal pour l'analyse de la structure des documents et l'extraction de textes en vrac - **Lignes** : Utile pour maintenir l'ordre de lecture et traiter les données tabulaires - **Mots** : Idéal pour les fonctions de recherche et d'analyse de texte - **Personnages** : Parfaits pour les applications de vérification orthographique et d'édition de textes précis ## L'IronOCR peut-il lire les BarCodes et les QR Codes? Oui, IronOCR peut lire les codes-barres et les codes QR. Bien que la fonctionnalité ne soit pas aussi robuste que celle d'IronBarcode, IronOCR offre une prise en charge des types de codes-barres courants. Pour activer la détection des codes-barres, définissez la propriété **Configuration.ReadBarCodes** sur true. Cette fonctionnalité intégrée fait d'IronOCR un excellent choix pour le traitement de documents contenant à la fois du texte et des codes-barres, tels que des factures, des étiquettes d'expédition ou des catalogues de produits. En outre, des informations précieuses peuvent être extraites des BarCodes détectés, notamment le format, la valeur, les coordonnées (x, y), la hauteur, la largeur et l'emplacement en tant qu'objet `IronSoftware.Drawing.Rectangle`. Cette classe **Rectangle** d' [IronDrawing](https://ironsoftware.com/open-source/csharp/drawing/docs/) permet un positionnement précis sur le document. Pour des scénarios de lecture de codes-barres plus avancés, consultez les [exemples de lecture de codes-barres](https://ironsoftware.com/csharp/ocr/examples/csharp-ocr-barcodes/) complets dans notre documentation. ```csharp :path=/static-assets/ocr/content-code-examples/how-to/read-results-barcodes.cs ``` ### À quoi ressemble la sortie de la détection de BarCode? La fonction de détection des codes-barres dans IronOcr s'intègre de manière transparente à l'extraction de texte, fournissant des résultats unifiés incluant à la fois le contenu textuel et les données des codes-barres. Cette double capacité est précieuse pour les flux de traitement automatisé de documents où les deux types d'informations doivent être extraits et corrélés.
Console de débogage montrant les résultats de la détection des codes-barres QR et EAN8 avec les formats, les valeurs et les coordonnées
La sortie démontre la capacité d'IronOCR à détecter simultanément plusieurs types de codes-barres, en fournissant l'identification du format (tel que QRCode ou EAN8), les valeurs décodées et des informations précises sur les coordonnées pour chaque code détecté. Ces données complètes permettent aux développeurs de créer des applications de traitement de documents sophistiquées qui gèrent efficacement des types de contenu mixtes.

Questions Fréquemment Posées

Quelles sont les informations contenues dans l'objet OcrResult ?

L'objet OcrResult d'IronOcr contient le texte extrait ainsi que des métadonnées détaillées, notamment des coordonnées X/Y précises, des dimensions (largeur et hauteur), la direction du texte (de gauche à droite ou de haut en bas) et la structure hiérarchique organisée en paragraphes, lignes, mots et caractères individuels pour chaque élément détecté.

Comment puis-je extraire rapidement le premier mot d'un résultat d'OCR ?

Vous pouvez extraire le texte du premier mot en utilisant la méthode Read d'IronOCR et en accédant à la collection Words : `string wordText = new IronTesseract().Read("file.jpg").Words[0].Text;`. Cela permet d'accéder instantanément à des éléments de mots individuels à partir des résultats de l'OCR.

Quels types de données de coordonnées sont disponibles dans les résultats de l'OCR ?

IronOcr fournit des coordonnées X et Y précises pour chaque élément détecté (paragraphes, lignes, mots et caractères), ainsi que les dimensions de largeur et de hauteur. Ces coordonnées sont accessibles par le biais de l'objet CropRectangle, ce qui permet un suivi précis de l'emplacement des éléments de texte.

Puis-je extraire des métadonnées au-delà du simple contenu textuel ?

Oui, IronOcr extrait des métadonnées complètes, notamment les pages, les paragraphes, les lignes, les mots, les caractères et même les codes-barres découverts dans les documents PDF et les images. L'objet OcrResult donne accès à la direction du texte, à la structure hiérarchique et aux informations spatiales pour chaque élément.

Quels types de documents peuvent être traités pour obtenir des résultats d'OCR ?

IronOCR peut traiter différents types de documents, notamment des documents numérisés, des photos, des captures d'écran, des PDF et des fichiers image. La méthode Read fonctionne de manière cohérente dans tous ces formats, renvoyant le même objet OcrResult structuré avec des métadonnées complètes.

Comment le texte extrait est-il organisé dans les résultats ?

IronOCR organise le texte extrait dans une structure hiérarchique qui reflète l'organisation naturelle des documents. L'objet OcrResult présente le contenu à différents niveaux de granularité - des pages entières aux caractères individuels - ce qui facilite le travail avec le texte au niveau approprié pour votre application.

Chaknith Bin
Ingénieur logiciel
Chaknith travaille sur IronXL et IronBarcode. Il a une expertise approfondie en C# et .NET, aidant à améliorer le logiciel et à soutenir les clients. Ses idées issues des interactions avec les utilisateurs contribuent à de meilleurs produits, documentation et expérience globale.
Prêt à commencer?
Nuget Téléchargements 5,246,844 | Version : 2025.12 vient de sortir