LIVRES BLANCS

Extraction de texte à partir d'une image à l'aide d'un logiciel d'apprentissage automatique

Mise à jour février 28, 2023
TECHNOLOGIE
Partager:

L'extraction de texte à partir d'images textuelles capturées ou de documents scannés à l'aide de l'apprentissage automatique est un domaine en plein essor à l'intersection de la vision par ordinateur et du traitement du langage naturel. Cette technologie s'appuie sur des algorithmes avancés d'apprentissage automatique et de reconnaissance d'objets, des logiciels graphiques avancés, des architectures de réseaux neuronaux et du deep et dark web pour identifier et extraire avec précision des informations textuelles à partir d'images et de documents papier scannés, allant de notes manuscrites et de textes imprimés à des typographies complexes dans des contextes variés. En employant diverses technologies d'apprentissage automatique telles que la reconnaissance optique de caractères(OCR) et l'apprentissage profond, il permet une conversion automatisée et efficace de la détection de texte de la scène visuelle en données structurées modifiables et consultables, ainsi que la détection d'objets.

Dans ce paysage en évolution, les chercheurs et les praticiens s'efforcent continuellement d'améliorer la précision, la vitesse et la polyvalence, faisant de la détection et de l'extraction de texte à partir d'images, de données lisibles par machine et de documents scannés un élément essentiel dans des applications telles que la numérisation de documents imprimés, l'indexation de contenu, la traduction et l'amélioration de l'accessibilité.

Dans cet article, nous verrons comment extraire du texte d'une image à l'aide de la fonctionIronOCRoCR, une bibliothèque d'OCR alimentée par de puissants algorithmes d'apprentissage automatique et des fonctionnalités liées au texte. L'extraction de texte, également connue sous le nom d'extraction de mots-clés, est basée sur l'apprentissage automatique pour scanner et extraire automatiquement des mots pertinents ou basiques et des phrases à partir de données non structurées ou de la base de données centrale de l'entreprise.

Comment extraire du texte d'une image à l'aide de l'apprentissage automatique ?

  1. Téléchargez la bibliothèque C# pour l'extraction de texte à partir d'images.

  2. Charger une image particulière en instanciant l'objet OcrInput pour la reconnaissance de texte de scène.

  3. Extraire les données de l'image à l'aide de la méthode ocrTesseract.Read.

  4. Imprimer le texte extrait dans la console en utilisant la méthode Console.WriteLine.

  5. Effectuer l'OCR sur la région d'une image en utilisant l'objet CropRectangle.**

IronOCR- Une bibliothèque OCR (Reconnaissance Optique de Caractères)

IronOCR, un système de reconnaissance optique de caractères important et sophistiqué(OCR) est à la pointe de la technologie en matière d'extraction de texte à partir d'images et de documents. Développé par Iron Software, ce puissant moteur d'OCR est conçu pour convertir avec précision et efficacité des images numérisées, des PDF ou même des photographies de texte en contenu numérique éditable et consultable. Grâce à son utilisation adroite d'algorithmes d'apprentissage automatique et de réseaux neuronaux, IronOCR constitue une solution robuste pour diverses applications, notamment l'extraction de données, l'indexation de contenu et les processus d'automatisation qui nécessitent une reconnaissance textuelle précise.

Sa capacité à gérer plusieurs langues et diverses polices en fait un outil polyvalent pour les développeurs et les entreprises qui recherchent des capacités d'extraction d'algorithmes de reconnaissance de texte rationalisés dans leurs logiciels et applications. Vous pouvez utiliser IronOCR pour numériser automatiquement du texte à l'aide d'une technique courante de reconnaissance de texte qui convertit des données non structurées en une page parfaitement numérisée à l'aide d'algorithmes d'extraction de texte.

Installation de l'IronOCR

IronOCR peut être installé à l'aide du gestionnaire de paquets NuGet, voici les étapes pour installer IronOCR.

  1. Créez d'abord un nouveau projet C# Visual Studio ou ouvrez un projet existant.

    Visual Studio

  2. Une fois le projet créé, allez dans Outils dans le menu supérieur et sélectionnez NuGet Package Manager, puis sélectionnez NuGet Package Manager for Solution.

    Menu Outils

  3. Une nouvelle fenêtre apparaît à l'écran. Allez dans l'onglet Parcourir et écrivez IronOCR dans la barre de recherche.

  4. Une liste de paquets IronOCR apparaîtra, sélectionnez le dernier et cliquez sur installer.

    IronOCR

  5. Cela prendra quelques secondes en fonction de votre connexion internet, après quoi IronOCR est prêt à être utilisé dans votre projet C#.

Détection de texte à partir d'images vers des données modifiables et consultables

En utilisant IronOCR, vous pouvez facilement extraire le texte en utilisant des techniques de traitement d'image et d'apprentissage automatique. Dans cette section, nous verrons comment extraire du texte à partir d'images à l'aide d'IronOCR.

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()
Using ocrInput As New OcrInput("images\image.png")
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
VB   C#

Ce code C# démontre l'utilisation d'IronOCR, une bibliothèque pour la reconnaissance optique de caractères(OCR). Voici une explication étape par étape :

  1. Importer des bibliothèques :

en utilisant IronOCR ;

en utilisant System ;


Le code commence par importer les bibliothèques nécessaires, notamment **IronOcr**, qui fournit la fonctionnalité OCR, et l'espace de noms **System** pour les fonctionnalités générales.

2. **Initialisation d'IronTesseract et chargement de l'image** :

var ocrTesseract = nouveau IronTesseract();


Cette ligne crée une instance de **IronTesseract**, qui est le moteur d'OCR fourni par IronOCR.

```cs
using (var ocrInput = new OcrInput(@"images\image.png"))

Un objet OcrInput est instancié avec le chemin de l'image à traiter. Dans ce cas, le fichier image est "image.png" dans le répertoire "images".

  1. Réaliser l'OCR et extraire le texte :

var ocrResult = ocrTesseract.Read(ocrInput);


Cette ligne invoque la méthode **Read** de l'instance **IronTesseract**, en transmettant l'objet **OcrInput**. Cette méthode effectue une reconnaissance optique de caractères (OCR) sur l'image fournie et extrait le texte.

4. **Afficher le texte extrait** :

Console.WriteLine(ocrResult.Text);


Enfin, le texte extrait est imprimé sur la console à l'aide de **Console.WriteLine**, ce qui permet d'afficher le résultat de l'OCR obtenu à partir de l'image.

Cet extrait de code utilise IronOCR pour effectuer l'OCR sur la reconnaissance du texte de l'image spécifiée et affiche le texte extrait dans la console.

### Image d'entrée

![Facture](/static-assets/ironsoftware/white-papers/text-extraction-from-image-using-machine-learning/text-extraction-from-image-using-machine-learning-4.webp)

### Sortie

![Édition de la facture du client](/static-assets/ironsoftware/white-papers/text-extraction-from-image-using-machine-learning/text-extraction-from-image-using-machine-learning-5.webp)

### Effectuer l'OCR sur la région spécifiée de l'image

Vous pouvez également effectuer l'OCR sur des régions spécifiques de l'image à l'aide d'IronOCR, dont voici un exemple de code.

en utilisant IronOCR ;

utilisant IronSoftware.Drawing ;

en utilisant System ;

var ocrTesseract = nouveau IronTesseract();

en utilisant(var ocrInput = new OcrInput())

{

var ContentArea = nouveau CropRectangle(x : 20, y : 20, width : 400, height : 50);

ocrInput.AddImage("r3.png", ContentArea);

var ocrResult = ocrTesseract.Read(ocrInput);

Console.WriteLine(ocrResult.Text);

}



Ce code C# utilise la bibliothèque IronOCR pour la reconnaissance optique de caractères(OCR). Il importe d'abord les bibliothèques nécessaires, notamment IronOCR et System. Une instance d'IronTesseract, le moteur d'OCR, est créée. Le code définit un ContentArea spécifique dans l'image à traiter à l'aide d'un CropRectangle, en se concentrant sur une région définie. L'image("r3.png) à l'intérieur de cette zone désignée est ensuite ajoutée pour le traitement OCR. Le moteur OCR lit la zone de contenu spécifiée, extrait le texte et le texte résultant est imprimé sur la console à l'aide de la commande Console.WriteLine.

### Sortie

![Sortie](/static-assets/ironsoftware/white-papers/text-extraction-from-image-using-machine-learning/text-extraction-from-image-using-machine-learning-6.webp)

## Conclusion

Extraction de texte à partir d'images grâce à l'apprentissage automatique, notamment par la reconnaissance optique de caractères(OCR) comme IronOCR, représente une avancée transformatrice au carrefour de la vision par ordinateur et du traitement du langage naturel. Cette technologie, qui s'appuie sur des algorithmes avancés d'apprentissage automatique et des réseaux neuronaux, permet de déchiffrer et d'extraire avec précision du texte à partir de divers types d'images, y compris l'écriture manuscrite, le texte imprimé et la typographie complexe. La technologie OCR et les techniques d'apprentissage profond jouent toutes deux un rôle central dans la conversion efficace de textes visuels en données éditables et consultables, à des fins vitales telles que la numérisation de documents, l'indexation de contenu et l'amélioration de l'accessibilité.

IronOCR, en tant que bibliothèque d'OCR de premier plan, illustre le potentiel de cette fusion, excellant dans la conversion précise d'images numérisées et de PDF en contenu numérique éditable dans plusieurs langues et styles de polices. Son intégration transparente dans des langages de programmation tels que le C# permet une mise en œuvre rationalisée, ce qui amplifie encore l'impact transformateur de l'extraction de texte à partir d'images dans de nombreuses applications et domaines.

Pour en savoir plus[IronOCR](https://ironsoftware.com/csharp/ocr/) et toutes les caractéristiques connexes, visitez ce lien[ici](https://ironsoftware.com/csharp/ocr/features/). Le tutoriel complet sur l'extraction de texte à partir d'images est disponible à l'adresse suivante[lien](https://ironsoftware.com/csharp/ocr/tutorials/how-to-read-text-from-an-image-in-csharp-net/). La licence IronOCR peut être achetée à partir de ce site[lien](https://ironsoftware.com/csharp/ocr/licensing/).
< PRÉCÉDENT
Logiciel de traitement des demandes d'indemnisation en assurance-vie
SUIVANT >
Logiciel d'impression de billets d'événements

Obtenez votre livre blanc gratuit

Merci,

L'email contenant le lien de téléchargement vous sera envoyé sous peu.