Extraction de texte à partir d'image en utilisant un logiciel d'apprentissage automatique
L'extraction de texte à partir d'images textuelles, de documents capturés ou numérisés à l'aide de l'apprentissage automatique est un domaine en plein essor, à la croisée de la vision par ordinateur et du traitement du langage naturel. Cette technologie s'appuie sur l'apprentissage automatique avancé, des algorithmes de reconnaissance d'objets, des logiciels graphiques de pointe, le deep web et le dark web, ainsi que des architectures de réseaux neuronaux pour identifier et extraire avec précision des informations textuelles à partir d'images et de documents papier numérisés. En utilisant diverses technologies d'apprentissage automatique telles que l'OCR et l'apprentissage profond, elle permet une conversion automatisée et efficace de la détection de texte dans des scènes visuelles en données structurées modifiables et consultables, ainsi que la détection d'objets.
Dans ce paysage en constante évolution, chercheurs et praticiens s'efforcent sans cesse d'améliorer la précision, la rapidité et la polyvalence, faisant de la détection et de l'extraction de texte à partir d'images, de données lisibles par machine et de documents numérisés un élément central dans des applications telles que la numérisation de documents imprimés, l'indexation de contenu, la traduction et l'amélioration de l'accessibilité.
Dans cet article, nous allons voir comment extraire du texte à partir d'images à l'aide de la bibliothèque IronOCR, optimisée par de puissants algorithmes d'apprentissage automatique et des fonctionnalités liées au texte. L'extraction de texte, également appelée extraction de mots-clés, repose sur l'apprentissage automatique pour analyser et extraire automatiquement des mots et des expressions pertinents ou de base à partir de données non structurées ou de la base de données centrale de l'entreprise.
Comment extraire du texte d'une image à l'aide de l'apprentissage automatique ?
- Téléchargez la bibliothèque C# pour l'extraction de texte à partir d'images.
- Chargez une image spécifique en instanciant l'objet OcrInput pour la reconnaissance de texte dans une scène.
- Extrayez les données de l'image à l'aide de la méthode ocrTesseract.Read.
- PRINT le texte extrait dans la console à l'aide de la méthode Console.WriteLine.
- Effectuer une OCR sur une zone d'une image à l'aide de l'objet CropRectangle.
IronOCR - Une bibliothèque OCR (reconnaissance optique de caractères)
IronOCR, un logiciel de reconnaissance optique de caractères (OCR) réputé et sophistiqué, est à la pointe de la technologie d'extraction de texte à partir d'images et de documents. Développé par Iron Software, ce puissant moteur OCR est conçu pour convertir avec précision et efficacité des images numérisées, des PDF ou même des photographies de texte en contenu numérique modifiable et consultable. Grâce à son utilisation experte des algorithmes d'apprentissage automatique et des réseaux neuronaux, IronOCR offre une solution robuste pour diverses applications, notamment l'extraction de données, l'indexation de contenu et les processus d'automatisation qui nécessitent une reconnaissance précise du texte.
Sa capacité à gérer plusieurs langues et diverses polices en fait un outil polyvalent tant pour les développeurs que pour les entreprises à la recherche de capacités d'extraction d'algorithmes de reconnaissance de texte optimisées dans leurs logiciels et applications. Vous pouvez utiliser IronOCR pour numériser automatiquement du texte à l'aide d'une technique courante de reconnaissance de texte qui convertit les données non structurées en une page parfaitement numérisée grâce à des algorithmes d'extraction de texte.
Installation d'IronOCR
IronOCR peut être installé à l'aide du Package Manager NuGet. Voici les étapes à suivre pour installer IronOCR :
- Commencez par créer un nouveau projet C# dans Visual Studio ou ouvrez-en un existant.

- Une fois le projet créé, accédez à Outils dans le menu supérieur et sélectionnez Package Manager NuGet, puis sélectionnez Package Manager NuGet pour la solution.

- Une nouvelle fenêtre s'affichera à l'écran. Allez dans l'onglet Parcourir et saisissez IronOCR dans la barre de recherche.
- Une liste des packages IronOCR s'affichera. Sélectionnez la dernière version et cliquez sur " Installer ".

- Cela prendra quelques secondes, en fonction de votre connexion Internet ; Après cela, IronOCR est prêt à être utilisé dans votre projet C#.
Détection de texte à partir d'images pour obtenir des données modifiables et consultables
Grâce à IronOCR, vous pouvez facilement extraire du texte à l'aide de techniques de traitement d'images et d'apprentissage automatique. Dans cette section, nous verrons comment extraire du texte à partir d'images à l'aide d'IronOCR.
using IronOcr;
using System;
// Create a new instance of the IronTesseract class
var ocrTesseract = new IronTesseract();
// Specify the image path and perform OCR on the image
using (var ocrInput = new OcrInput(@"images\image.png"))
{
var ocrResult = ocrTesseract.Read(ocrInput);
// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;
// Create a new instance of the IronTesseract class
var ocrTesseract = new IronTesseract();
// Specify the image path and perform OCR on the image
using (var ocrInput = new OcrInput(@"images\image.png"))
{
var ocrResult = ocrTesseract.Read(ocrInput);
// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System
' Create a new instance of the IronTesseract class
Private ocrTesseract = New IronTesseract()
' Specify the image path and perform OCR on the image
Using ocrInput As New OcrInput("images\image.png")
Dim ocrResult = ocrTesseract.Read(ocrInput)
' Print the extracted text to the console
Console.WriteLine(ocrResult.Text)
End Using
Ce code C# illustre l'utilisation d'IronOCR, une bibliothèque de reconnaissance optique de caractères (OCR). Voici une explication étape par étape :
-
Importation de bibliothèques :
using IronOcr; using System;using IronOcr; using System;Imports IronOcr Imports System$vbLabelText $csharpLabelLe code commence par importer les bibliothèques nécessaires, notamment la bibliothèque IronOCR, qui fournit la fonctionnalité OCR, et l'espace de noms System pour les fonctionnalités générales.
-
Initialisation d'IronTesseract et chargement de l'image :
var ocrTesseract = new IronTesseract();var ocrTesseract = new IronTesseract();Dim ocrTesseract As New IronTesseract()$vbLabelText $csharpLabelCette ligne crée une instance d'IronTesseract, le moteur OCR fourni par IronOCR.
using (var ocrInput = new OcrInput(@"images\image.png"))using (var ocrInput = new OcrInput(@"images\image.png"))Using ocrInput As New OcrInput("images\image.png")$vbLabelText $csharpLabelUn objet OcrInput est instancié avec le chemin d'accès à l'image à traiter. Dans ce cas, le fichier image est " image.png " dans le répertoire " images ".
-
Réalisation de l'OCR et extraction du texte :
var ocrResult = ocrTesseract.Read(ocrInput);var ocrResult = ocrTesseract.Read(ocrInput);Dim ocrResult = ocrTesseract.Read(ocrInput)$vbLabelText $csharpLabelCette ligne appelle la méthode Read de l'instance IronTesseract, en lui transmettant l'objet OcrInput. Cette méthode effectue une OCR sur l'image fournie et extrait le texte.
-
Affichage du texte extrait :
Console.WriteLine(ocrResult.Text);Console.WriteLine(ocrResult.Text);Console.WriteLine(ocrResult.Text)$vbLabelText $csharpLabelEnfin, le texte extrait est affiché sur la console à l'aide de Console.WriteLine, affichant le résultat de l'OCR obtenu à partir de l'image.
Cet extrait de code utilise IronOCR pour effectuer une reconnaissance optique de caractères (OCR) sur l'image spécifiée et affiche le texte extrait dans la console.
Image d'entrée

Résultat

Effectuer une OCR sur la zone spécifiée de l'image
Vous pouvez également effectuer une reconnaissance optique de caractères (OCR) sur des zones spécifiques de l'image à l'aide d'IronOCR. Voici un exemple de code :
using IronOcr;
using IronSoftware.Drawing;
using System;
// Create a new instance of the IronTesseract class
var ocrTesseract = new IronTesseract();
// Specify the region on the image to be processed
using (var ocrInput = new OcrInput())
{
var ContentArea = new CropRectangle(x: 20, y: 20, width: 400, height: 50);
// Add the image with the defined content area
ocrInput.AddImage("r3.png", ContentArea);
// Perform OCR on the specified region and extract text
var ocrResult = ocrTesseract.Read(ocrInput);
// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using IronSoftware.Drawing;
using System;
// Create a new instance of the IronTesseract class
var ocrTesseract = new IronTesseract();
// Specify the region on the image to be processed
using (var ocrInput = new OcrInput())
{
var ContentArea = new CropRectangle(x: 20, y: 20, width: 400, height: 50);
// Add the image with the defined content area
ocrInput.AddImage("r3.png", ContentArea);
// Perform OCR on the specified region and extract text
var ocrResult = ocrTesseract.Read(ocrInput);
// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports IronSoftware.Drawing
Imports System
' Create a new instance of the IronTesseract class
Private ocrTesseract = New IronTesseract()
' Specify the region on the image to be processed
Using ocrInput As New OcrInput()
Dim ContentArea = New CropRectangle(x:= 20, y:= 20, width:= 400, height:= 50)
' Add the image with the defined content area
ocrInput.AddImage("r3.png", ContentArea)
' Perform OCR on the specified region and extract text
Dim ocrResult = ocrTesseract.Read(ocrInput)
' Print the extracted text to the console
Console.WriteLine(ocrResult.Text)
End Using
Ce code C# utilise la bibliothèque IronOCR pour la reconnaissance optique de caractères (OCR). Elle importe d'abord les bibliothèques nécessaires, notamment la bibliothèque IronOCR et System. Une instance d'IronTesseract, le moteur OCR, est créée. Le code définit une zone de contenu spécifique (ContentArea) dans l'image à traiter à l'aide d'un CropRectangle, en se concentrant sur une région définie. L'image (" r3.png ") située dans cette zone désignée est ensuite ajoutée pour le traitement OCR. Le moteur OCR lit la zone de contenu spécifiée, extrait le texte, et le texte obtenu est affiché sur la console à l'aide de Console.WriteLine.
Résultat

Conclusion
L'extraction de texte à partir d'images grâce à l'apprentissage automatique, notamment en utilisant des bibliothèques de reconnaissance optique de caractères (OCR) telles que la bibliothèque IronOCR, marque une avancée révolutionnaire à la croisée de la vision par ordinateur et du traitement du langage naturel. La technologie OCR et les techniques d'apprentissage profond jouent toutes deux un rôle central dans la conversion efficace de texte visuel en données modifiables et consultables, servant des objectifs essentiels tels que la numérisation de documents, l'indexation de contenu et l'amélioration de l'accessibilité.
IronOCR, en tant que bibliothèque OCR de premier plan, illustre le potentiel de cette fusion, excellant dans la conversion précise d'images numérisées et de fichiers PDF en contenu numérique modifiable, dans de nombreuses langues et avec différents styles de police. Son intégration transparente dans des langages de programmation tels que C# permet une mise en œuvre simplifiée, amplifiant encore davantage l'impact transformateur de l'extraction de texte à partir d'images dans de nombreuses applications et domaines.
Pour en savoir plus sur IronOCR et toutes ses fonctionnalités, cliquez ici. Le tutoriel complet sur l'extraction de texte à partir d'images est disponible via le lien suivant. La licence IronOCR peut être achetée via ce lien.