Extraction de texte à partir d'image en utilisant un logiciel d'apprentissage automatique
L'extraction de texte à partir d'images textuelles capturées ou de documents scannés à l'aide de l'apprentissage automatique est un domaine en pleine expansion à l'intersection de la vision par ordinateur et du traitement du langage naturel. Cette technologie utilise des algorithmes avancés d'apprentissage automatique, de reconnaissance d'objets, de logiciels graphiques avancés, de web profond et web sombre, et d'architectures de réseaux neuronaux pour identifier et extraire avec précision des informations textuelles à partir d'images et de documents papier scannés. En employant diverses technologies d'apprentissage automatique telles que la reconnaissance optique de caractères (OCR) et l'apprentissage profond, elle permet une conversion automatisée et efficace de la détection de texte de scène visuelle en données structurées éditables et consultables et de la détection d'objets.
Dans ce paysage en évolution, les chercheurs et praticiens s'efforcent continuellement d'améliorer la précision, la vitesse et la polyvalence, faisant de la détection et de l'extraction de texte à partir d'images, de données lisibles par machine et de documents scannés un composant essentiel dans des applications comme la numérisation de documents imprimés, l'indexation de contenu, la traduction et l'amélioration de l'accessibilité.
Dans cet article, nous allons discuter de la façon dont vous pouvez extraire du texte à partir d'images en utilisant IronOCR, une bibliothèque OCR propulsée par de puissants algorithmes d'apprentissage automatique et des fonctionnalités liées au texte. L'extraction de texte, également connue sous le nom d'extraction de mots-clés, repose sur l'apprentissage automatique pour scanner et extraire automatiquement les mots ou phrases pertinents ou de base à partir de données non structurées ou de la base de données centrale de l'entreprise.
Comment extraire du texte à partir d'une image à l'aide de l'apprentissage automatique ?
- Téléchargez la bibliothèque C# pour l'extraction de texte à partir d'images.
- Chargez une image particulière en instanciant l'objet OcrInput pour la reconnaissance de texte de scène.
- Extrayez les données de l'image à l'aide de la méthode ocrTesseract.Read.
- Imprimez le texte extrait dans la console en utilisant la méthode Console.WriteLine.
- Effectuez l'OCR sur la région d'une image en utilisant l'objet CropRectangle.
IronOCR - Une bibliothèque OCR (Optical Character Recognition)
IronOCR, un logiciel de reconnaissance optique de caractères (OCR) sophistiqué et renommé, se situe à la pointe de la technologie d'extraction de texte à partir d'images et de documents. Développé par Iron Software, ce puissant moteur OCR est conçu pour convertir de manière précise et efficace des images scannées, des PDFs, voire même des photographies de texte en contenu numérique éditable et consultable. Grâce à son utilisation habile d'algorithmes d'apprentissage automatique et de réseaux neuronaux, IronOCR fournit une solution robuste pour diverses applications, y compris l'extraction de données, l'indexation de contenu et les processus d'automatisation qui nécessitent une reconnaissance de texte précise.
Sa capacité à gérer plusieurs langues et diverses polices en fait un outil polyvalent pour les développeurs et les entreprises cherchant à rationaliser les capacités d'extraction d'algorithmes de reconnaissance de texte dans leurs logiciels et applications. Vous pouvez utiliser IronOCR pour scanner automatiquement du texte en utilisant une technique commune de reconnaissance de texte qui convertit des données non structurées en une page parfaitement scannée en utilisant des algorithmes d'extraction de texte.
Installation d'IronOCR
IronOCR peut être installé en utilisant le NuGet Package Manager. Voici les étapes pour installer IronOCR :
- Tout d'abord, créez un nouveau projet C# dans Visual Studio ou ouvrez-en un existant.

- Une fois le projet créé, allez dans Outils dans le menu supérieur, sélectionnez NuGet Package Manager, puis sélectionnez le NuGet Package Manager pour la solution.

- Une nouvelle fenêtre apparaîtra à l'écran. Allez dans l'onglet Parcourir et écrivez IronOCR dans la barre de recherche.
- Une liste de packages IronOCR apparaîtra. Sélectionnez le dernier et cliquez sur installer.

- Cela prendra quelques secondes en fonction de votre connexion internet ; après cela, IronOCR est prêt à être utilisé dans votre projet C#.
Détection de texte à partir d'images en données éditables et consultables
En utilisant IronOCR, vous pouvez facilement extraire du texte en utilisant des techniques de traitement d'image et de l'apprentissage automatique. Dans cette section, nous discuterons de la manière d'extraire du texte à partir d'images en utilisant IronOCR.
using IronOcr;
using System;
// Create a new instance of the IronTesseract class
var ocrTesseract = new IronTesseract();
// Specify the image path and perform OCR on the image
using (var ocrInput = new OcrInput(@"images\image.png"))
{
var ocrResult = ocrTesseract.Read(ocrInput);
// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;
// Create a new instance of the IronTesseract class
var ocrTesseract = new IronTesseract();
// Specify the image path and perform OCR on the image
using (var ocrInput = new OcrInput(@"images\image.png"))
{
var ocrResult = ocrTesseract.Read(ocrInput);
// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System
' Create a new instance of the IronTesseract class
Private ocrTesseract = New IronTesseract()
' Specify the image path and perform OCR on the image
Using ocrInput As New OcrInput("images\image.png")
Dim ocrResult = ocrTesseract.Read(ocrInput)
' Print the extracted text to the console
Console.WriteLine(ocrResult.Text)
End Using
Ce code C# démontre l'utilisation de IronOCR, une bibliothèque pour la reconnaissance optique de caractères (OCR). Voici une explication étape par étape :
-
Importations des bibliothèques :
using IronOcr; using System;using IronOcr; using System;Imports IronOcr Imports System$vbLabelText $csharpLabelLe code commence par importer les bibliothèques nécessaires, y compris IronOcr, qui fournit la fonctionnalité OCR, et l'espace de noms System pour les fonctionnalités générales.
-
Initialisation de IronTesseract et Chargement de l'image :
var ocrTesseract = new IronTesseract();var ocrTesseract = new IronTesseract();IRON VB CONVERTER ERROR developers@ironsoftware.com$vbLabelText $csharpLabelCette ligne crée une instance de IronTesseract, qui est le moteur OCR fourni par IronOCR.
using (var ocrInput = new OcrInput(@"images\image.png"))using (var ocrInput = new OcrInput(@"images\image.png"))Using ocrInput As New OcrInput("images\image.png")$vbLabelText $csharpLabelUn objet OcrInput est instancié avec le chemin vers l'image à traiter. Dans ce cas, le fichier image est "image.png" dans le répertoire "images".
-
Exécution de l'OCR et Extraction de Texte :
var ocrResult = ocrTesseract.Read(ocrInput);var ocrResult = ocrTesseract.Read(ocrInput);IRON VB CONVERTER ERROR developers@ironsoftware.com$vbLabelText $csharpLabelCette ligne invoque la méthode Read de l'instance IronTesseract, en passant l'objet OcrInput. Cette méthode effectue l'OCR sur l'image fournie et extrait le texte.
-
Affichage du Texte Extrait :
Console.WriteLine(ocrResult.Text);Console.WriteLine(ocrResult.Text);Console.WriteLine(ocrResult.Text)$vbLabelText $csharpLabelEnfin, le texte extrait est imprimé dans la console en utilisant Console.WriteLine, affichant le résultat de l'OCR obtenu à partir de l'image.
Cet extrait de code utilise IronOCR pour effectuer l'OCR sur la reconnaissance de texte de l'image spécifiée et affiche le texte extrait dans la console.
Image d'entrée

Sortie

Effectuer l'OCR sur la région spécifiée de l'image
Vous pouvez également effectuer l'OCR sur des régions spécifiques de l'image en utilisant IronOCR. Voici un exemple de code :
using IronOcr;
using IronSoftware.Drawing;
using System;
// Create a new instance of the IronTesseract class
var ocrTesseract = new IronTesseract();
// Specify the region on the image to be processed
using (var ocrInput = new OcrInput())
{
var ContentArea = new CropRectangle(x: 20, y: 20, width: 400, height: 50);
// Add the image with the defined content area
ocrInput.AddImage("r3.png", ContentArea);
// Perform OCR on the specified region and extract text
var ocrResult = ocrTesseract.Read(ocrInput);
// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using IronSoftware.Drawing;
using System;
// Create a new instance of the IronTesseract class
var ocrTesseract = new IronTesseract();
// Specify the region on the image to be processed
using (var ocrInput = new OcrInput())
{
var ContentArea = new CropRectangle(x: 20, y: 20, width: 400, height: 50);
// Add the image with the defined content area
ocrInput.AddImage("r3.png", ContentArea);
// Perform OCR on the specified region and extract text
var ocrResult = ocrTesseract.Read(ocrInput);
// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports IronSoftware.Drawing
Imports System
' Create a new instance of the IronTesseract class
Private ocrTesseract = New IronTesseract()
' Specify the region on the image to be processed
Using ocrInput As New OcrInput()
Dim ContentArea = New CropRectangle(x:= 20, y:= 20, width:= 400, height:= 50)
' Add the image with the defined content area
ocrInput.AddImage("r3.png", ContentArea)
' Perform OCR on the specified region and extract text
Dim ocrResult = ocrTesseract.Read(ocrInput)
' Print the extracted text to the console
Console.WriteLine(ocrResult.Text)
End Using
Ce code C# utilise la bibliothèque IronOCR pour la reconnaissance optique de caractères (OCR). Il importe d'abord les bibliothèques nécessaires, y compris IronOCR et System. Une instance de IronTesseract, le moteur OCR, est créée. Le code définit une ContentArea spécifique dans l'image à traiter en utilisant un CropRectangle, en se concentrant sur une région définie. L'image ("r3.png") au sein de cette zone désignée est ensuite ajoutée pour le traitement OCR. Le moteur OCR lit la zone de contenu spécifiée, extrait le texte, et le texte résultant est imprimé dans la console à l'aide de Console.WriteLine.
Sortie

Conclusion
L'extraction de texte à partir d'images via l'apprentissage automatique, utilisant notamment des bibliothèques OCR comme IronOCR, représente une avancée transformatrice au carrefour de la vision par ordinateur et du traitement du langage naturel. La technologie OCR ainsi que les techniques d'apprentissage profond jouent toutes deux un rôle crucial dans la conversion efficace du texte visuel en données éditables et consultables, servant des fonctions essentielles telles que la numérisation de documents, l'indexation de contenu et l'amélioration de l'accessibilité.
IronOCR, en tant que bibliothèque OCR renommée, illustre le potentiel de cette fusion, excellant dans la conversion précise d'images scannées et de PDF en contenu numérique éditable dans de multiples langues et styles de polices. Son intégration fluide dans des langages de programmation comme C# permet une mise en œuvre simplifiée, amplifiant ainsi l'impact transformateur de l'extraction de texte à partir d'images dans de nombreuses applications et domaines.
Pour en savoir plus sur IronOCR et toutes les fonctionnalités associées, visitez ce lien ici. Le tutoriel complet sur l'extraction de texte à partir d'images est disponible à ce lien. La licence IronOCR peut être achetée depuis ce lien.