LIVRES BLANCS

Extraction de texte à partir d'une image à l'aide d'un logiciel d'apprentissage automatique

février 28, 2023
TECHNOLOGIE
Partager:

L'extraction de texte à partir d'images textuelles capturées ou de documents scannés à l'aide de l'apprentissage automatique est un domaine en plein essor à l'intersection de la vision par ordinateur et du traitement du langage naturel. Cette technologie utilise des algorithmes avancés d'apprentissage automatique, de reconnaissance d'objets, des logiciels graphiques avancés, le deep web et dark web, ainsi que des architectures de réseau neuronal pour identifier et extraire avec précision les informations textuelles à partir d'images et de documents papier numérisés. En employant diverses technologies d'apprentissage automatique telles que la reconnaissance optique de caractères(OCR) et l'apprentissage profond, il permet une conversion automatisée et efficace de la détection de texte de la scène visuelle en données structurées modifiables et consultables, ainsi que la détection d'objets.

Dans ce paysage en évolution, les chercheurs et les praticiens s'efforcent continuellement d'améliorer la précision, la vitesse et la polyvalence, faisant de la détection et de l'extraction de texte à partir d'images, de données lisibles par machine et de documents scannés un élément essentiel dans des applications telles que la numérisation de documents imprimés, l'indexation de contenu, la traduction et l'amélioration de l'accessibilité.

Dans cet article, nous verrons comment extraire du texte d'une image à l'aide de la fonctionIronOCRoCR, une bibliothèque d'OCR alimentée par de puissants algorithmes d'apprentissage automatique et des fonctionnalités liées au texte. L'extraction de texte, également connue sous le nom d'extraction de mots-clés, est basée sur l'apprentissage automatique pour scanner et extraire automatiquement des mots pertinents ou basiques et des phrases à partir de données non structurées ou de la base de données centrale de l'entreprise.

Comment extraire du texte d'une image à l'aide de l'apprentissage automatique ?

  1. Téléchargez la bibliothèque C# pour l'extraction de texte à partir d'images.

  2. Charger une image particulière en instanciant l'objet OcrInput pour la reconnaissance de texte de scène.

  3. Extraire les données de l'image à l'aide de la méthode ocrTesseract.Read.

  4. Imprimer le texte extrait dans la console en utilisant la méthode Console.WriteLine.

  5. Effectuer l'OCR sur la région d'une image en utilisant l'objet CropRectangle.**

IronOCR- Une bibliothèque OCR (Reconnaissance Optique de Caractères)

IronOCR, un système de reconnaissance optique de caractères important et sophistiqué(OCR) est à la pointe de la technologie en matière d'extraction de texte à partir d'images et de documents. Développé par Iron Software, ce puissant moteur d'OCR est conçu pour convertir avec précision et efficacité des images numérisées, des PDF ou même des photographies de texte en contenu numérique éditable et consultable. Grâce à son utilisation adroite d'algorithmes d'apprentissage automatique et de réseaux neuronaux, IronOCR constitue une solution robuste pour diverses applications, notamment l'extraction de données, l'indexation de contenu et les processus d'automatisation qui nécessitent une reconnaissance textuelle précise.

Sa capacité à gérer plusieurs langues et diverses polices en fait un outil polyvalent pour les développeurs et les entreprises qui recherchent des capacités d'extraction d'algorithmes de reconnaissance de texte rationalisés dans leurs logiciels et applications. Vous pouvez utiliser IronOCR pour numériser automatiquement du texte à l'aide d'une technique courante de reconnaissance de texte qui convertit des données non structurées en une page parfaitement numérisée à l'aide d'algorithmes d'extraction de texte.

Installation de l'IronOCR

IronOCR peut être installé à l'aide du gestionnaire de paquets NuGet, voici les étapes pour installer IronOCR.

  1. Créez d'abord un nouveau projet C# Visual Studio ou ouvrez un projet existant.

    Visual Studio

  2. Une fois le projet créé, allez dans Outils dans le menu supérieur et sélectionnez NuGet Package Manager, puis sélectionnez NuGet Package Manager for Solution.

    Menu Outils

  3. Une nouvelle fenêtre apparaît à l'écran. Allez dans l'onglet Parcourir et écrivez IronOCR dans la barre de recherche.

  4. Une liste de paquets IronOCR apparaîtra, sélectionnez le dernier et cliquez sur installer.

    IronOCR

  5. Cela prendra quelques secondes en fonction de votre connexion internet, après quoi IronOCR est prêt à être utilisé dans votre projet C#.

Détection de texte à partir d'images vers des données modifiables et consultables

En utilisant IronOCR, vous pouvez facilement extraire le texte en utilisant des techniques de traitement d'image et d'apprentissage automatique. Dans cette section, nous verrons comment extraire du texte à partir d'images à l'aide d'IronOCR.

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()
Using ocrInput As New OcrInput("images\image.png")
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
$vbLabelText   $csharpLabel

Ce code C# démontre l'utilisation d'IronOCR, une bibliothèque pour la reconnaissance optique de caractères(OCR). Voici une explication étape par étape :

  1. Importer des bibliothèques :
    using IronOcr; 
    using System;
    using IronOcr; 
    using System;
Imports IronOcr
	Imports System
$vbLabelText   $csharpLabel

Le code commence par importer les bibliothèques nécessaires, notamment IronOcr, qui fournit la fonctionnalité OCR, et l'espace de noms System pour les fonctionnalités générales.

  1. Initialisation d'IronTesseract et chargement de l'image :
    var ocrTesseract = new IronTesseract();
    var ocrTesseract = new IronTesseract();
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Cette ligne crée une instance de IronTesseract, qui est le moteur d'OCR fourni par IronOCR.

    using (var ocrInput = new OcrInput(@"images\image.png"))
    using (var ocrInput = new OcrInput(@"images\image.png"))
Using ocrInput As New OcrInput("images\image.png")
$vbLabelText   $csharpLabel

Un objet OcrInput est instancié avec le chemin de l'image à traiter. Dans ce cas, le fichier image est "image.png" dans le répertoire "images".

  1. Réaliser l'OCR et extraire le texte :
    var ocrResult = ocrTesseract.Read(ocrInput);
    var ocrResult = ocrTesseract.Read(ocrInput);
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Cette ligne invoque la méthode Read de l'instance IronTesseract, en transmettant l'objet OcrInput. Cette méthode effectue une reconnaissance optique de caractères (OCR) sur l'image fournie et extrait le texte.

  1. Afficher le texte extrait :
    Console.WriteLine(ocrResult.Text);
    Console.WriteLine(ocrResult.Text);
Console.WriteLine(ocrResult.Text)
$vbLabelText   $csharpLabel

Enfin, le texte extrait est imprimé sur la console à l'aide de Console.WriteLine, ce qui permet d'afficher le résultat de l'OCR obtenu à partir de l'image.

Cet extrait de code utilise IronOCR pour effectuer l'OCR sur la reconnaissance du texte de l'image spécifiée et affiche le texte extrait dans la console.

Image d'entrée

Facture

Sortie

Édition de la facture du client

Effectuer l'OCR sur la région spécifiée de l'image

Vous pouvez également effectuer l'OCR sur des régions spécifiques de l'image à l'aide d'IronOCR, dont voici un exemple de code.

using IronOcr;
using IronSoftware.Drawing;
using System;
var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput())
{
    var ContentArea = new CropRectangle(x: 20, y: 20, width: 400, height: 50);
    ocrInput.AddImage("r3.png", ContentArea);
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using IronSoftware.Drawing;
using System;
var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput())
{
    var ContentArea = new CropRectangle(x: 20, y: 20, width: 400, height: 50);
    ocrInput.AddImage("r3.png", ContentArea);
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports IronSoftware.Drawing
Imports System
Private ocrTesseract = New IronTesseract()
Using ocrInput As New OcrInput()
	Dim ContentArea = New CropRectangle(x:= 20, y:= 20, width:= 400, height:= 50)
	ocrInput.AddImage("r3.png", ContentArea)
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
$vbLabelText   $csharpLabel

Ce code C# utilise la bibliothèque IronOCR pour la reconnaissance optique de caractères(OCR). Il importe d'abord les bibliothèques nécessaires, notamment IronOCR et System. Une instance d'IronTesseract, le moteur d'OCR, est créée. Le code définit un ContentArea spécifique dans l'image à traiter à l'aide d'un CropRectangle, en se concentrant sur une région définie. L'image("r3.png) à l'intérieur de cette zone désignée est ensuite ajoutée pour le traitement OCR. Le moteur OCR lit la zone de contenu spécifiée, extrait le texte et le texte résultant est imprimé sur la console à l'aide de la commande Console.WriteLine.

Sortie

Sortie

Conclusion

Extraction de texte à partir d'images grâce à l'apprentissage automatique, notamment par la reconnaissance optique de caractères(OCR) comme IronOCR, représente une avancée transformatrice au carrefour de la vision par ordinateur et du traitement du langage naturel. La technologie OCR et les techniques d'apprentissage profond jouent toutes deux un rôle central dans la conversion efficace de textes visuels en données éditables et consultables, à des fins vitales telles que la numérisation de documents, l'indexation de contenu et l'amélioration de l'accessibilité.

IronOCR, en tant que bibliothèque d'OCR de premier plan, illustre le potentiel de cette fusion, excellant dans la conversion précise d'images numérisées et de PDF en contenu numérique éditable dans plusieurs langues et styles de polices. Son intégration transparente dans des langages de programmation tels que le C# permet une mise en œuvre rationalisée, ce qui amplifie encore l'impact transformateur de l'extraction de texte à partir d'images dans de nombreuses applications et domaines.

Pour en savoir plusIronOCR et toutes les caractéristiques connexes, visitez ce lienici. Le tutoriel complet sur l'extraction de texte à partir d'images est disponible à l'adresse suivantelien. La licence IronOCR peut être achetée à partir de ce sitelien.

< PRÉCÉDENT
Logiciel de traitement des demandes d'indemnisation en assurance-vie
SUIVANT >
Logiciel d'impression de billets d'événements

Téléchargez votre livre blanc gratuit

Merci,

L'email contenant le lien de téléchargement vous sera envoyé sous peu.