Passer au contenu du pied de page
OUTILS OCR

Comment convertir une image en texte

À l'ère du numérique, il est crucial de transformer le contenu visuel en texte facile à lire, modifiable et consultable. Ceci est particulièrement important dans des scénarios tels que l'archivage de documents papier, l'extraction d'informations clés à partir d'images ou la numérisation de documents imprimés. La technologie de reconnaissance optique de caractères (OCR) offre une solution pour automatiser ce processus de conversion. IronOCR , une bibliothèque OCR robuste pour .NET, est un outil très fiable et efficace pour y parvenir.

Cet article explique comment convertir une image en texte à l'aide d'IronOCR et explore comment cette conversion peut permettre de gagner du temps, de réduire les erreurs et de rationaliser des processus tels que l'extraction de données, l'archivage et le traitement de documents.

Comment convertir une image en texte

  1. Téléchargez une bibliothèque C# pour la reconnaissance optique de caractères (OCR).
  2. Créez une nouvelle instance IronTesseract
  3. Chargez votre image à l'aide OcrImageInput
  4. Lire le contenu de l'image à l'aide OcrRead
  5. Exportez les résultats de la reconnaissance optique de caractères (OCR) vers un fichier texte.

Pourquoi convertir une image en texte ?

Il existe de nombreuses raisons pour lesquelles vous pourriez vouloir convertir une image en texte, notamment :

  • Extraction de données : Extraction de texte à partir de documents et d'images numérisés à des fins d'archivage ou de traitement de données.
  • Modification du contenu numérisé : Modifiez ou mettez à jour le texte des documents précédemment numérisés, ce qui vous évite de saisir manuellement le contenu.
  • Améliorer l'accessibilité : convertir les documents imprimés en texte numérique, les rendant accessibles aux lecteurs d'écran ou aux applications de synthèse vocale.
  • Automatisation : Automatisez la saisie et le traitement des données en lisant le texte des factures, des reçus ou des cartes de visite.

Comment convertir des images en texte

Avant d'explorer comment les puissantes capacités d'IronOCR de conversion d'images en texte peuvent être utilisées pour extraire du texte à partir d'images, examinons d'abord le processus général étape par étape à l'aide d'un outil en ligne, Docsumo . Les outils de reconnaissance optique de caractères (OCR) en ligne sont pratiques pour les tâches occasionnelles, voire ponctuelles, car ils ne nécessitent aucune configuration manuelle. Toutefois, si vous devez effectuer des tâches d'OCR régulièrement, un outil performant comme IronOCR sera plus adapté à vos besoins.

  1. Accédez à l'outil OCR en ligne
  2. Téléchargez votre image et commencez le processus d'extraction.
  3. Téléchargez les données résultantes sous forme de document texte.

Étape 1 : Accédez à l'outil OCR en ligne

Pour commencer à utiliser la technologie OCR afin d'extraire du texte à partir de fichiers image, nous nous rendons d'abord sur l'outil OCR d'images en ligne que nous souhaitons utiliser.

Comment convertir une image en texte : Figure 1 - Outil OCR Docsumo

Deuxième étape : Téléchargez votre image et lancez le processus d'extraction.

Maintenant, en cliquant sur le bouton " Téléverser un fichier ", nous pouvons téléverser le fichier image à partir duquel nous souhaitons extraire du texte. L'outil commencera immédiatement à traiter l'image.

Comment convertir une image en texte : Figure 2 - Docsumo - Traitement de fichiers

Troisième étape : Télécharger les données résultantes sous forme de document texte

Maintenant que le traitement de l'image est terminé, nous pouvons télécharger le texte extrait sous forme de nouveau document texte, pour une utilisation ou une manipulation ultérieure.

Comment convertir une image en texte : Figure 3 - Docsumo - Traitement d'image terminé

Vous pouvez également consulter le fichier en surlignant les différentes sections pour visualiser le texte qu'il contient. Cela pourrait s'avérer particulièrement utile si vous souhaitez uniquement consulter le texte de certaines sections. Vous pouvez ensuite télécharger le texte au format document texte, XLS ou JSON.

Comment convertir une image en texte : Figure 4

Premiers pas avec IronOCR

IronOCR est une bibliothèque .NET polyvalente qui vous permet d'effectuer des opérations OCR sur des images. Doté d'une large gamme de fonctionnalités, il peut traiter divers formats de fichiers (tels que PNG, JPEG, TIFF et PDF), effectuer la correction d'images, numériser des documents spécifiques (passeports, plaques d'immatriculation, etc.), fournir des informations avancées sur les fichiers numérisés, convertir des documents numérisés et surligner du texte.

Installez la bibliothèque IronOCR

Avant de pouvoir commencer à lire des images avec IronOCR, vous devrez l'installer si vous ne l'avez pas déjà installé dans votre projet. Vous pouvez facilement installer IronOCR à l'aide de NuGet dans Visual Studio. Ouvrez la console du gestionnaire de packages NuGet et exécutez la commande suivante :

Install-Package IronOcr

Vous pouvez également installer IronOCR via la page du gestionnaire de packages NuGet pour la solution en recherchant IronOCR.

Comment convertir une image en texte : Figure 5

Pour utiliser IronOCR dans votre code, assurez-vous d'avoir l'instruction d'importation appropriée en haut de votre code :

using IronOcr;
using IronOcr;
$vbLabelText   $csharpLabel

Convertir une image en texte : un exemple simple

Pour commencer, examinons un exemple basique de conversion d'image en texte à l'aide d'IronOCR. Il s'agit d'une fonctionnalité essentielle de tout outil OCR, et pour cet exemple, nous utiliserons le fichier PNG que nous avons utilisé pour l'outil en ligne. Dans cet exemple, nous avons d'abord instancié la classe IronTesseract et lui avons attribué la variable ocr . Nous utilisons ensuite la classe OcrImageInput pour créer un nouvel objet OcrImageInput à partir du fichier image fourni. Enfin, la méthode Read est utilisée pour lire le texte de l'image et renvoie un objet OcrResult . Nous pouvons ensuite accéder au texte extrait et l'afficher dans la console à l'aide de ocrResult.Text .

using IronOcr;

IronTesseract ocr = new IronTesseract();

// Load the image from which to extract text
using OcrImageInput image = new OcrImageInput("example.png");

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Output the extracted text to the console
Console.WriteLine(ocrResult.Text);
using IronOcr;

IronTesseract ocr = new IronTesseract();

// Load the image from which to extract text
using OcrImageInput image = new OcrImageInput("example.png");

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Output the extracted text to the console
Console.WriteLine(ocrResult.Text);
$vbLabelText   $csharpLabel

Image de sortie

Comment convertir une image en texte : Figure 6

Gestion de différents formats d'image

IronOCR prend en charge plusieurs formats d'image tels que PNG, JPEG, BMP, GIF et TIFF. Le processus de lecture du texte à partir de différents formats d'image reste le même ; il suffit de charger le fichier avec l'extension correcte.

using IronOcr;

IronTesseract ocr = new IronTesseract();

// Load a BMP image
using OcrImageInput image = new OcrImageInput("example.bmp");

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Output the extracted text to the console
Console.WriteLine(ocrResult.Text);
using IronOcr;

IronTesseract ocr = new IronTesseract();

// Load a BMP image
using OcrImageInput image = new OcrImageInput("example.bmp");

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Output the extracted text to the console
Console.WriteLine(ocrResult.Text);
$vbLabelText   $csharpLabel

Amélioration de la précision de la reconnaissance optique de caractères

Les performances de la reconnaissance optique de caractères (OCR) peuvent être améliorées en optimisant l'image et en configurant des options telles que la langue, la résolution de l'image et le niveau de bruit dans l'image. Voici comment affiner la reconnaissance optique de caractères (OCR) pour améliorer la précision de l'extraction de texte sur une image dont la qualité nécessite d'être améliorée, grâce à l'utilisation des méthodes DeNoise() et Sharpen() :

using IronOcr;

IronTesseract ocr = new IronTesseract();

// Load the image and apply image processing to improve accuracy
using OcrImageInput image = new OcrImageInput("example.png");
image.DeNoise();
image.Sharpen();

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Output the extracted text to the console
Console.WriteLine(ocrResult.Text);
using IronOcr;

IronTesseract ocr = new IronTesseract();

// Load the image and apply image processing to improve accuracy
using OcrImageInput image = new OcrImageInput("example.png");
image.DeNoise();
image.Sharpen();

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Output the extracted text to the console
Console.WriteLine(ocrResult.Text);
$vbLabelText   $csharpLabel

Exportation du texte extrait

Maintenant que nous connaissons les bases du processus de conversion d'image en texte, voyons comment exporter le texte obtenu pour une utilisation ultérieure. Pour cet exemple, nous utiliserons le même processus qu'auparavant pour charger l'image et la numériser. Ensuite, en utilisant File.WriteAllText("output.txt", ocrResult.Text) , nous créons un nouveau fichier texte appelé output.txt et y enregistrons le texte extrait.

using IronOcr;
using System.IO;

IronTesseract ocr = new IronTesseract();

// Load the image
using OcrImageInput image = new OcrImageInput("example.png");

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Save the extracted text to a file
File.WriteAllText("output.txt", ocrResult.Text);
using IronOcr;
using System.IO;

IronTesseract ocr = new IronTesseract();

// Load the image
using OcrImageInput image = new OcrImageInput("example.png");

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Save the extracted text to a file
File.WriteAllText("output.txt", ocrResult.Text);
$vbLabelText   $csharpLabel

Comment convertir une image en texte : Figure 7

Principales caractéristiques d'IronOCR

  1. Haute précision : IronOCR utilise des algorithmes OCR Tesseract avancés et comprend des outils intégrés pour traiter les images complexes, garantissant une précision élevée.
  2. Prise en charge multilingue : Prend en charge plus de 125 langues , y compris plusieurs systèmes d'écriture tels que le latin, le cyrillique, l'arabe et les caractères asiatiques. Il convient toutefois de noter que seule la version anglaise est installée avec IronOCR. Pour utiliser d'autres langues, vous devrez installer le module linguistique supplémentaire correspondant.
  3. OCR PDF : IronOCR peut extraire du texte à partir de PDF numérisés , ce qui en fait un outil précieux pour la numérisation de documents.
  4. Nettoyage d'image : Il fournit des outils de prétraitement tels que le redressement , la suppression du bruit et l'inversion pour améliorer la qualité de l'image et obtenir une meilleure précision de la reconnaissance optique de caractères (OCR).
  5. Intégration facile : l'API s'intègre parfaitement à tout projet .NET, qu'il s'agisse d'une application console, d'une application Web ou d'un logiciel de bureau.

Cas d'utilisation courants de la conversion d'images en texte

  • Automatisation de la saisie de données : les entreprises peuvent utiliser la reconnaissance optique de caractères (OCR) pour extraire automatiquement des données à partir de formulaires, de reçus ou de cartes de visite.
  • Archivage de documents : Les organisations peuvent numériser les documents physiques, ce qui les rend consultables et plus faciles à stocker.
  • Accessibilité : Convertir les documents imprimés en texte pour une utilisation avec des lecteurs d'écran ou d'autres technologies d'assistance.
  • Recherche et analyse : Convertissez rapidement les documents de recherche numérisés en texte pour analyse ou intégration dans d'autres logiciels.
  • Étude : Convertissez vos notes d'étude numérisées en texte modifiable que vous pourrez ensuite enregistrer en tant que document Word pour une manipulation ultérieure dans des outils tels qu'IronWord, Microsoft Word ou Google Docs.

Conclusion

La conversion de texte à partir d'une image à l'aide d'IronOCR est une méthode rapide, précise et efficace pour gérer les tâches de traitement de documents. Que vous travailliez avec des documents numérisés, des images numériques ou des documents PDF, IronOCR simplifie le processus en offrant une grande précision, une prise en charge multilingue et de puissants outils de traitement d'images. Cet outil est idéal pour les entreprises qui cherchent à rationaliser leurs flux de travail de gestion documentaire, à automatiser l'extraction de données ou à améliorer l'accessibilité.

Profitez de l' essai gratuit pour découvrir dès aujourd'hui les puissantes fonctionnalités d'IronOCR. Il suffit de quelques minutes pour le rendre pleinement fonctionnel dans votre espace de travail, vous permettant ainsi de commencer à traiter des tâches OCR en un rien de temps !

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite