Passer au contenu du pied de page
OUTILS OCR

Comment convertir une image en texte

À l'ère numérique actuelle, transformer le contenu basé sur des images en texte facile à lire, éditable, et consultable est crucial. Ceci est particulièrement important dans des scénarios tels que l'archivage de documents sur papier, l'extraction d'informations clés à partir d'images, ou la numérisation de documents imprimés. La technologie de reconnaissance optique de caractères (OCR) offre une solution pour automatiser ce processus de conversion. Un outil extrêmement fiable et efficace pour y parvenir est IronOCR, une bibliothèque OCR robuste pour .NET.

Cet article expliquera comment convertir une image en texte en utilisant IronOCR, et explorera comment cette conversion peut faire gagner du temps, réduire les erreurs et rationaliser les processus tels que l'extraction de données, l'archivage et le traitement de documents.

Comment convertir une image en texte

  1. Téléchargez une bibliothèque C# pour le travail OCR
  2. Créez une nouvelle instance IronTesseract
  3. Chargez votre image en utilisant OcrImageInput
  4. Lisez le contenu de l'image en utilisant OcrRead
  5. Exportez les résultats de l'OCR vers un fichier texte

Pourquoi convertir une image en texte ?

Il existe de nombreuses raisons pour lesquelles vous pourriez vouloir convertir une image en texte, y compris :

  • Extraction de données : Extraction de texte à partir de documents et d'images scannés à des fins d'archivage ou de traitement de données.
  • Édition de contenu scanné : Modifier ou mettre à jour le texte dans les documents préalablement scannés, ce qui permet de gagner du temps par rapport à la ressaisie manuelle du contenu.
  • Amélioration de l'accessibilité : Convertir le matériel imprimé en texte numérique, le rendant accessible aux lecteurs d'écran ou aux applications de synthèse vocale.
  • Automatisation : Automatiser la saisie et le traitement de données en lisant le texte à partir de factures, reçus ou cartes de visite.

Comment commencer à convertir les images en texte

Avant d'explorer comment les puissantes capacités d'IronOCR en termes de conversion d'images en texte peuvent être exploitées pour extraire du texte à partir d'images, examinons d'abord le processus général étape par étape en utilisant un outil en ligne, Docsumo. Les outils OCR en ligne sont une option utile pour ceux qui cherchent à effectuer des tâches OCR occasionnelles, ou même ponctuelles, grâce à l'absence de configuration manuelle requise. Bien sûr, si vous devez effectuer régulièrement des tâches OCR, disposer d'un outil OCR puissant tel que IronOCR pourrait mieux vous convenir.

  1. Accédez à l'outil OCR en ligne
  2. Téléchargez votre image et commencez le processus d'extraction
  3. Téléchargez les données résultantes en tant que document texte

Première étape : Accédez à l'outil OCR en ligne

Pour commencer à utiliser la technologie OCR pour extraire du texte à partir de fichiers image, nous nous dirigeons d'abord vers l'outil OCR d'image en ligne que nous souhaitons utiliser.

Comment convertir une image en texte : Figure 1 - Outil OCR Docsumo

Deuxième étape : Téléchargez votre image et commencez le processus d'extraction

Maintenant, en cliquant sur le bouton "Télécharger le fichier", nous pouvons télécharger le fichier image à partir duquel nous voulons extraire le texte. L'outil commencera immédiatement à traiter l'image.

Comment convertir une image en texte : Figure 2 - Docsumo - Traitement du fichier

Troisième étape : Téléchargez les données résultantes en tant que document texte

Maintenant que l'image a terminé d'être traitée, nous pouvons télécharger le texte extrait en tant que nouveau document texte, pour une utilisation ou une manipulation ultérieure.

Comment convertir une image en texte : Figure 3 - Docsumo - Traitement de l'image terminé

Vous pouvez également visualiser le fichier, en surlignant les différentes sections pour afficher le texte qu'il contient. Cela pourrait être particulièrement utile si vous voulez simplement afficher le texte à l'intérieur de certaines sections. Ensuite, vous pouvez toujours télécharger le texte en tant que document Text, XLS ou JSON.

Comment convertir une image en texte : Figure 4

Commencer avec IronOCR

IronOCR est une bibliothèque .NET polyvalente qui vous permet d'effectuer des opérations OCR sur des images. Avec une large gamme de fonctionnalités à offrir, il peut traiter divers formats de fichiers (comme PNG, JPEG, TIFF et PDF), effectuer des corrections d'image, scanner des documents spécialisés (passeports, plaques d'immatriculation, etc.), fournir des informations avancées sur les fichiers scannés, convertir des documents scannés, et surligner le texte.

Installer la bibliothèque IronOCR

Avant de pouvoir commencer à lire des images à l'aide d'IronOCR, vous devrez l'installer si vous ne l'avez pas déjà installé dans votre projet. Vous pouvez facilement installer IronOCR en utilisant NuGet dans Visual Studio. Ouvrez la console du gestionnaire de packages NuGet et exécutez la commande suivante :

Install-Package IronOcr

Sinon, vous pouvez installer IronOCR via la page du gestionnaire de packages NuGet pour Solution en recherchant IronOCR.

Comment convertir une image en texte : Figure 5

Pour utiliser IronOCR dans votre code, assurez-vous d'avoir la déclaration d'importation appropriée en haut de votre code :

using IronOcr;
using IronOcr;
Imports IronOcr
$vbLabelText   $csharpLabel

Convertir une image en texte : un exemple de base

Pour commencer, jetons un coup d'œil à un exemple de base de conversion d'image en texte en utilisant IronOCR. Il s'agit d'une fonctionnalité de base de tout outil OCR, et pour cet exemple, nous utiliserons le fichier PNG que nous avons utilisé pour l'outil en ligne. Dans cet exemple, nous avons d'abord instancié la classe IronTesseract et lui avons assigné la variable ocr. Nous utilisons ensuite la classe OcrImageInput pour créer un nouvel objet OcrImageInput à partir du fichier image fourni. Enfin, la méthode Read est utilisée pour lire le texte de l'image et renvoyer un objet OcrResult. Nous pouvons alors accéder au texte extrait et l'afficher à la console en utilisant ocrResult.Text.

using IronOcr;

IronTesseract ocr = new IronTesseract();

// Load the image from which to extract text
using OcrImageInput image = new OcrImageInput("example.png");

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Output the extracted text to the console
Console.WriteLine(ocrResult.Text);
using IronOcr;

IronTesseract ocr = new IronTesseract();

// Load the image from which to extract text
using OcrImageInput image = new OcrImageInput("example.png");

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Output the extracted text to the console
Console.WriteLine(ocrResult.Text);
Imports IronOcr

Private ocr As New IronTesseract()

' Load the image from which to extract text
Private OcrImageInput As using

' Perform OCR to extract text
Private ocrResult As OcrResult = ocr.Read(image)

' Output the extracted text to the console
Console.WriteLine(ocrResult.Text)
$vbLabelText   $csharpLabel

Image de sortie

Comment convertir une image en texte : Figure 6

Gestion de différents formats d'images

IronOCR prend en charge plusieurs formats d'image comme PNG, JPEG, BMP, GIF, et TIFF. Le processus pour lire du texte à partir de différents formats d'image reste le même, vous avez juste besoin de charger le fichier avec la bonne extension.

using IronOcr;

IronTesseract ocr = new IronTesseract();

// Load a BMP image
using OcrImageInput image = new OcrImageInput("example.bmp");

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Output the extracted text to the console
Console.WriteLine(ocrResult.Text);
using IronOcr;

IronTesseract ocr = new IronTesseract();

// Load a BMP image
using OcrImageInput image = new OcrImageInput("example.bmp");

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Output the extracted text to the console
Console.WriteLine(ocrResult.Text);
Imports IronOcr

Private ocr As New IronTesseract()

' Load a BMP image
Private OcrImageInput As using

' Perform OCR to extract text
Private ocrResult As OcrResult = ocr.Read(image)

' Output the extracted text to the console
Console.WriteLine(ocrResult.Text)
$vbLabelText   $csharpLabel

Améliorer la précision de l'OCR

La performance de l'OCR peut être améliorée en optimisant l'image et en configurant des options telles que la langue, la résolution de l'image, et le niveau de bruit dans l'image. Voici comment vous pouvez affiner l'OCR pour augmenter la précision de l'extraction de texte sur une image dont la qualité doit être améliorée en utilisant les méthodes DeNoise() et Sharpen() :

using IronOcr;

IronTesseract ocr = new IronTesseract();

// Load the image and apply image processing to improve accuracy
using OcrImageInput image = new OcrImageInput("example.png");
image.DeNoise();
image.Sharpen();

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Output the extracted text to the console
Console.WriteLine(ocrResult.Text);
using IronOcr;

IronTesseract ocr = new IronTesseract();

// Load the image and apply image processing to improve accuracy
using OcrImageInput image = new OcrImageInput("example.png");
image.DeNoise();
image.Sharpen();

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Output the extracted text to the console
Console.WriteLine(ocrResult.Text);
Imports IronOcr

Private ocr As New IronTesseract()

' Load the image and apply image processing to improve accuracy
Private OcrImageInput As using
image.DeNoise()
image.Sharpen()

' Perform OCR to extract text
Dim ocrResult As OcrResult = ocr.Read(image)

' Output the extracted text to the console
Console.WriteLine(ocrResult.Text)
$vbLabelText   $csharpLabel

Exporter le texte extrait

Maintenant que nous connaissons les bases du processus d'image en texte, voyons maintenant comment nous pouvons exporter le texte résultant pour une utilisation ultérieure. Pour cet exemple, nous utiliserons le même processus qu'avant pour charger l'image et la scanner. Ensuite, en utilisant File.WriteAllText("output.txt", ocrResult.Text), nous créons un nouveau fichier texte appelé output.txt et sauvegardons le texte extrait dans le fichier.

using IronOcr;
using System.IO;

IronTesseract ocr = new IronTesseract();

// Load the image
using OcrImageInput image = new OcrImageInput("example.png");

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Save the extracted text to a file
File.WriteAllText("output.txt", ocrResult.Text);
using IronOcr;
using System.IO;

IronTesseract ocr = new IronTesseract();

// Load the image
using OcrImageInput image = new OcrImageInput("example.png");

// Perform OCR to extract text
OcrResult ocrResult = ocr.Read(image);

// Save the extracted text to a file
File.WriteAllText("output.txt", ocrResult.Text);
Imports IronOcr
Imports System.IO

Private ocr As New IronTesseract()

' Load the image
Private OcrImageInput As using

' Perform OCR to extract text
Private ocrResult As OcrResult = ocr.Read(image)

' Save the extracted text to a file
File.WriteAllText("output.txt", ocrResult.Text)
$vbLabelText   $csharpLabel

Comment convertir une image en texte : Figure 7

Principales fonctionnalités d'IronOCR

  1. Haute précision: IronOCR utilise des algorithmes OCR avancés Tesseract et inclut des outils intégrés pour gérer des images complexes, assurant une haute précision.
  2. Support multilingue: Prend en charge plus de 125 langues, y compris de nombreux systèmes d'écriture tels que le latin, le cyrillique, l'arabe, et les caractères asiatiques. Il est à noter, cependant, que seule la langue anglaise est installée avec IronOCR. Pour utiliser d'autres langues, vous devrez installer le pack de langue supplémentaire pour cette langue.
  3. PDF OCR: IronOCR peut extraire du texte à partir de PDF scannés, ce qui en fait un outil précieux pour la numérisation de documents.
  4. Nettoyage d'image: Il fournit des outils de prétraitement tels que le désalignement, la suppression du bruit, et l'inversion pour améliorer la qualité de l'image pour une meilleure précision OCR.
  5. Intégration facile: L'API s'intègre parfaitement à tout projet .NET, qu'il s'agisse d'une application console, d'une application Web ou d'un logiciel de bureau.

Cas d'utilisation courants pour la conversion d'images en texte

  • Automatisation de la saisie de données: Les entreprises peuvent utiliser l'OCR pour extraire automatiquement des données à partir de formulaires, reçus ou cartes de visite.
  • Archivage de documents: Les organisations peuvent numériser des documents physiques, les rendant consultables et plus faciles à stocker.
  • Accessibilité: Convertir les matériaux imprimés en texte pour une utilisation dans des lecteurs d'écran ou d'autres technologies d'assistance.
  • Recherche et analyse: Convertir rapidement des documents de recherche scannés en texte pour l'analyse ou l'intégration dans d'autres outils logiciels.
  • Étudier : Convertir des notes d'étude scannées en texte éditable que vous pouvez ensuite enregistrer en tant que document Word pour une manipulation ultérieure dans des outils tels que IronWord, Microsoft Word ou Google Docs.

Conclusion

La conversion de texte à partir d'une image à l'aide d'IronOCR est un moyen rapide, précis, et efficace de gérer les tâches de traitement de documents. Que vous travailliez avec des documents scannés, des images numériques ou des documents PDF, IronOCR simplifie le processus, offrant une haute précision, un support multilingue, et des outils puissants de traitement d'images. Cet outil est idéal pour les entreprises cherchant à rationaliser leurs flux de gestion documentaire, automatiser l'extraction de données, ou améliorer l'accessibilité.

Utilisez l'essai gratuit pour essayer dès aujourd'hui les puissantes fonctionnalités d'IronOCR. Cela ne prend que quelques minutes pour le faire fonctionner pleinement dans votre espace de travail afin que vous puissiez commencer à traiter des tâches OCR en un rien de temps!

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite