OUTILS OCR

Comment convertir une image en texte

Kannaopat Udonpant
Kannapat Udonpant
octobre 24, 2024
Partager:

Dans l'ère numérique actuelle, il s'agit de transformer un contenu à base d'images en un texte facile à lire, à éditer et à rechercher. Ceci est particulièrement important dans des scénarios tels que l'archivage de documents sur papier, l'extraction d'informations clés à partir d'images ou la numérisation de documents imprimés. La technologie de reconnaissance optique de caractères (OCR) offre une solution pour automatiser ce processus de conversion. Un outil extrêmement fiable et efficace pour y parvenir est IronOCR, une bibliothèque OCR robuste pour .NET.

Cet article expliquera comment convertir une image en texte à l'aide de IronOCR, et explorera comment cette conversion peut gagner du temps, réduire les erreurs et simplifier les processus tels que l'extraction de données, l'archivage et le traitement de documents.

Comment convertir une image en texte

  1. Téléchargez une bibliothèque C# pour les travaux d'OCR

  2. Créer une nouvelle instance de `IronTesseract`

  3. Chargez votre image en utilisant `OcrImageInput`

  4. Lisez le contenu de l'image en utilisant `OcrRead`

  5. Exporter les résultats de l'OCR vers un fichier texte

Pourquoi convertir une image en texte ?

Il existe de nombreuses raisons de vouloir convertir une image en texte :

  • Extraction de données : Extraire du texte à partir de documents et d'images numérisés à des fins d'archivage ou de traitement de données.
  • Modification du contenu numérisé : Modifiez ou mettez à jour le texte dans des documents précédemment numérisés, ce qui vous fait gagner du temps en évitant de retaper manuellement le contenu.
  • Améliorer l'accessibilité : Convertir le matériel imprimé en texte numérique, le rendant accessible aux lecteurs d'écran ou aux applications de synthèse vocale.
  • Automatisation : Automatisez la saisie et le traitement des données en lisant le texte à partir des factures, reçus ou cartes de visite.

Comment commencer à convertir des images en texte

Avant d'explorer comment les puissantes capacités d'image à texte d'IronOCR peuvent être exploitées pour extraire du texte à partir d'images, examinons d'abord le processus général étape par étape à l'aide d'un outil en ligne, docsumo. Les outils d'OCR en ligne sont une option utile pour ceux qui cherchent à effectuer des tâches d'OCR occasionnelles, voire ponctuelles, car ils ne nécessitent aucune configuration manuelle. Bien entendu, si vous avez besoin d'effectuer des tâches d'OCR régulièrement, un outil d'OCR puissant tel qu'IronOcr pourrait mieux vous convenir.

  1. Accéder à l'outil OCR en ligne

  2. Téléchargez votre image et commencez le processus d'extraction

  3. Télécharger les données résultantes sous forme de document texte

Première étape : naviguer vers l'outil d'OCR en ligne

Pour commencer à utiliser la technologie OCR afin d'extraire du texte à partir de fichiers images, nous devons d'abord naviguer jusqu'à l'outil d'OCR d'images en ligne que nous souhaitons utiliser.

Comment convertir une image en texte : Figure 1 - Outil OCR Docsumo

Deuxième étape : téléchargez votre image et commencez le processus d'extraction

En cliquant sur le bouton "Upload File", nous pouvons maintenant télécharger le fichier image à partir duquel nous voulons extraire le texte. L'outil commencera immédiatement à traiter l'image.

Comment convertir une image en texte : Figure 2 - Docsumo - Traitement de fichiers

Troisième étape : Télécharger les données résultantes sous forme de document texte

Maintenant que le traitement de l'image est terminé, nous pouvons télécharger le texte extrait sous la forme d'un nouveau document texte, en vue d'une utilisation ou d'une manipulation ultérieure.

Comment convertir une image en texte : Figure 3 - Docsumo - Traitement de l'image terminé

Vous pouvez également visualiser le fichier en surlignant les différentes sections pour voir le texte qu'il contient. Cela peut s'avérer particulièrement utile si vous souhaitez uniquement consulter le texte de certaines sections. Vous pouvez ensuite continuer à télécharger le texte sous forme de document texte, XLS ou JSON.

Comment convertir une image en texte : Figure 4

Premiers pas avec IronOCR

IronOCR est une bibliothèque .NET polyvalente qui vous permet d'effectuer des opérations d'OCR sur des images. Avec une large gamme de fonctionnalités à offrir, il peut traiter divers formats de fichiers (tels que PNG, JPEG, TIFF et PDF), effectuer une correction d'image, scanner des documents spécialisés (passeports, plaques d'immatriculation, etc.), fournir des informations avancées sur les fichiers numérisés, convertir des documents numérisés et mettre en évidence le texte.

Installer la bibliothèque IronOCR

Avant de pouvoir commencer à lire des images à l'aide d'IronOcr, vous devrez l'installer si ce n'est pas déjà fait dans votre projet. Vous pouvez facilement installer IronOCR à l'aide de NuGet dans Visual Studio. Ouvrez la console du gestionnaire de paquets NuGet et exécutez la commande suivante :

Install-Package IronOcr
Install-Package IronOcr
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'Install-Package IronOcr
$vbLabelText   $csharpLabel

Vous pouvez également installer IronOCR via la page NuGet Package Manager for Solution en recherchant IronOCR.

Comment convertir une image en texte : Figure 5

Pour utiliser IronOCR dans votre code, assurez-vous d'avoir la déclaration d'importation appropriée au début de votre code :

using IronOcr;
using IronOcr;
Imports IronOcr
$vbLabelText   $csharpLabel

Convertir une image en texte : Un exemple de base

Pour commencer, examinons un exemple basique de conversion d'image en texte à l'aide d'IronOCR. Il s'agit d'une fonctionnalité essentielle de tout outil d'OCR, et pour cet exemple, nous utiliserons le fichier PNG que nous avons utilisé pour l'outil en ligne. Dans cet exemple, nous avons d'abord instancié la classe IronTesseract et lui avons attribué la variable 'ocr'. Nous utilisons ensuite la classe OcrImageInput pour créer un nouvel objet OcrImageInput à partir du fichier image fourni. Enfin, la méthode Read est utilisée pour lire le texte de l'image et retourne un objet OcrResult. Nous pouvons ensuite accéder au texte extrait et l'afficher sur la console en utilisant ocrResult.Text.

using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
Console.WriteLine(ocrResult.Text)
$vbLabelText   $csharpLabel

Image de sortie

Comment convertir une image en texte : Figure 6

Gestion de différents formats d'images

IronOCR prend en charge plusieurs formats d'image tels que PNG, JPEG, BMP, GIF et TIFF. Le processus de lecture de texte à partir de différents formats d'image reste le même, il suffit de charger le fichier avec l'extension correcte.

using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.bmp");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.bmp");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
Console.WriteLine(ocrResult.Text)
$vbLabelText   $csharpLabel

Améliorer la précision de l'OCR

Les performances de l'OCR peuvent être améliorées en optimisant l'image et en configurant des options telles que la langue, la résolution de l'image et le niveau de bruit dans l'image. Voici comment vous pouvez affiner la reconnaissance optique des caractères (OCR) pour augmenter la précision de l'extraction de texte sur une image dont la qualité doit être améliorée en utilisant les méthodes DeNoise() et Sharpen() :

using IronOcr
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
image.DeNoise();
image.Sharpen();
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
image.DeNoise();
image.Sharpen();
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Using IronOcr IronTesseract ocr = New IronTesseract()
	Using image As New OcrImageInput("example.png")
		image.DeNoise()
		image.Sharpen()
		Dim ocrResult As OcrResult = ocr.Read(image)
		Console.WriteLine(ocrResult.Text)
	End Using
End Using
$vbLabelText   $csharpLabel

Exportation du texte extrait

Maintenant que nous connaissons les bases du processus de conversion d'une image en texte, voyons comment nous pouvons exporter le texte obtenu pour une utilisation ultérieure. Pour cet exemple, nous utiliserons le même processus que précédemment pour charger l'image et la numériser. Ensuite, en utilisant File.WriteAllText("output.txt", ocrResult.Text), nous créons un nouveau fichier texte appelé 'output.txt' et enregistrons le texte extrait dans le fichier.

using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
File.WriteAllText("output.txt", ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
File.WriteAllText("output.txt", ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
File.WriteAllText("output.txt", ocrResult.Text)
$vbLabelText   $csharpLabel

Comment convertir une image en texte : Figure 7

Principales caractéristiques de l'IronOCR

  1. Haute précision : IronOCR utilise les algorithmes OCR avancés de Tesseract et inclut des outils intégrés pour gérer des images complexes, garantissant une haute précision.

  2. Prise en charge multilingue : Prend en charge plus de 125 langues, y compris plusieurs scripts d'écriture tels que les caractères latins, cyrilliques, arabes et asiatiques. Il convient toutefois de noter que seul l'anglais est installé aux côtés d'IronOCR, pour utiliser d'autres langues, vous devrez installer le pack linguistique supplémentaire correspondant.

  3. PDF OCR : IronOCR peut extraire du texte à partir de PDF scannés, ce qui en fait un outil précieux pour la numérisation de documents.

  4. Nettoyage d'Image : Il fournit des outils de prétraitement tels que le redressement, la suppression de bruit, et l'inversion pour améliorer la qualité de l'image pour une meilleure précision OCR.

  5. Intégration facile : L'API s'intègre parfaitement à tout projet .NET, qu'il s'agisse d'une application console, d'une application web ou d'un logiciel de bureau.

Cas d'utilisation courants pour la conversion d'images en texte

  • Automatisation de la saisie des données : Les entreprises peuvent utiliser OCR pour extraire automatiquement des données à partir de formulaires, de reçus ou de cartes de visite.
  • Archivage de documents : Les organisations peuvent numériser des documents physiques, les rendant ainsi accessibles par recherche et plus faciles à stocker.
  • Accessibilité : Convertissez les documents imprimés en texte pour une utilisation avec des lecteurs d'écran ou d'autres technologies d'assistance.
  • Recherche et Analyse : Convertissez rapidement des matériaux de recherche numérisés en texte pour l'analyse ou l'intégration dans d'autres outils logiciels.
  • Étude : Convertissez des notes d'étude numérisées en texte modifiable que vous pouvez ensuite enregistrer en tant que document Word pour une manipulation ultérieure dans des outils tels que IronWord, Microsoft Word ou Google Docs.

Conclusion

La conversion de texte à partir d'une image à l'aide d'IronOcr est un moyen rapide, précis et efficace de traiter les tâches de traitement de documents. Que vous travailliez avec des documents numérisés, des images numériques ou des documents PDF, IronOcr simplifie le processus en offrant une grande précision, une prise en charge multilingue et de puissants outils de traitement d'images. Cet outil est idéal pour les entreprises qui cherchent à rationaliser leurs flux de gestion de documents, à automatiser l'extraction de données ou à améliorer l'accessibilité.

Utilisez la version d'essai gratuite pour essayer dès aujourd'hui les puissantes fonctionnalités d'IronOCR. Il ne faut que quelques minutes pour qu'il fonctionne pleinement dans votre espace de travail, ce qui vous permet de commencer à traiter les tâches OCR en un rien de temps !

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.
< PRÉCÉDENT
Easyocr vs Tesseract (Comparaison des fonctionnalités OCR)
SUIVANT >
Bibliothèque OCR des reçus (liste pour les développeurs)