OUTILS OCR

Comment convertir une image en texte

Publié octobre 24, 2024
Partager:

Dans l'ère numérique actuelle, il s'agit de transformer un contenu à base d'images en un texte facile à lire, à éditer et à rechercher. Cela est particulièrement important dans des scénarios tels que l'archivage de documents papier, l'extraction d'informations clés à partir d'images ou la numérisation de documents manuscrits ou imprimés. Reconnaissance optique de caractères(OCR) la technologie de l'entreprise offre une solution permettant d'automatiser ce processus de conversion. Un outil très fiable et efficace pour y parvenir est IronOCR, une bibliothèque OCR robuste pour .NET.

Cet article explique comment convertir une image en texte à l'aide deIronOCRpour plus d'informations sur les outils de développement, consultez le site web de la Commission européenne, et découvrez comment cette conversion peut faire gagner du temps, réduire les erreurs et rationaliser des processus tels que l'extraction de données, l'archivage et le traitement de documents.

Comment convertir une image en texte

  1. Télécharger une bibliothèque C# pour le travail d'OCR

  2. Créer une nouvelle ``IronTesseractinstance \N- \N- \N- \N- \N- \N

  3. Chargez votre image à l'aide de `OcrImageInput`

  4. Lire le contenu de l'image à l'aide de `OcrRead`

  5. Exporter les résultats de l'OCR vers un fichier texte

Pourquoi convertir une image en texte ?

Il existe de nombreuses raisons de vouloir convertir une image en texte :

  • Extraction de données: Extraction de texte à partir de documents et d'images numérisés à des fins d'archivage ou de traitement de données.
  • Édition de contenu numérisé: Éditer ou mettre à jour du texte dans des documents numérisés précédemment, ce qui permet d'économiser le temps nécessaire à la réécriture manuelle du contenu.
  • Améliorer l'accessibilité: Convertir le matériel imprimé en texte numérique, le rendant accessible aux lecteurs d'écran ou aux applications de synthèse vocale.
  • Automatisation: Automatisez la saisie et le traitement des données en lisant le texte des factures, des reçus ou des cartes de visite.

Comment commencer à convertir des images en texte

Avant d'explorer la manière dont les puissantes capacités de conversion d'image en texte d'IronOcr peuvent être exploitées pour extraire du texte à partir d'images, examinons d'abord le processus général étape par étape à l'aide d'un outil en ligne,docsumo. Les outils d'OCR en ligne sont une option utile pour ceux qui cherchent à effectuer des tâches d'OCR occasionnelles, voire ponctuelles, car ils ne nécessitent aucune configuration manuelle. Bien entendu, si vous avez besoin d'effectuer des tâches d'OCR régulièrement, un outil d'OCR puissant tel qu'IronOcr pourrait mieux vous convenir.

  1. Accéder à l'outil OCR en ligne

  2. Téléchargez votre image et commencez le processus d'extraction

  3. Télécharger les données résultantes sous forme de document texte

Première étape : naviguer vers l'outil d'OCR en ligne

Pour commencer à utiliser la technologie OCR afin d'extraire du texte à partir de fichiers images, nous devons d'abord naviguer jusqu'à l'outil d'OCR d'images en ligne que nous souhaitons utiliser.

Comment convertir une image en texte : Figure 1 - Outil d'OCR de Docsumo

Deuxième étape : téléchargez votre image et commencez le processus d'extraction

En cliquant sur le bouton "Upload File", nous pouvons maintenant télécharger le fichier image à partir duquel nous voulons extraire le texte. L'outil commencera immédiatement à traiter l'image.

Comment convertir une image en texte : Figure 2 - Docsumo - Traitement des fichiers

Troisième étape : Télécharger les données résultantes sous forme de document texte

Maintenant que le traitement de l'image est terminé, nous pouvons télécharger le texte extrait sous la forme d'un nouveau document texte, en vue d'une utilisation ou d'une manipulation ultérieure.

Comment convertir une image en texte : Figure 3 - Docsumo - Traitement d'image terminé

Vous pouvez également visualiser le fichier en surlignant les différentes sections pour voir le texte qu'il contient. Cela peut s'avérer particulièrement utile si vous souhaitez uniquement consulter le texte de certaines sections. Vous pouvez ensuite continuer à télécharger le texte sous forme de document texte, XLS ou JSON.

Comment convertir une image en texte : Figure 4

Premiers pas avec IronOCR

IronOCR est une bibliothèque .NET polyvalente qui vous permet d'effectuer des opérations d'OCR sur des images. La traduction doit rester professionnelle et préserver la précision technique tout en expliquant les caractéristiques et les avantages de ces outils de développement(tels que PNG, JPEG, TIFF et PDF)la traduction doit rester professionnelle, en préservant la précision technique tout en expliquant les caractéristiques et les avantages de ces outils de développement(Passeports, plaques d'immatriculation, etc)dans le cadre de ce projet, la traduction doit fournir des informations avancées sur les fichiers numérisés, convertir les documents numérisés et surligner le texte.

Installer la bibliothèque IronOCR

Avant de pouvoir commencer à lire des images à l'aide d'IronOcr, vous devrez l'installer si ce n'est pas déjà fait dans votre projet. Vous pouvez facilement installer IronOCR à l'aide de NuGet dans Visual Studio. Ouvrez la console du gestionnaire de paquets NuGet et exécutez la commande suivante :

Install-Package IronOcr
Install-Package IronOcr
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'Install-Package IronOcr
VB   C#

Vous pouvez également installer IronOCR via la page NuGet Package Manager for Solution en recherchant IronOCR.

Comment convertir une image en texte : Figure 5

Pour utiliser IronOCR dans votre code, assurez-vous d'avoir la déclaration d'importation appropriée au début de votre code :

using IronOcr;
using IronOcr;
Imports IronOcr
VB   C#

Convertir une image en texte : Un exemple de base

Pour commencer, examinons un exemple basique de conversion d'image en texte à l'aide d'IronOCR. Il s'agit d'une fonctionnalité essentielle de tout outil d'OCR, et pour cet exemple, nous utiliserons le fichier PNG que nous avons utilisé pour l'outil en ligne. Dans cet exemple, nous avons d'abord instancié l'élémentIronTesseract nous avons créé une classe et lui avons attribué la variable "ocr". Nous utilisons ensuite leOcrImageInput la classe OcrImageInput permet de créer un nouvel objet OcrImageInput à partir du fichier image fourni. Enfin, le**Lire*la méthode * est utilisée pour lire le texte à partir de l'image et renvoie un fichier[OcrResult](/csharp/ocr/object-reference/api/IronOcr.OcrResult.html) objet. Nous pouvons ensuite accéder au texte extrait et l'afficher dans la console à l'aide de la commande[ocrResult.Text**](/csharp/ocr/object-reference/api/IronOcr.OcrResult.html#IronOcr_OcrResult_Text).

using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
Console.WriteLine(ocrResult.Text)
VB   C#

Image de sortie

Comment convertir une image en texte : Figure 6

Gestion de différents formats d'images

IronOCR prend en charge plusieurs formats d'image tels que PNG, JPEG, BMP, GIF et TIFF. Le processus de lecture de texte à partir de différents formats d'image reste le même, il suffit de charger le fichier avec l'extension correcte.

using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.bmp");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.bmp");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
Console.WriteLine(ocrResult.Text)
VB   C#

Améliorer la précision de l'OCR

Les performances de l'OCR peuvent être améliorées en optimisant l'image et en configurant des options telles que la langue, la résolution de l'image et le niveau de bruit dans l'image. Voici comment vous pouvez affiner l'OCR pour augmenter la précision de l'extraction de texte sur une image dont la qualité doit être améliorée grâce à l'utilisation de la fonctionDeNoise() etSharpen() méthodes :

using IronOcr
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
image.DeNoise();
image.Sharpen();
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
image.DeNoise();
image.Sharpen();
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Using IronOcr IronTesseract ocr = New IronTesseract()
	Using image As New OcrImageInput("example.png")
		image.DeNoise()
		image.Sharpen()
		Dim ocrResult As OcrResult = ocr.Read(image)
		Console.WriteLine(ocrResult.Text)
	End Using
End Using
VB   C#

Exportation du texte extrait

Maintenant que nous connaissons les bases du processus de conversion d'une image en texte, voyons comment nous pouvons exporter le texte obtenu pour une utilisation ultérieure. Pour cet exemple, nous utiliserons le même processus que précédemment pour charger l'image et la numériser. Ensuite, en utilisant File.WriteAllText("output.txt", ocrResult.Text), nous créons un nouveau fichier texte appelé "output.txt" et y enregistrons le texte extrait.

using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
File.WriteAllText("output.txt", ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
File.WriteAllText("output.txt", ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
File.WriteAllText("output.txt", ocrResult.Text)
VB   C#

Comment convertir une image en texte : Figure 7

Principales caractéristiques de l'IronOCR

  1. Haute précision : IronOCR utilise des fonctions avancées deTesseract La traduction doit rester professionnelle et préserver la précision technique tout en expliquant les caractéristiques et les avantages de ces outils pour développeurs.

  2. Prise en charge multilingue :Prise en charge de plus de 125 languesla traduction doit se faire en anglais et en français, y compris dans de nombreuses écritures telles que le latin, le cyrillique, l'arabe et les caractères asiatiques. Il convient toutefois de noter que seul l'anglais est installé aux côtés d'IronOCR, pour utiliser d'autres langues, vous devrez installer le pack linguistique supplémentaire correspondant.

  3. OCR PDF : IronOCR peut extraire du texte à partir depDF numérisésl'utilisation d'un logiciel de gestion des données est un atout majeur pour la numérisation des documents.

  4. Nettoyage d'images : Il fournit des outils de prétraitement tels quedésolidarisation, suppression du bruitetinversion pour améliorer la qualité de l'image pour une meilleure précision de l'OCR.

  5. Intégration facile : L'API s'intègre de manière transparente à tout projet .NET, qu'il s'agisse d'une application console, d'une application web ou d'un logiciel de bureau.

Cas d'utilisation courants pour la conversion d'images en texte

  • Automatisation de la saisie des données : Les entreprises peuvent utiliser l'OCR pour extraire automatiquement des données de formulaires, de reçus ou de cartes de visite.
  • Archivage de documents : Les organisations peuvent numériser des documents physiques, les rendant consultables et plus faciles à stocker.
  • Accessibilité : Convertir des documents imprimés en texte utilisable avec des lecteurs d'écran ou d'autres technologies d'assistance.
  • Recherche et analyse : Convertissez rapidement des documents de recherche numérisés en texte à des fins d'analyse ou d'intégration dans d'autres outils logiciels.
  • Étude: Convertir les notes d'étude numérisées en texte éditable que vous pouvez ensuite enregistrer en tant que document Word pour une manipulation ultérieure dans des outils tels qu'IronWord, Microsoft Word ou Google docs.

Conclusion

La conversion de texte à partir d'une image à l'aide d'IronOcr est un moyen rapide, précis et efficace de traiter les tâches de traitement de documents. Que vous travailliez avec des documents numérisés, des images numériques ou des documents PDF, IronOcr simplifie le processus en offrant une grande précision, une prise en charge multilingue et de puissants outils de traitement d'images. Cet outil est idéal pour les entreprises qui cherchent à rationaliser leurs flux de gestion de documents, à automatiser l'extraction de données ou à améliorer l'accessibilité.

Utiliser leessai gratuit pour tester par vous-même les puissantes fonctionnalités d'IronOCR dès aujourd'hui, il ne faut que quelques minutes pour le faire fonctionner pleinement au sein de votre espace de travail afin que vous puissiez commencer à traiter des tâches d'OCR en un rien de temps!

SUIVANT >
Bibliothèque OCR des reçus (liste pour les développeurs)