Dans l'ère numérique actuelle, il s'agit de transformer un contenu à base d'images en un texte facile à lire, à éditer et à rechercher. Ceci est particulièrement important dans des scénarios tels que l'archivage de documents sur papier, l'extraction d'informations clés à partir d'images ou la numérisation de documents imprimés. La technologie de reconnaissance optique de caractères (OCR) offre une solution pour automatiser ce processus de conversion. Un outil extrêmement fiable et efficace pour y parvenir est IronOCR, une bibliothèque OCR robuste pour .NET.
Cet article expliquera comment convertir une image en texte à l'aide de IronOCR, et explorera comment cette conversion peut gagner du temps, réduire les erreurs et simplifier les processus tels que l'extraction de données, l'archivage et le traitement de documents.
Lisez le contenu de l'image en utilisant `OcrRead`
Exporter les résultats de l'OCR vers un fichier texte
Pourquoi convertir une image en texte ?
Il existe de nombreuses raisons de vouloir convertir une image en texte :
Extraction de données : Extraire du texte à partir de documents et d'images numérisés à des fins d'archivage ou de traitement de données.
Modification du contenu numérisé : Modifiez ou mettez à jour le texte dans des documents précédemment numérisés, ce qui vous fait gagner du temps en évitant de retaper manuellement le contenu.
Améliorer l'accessibilité : Convertir le matériel imprimé en texte numérique, le rendant accessible aux lecteurs d'écran ou aux applications de synthèse vocale.
Automatisation : Automatisez la saisie et le traitement des données en lisant le texte à partir des factures, reçus ou cartes de visite.
Comment commencer à convertir des images en texte
Avant d'explorer comment les puissantes capacités d'image à texte d'IronOCR peuvent être exploitées pour extraire du texte à partir d'images, examinons d'abord le processus général étape par étape à l'aide d'un outil en ligne, docsumo. Les outils d'OCR en ligne sont une option utile pour ceux qui cherchent à effectuer des tâches d'OCR occasionnelles, voire ponctuelles, car ils ne nécessitent aucune configuration manuelle. Bien entendu, si vous avez besoin d'effectuer des tâches d'OCR régulièrement, un outil d'OCR puissant tel qu'IronOcr pourrait mieux vous convenir.
Accéder à l'outil OCR en ligne
Téléchargez votre image et commencez le processus d'extraction
Télécharger les données résultantes sous forme de document texte
Première étape : naviguer vers l'outil d'OCR en ligne
Pour commencer à utiliser la technologie OCR afin d'extraire du texte à partir de fichiers images, nous devons d'abord naviguer jusqu'à l'outil d'OCR d'images en ligne que nous souhaitons utiliser.
Deuxième étape : téléchargez votre image et commencez le processus d'extraction
En cliquant sur le bouton "Upload File", nous pouvons maintenant télécharger le fichier image à partir duquel nous voulons extraire le texte. L'outil commencera immédiatement à traiter l'image.
Troisième étape : Télécharger les données résultantes sous forme de document texte
Maintenant que le traitement de l'image est terminé, nous pouvons télécharger le texte extrait sous la forme d'un nouveau document texte, en vue d'une utilisation ou d'une manipulation ultérieure.
Vous pouvez également visualiser le fichier en surlignant les différentes sections pour voir le texte qu'il contient. Cela peut s'avérer particulièrement utile si vous souhaitez uniquement consulter le texte de certaines sections. Vous pouvez ensuite continuer à télécharger le texte sous forme de document texte, XLS ou JSON.
Premiers pas avec IronOCR
IronOCR est une bibliothèque .NET polyvalente qui vous permet d'effectuer des opérations d'OCR sur des images. Avec une large gamme de fonctionnalités à offrir, il peut traiter divers formats de fichiers (tels que PNG, JPEG, TIFF et PDF), effectuer une correction d'image, scanner des documents spécialisés (passeports, plaques d'immatriculation, etc.), fournir des informations avancées sur les fichiers numérisés, convertir des documents numérisés et mettre en évidence le texte.
Installer la bibliothèque IronOCR
Avant de pouvoir commencer à lire des images à l'aide d'IronOcr, vous devrez l'installer si ce n'est pas déjà fait dans votre projet. Vous pouvez facilement installer IronOCR à l'aide de NuGet dans Visual Studio. Ouvrez la console du gestionnaire de paquets NuGet et exécutez la commande suivante :
Install-Package IronOcr
Install-Package IronOcr
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'Install-Package IronOcr
$vbLabelText $csharpLabel
Vous pouvez également installer IronOCR via la page NuGet Package Manager for Solution en recherchant IronOCR.
Pour utiliser IronOCR dans votre code, assurez-vous d'avoir la déclaration d'importation appropriée au début de votre code :
using IronOcr;
using IronOcr;
Imports IronOcr
$vbLabelText $csharpLabel
Convertir une image en texte : Un exemple de base
Pour commencer, examinons un exemple basique de conversion d'image en texte à l'aide d'IronOCR. Il s'agit d'une fonctionnalité essentielle de tout outil d'OCR, et pour cet exemple, nous utiliserons le fichier PNG que nous avons utilisé pour l'outil en ligne. Dans cet exemple, nous avons d'abord instancié la classe IronTesseract et lui avons attribué la variable 'ocr'. Nous utilisons ensuite la classe OcrImageInput pour créer un nouvel objet OcrImageInput à partir du fichier image fourni. Enfin, la méthode Read est utilisée pour lire le texte de l'image et retourne un objet OcrResult. Nous pouvons ensuite accéder au texte extrait et l'afficher sur la console en utilisant ocrResult.Text.
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
Console.WriteLine(ocrResult.Text)
$vbLabelText $csharpLabel
Image de sortie
Gestion de différents formats d'images
IronOCR prend en charge plusieurs formats d'image tels que PNG, JPEG, BMP, GIF et TIFF. Le processus de lecture de texte à partir de différents formats d'image reste le même, il suffit de charger le fichier avec l'extension correcte.
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.bmp");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.bmp");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
Console.WriteLine(ocrResult.Text)
$vbLabelText $csharpLabel
Améliorer la précision de l'OCR
Les performances de l'OCR peuvent être améliorées en optimisant l'image et en configurant des options telles que la langue, la résolution de l'image et le niveau de bruit dans l'image. Voici comment vous pouvez affiner la reconnaissance optique des caractères (OCR) pour augmenter la précision de l'extraction de texte sur une image dont la qualité doit être améliorée en utilisant les méthodes DeNoise() et Sharpen() :
using IronOcr
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
image.DeNoise();
image.Sharpen();
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
image.DeNoise();
image.Sharpen();
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Using IronOcr IronTesseract ocr = New IronTesseract()
Using image As New OcrImageInput("example.png")
image.DeNoise()
image.Sharpen()
Dim ocrResult As OcrResult = ocr.Read(image)
Console.WriteLine(ocrResult.Text)
End Using
End Using
$vbLabelText $csharpLabel
Exportation du texte extrait
Maintenant que nous connaissons les bases du processus de conversion d'une image en texte, voyons comment nous pouvons exporter le texte obtenu pour une utilisation ultérieure. Pour cet exemple, nous utiliserons le même processus que précédemment pour charger l'image et la numériser. Ensuite, en utilisant File.WriteAllText("output.txt", ocrResult.Text), nous créons un nouveau fichier texte appelé 'output.txt' et enregistrons le texte extrait dans le fichier.
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
File.WriteAllText("output.txt", ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
File.WriteAllText("output.txt", ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
File.WriteAllText("output.txt", ocrResult.Text)
$vbLabelText $csharpLabel
Principales caractéristiques de l'IronOCR
Haute précision : IronOCR utilise les algorithmes OCR avancés de Tesseract et inclut des outils intégrés pour gérer des images complexes, garantissant une haute précision.
Prise en charge multilingue : Prend en charge plus de 125 langues, y compris plusieurs scripts d'écriture tels que les caractères latins, cyrilliques, arabes et asiatiques. Il convient toutefois de noter que seul l'anglais est installé aux côtés d'IronOCR, pour utiliser d'autres langues, vous devrez installer le pack linguistique supplémentaire correspondant.
PDF OCR : IronOCR peut extraire du texte à partir de PDF scannés, ce qui en fait un outil précieux pour la numérisation de documents.
Intégration facile : L'API s'intègre parfaitement à tout projet .NET, qu'il s'agisse d'une application console, d'une application web ou d'un logiciel de bureau.
Cas d'utilisation courants pour la conversion d'images en texte
Automatisation de la saisie des données : Les entreprises peuvent utiliser OCR pour extraire automatiquement des données à partir de formulaires, de reçus ou de cartes de visite.
Archivage de documents : Les organisations peuvent numériser des documents physiques, les rendant ainsi accessibles par recherche et plus faciles à stocker.
Accessibilité : Convertissez les documents imprimés en texte pour une utilisation avec des lecteurs d'écran ou d'autres technologies d'assistance.
Recherche et Analyse : Convertissez rapidement des matériaux de recherche numérisés en texte pour l'analyse ou l'intégration dans d'autres outils logiciels.
Étude : Convertissez des notes d'étude numérisées en texte modifiable que vous pouvez ensuite enregistrer en tant que document Word pour une manipulation ultérieure dans des outils tels que IronWord, Microsoft Word ou Google Docs.
Conclusion
La conversion de texte à partir d'une image à l'aide d'IronOcr est un moyen rapide, précis et efficace de traiter les tâches de traitement de documents. Que vous travailliez avec des documents numérisés, des images numériques ou des documents PDF, IronOcr simplifie le processus en offrant une grande précision, une prise en charge multilingue et de puissants outils de traitement d'images. Cet outil est idéal pour les entreprises qui cherchent à rationaliser leurs flux de gestion de documents, à automatiser l'extraction de données ou à améliorer l'accessibilité.
Utilisez la version d'essai gratuite pour essayer dès aujourd'hui les puissantes fonctionnalités d'IronOCR. Il ne faut que quelques minutes pour qu'il fonctionne pleinement dans votre espace de travail, ce qui vous permet de commencer à traiter les tâches OCR en un rien de temps !
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.
< PRÉCÉDENT Easyocr vs Tesseract (Comparaison des fonctionnalités OCR)
SUIVANT > Bibliothèque OCR des reçus (liste pour les développeurs)
Des millions d'ingénieurs dans le monde entier lui font confiance
Réservez une démo en direct gratuite
Réservez une démonstration personnelle de 30 minutes.
Pas de contrat, pas de détails de carte, pas d'engagements.
Voici ce à quoi vous pouvez vous attendre :
Une démonstration en direct de notre produit et de ses principales fonctionnalités
Obtenez des recommandations de fonctionnalités spécifiques au projet
Toutes vos questions trouvent réponse pour vous assurer de disposer de toutes les informations dont vous avez besoin. (Aucun engagement de votre part.)
CHOISIR L'HEURE
VOS INFORMATIONS
Réservez votre démo en direct gratuite
Fiable par plus de 2 millions d'ingénieurs dans le monde entier