OUTILS OCR

Outils OCR de Microsoft (alternatives en C#)

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

Kannapat Udonpant

mars 30, 2023

La reconnaissance optique de caractères (OCR) est une technologie cruciale pour les entreprises de toutes tailles. Il permet de numériser, de stocker et d'analyser efficacement des données qui, autrement, prendraient du temps et seraient complexes à traiter.

Les outils Microsoft OCR offrent des options robustes pour simplifier votre processus de transformation numérique. Ces outils permettent un traitement plus rapide et plus efficace des documents, ce qui vous permet de vous concentrer sur la tâche importante qu'est le développement de votre entreprise. Dans cet article, nous verrons comment utiliser les puissants outils d'OCR de Microsoft pour rationaliser vos opérations.

OneNote : Outil Microsoft

Si vous souhaitez extraire du texte d'une image, Microsoft OneNote est un outil utile. OneNote est une application polyvalente de prise de notes qui fournit une plateforme pour capturer, stocker et organiser l'information sous diverses formes telles que le texte, les images, l'audio et la vidéo. Il s'agit également d'un outil précieux pour copier du texte à partir d'images ou d'impressions de fichiers, ce qui vous permet de gagner du temps et d'économiser des efforts en éliminant la nécessité de taper manuellement le texte.

Extraire du texte à l'aide de OneNote

Pour extraire du texte d'une image à l'aide de OneNote, procédez comme suit :

Lancez l'application OneNote.
Insérez le fichier image à l'aide de l'option "Insérer" ou faites simplement glisser le fichier image dans la fenêtre OneNote.
Ruban d'insertion OneNote
Cliquez avec le bouton droit de la souris sur l'image et sélectionnez "Copier le texte de l'image" dans le menu.
Copier le texte de l'image dans le menu contextuel
Enfin, collez le texte copié à l'endroit de votre choix pour accéder au texte extrait de l'image numérisée.
Texte provenant d'un texte copié à partir d'une image
C'est ainsi que vous pouvez utiliser OneNote pour numériser n'importe quelle image.

Microsoft Vision Studio

Microsoft Cognitive Services propose une fonctionnalité "Extraire du texte à partir d'images", qui utilise l'IA pour scanner les images et détecter le texte avec précision. Ce service est convivial et ne nécessite que le téléchargement d'une image ou d'un fichier PDF. Les informations sont ensuite transcrites avec une grande précision, ce qui garantit que le texte extrait représente exactement le contenu de l'image ou du fichier PDF.

En outre, le texte extrait peut être rédigé en plusieurs langues, ce qui rend le service accessible aux utilisateurs du monde entier. Avec "Extraire du texte à partir d'images" de Microsoft Cognitive Services, l'extraction de données précieuses à partir d'images est simplifiée et permet une analyse et une réalisation des tâches efficaces.

Extraire du texte à l'aide de Microsoft Vision Studio

Pour utiliser la fonctionnalité "Extraire du texte des images", vous pouvez visiter le site Web de Vision Studio de Microsoft Azure. Toutefois, ce service nécessite un abonnement à Azure. Une fois l'abonnement souscrit, vous aurez accès au texte extrait des documents numérisés. Voici un exemple d'image de sortie à titre de référence.

Image scannée pour son texte

A9T9 Logiciel Microsoft OCR gratuit

A9T9 Free OCR Software est un outil polyvalent qui permet aux utilisateurs de Windows de convertir sans effort des documents papier en texte numérique. Sa fonction simple de glisser-déposer permet la reconnaissance instantanée de textes en plusieurs langues, dont l'anglais, l'allemand, le chinois, le coréen et l'indien. Ce logiciel permet d'extraire des données d'images numérisées ou de documents PDF et de les convertir dans un format éditable et consultable.

Ce logiciel prend en charge différents formats de sortie tels que Rich Text, TXT ou CSV, et des formats d'image tels que BMP, TIF ou PDF. Il dispose également d'une fonction de désalignement automatique des documents. Ce logiciel est rapide et précis dans la reconnaissance du texte dans les images de différentes langues, même celles avec des arrière-plans transparents. Le taux de précision élevé d'A9T9, son prix abordable et sa facilité d'installation en font le premier choix pour les utilisateurs de Windows à la recherche d'une solution logicielle OCR gratuite.

Copier le texte en utilisant A9T9

Vous pouvez télécharger le logiciel A9T9 depuis le Microsoft Store. Après l'installation, ouvrez le logiciel A9T9 et téléchargez les images ou les fichiers PDF.

Copier le texte en utilisant A9T9

Une fois l'image ou le document chargé, cliquez sur le bouton "Démarrer l'OCR". Cette opération permet d'extraire le texte du document ou de l'image numérisé(e) et de l'afficher dans la zone de texte située à droite.

Le texte est affiché à droite

Vous pouvez sélectionner la langue de l'OCR et copier le texte ou l'enregistrer en tant que document Word.

Lentille de bureau

Office Lens est un outil sophistiqué créé pour capturer et organiser des notes, des tableaux blancs, des menus, des panneaux et d'autres types d'informations écrites ou visuelles. Cette application offre une alternative supérieure à la prise de notes traditionnelle en éliminant le besoin de notes manuscrites et la possibilité de perdre des informations importantes.

Office Lens permet aux utilisateurs de capturer facilement des croquis, des notes manuscrites, des dessins et des équations, et de corriger les images pour éliminer les ombres et les angles obliques afin d'améliorer la lisibilité. Il dispose également de la reconnaissance optique de caractères (OCR), permettant aux utilisateurs de numériser et d'éditer le texte dans les images.

Malheureusement, Microsoft a abandonné la version Windows d'Office Lens. Il n'est désormais disponible que sur les appareils mobiles. En outre, Microsoft Office Document Imaging a été supprimé de Microsoft Word 2010.

IronOCR : C&num ; Bibliothèque OCR

IronOCR est une puissante bibliothèque OCR en C# pour les développeurs .NET. Il offre des capacités d'OCR complètes sur les documents et les images numérisés, ce qui permet aux développeurs d'automatiser facilement les flux de travail basés sur les documents. Avec son API simple et sa configuration minimale, IronOCR est facile à intégrer dans les systèmes existants.

La bibliothèque offre une API simple, ce qui facilite son intégration dans les systèmes existants avec une configuration minimale. Il prend en charge un large éventail de formats de fichiers d'entrée, notamment JPEG, TIFF, GIF, BMP, PDF, TIFF multipages et scans de documents multiples, et peut lire du texte à partir d'images orientées différemment.

Les fonctionnalités avancées d'IronOCR comprennent la suppression du bruit, qui permet de réduire la distorsion de l'image et d'améliorer la précision des résultats de l'extraction de texte. Avec la prise en charge de plus de 125 langues, dont l'anglais, le français, l'allemand, l'espagnol et le japonais, la bibliothèque convient à presque toutes les applications qui nécessitent des résultats d'OCR de haute qualité sans intervention manuelle.

Extraction de texte à l'aide d'IronOCR

Grâce à la possibilité d'extraire facilement du texte des fichiers PDF, il est possible de spécifier des numéros de page spécifiques ou d'extraire du texte de toutes les pages du document. Le processus d'extraction de texte peut être rationalisé et rendu plus efficace grâce à des outils appropriés.

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // OCR entire document
    ocrInput.AddPdf("example.pdf");

    // Alternatively OCR selected page numbers
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // OCR entire document
    ocrInput.AddPdf("example.pdf");

    // Alternatively OCR selected page numbers
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()

Using ocrInput As New OcrInput()
	' OCR entire document
	ocrInput.AddPdf("example.pdf")

	' Alternatively OCR selected page numbers
	ocrInput.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using

$vbLabelText $csharpLabel

Voici le résultat :

La sortie dans la console de débogage de Visual Studio

Vous pouvez également lire facilement les codes-barres et extraire du texte des fichiers PDF. La bibliothèque fournit une implémentation de code simple pour lire les codes-barres, ce qui en fait un outil polyvalent pour divers flux de travail basés sur des documents. Voir le code suivant :

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()
ocrTesseract.Configuration.ReadBarCodes = True
Using ocrInput As New OcrInput("images\imageWithBarcode.png")
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	For Each barcode In ocrResult.Barcodes
		Console.WriteLine(barcode.Value)
	Next barcode
End Using

$vbLabelText $csharpLabel

Entrée/sortie du code

IronOCR est capable de prendre en charge des images à faible DPI et des images bruitées.

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew();
    ocrInput.DeNoise();
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew();
    ocrInput.DeNoise();
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()
Using ocrInput As New OcrInput("images\image.png")
	ocrInput.Deskew()
	ocrInput.DeNoise()
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using

$vbLabelText $csharpLabel

Conclusion

En conclusion, la reconnaissance optique de caractères (OCR) est un outil essentiel qui peut grandement bénéficier aux entreprises de toutes tailles, leur permettant de numériser, stocker et traiter efficacement des informations qui seraient autrement complexes et longues à gérer manuellement. Microsoft propose divers outils d'OCR, notamment OneNote, Microsoft Vision Studio et le logiciel d'OCR gratuit A9T9, qui permettent de rationaliser les processus et de gagner du temps.

IronOCR, une bibliothèque d'OCR bien équipée, est une option remarquable parmi les outils d'OCR disponibles. Il est facilement intégrable avec les applications C# et VB.NET, offre une excellente précision et reconnaissance de plusieurs langues et formats d'image, et propose une période d'essai gratuite, avec des coûts de licence à partir de $749. IronOCR est un investissement précieux pour les entreprises qui cherchent à améliorer leur transformation numérique. Chacun de ces outils d'OCR offre des fonctionnalités uniques et peut répondre à des besoins différents, ce qui en fait des atouts précieux pour les entreprises qui cherchent à améliorer leur transformation numérique.

Kannapat Udonpant

Discutez avec l'équipe d'ingénierie maintenant

Ingénieur logiciel

Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.

< PRÉCÉDENT
Meilleur logiciel d'OCR pour Windows 10 (liste comparative)

SUIVANT >
Installer Tesseract (Tutoriel étape par étape avec images)