Passer au contenu du pied de page
OUTILS OCR

Outils OCR de Microsoft (Alternatives en C#)

La ROC (Reconnaissance Optique de Caractères) est une technologie cruciale pour les entreprises de toutes tailles. Elle permet de numériser, stocker et analyser efficacement des données qui, autrement, prendraient beaucoup de temps et seraient complexes à gérer.

Les outils OCR de Microsoft offrent des options solides pour simplifier votre processus de transformation numérique. Ces outils permettent un traitement de documents plus rapide et plus efficace, vous laissant plus de temps pour vous concentrer sur la tâche importante de faire croître votre entreprise. Dans cet article, nous explorerons comment utiliser les puissants outils OCR de Microsoft pour simplifier vos opérations.

OneNote : Outil Microsoft

Si vous avez besoin d'extraire du texte à partir d'une image, Microsoft OneNote est un outil utile. OneNote est une application polyvalente de prise de notes qui propose une plateforme pour capturer, stocker et organiser des informations sous diverses formes telles que le texte, les images, l'audio et la vidéo. C'est également un outil précieux pour copier du texte à partir d'images ou d'impressions de fichiers, vous faisant gagner du temps et des efforts en éliminant la saisie manuelle du texte.

Extraire du texte avec OneNote

Pour extraire du texte d'une image avec OneNote, suivez ces étapes :

  1. Lancez l'application OneNote.
  2. Insérez le fichier image en utilisant l'option "Insérer" ou faites simplement glisser et déposez le fichier image dans la fenêtre OneNote.

    OneNote Insert ribbon

    Ruban d'insertion OneNote

  3. Faites un clic droit sur l'image et sélectionnez "Copier le texte de l'image" dans le menu.

    Copier le texte à partir de l'image dans le menu contextuel

    Copier le texte à partir de l'image dans le menu contextuel

  4. Enfin, collez le texte copié à l'endroit souhaité pour accéder au texte extrait de l'image numérisée.

    Texte provenant du texte copié à partir d'une image

    Texte provenant du texte copié à partir d'une image

C'est ainsi que vous pouvez utiliser OneNote pour numériser n'importe quelle image.

Microsoft Vision Studio

Microsoft Cognitive Services propose une fonctionnalité "Extraire le texte des images", utilisant l'IA pour scanner les images et détecter le texte avec précision. Ce service est convivial et ne nécessite que le téléchargement d'une image ou d'un fichier PDF. Les informations sont ensuite transcrites avec une grande précision, garantissant que le texte extrait représente fidèlement le contenu de l'image ou du fichier PDF.

De plus, le texte extrait peut être dans différentes langues, ce qui rend le service accessible aux utilisateurs du monde entier. Avec " Extraire le texte des images " de Microsoft Cognitive Services, extraire des données précieuses à partir d'images devient simple et permet une analyse efficace et une réalisation de tâches efficace.

Extraire du texte avec Microsoft Vision Studio

Pour utiliser la fonctionnalité "Extraire le texte des images", vous pouvez visiter le site web Vision Studio d'Azure de Microsoft. Cependant, ce service nécessite un abonnement à Azure. Une fois que vous avez souscrit à un abonnement, vous aurez accès au texte extrait des documents numérisés. Voici une image de sortie à titre de référence.

Image numérisée pour son texte

Image numérisée pour son texte

A9T9 Microsoft Free OCR Software

Le logiciel OCR gratuit A9T9 est un outil polyvalent qui permet aux utilisateurs de Windows de convertir sans effort des documents papier en texte numérique. Sa fonction de glisser-déposer simple permet la reconnaissance instantanée du texte dans plusieurs langues, y compris l'anglais, l'allemand, le chinois, le coréen et l'indique. Ce logiciel peut extraire des données d'images numérisées ou de documents PDF et les convertir en un format modifiable et consultable.

Ce logiciel prend en charge divers formats de sortie tels que Rich Text, TXT ou CSV, et les formats d'image comme BMP, TIF ou PDF. Il dispose également d'une fonctionnalité de redressement automatique des documents. Ce logiciel est rapide et précis pour reconnaître le texte dans des images de différentes langues, même celles avec des arrière-plans transparents. Le taux de précision élevé d'A9T9, son coût abordable et sa facilité d'installation en font un choix de premier plan pour les utilisateurs de Windows recherchant une solution logicielle OCR gratuite.

Copier le texte avec A9T9

Vous pouvez télécharger le logiciel A9T9 depuis le Microsoft Store. Après l'installation, ouvrez le logiciel A9T9 et téléchargez les images ou les fichiers PDF.

Image numérisée pour son texte

Copier le texte avec A9T9

Une fois l'image ou le document chargé, cliquez sur le bouton "Démarrer OCR". Cela extraira le texte du document ou de l'image numérisé(e) et l'affichera dans la zone de texte sur le côté droit.

The text is shown on the right hand side

Le texte est affiché sur le côté droit

Vous pouvez sélectionner la langue de l'OCR et copier le texte ou le sauvegarder en tant que document Word.

Office Lens

Office Lens est un outil sophistiqué créé pour capturer et organiser des notes, des tableaux blancs, des menus, des signes et d'autres types d'informations écrites ou visuelles. Cette application offre une alternative supérieure à la prise de notes traditionnelle en éliminant le besoin de notes manuscrites et la possibilité de perdre des informations importantes.

Office Lens permet aux utilisateurs de capturer facilement des croquis, des notes manuscrites, des dessins et des équations, et de corriger les images pour les ombres et les angles inclinés afin d'améliorer la lisibilité. Il comprend également la ROC (Reconnaissance Optique de Caractères), permettant aux utilisateurs de numériser et d'éditer du texte dans les images.

Malheureusement, Microsoft a discontinué la version Windows d'Office Lens. Il n'est maintenant disponible que sur les appareils mobiles. De plus, Microsoft Office Document Imaging a été retiré de Microsoft Word 2010.

IronOCR : Bibliothèque OCR pour C

IronOCR est une puissante bibliothèque OCR en C# pour les développeurs .NET. Elle permet des capacités OCR complètes sur des documents et des images numérisés, facilitant ainsi aux développeurs l'automatisation des flux de travail basés sur les documents. Avec son API simple et sa configuration minimale, IronOCR est facile à intégrer dans des systèmes existants.

La bibliothèque offre une API simple, facilitant son intégration dans des systèmes existants avec une configuration minimale. Elle prend en charge une large gamme de formats de fichiers d'entrée, y compris les fichiers JPEG, TIFF, GIF, BMP, PDF, les TIFF multi-pages, et plusieurs numérisations de documents, et peut lire du texte à partir d'images avec différentes orientations.

Les fonctionnalités avancées d'IronOCR incluent la suppression du bruit, qui aide à réduire la distorsion de l'image et à améliorer la précision des résultats d'extraction de texte. Avec une prise en charge de plus de 125 langues, y compris l'anglais, le français, l'allemand, l'espagnol et le japonais, la bibliothèque convient à presque toute application nécessitant des résultats OCR de haute qualité sans intervention manuelle.

Extraire du texte avec IronOCR

Avec la capacité d'extraire du texte à partir de fichiers PDF avec facilité, il est possible de spécifier des numéros de pages spécifiques ou d'extraire le texte de toutes les pages du document. Le processus peut être simplifié et rendu plus efficace avec les bons outils.

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // Add the entire PDF for OCR processing
    ocrInput.AddPdf("example.pdf");

    // Alternatively, OCR selected page numbers from a password-protected PDF
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    // Perform OCR and get the result
    var ocrResult = ocrTesseract.Read(ocrInput);

    // Output the extracted text
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // Add the entire PDF for OCR processing
    ocrInput.AddPdf("example.pdf");

    // Alternatively, OCR selected page numbers from a password-protected PDF
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    // Perform OCR and get the result
    var ocrResult = ocrTesseract.Read(ocrInput);

    // Output the extracted text
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()

Using ocrInput As New OcrInput()
	' Add the entire PDF for OCR processing
	ocrInput.AddPdf("example.pdf")

	' Alternatively, OCR selected page numbers from a password-protected PDF
	ocrInput.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	' Perform OCR and get the result
	Dim ocrResult = ocrTesseract.Read(ocrInput)

	' Output the extracted text
	Console.WriteLine(ocrResult.Text)
End Using
$vbLabelText   $csharpLabel

Voici le résultat :

Le résultat à l'intérieur de la console de débogage de Visual Studio

Le résultat à l'intérieur de la console de débogage de Visual Studio

Vous pouvez également lire facilement les codes à barres en plus d'extraire du texte à partir de fichiers PDF. La bibliothèque fournit une implémentation de code simple pour lire les codes à barres, ce qui en fait un outil polyvalent pour divers flux de travail basés sur les documents. Voir le code suivant :

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;

// Read barcodes from an image file
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);

    // Iterate through the detected barcodes and print their values
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;

// Read barcodes from an image file
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);

    // Iterate through the detected barcodes and print their values
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()
ocrTesseract.Configuration.ReadBarCodes = True

' Read barcodes from an image file
Using ocrInput As New OcrInput("images\imageWithBarcode.png")
	Dim ocrResult = ocrTesseract.Read(ocrInput)

	' Iterate through the detected barcodes and print their values
	For Each barcode In ocrResult.Barcodes
		Console.WriteLine(barcode.Value)
	Next barcode
End Using
$vbLabelText   $csharpLabel
Entrée/Sortie du code

Entrée/Sortie du code

IronOCR est capable de prendre en charge les images faiblement DPI et bruyantes en les améliorant avant le traitement.

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

// Process a noisy image by deskewing and denoising it
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew(); // Corrects for skewness in the image
    ocrInput.DeNoise(); // Reduces visual noise for better recognition

    // Perform OCR and print the text
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

// Process a noisy image by deskewing and denoising it
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew(); // Corrects for skewness in the image
    ocrInput.DeNoise(); // Reduces visual noise for better recognition

    // Perform OCR and print the text
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()

' Process a noisy image by deskewing and denoising it
Using ocrInput As New OcrInput("images\image.png")
	ocrInput.Deskew() ' Corrects for skewness in the image
	ocrInput.DeNoise() ' Reduces visual noise for better recognition

	' Perform OCR and print the text
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
$vbLabelText   $csharpLabel

Conclusion

En conclusion, la Reconnaissance Optique de Caractères (ROC) est un outil vital qui peut grandement bénéficier aux entreprises de toutes tailles, leur permettant de numériser, stocker et traiter efficacement des informations qui, autrement, seraient complexes et fastidieuses à gérer manuellement. Microsoft propose divers outils OCR, y compris OneNote, Microsoft Vision Studio et le logiciel OCR gratuit A9T9, qui peuvent simplifier les processus et gagner du temps.

IronOCR, une bibliothèque OCR bien dotée en fonctionnalités, est une option remarquable parmi les outils OCR disponibles. Il est facilement intégrable aux applications C# et VB.NET, offre une excellente précision et reconnaissance de plusieurs langues et formats d'image, et possède une période d'essai gratuite, avec des coûts de licence commençant à partir de $799. IronOCR est un investissement précieux pour les entreprises cherchant à améliorer leur transformation numérique. Chacun de ces outils OCR offre des fonctionnalités uniques et peut répondre à différents besoins, en faisant des atouts précieux pour les entreprises cherchant à améliorer leur transformation numérique.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite