Passer au contenu du pied de page
OUTILS OCR

Outils OCR de Microsoft (Alternatives en C#)

La reconnaissance optique de caractères (OCR) est une technologie essentielle pour les entreprises de toutes tailles. Il permet une numérisation, un stockage et une analyse efficaces des données qui, autrement, seraient longs et complexes à traiter.

Les outils OCR de Microsoft offrent des options performantes pour simplifier votre processus de transformation numérique. Ces outils permettent un traitement des documents plus rapide et plus efficace, vous libérant ainsi du temps pour vous concentrer sur la tâche importante que représente la croissance de votre entreprise. Dans cet article, nous verrons comment utiliser les puissants outils OCR de Microsoft pour rationaliser vos opérations.

OneNote : outil Microsoft

Si vous avez besoin d'extraire du texte d'une image, Microsoft OneNote est un outil utile. OneNote est une application de prise de notes polyvalente qui offre une plateforme pour capturer, stocker et organiser des informations sous diverses formes telles que du texte, des images, de l'audio et de la vidéo. C'est également un outil précieux pour copier du texte à partir d'images ou de documents imprimés, ce qui vous permet de gagner du temps et de l'énergie en éliminant la nécessité de saisir le texte manuellement.

Extraire du texte à l'aide de OneNote

Pour extraire du texte d'une image à l'aide de OneNote, procédez comme suit :

  1. Lancez l'application OneNote.
  2. Insérez le fichier image à l'aide de l'option " Insérer " ou faites simplement glisser le fichier image et déposez-le dans la fenêtre OneNote.

    OneNote Insert ribbon

    Ruban d'insertion OneNote

  3. Faites un clic droit sur l'image et sélectionnez " Copier le texte de l'image " dans le menu.

    Copier le texte de l'image dans le menu contextuel

    Copier le texte de l'image dans le menu contextuel

  4. Enfin, collez le texte copié à l'endroit souhaité pour accéder au texte extrait de l'image numérisée.

    Texte tiré d'un texte copié d'une image

    Texte tiré d'un texte copié d'une image

Voici comment utiliser OneNote pour numériser n'importe quelle image.

Microsoft Vision Studio

Microsoft Cognitive Services propose une fonctionnalité " Extraire du texte à partir d'images ", utilisant l'IA pour analyser les images et détecter le texte avec précision. Ce service est facile d'utilisation et ne nécessite que le téléchargement d'une image ou d'un fichier PDF. Les informations sont ensuite transcrites avec une grande précision, garantissant ainsi que le texte extrait reflète fidèlement le contenu de l'image ou du fichier PDF.

De plus, le texte extrait peut être rédigé dans différentes langues, rendant ainsi le service accessible aux utilisateurs du monde entier. Grâce à la fonctionnalité " Extraire du texte à partir d'images " de Microsoft Cognitive Services, l'extraction de données précieuses à partir d'images est simplifiée et permet une analyse efficace et une réalisation efficace des tâches.

Extraire du texte à l'aide de Microsoft Vision Studio

Pour utiliser la fonctionnalité " Extraire du texte à partir d'images ", vous pouvez consulter le site Web Vision Studio de Microsoft Azure. Toutefois, ce service nécessite un abonnement à Azure. Une fois votre abonnement souscrit, vous aurez accès au texte extrait des documents numérisés. Voici un exemple d'image de sortie à titre de référence.

Image numérisée pour son texte

Image numérisée pour son texte

Logiciel OCR gratuit Microsoft A9T9

Le logiciel gratuit A9T9 OCR est un outil polyvalent qui permet aux utilisateurs de Windows de convertir sans effort des documents papier en texte numérique. Sa fonction glisser-déposer simple permet la reconnaissance instantanée de texte dans plusieurs langues, dont l'anglais, l'allemand, le chinois, le coréen et l'indien. Ce logiciel permet d'extraire des données à partir d'images numérisées ou de documents PDF et de les convertir en un format modifiable et consultable.

Ce logiciel prend en charge différents formats de sortie tels que Rich Text, TXT ou CSV, et des formats d'image comme BMP, TIF ou PDF. Il possède également une fonction de redressement automatique des documents. Ce logiciel est rapide et précis pour la reconnaissance de texte dans des images de différentes langues, même celles à fond transparent. La grande précision, le prix abordable et la facilité d'installation d'A9T9 en font un choix de premier ordre pour les utilisateurs Windows à la recherche d'une solution logicielle OCR gratuite.

Copier le texte en utilisant A9T9

Vous pouvez télécharger le logiciel A9T9 depuis le Microsoft Store . Après l'installation, ouvrez le logiciel A9T9 et téléchargez les images ou les fichiers PDF.

Image numérisée pour son texte

Copier le texte en utilisant A9T9

Une fois l'image ou le document chargé, cliquez sur le bouton " Démarrer la reconnaissance optique de caractères ". Cette fonction extraira le texte du document ou de l'image numérisée et l'affichera dans la zone de texte située à droite.

The text is shown on the right hand side

Le texte est affiché à droite.

Vous pouvez sélectionner la langue de la reconnaissance optique de caractères (OCR) et copier le texte ou l'enregistrer en tant que document Word.

Office Lens

Office Lens est un outil sophistiqué conçu pour capturer et organiser les notes, les tableaux blancs, les menus, les panneaux et autres types d'informations écrites ou visuelles. Cette application offre une alternative supérieure à la prise de notes traditionnelle en éliminant le besoin de notes manuscrites et le risque de perdre des informations importantes.

Office Lens permet aux utilisateurs de capturer facilement des croquis, des notes manuscrites, des dessins et des équations, et de corriger les images en éliminant les ombres et les angles obliques afin d'améliorer la lisibilité. Il intègre également la technologie OCR (reconnaissance optique de caractères), permettant aux utilisateurs de numériser et de modifier le texte contenu dans les images.

Malheureusement, Microsoft a abandonné la version Windows d'Office Lens. Il n'est désormais disponible que sur appareils mobiles. De plus, la fonctionnalité Microsoft Office Document Imaging a été supprimée de Microsoft Word 2010.

IronOCR : Bibliothèque OCR C

IronOCR est une puissante bibliothèque OCR en C# pour les développeurs .NET. Il offre des fonctionnalités OCR complètes sur les documents et images numérisés, facilitant ainsi l'automatisation des flux de travail documentaires par les développeurs. Grâce à son API simple et à sa configuration minimale, IronOCR s'intègre facilement aux systèmes existants.

La bibliothèque offre une API simple, facilitant son intégration dans les systèmes existants avec une configuration minimale. Il prend en charge un large éventail de formats de fichiers d'entrée, notamment JPEG, TIFF, GIF, BMP, PDF, les TIFF multipages et les numérisations de plusieurs documents, et peut lire le texte d'images ayant différentes orientations.

Les fonctionnalités avancées d'IronOCR incluent la suppression du bruit, qui contribue à réduire la distorsion de l'image et à améliorer la précision des résultats d'extraction de texte. Prenant en charge plus de 125 langues, dont l'anglais, le français, l'allemand, l'espagnol et le japonais, cette bibliothèque convient à presque toutes les applications nécessitant des résultats OCR de haute qualité sans intervention manuelle.

Extraire du texte à l'aide d'IronOCR

Avec la capacité d'extraire du texte à partir de fichiers PDF avec aisance, il est possible de spécifier des numéros de page spécifiques ou d'extraire du texte de toutes les pages du document. Le processus peut être rationalisé et rendu plus efficace grâce aux outils appropriés.

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // Add the entire PDF for OCR processing
    ocrInput.AddPdf("example.pdf");

    // Alternatively, OCR selected page numbers from a password-protected PDF
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    // Perform OCR and get the result
    var ocrResult = ocrTesseract.Read(ocrInput);

    // Output the extracted text
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // Add the entire PDF for OCR processing
    ocrInput.AddPdf("example.pdf");

    // Alternatively, OCR selected page numbers from a password-protected PDF
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    // Perform OCR and get the result
    var ocrResult = ocrTesseract.Read(ocrInput);

    // Output the extracted text
    Console.WriteLine(ocrResult.Text);
}
$vbLabelText   $csharpLabel

Voici la sortie :

Sortie dans la console de débogage de Visual Studio

Sortie dans la console de débogage de Visual Studio

Vous pouvez également lire facilement les codes-barres, en plus d'extraire du texte des fichiers PDF. La bibliothèque fournit une implémentation de code simple pour la lecture des codes-barres, ce qui en fait un outil polyvalent pour divers flux de travail basés sur les documents. Voir le code suivant :

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;

// Read barcodes from an image file
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);

    // Iterate through the detected barcodes and print their values
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;

// Read barcodes from an image file
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);

    // Iterate through the detected barcodes and print their values
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
$vbLabelText   $csharpLabel
Entrée/Sortie du code

Entrée/Sortie du code

IronOCR est capable de prendre en charge les images à faible résolution et bruitées en les améliorant avant traitement.

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

// Process a noisy image by deskewing and denoising it
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew(); // Corrects for skewness in the image
    ocrInput.DeNoise(); // Reduces visual noise for better recognition

    // Perform OCR and print the text
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

// Process a noisy image by deskewing and denoising it
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew(); // Corrects for skewness in the image
    ocrInput.DeNoise(); // Reduces visual noise for better recognition

    // Perform OCR and print the text
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
$vbLabelText   $csharpLabel

Conclusion

En conclusion, la reconnaissance optique de caractères (OCR) est un outil essentiel qui peut grandement bénéficier aux entreprises de toutes tailles, leur permettant de numériser, stocker et traiter efficacement des informations qui seraient autrement complexes et chronophages à gérer manuellement. Microsoft propose divers outils de reconnaissance optique de caractères (OCR), notamment OneNote, Microsoft Vision Studio et le logiciel OCR gratuit A9T9, qui permettent de rationaliser les processus et de gagner du temps.

IronOCR, une bibliothèque OCR très complète, est une option remarquable parmi les outils OCR disponibles. Il s'intègre facilement aux applications C# et VB .NET , offre une excellente précision et une reconnaissance de plusieurs langues et formats d'image, et dispose d'une période d'essai gratuite, avec des coûts de licence à partir de $799. IronOCR représente un investissement précieux pour les entreprises souhaitant améliorer leur transformation numérique. Chacun de ces outils OCR offre des fonctionnalités uniques et peut répondre à des besoins différents, ce qui en fait des atouts précieux pour les entreprises cherchant à améliorer leur transformation numérique.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me