Passer au contenu du pied de page
UTILISATION D'IRONOCR

Comment obtenir du texte à partir d'une capture d'écran en C#

Beaucoup de personnes se demandent peut-être " Qu'est-ce qu'une capture d'écran OCR ? " D'autres se demandent comment convertir une capture d'écran de texte en un format numérique modifiable, ou au format .txt ou .doc. Si vous faites partie de ces personnes, alors ne vous inquiétez plus car nous avons les solutions parfaites pour vous.

Dans cet article, nous aborderons différents outils permettant d'effectuer une reconnaissance optique de caractères (OCR) sur des captures d'écran.

Il existe de nombreux outils OCR, mais aujourd'hui nous utiliserons IronOCR pour extraire du texte à partir de captures d'écran.

1. IronOCR

IronOCR est une bibliothèque logicielle pour les langages de programmation C# et VB.NET, conçue pour permettre aux développeurs d'ajouter des fonctionnalités OCR (reconnaissance optique de caractères) à leurs applications. Cette bibliothèque permet de reconnaître du texte dans des images et de le convertir en texte lisible par machine. La bibliothèque est construite sur le moteur OCR Tesseract, considéré comme l'un des moteurs OCR les plus précis disponibles.

IronOCR peut être utilisé pour lire du texte à partir d'images dans de nombreux formats de fichiers différents, notamment PNG, JPG, TIFF et PDF. Il offre également toute une gamme de fonctionnalités avancées pour la reconnaissance de texte, telles que la capacité à reconnaître plusieurs langues, ainsi que la capacité à reconnaître du texte à partir d'images qui ont été pivotées ou déformées. De plus, les développeurs peuvent utiliser IronOCR pour intégrer rapidement la fonctionnalité OCR dans leurs applications, car il fournit une API simple et facile à utiliser qui peut être appelée à partir de code C# ou VB.NET. Avec IronOCR, vous pouvez choisir la langue de votre système de reconnaissance optique de caractères (OCR) et effectuer une OCR sur des images, des fichiers PDF numériques et des fichiers PDF numérisés.

IronOCR est considéré comme une bonne option pour les développeurs qui souhaitent ajouter des fonctionnalités OCR à leurs applications. Il est open source, facile à utiliser et à intégrer, rapide, précis et à jour avec les dernières technologies OCR.

2. Fonctionnalités d'IronOCR

IronOCR offre un large éventail de fonctionnalités pour aider les développeurs à intégrer la fonctionnalité OCR dans leurs applications. Voici quelques-unes des principales caractéristiques d'IronOCR :

  1. Prise en charge multilingue : IronOCR peut reconnaître du texte dans plus de 60 langues, dont l'anglais, l'espagnol, l'allemand, le français, l'italien et le chinois.
  2. Détection automatique de l'orientation du texte : IronOCR peut détecter automatiquement l'orientation du texte dans une image, même si l'image a été pivotée ou déformée.
  3. Prise en charge d'une large gamme de formats d'image : IronOCR peut lire le texte des images dans de nombreux formats de fichiers différents, notamment PNG, JPG, TIFF et PDF .
  4. Paramètres de reconnaissance personnalisables : Les développeurs peuvent personnaliser les paramètres de reconnaissance afin d'améliorer la précision de la reconnaissance pour des types d'images ou des cas d'utilisation spécifiques.
  5. Capacité à reconnaître le texte à partir de documents numérisés et de fichiers PDF de plusieurs pages.
  6. Reconnaissance rapide et haute précision : IronOCR utilise le moteur OCR Tesseract, qui est l'un des moteurs OCR les plus précis et les plus utilisés disponibles.
  7. API facile à utiliser : IronOCR fournit une API simple et facile à utiliser qui peut être appelée à partir de code C# ou VB.NET, ce qui facilite l'intégration de la fonctionnalité OCR dans n'importe quelle application.

Globalement, IronOCR est un outil puissant qui offre un large éventail de fonctionnalités pour aider les développeurs à ajouter des fonctionnalités OCR à leurs applications.

3. Créer un Nouveau Projet dans Visual Studio

Ouvrez Visual Studio et allez dans le menu Fichier. Sélectionnez " Nouveau projet ", puis " Application console ".

Entrez le nom du projet et sélectionnez le chemin dans la zone de texte appropriée. Ensuite, cliquez sur le bouton Créer. Sélectionnez le framework .NET requis, comme dans la capture d'écran ci-dessous :

Comment extraire du texte d'une capture d'écran par OCR en C# ? Figure 1 : Création d'un nouveau projet dans Visual Studio Création d'un nouveau projet dans Visual Studio

Le projet Visual Studio générera maintenant la structure pour l'application console. Une fois terminé, il ouvrira le fichier program.cs , dans lequel vous pourrez écrire et exécuter du code source.

Comment extraire du texte d'une capture d'écran par OCR en C# ? Figure 2 : Le fichier program.cs, généré par l'Assistant Nouveau projet de Visual Studio Le fichier program.cs, généré par l'Assistant Nouveau projet de Visual Studio

Nous pouvons maintenant ajouter la bibliothèque IronOCR et tester le programme.

4. Installez IronOCR

Dans Visual Studio, vous pouvez facilement intégrer IronOCR à votre projet C#.

IronOCR propose plusieurs processus pour s'intégrer à un projet C# .NET. Nous allons ici aborder l'un d'entre eux : l'installation d'IronOCR à l'aide du gestionnaire de packages NuGet.

Dans Visual Studio, accédez à Outils > Gestionnaire de packages NuGet > Console du gestionnaire de packages

Comment extraire du texte d'une capture d'écran par OCR en C# ? Figure 3 : Interface utilisateur du gestionnaire de packages NuGet L'interface utilisateur du gestionnaire de packages NuGet

Après avoir cliqué, une nouvelle console apparaîtra en bas de la fenêtre de Visual Studio. Saisissez la commande ci-dessous dans la console et appuyez sur Entrée.

Install-Package IronOcr

IronOCR sera installé en quelques secondes.

5. Utilisation d'IronOCR pour effectuer une reconnaissance optique de caractères (OCR) sur une capture d'écran

IronOCR est une puissante bibliothèque OCR qui peut être utilisée pour reconnaître du texte à partir de captures d'écran. Avec IronOCR, vous pouvez prendre une capture d'écran de texte, puis utiliser les capacités OCR de la bibliothèque pour convertir le texte de la capture d'écran en un format numérique modifiable. Voici un exemple de la façon dont vous pourriez utiliser IronOCR pour effectuer une reconnaissance optique de caractères (OCR) sur une capture d'écran en C#. Pour effectuer une reconnaissance optique de caractères (OCR) à partir d'une capture d'écran, il suffit de prendre une capture d'écran et d'exécuter le code ci-dessous pour extraire le texte dans le format de sortie souhaité.

using IronOcr;
using System;

class Program
{
    static void Main()
    {
        // Create an instance of IronTesseract, the core OCR engine
        var ocr = new IronTesseract();

        // Perform OCR on the specified image file
        var result = ocr.Read("ocr.png");

        // Output the recognized text to the console
        Console.WriteLine(result.Text);
    }
}
using IronOcr;
using System;

class Program
{
    static void Main()
    {
        // Create an instance of IronTesseract, the core OCR engine
        var ocr = new IronTesseract();

        // Perform OCR on the specified image file
        var result = ocr.Read("ocr.png");

        // Output the recognized text to the console
        Console.WriteLine(result.Text);
    }
}
Imports IronOcr
Imports System

Friend Class Program
	Shared Sub Main()
		' Create an instance of IronTesseract, the core OCR engine
		Dim ocr = New IronTesseract()

		' Perform OCR on the specified image file
		Dim result = ocr.Read("ocr.png")

		' Output the recognized text to the console
		Console.WriteLine(result.Text)
	End Sub
End Class
$vbLabelText   $csharpLabel

Fichier image d'entrée

Comment extraire du texte d'une capture d'écran par OCR en C# ? Figure 4 : Exemple de capture d'écran utilisée pour la saisie. Capture d'écran d'exemple utilisée pour la saisie

Sortie de texte

- IRONOCR for NET
- The C# OCR Library
- OCR for C# to scan and read images & PDFs
- NET OCR library with 125+ global language packs
- Output as text, structured data, or searchable PDFs
- Supports NET 6, 5, Core, Standard, Framework

6. Utilisation d'IronOCR pour effectuer une reconnaissance optique de caractères (OCR) sur une zone spécifique

IronOCR vous permet d'effectuer une reconnaissance optique de caractères (OCR) sur des zones spécifiques d'une image. Cela peut s'avérer utile lorsque l'image contient plusieurs zones de texte et que vous souhaitez uniquement reconnaître le texte à l'intérieur d'une zone spécifique. Un exemple de code correspondant est présenté ci-dessous.

using IronOcr;
using IronSoftware.Drawing;
using System;

class Program
{
    static void Main()
    {
        var ocrTesseract = new IronTesseract();

        using (var ocrInput = new OcrInput())
        {
            // Define the rectangle to crop the image for OCR
            var contentArea = new CropRectangle(x: 0, y: 0, width: 350, height: 150);

            // Add the image with the specified cropping area
            ocrInput.AddImage("ocr.png", contentArea);

            // Perform the OCR operation on the defined area
            var ocrResult = ocrTesseract.Read(ocrInput);

            // Output the recognized text
            Console.WriteLine(ocrResult.Text);
        }
    }
}
using IronOcr;
using IronSoftware.Drawing;
using System;

class Program
{
    static void Main()
    {
        var ocrTesseract = new IronTesseract();

        using (var ocrInput = new OcrInput())
        {
            // Define the rectangle to crop the image for OCR
            var contentArea = new CropRectangle(x: 0, y: 0, width: 350, height: 150);

            // Add the image with the specified cropping area
            ocrInput.AddImage("ocr.png", contentArea);

            // Perform the OCR operation on the defined area
            var ocrResult = ocrTesseract.Read(ocrInput);

            // Output the recognized text
            Console.WriteLine(ocrResult.Text);
        }
    }
}
Imports IronOcr
Imports IronSoftware.Drawing
Imports System

Friend Class Program
	Shared Sub Main()
		Dim ocrTesseract = New IronTesseract()

		Using ocrInput As New OcrInput()
			' Define the rectangle to crop the image for OCR
			Dim contentArea = New CropRectangle(x:= 0, y:= 0, width:= 350, height:= 150)

			' Add the image with the specified cropping area
			ocrInput.AddImage("ocr.png", contentArea)

			' Perform the OCR operation on the defined area
			Dim ocrResult = ocrTesseract.Read(ocrInput)

			' Output the recognized text
			Console.WriteLine(ocrResult.Text)
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

Sortie

- IRONOCR for NET
- The C# OCR Library
- OCR for C# to scan and read images & PDFs
- NET OCR library with 125+ global language packs

7. Utilisation d'IronOCR pour effectuer une reconnaissance optique de caractères (OCR) sur une image

Pour effectuer une reconnaissance optique de caractères (OCR) sur une image et enregistrer le texte reconnu dans un fichier .txt, vous pouvez utiliser le code suivant.

using IronOcr;
using System;

class Program
{
    static void Main()
    {
        var ocr = new IronTesseract();
        using (var input = new OcrInput("ocr.png"))
        {
            // Perform OCR on the image
            var result = ocr.Read(input);

            // Save the recognized text to a .txt file
            result.SaveAsTextFile("output.txt");
        }
    }
}
using IronOcr;
using System;

class Program
{
    static void Main()
    {
        var ocr = new IronTesseract();
        using (var input = new OcrInput("ocr.png"))
        {
            // Perform OCR on the image
            var result = ocr.Read(input);

            // Save the recognized text to a .txt file
            result.SaveAsTextFile("output.txt");
        }
    }
}
Imports IronOcr
Imports System

Friend Class Program
	Shared Sub Main()
		Dim ocr = New IronTesseract()
		Using input = New OcrInput("ocr.png")
			' Perform OCR on the image
			Dim result = ocr.Read(input)

			' Save the recognized text to a .txt file
			result.SaveAsTextFile("output.txt")
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

Le contenu du fichier de sortie est indiqué ci-dessous :

Comment extraire du texte d'une capture d'écran par OCR en C# ? Figure 5 : Contenu du fichier output.txt généré Contenu du fichier output.txt généré

8. En savoir plus

Consultez le tutoriel sur l'extraction de texte à partir d'images pour plus d'informations sur la manière d'effectuer une reconnaissance optique de caractères (OCR) sur des images.

IronOCR fait partie d'une suite de cinq bibliothèques .NET conçues pour fonctionner avec différents types de documents. Vous pouvez acheter les cinq bibliothèques pour le prix de seulement deux licences .

Questions Fréquemment Posées

Comment puis-je extraire du texte d'une capture d'écran en utilisant OCR en C# ?

Vous pouvez utiliser IronOCR en C# pour extraire du texte d'une capture d'écran en exploitant son API simple pour convertir la capture d'écran en un format texte numérique éditable. Installez d'abord IronOCR via NuGet dans Visual Studio, puis utilisez les exemples de code fournis par IronOCR pour effectuer un OCR sur votre image de capture d'écran.

Qu'est-ce que la reconnaissance optique de caractères (OCR) ?

La reconnaissance optique de caractères (OCR) est une technologie qui convertit différents types de documents, tels que documents papier numérisés, fichiers PDF ou images capturées par un appareil photo numérique, en données éditables et consultables. IronOCR est une bibliothèque C# qui facilite l'OCR dans les applications.

IronOCR peut-il gérer plusieurs langues pour l'OCR ?

Oui, IronOCR prend en charge la reconnaissance de texte dans plus de 60 langues, ce qui le rend polyvalent pour les applications internationales. Il offre des options pour définir les préférences linguistiques afin d'assurer une extraction de texte précise.

Quel format d'image IronOCR prend-il en charge pour l'OCR ?

IronOCR prend en charge divers formats d'image pour l'OCR, y compris PNG, JPG, TIFF et PDF. Cette flexibilité permet aux développeurs de travailler avec une large gamme de sources d'image sans avoir besoin de convertir les formats manuellement.

Comment l'orientation du texte peut-elle affecter la précision de l'OCR ?

L'orientation du texte peut considérablement impacter la précision de l'OCR. IronOCR détecte et corrige automatiquement l'orientation du texte dans les images, garantissant que le texte tourné ou incliné est reconnu et converti avec précision en format numérique.

Comment installer IronOCR dans un projet C# ?

Pour installer IronOCR dans un projet C#, utilisez le Gestionnaire de paquet NuGet dans Visual Studio. Recherchez IronOCR et installez-le dans votre projet pour commencer à utiliser ses capacités d'OCR pour l'extraction de texte à partir d'images.

Quels sont les avantages d'utiliser IronOCR pour la reconnaissance de texte ?

IronOCR offre plusieurs avantages, notamment un support multilingue robuste, une correction automatique de l'orientation du texte, la prise en charge de multiples formats d'image et des réglages personnalisables pour améliorer la précision de la reconnaissance. Son API simple facilite une intégration facile dans les applications C#.

IronOCR est-il adapté pour reconnaître du texte dans des zones spécifiques d'une image ?

Oui, IronOCR permet aux développeurs de définir des zones spécifiques au sein d'une image pour effectuer un OCR, permettant ainsi une extraction de texte ciblée. Cette fonction est utile pour les scénarios où seule une partie de l'image contient le texte pertinent.

Quelles sont quelques astuces courantes de dépannage pour les problèmes d'OCR ?

Les astuces courantes de dépannage pour les problèmes d'OCR incluent s'assurer que l'image est claire et de haute résolution, vérifier l'orientation du texte, s'assurer que la langue correcte est définie, et mettre à jour vers la dernière version de IronOCR pour une performance optimale.

Comment puis-je convertir les résultats OCR en fichier .txt ou .doc ?

Avec IronOCR, vous pouvez convertir les résultats OCR en fichier .txt ou .doc en extrayant le texte de l'image et en l'enregistrant à l'aide d'opérations standard de lecture/écriture de fichiers en C#. Cela vous permet de créer des documents modifiables à partir de texte basé sur des images.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite