Passer au contenu du pied de page
UTILISATION D'IRONOCR

Comment créer une reconnaissance de caractères en C#

La technologie de reconnaissance optique de caractères (OCR) permet la conversion de texte en formats numériques lisibles par les machines. Lorsqu'un document est numérisé (comme une facture ou un reçu), il est enregistré par votre ordinateur sous forme de fichier image. Cependant, le texte contenu dans l'image numérisée ne peut être ni modifié, ni recherché, ni compté à l'aide d'un éditeur de texte classique.

La reconnaissance optique de caractères (OCR) permet de traiter l'image, d'en extraire le texte et de le transformer en un format texte lisible par ordinateur. Cela permet l'extraction de texte à partir de diverses sources, notamment des fichiers PDF et d'autres images numérisées. De plus, les capacités de reconnaissance optique de caractères (OCR) s'étendent au-delà de la simple extraction de texte pour inclure les principaux formats d'image et les documents PDF, les convertissant en données OCR consultables.

En C#, les développeurs peuvent exploiter la puissance de l'OCR grâce à diverses bibliothèques, dont la puissante bibliothèque IronOCR d' Iron Software . Dans ce tutoriel, nous explorerons les bases de la reconnaissance optique de caractères (OCR) et démontrerons comment utiliser IronOCR pour effectuer efficacement la reconnaissance de caractères en C#.

Comment créer une reconnaissance de caractères en C

  1. Créez un tout nouveau projet C# et nommez-le dans Visual Studio.
  2. Installez la bibliothèque IronOCR .NET et incluez-la dans le dossier du projet.
  3. Utiliser le Tesseract IronOCR pour lire le texte des images.
  4. Utilisez les fonctionnalités avancées d'IronOCR pour lire le texte dans les images.
  5. Optimisation des performances de l'opération de lecture IronOCR .

Premiers pas avec IronOCR

IronOCR , une bibliothèque C# développée par Iron Software , offre des fonctionnalités OCR avancées. Il permet une extraction de texte précise à partir d'images, de fichiers PDF et de documents numérisés. Avant de nous plonger dans le code, assurez-vous d'avoir installé IronOCR dans votre projet.

Principales caractéristiques d' IronOCR d' Iron Software

Moteur OCR Tesseract amélioré

IronOCR améliore les capacités du moteur OCR Tesseract, largement utilisé, en optimisant à la fois la précision et la vitesse. Il constitue une solution robuste pour extraire du texte à partir de diverses sources, notamment des images, des PDF et divers formats de documents.

Couverture linguistique étendue

Prenant en charge plus de 125 langues, IronOCR est parfaitement adapté aux exigences multilingues, ce qui en fait un choix idéal pour les applications exigeant une grande polyvalence linguistique.

Choix de sortie polyvalents

Le texte extrait peut être facilement exporté sous forme de texte brut ou de données structurées pour une intégration transparente dans des chaînes de traitement ultérieures. De plus, IronOCR facilite la création de PDF consultables directement à partir d'images.

Adaptabilité multiplateforme

Conçu pour être compatible avec C#, F# et VB.NET, IronOCR fonctionne de manière transparente dans divers environnements .NET, notamment les versions 8, 7, 6, Core, Standard et Framework.

Tirer parti de Tesseract 5

IronOCR exploite la puissance de Tesseract 5, finement adapté pour des performances optimales au sein de l'écosystème .NET.

Capacité OCR basée sur les zones

Avec IronOCR, les utilisateurs peuvent définir précisément des zones spécifiques au sein des documents, permettant un traitement OCR ciblé. Cette fonctionnalité améliore la précision et l'efficacité en concentrant la puissance de traitement là où elle est le plus nécessaire.

Outils de prétraitement d'images

La bibliothèque offre une suite de fonctionnalités de prétraitement d'images telles que le redressement et la réduction du bruit. Ces outils garantissent des résultats supérieurs même avec des images sources imparfaites, améliorant ainsi l'expérience globale de reconnaissance optique de caractères (OCR).

Nous allons maintenant développer une application de démonstration qui utilise IronOCR pour lire le texte à partir d'images.

Prérequis

  1. Visual Studio : assurez-vous d'avoir installé Visual Studio ou tout autre environnement de développement C#.
  2. Gestionnaire de packages NuGet : assurez-vous que NuGet est installé pour gérer les packages de votre projet.

Étape 1 : Créer un nouveau projet C# dans Visual Studio

Pour commencer, créons une nouvelle application console à l'aide de Visual Studio, comme indiqué ci-dessous.

Comment créer une fonctionnalité de reconnaissance de caractères en C# : Figure 1 - Création d'un nouveau projet C# dans Visual Studio

Veuillez indiquer ci-dessous le nom et l'emplacement du projet.

Comment créer une reconnaissance de caractères en C# : Figure 2 - Indiquez un nom de projet et l'emplacement où vous souhaitez enregistrer.

Sélectionnez la version .NET requise pour le projet.

Comment créer une reconnaissance de caractères en C# : Figure 3 - Sélectionnez la version .NET appropriée pour le projet

Cliquez sur le bouton Créer pour créer le nouveau projet.

Étape 2 : Installez la bibliothèque IronOCR et intégrez-la à votre projet.

IronOCR se trouve dans la console du gestionnaire de packages NuGet , comme indiqué ci-dessous. Utilisez la commande fournie pour installer le paquet.

Comment créer une fonction de reconnaissance de caractères en C# : Figure 4 - Page de téléchargement du gestionnaire de packages NuGet IronOCR

Utilisez le gestionnaire de packages NuGet de Visual Studio pour rechercher IronOCR et l'installer dans le dossier de votre projet.

Comment créer une fonction de reconnaissance de caractères en C# : Figure 5 - Recherche d'IronOCR via l'onglet Parcourir à l'aide du gestionnaire de packages NuGet

Une fois installée, l'application est prête à utiliser IronOCR pour lire le texte des images.

Étape 3 : Utiliser IronOCR Tesseract pour lire le texte des images

IronOCR se distingue comme la seule bibliothèque .NET offrant les fonctionnalités OCR de Tesseract 5. À l'heure actuelle, elle détient la distinction d'être la bibliothèque Tesseract 5 la plus sophistiquée, tous langages de programmation confondus. IronOCR intègre Tesseract 5 de manière transparente dans divers environnements .NET, notamment Framework, Standard, Core, Xamarin et Mono, assurant ainsi une prise en charge complète de l'écosystème.

Considérez le fichier image ci-dessous comme entrée. Voyons maintenant comment lire le texte contenu dans ce fichier image.

Comment créer une reconnaissance de caractères en C# : Figure 6 - Exemple d'entrée

using IronOcr;

public class Program
{
    public static void Main(string[] args)
    {
        var ocrTesseract = new IronTesseract();
        using var ocrInput = new OcrInput();
        ocrInput.LoadImage(@"sample1.png");
        var ocrResult = ocrTesseract.Read(ocrInput);
        Console.WriteLine(ocrResult.Text);
    }
}
using IronOcr;

public class Program
{
    public static void Main(string[] args)
    {
        var ocrTesseract = new IronTesseract();
        using var ocrInput = new OcrInput();
        ocrInput.LoadImage(@"sample1.png");
        var ocrResult = ocrTesseract.Read(ocrInput);
        Console.WriteLine(ocrResult.Text);
    }
}
Imports IronOcr

Public Class Program
	Public Shared Sub Main(ByVal args() As String)
		Dim ocrTesseract = New IronTesseract()
		Dim ocrInput As New OcrInput()
		ocrInput.LoadImage("sample1.png")
		Dim ocrResult = ocrTesseract.Read(ocrInput)
		Console.WriteLine(ocrResult.Text)
	End Sub
End Class
$vbLabelText   $csharpLabel

Explication du code

  1. Instance d'IronTesseract : Nous commençons par créer une instance d'IronTesseract pour effectuer des opérations OCR.
  2. Chargement de l'image : Nous chargeons l'image d'exemple dans l'objet OcrInput.
  3. Lecture du texte : Le texte de l'image est lu et le résultat est affiché sur la console.

Sortie

Comment créer une fonction de reconnaissance de caractères en C# : Figure 7 - Texte extrait à l'aide d'IronOCR

Étape 4 : Utilisez les fonctionnalités avancées d'IronOCR pour lire le texte dans les images

L'objet IronTesseract.Configuration accorde aux utilisateurs avancés un accès à l'API Tesseract sous-jacente au sein de C#/.NET, permettant une configuration détaillée pour un réglage précis et une optimisation. Vous trouverez ci-dessous quelques-unes des configurations avancées possibles.

Sélection de la langue

Vous pouvez spécifier la langue pour la reconnaissance optique de caractères (OCR) à l'aide de la propriété Langue. Par exemple, pour définir la langue sur l'anglais, utilisez :

IronTesseract ocr = new IronTesseract();
ocr.Language = OcrLanguage.English;
IronTesseract ocr = new IronTesseract();
ocr.Language = OcrLanguage.English;
Dim ocr As New IronTesseract()
ocr.Language = OcrLanguage.English
$vbLabelText   $csharpLabel

Mode de segmentation de page

Le paramètre PageSegmentationMode détermine comment Tesseract segmente l'image d'entrée. Les options incluent AutoOsd, SingleBlock, SingleLine, et plus encore. Par exemple :

ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;
ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;
ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
$vbLabelText   $csharpLabel

Variables Tesseract personnalisées

Vous pouvez affiner les paramètres de Tesseract en définissant des variables spécifiques. Par exemple, pour désactiver la parallélisation :

ocr.Configuration.TesseractVariables["tessedit_parallelize"] = false;
ocr.Configuration.TesseractVariables["tessedit_parallelize"] = false;
ocr.Configuration.TesseractVariables("tessedit_parallelize") = False
$vbLabelText   $csharpLabel

Liste blanche et liste noire des personnages

Utilisez WhiteListCharacters et BlackListCharacters pour contrôler les caractères que Tesseract reconnaît. Par exemple :

ocr.Configuration.WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ";
ocr.Configuration.BlackListCharacters = "`ë|^";
ocr.Configuration.WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ";
ocr.Configuration.BlackListCharacters = "`ë|^";
ocr.Configuration.WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ"
ocr.Configuration.BlackListCharacters = "`ë|^"
$vbLabelText   $csharpLabel

Variables de configuration supplémentaires

Explorez les autres variables de configuration de Tesseract pour personnaliser son comportement selon vos besoins. Par exemple :

ocr.Configuration.TesseractVariables["classify_num_cp_levels"] = 3;
ocr.Configuration.TesseractVariables["textord_debug_tabfind"] = 0;
// ... (more variables)
ocr.Configuration.TesseractVariables["classify_num_cp_levels"] = 3;
ocr.Configuration.TesseractVariables["textord_debug_tabfind"] = 0;
// ... (more variables)
ocr.Configuration.TesseractVariables("classify_num_cp_levels") = 3
ocr.Configuration.TesseractVariables("textord_debug_tabfind") = 0
' ... (more variables)
$vbLabelText   $csharpLabel

Essayons maintenant de décoder la même image en utilisant les paramètres avancés.

using IronOcr;

public class Program
{
    public static void Main()
    {
        Console.WriteLine("Decoding using advanced features");
        var ocrTesseract = new IronTesseract() // Create instance
        {
            Language = OcrLanguage.EnglishBest, // Configure best English language
            Configuration = new TesseractConfiguration()
            {
                ReadBarCodes = false, // Disable reading barcodes
                BlackListCharacters = "`ë|^", // Blacklisted characters
                WhiteListCharacters = null, // No whitelist, allow all
                PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd,
                TesseractVariables = null, // No custom variables used
            },
            MultiThreaded = false,
        };

        using var ocrInput = new OcrInput(); // Create a disposible ocr input object
        ocrInput.AddImage(@"sample1.png"); // Load the sample image
        var ocrResult = ocrTesseract.Read(ocrInput); // Read the text from the image
        Console.WriteLine(ocrResult.Text); // Output the text
    }
}
using IronOcr;

public class Program
{
    public static void Main()
    {
        Console.WriteLine("Decoding using advanced features");
        var ocrTesseract = new IronTesseract() // Create instance
        {
            Language = OcrLanguage.EnglishBest, // Configure best English language
            Configuration = new TesseractConfiguration()
            {
                ReadBarCodes = false, // Disable reading barcodes
                BlackListCharacters = "`ë|^", // Blacklisted characters
                WhiteListCharacters = null, // No whitelist, allow all
                PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd,
                TesseractVariables = null, // No custom variables used
            },
            MultiThreaded = false,
        };

        using var ocrInput = new OcrInput(); // Create a disposible ocr input object
        ocrInput.AddImage(@"sample1.png"); // Load the sample image
        var ocrResult = ocrTesseract.Read(ocrInput); // Read the text from the image
        Console.WriteLine(ocrResult.Text); // Output the text
    }
}
Imports IronOcr

Public Class Program
	Public Shared Sub Main()
		Console.WriteLine("Decoding using advanced features")
		Dim ocrTesseract = New IronTesseract() With {
			.Language = OcrLanguage.EnglishBest,
			.Configuration = New TesseractConfiguration() With {
				.ReadBarCodes = False,
				.BlackListCharacters = "`ë|^",
				.WhiteListCharacters = Nothing,
				.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd,
				.TesseractVariables = Nothing
			},
			.MultiThreaded = False
		}

		Dim ocrInput As New OcrInput() ' Create a disposible ocr input object
		ocrInput.AddImage("sample1.png") ' Load the sample image
		Dim ocrResult = ocrTesseract.Read(ocrInput) ' Read the text from the image
		Console.WriteLine(ocrResult.Text) ' Output the text
	End Sub
End Class
$vbLabelText   $csharpLabel

Explication du code

  1. Configuration d'IronOCR : Une instance d'IronTesseract (la classe principale d'IronOCR) est créée et affectée à la variable ocrTesseract .

    Les paramètres de configuration sont appliqués à ocrTesseract :

    • Langue : Spécifie la langue pour la reconnaissance optique de caractères (dans ce cas, l'anglais).
    • Configuration : Un objet TesseractConfiguration qui permet une personnalisation plus poussée :
      • ReadBarCodes : Désactive la lecture des codes-barres.
      • BlackListCharacters : Spécifie les caractères à mettre sur liste noire (caractères à ne pas reconnaître).
      • WhiteListCharacters : Aucune liste blanche spécifiée, tous les caractères sont autorisés.
      • PageSegmentationMode : Définit le mode de segmentation de page sur " AutoOsd ".
      • TesseractVariables : Aucune variable personnalisée n'a été utilisée.
    • MultiThreaded : Désactive le multithreading.
  2. Saisie OCR et chargement d'images : un bloc using crée un objet ocrInput jetable de type OcrInput. Le fichier image " sample1.png " est ajouté à ocrInput .
  3. Extraction de texte : La méthode Read est appelée sur ocrTesseract , en passant ocrInput . Le résultat est stocké dans la variable ocrResult .
  4. Sortie : Le texte extrait est imprimé dans la console à l'aide Console.WriteLine(ocrResult.Text) .

Sortie

Comment créer une fonction de reconnaissance de caractères en C# : Figure 8 - Texte extrait à l'aide d'IronOCR

Étape 5 : Optimisation des performances de l'opération de lecture IronOCR .

Lorsque vous travaillez avec IronOCR , vous avez accès à différents filtres d'image qui peuvent vous aider à prétraiter les images avant d'effectuer la reconnaissance optique de caractères (OCR). Ces filtres optimisent la qualité de l'image, améliorent la visibilité et réduisent le bruit ou les artefacts. Ils contribuent à améliorer les performances de l'opération OCR.

  1. Rotation :

    Le filtre Rotation permet de faire pivoter les images d'un nombre de degrés spécifié dans le sens horaire. Pour une rotation dans le sens antihoraire, utilisez des nombres négatifs.

  2. Bureau :

    Le filtre Deskew corrige l'inclinaison de l'image, garantissant ainsi que le texte est droit et orthogonal. Ceci est particulièrement utile pour la reconnaissance optique de caractères (OCR), car Tesseract fonctionne mieux avec des numérisations correctement orientées.

  3. Scale:

    Le filtre Scale met à l'échelle proportionnellement les pages d'entrée OCR.

  4. Binariser :

    Le filtre Binarize convertit chaque pixel en noir ou en blanc, sans nuance intermédiaire. Cela peut améliorer les performances de la reconnaissance optique de caractères (OCR) dans les cas de très faible contraste entre le texte et l'arrière-plan.

  5. Vers des niveaux de gris :

    Le filtre ToGrayScale convertit chaque pixel en une nuance de gris. Bien que cela ne permette probablement pas d'améliorer significativement la précision de la reconnaissance optique de caractères, cela pourrait en améliorer la vitesse.

  6. Inverser :

    Le filtre Inverser inverse les couleurs : le blanc devient noir et le noir devient blanc.

  7. Remplacer la couleur :

    Le filtre ReplaceColor remplace une couleur spécifique d'une image par une autre couleur, en tenant compte d'un certain seuil.

  8. Contraste :

    Le filtre de contraste augmente automatiquement le contraste. Il améliore souvent la vitesse et la précision de la reconnaissance optique de caractères (OCR) dans les numérisations à faible contraste.

  9. Dilater et éroder :

    Ces filtres morphologiques avancés manipulent les contours des objets dans une image.

    • Dilate ajoute des pixels aux contours de l'objet.
    • L'érosion supprime les pixels des contours de l'objet.
  10. Affûter :

    Le filtre Netteté accentue la netteté des documents OCR flous et aplatit les canaux alpha en blanc.

  11. Débruitage :

    Le filtre DeNoise élimine le bruit numérique. Utilisez-le lorsque du bruit est attendu.

  12. Nettoyage en profondeur du bruit de fond :

    Ce filtre de suppression des bruits de fond importants ne doit être utilisé que lorsque le bruit de fond du document est extrêmement élevé. Cela peut réduire la précision de la reconnaissance optique de caractères pour les documents propres et consomme beaucoup de ressources du processeur.

  13. Améliorer la résolution :

    Le filtre EnhanceResolution améliore la résolution des images de faible qualité. Ce n'est pas souvent nécessaire grâce à la gestion automatique de la résolution.

Voici un exemple d'application de filtres avec IronOCR en C# :

var ocr = new IronTesseract();
var input = new OcrInput();
input.LoadImage("sample.png");
input.Deskew();
var result = ocr.Read(input);
Console.WriteLine(result.Text);
var ocr = new IronTesseract();
var input = new OcrInput();
input.LoadImage("sample.png");
input.Deskew();
var result = ocr.Read(input);
Console.WriteLine(result.Text);
Dim ocr = New IronTesseract()
Dim input = New OcrInput()
input.LoadImage("sample.png")
input.Deskew()
Dim result = ocr.Read(input)
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Applications OCR courantes

  1. Numérisation de documents : La reconnaissance optique de caractères (OCR) est largement utilisée pour convertir des documents papier scannés, tels que des factures, des reçus, des formulaires et des contrats, en formats numériques. Ce processus de numérisation rationalise le stockage, la récupération et la gestion des documents, réduisant ainsi l'encombrement papier et améliorant l'efficacité.
  2. Extraction de données : La reconnaissance optique de caractères (OCR) permet l'extraction de texte et de données à partir de documents numérisés, d'images et de fichiers PDF. Ces données extraites peuvent être utilisées pour la saisie automatisée de données, l'analyse de contenu, l'indexation et l'intégration dans des bases de données ou des systèmes d'entreprise.
  3. Reconnaissance de texte dans les images : la technologie OCR permet d'extraire du texte à partir de documents imprimés et d'images à des fins d'indexation et de recherche. Cette fonctionnalité est utilisée dans diverses applications, notamment la réalité augmentée, les moteurs de recherche d'images et les services de traduction.
  4. Reconnaissance automatique des plaques d'immatriculation (ALPR) : Les systèmes ALPR utilisent la ROC pour lire les numéros de plaques d'immatriculation à partir d'images ou de flux vidéo capturés par des caméras installées dans des applications de surveillance du trafic, de gestion du stationnement, de perception des péages et d'application de la loi.
  5. Solutions d'accessibilité : La reconnaissance optique de caractères (OCR) joue un rôle crucial dans la création de contenu accessible aux personnes ayant une déficience visuelle. En convertissant le texte d'images ou de documents en parole ou en braille, la reconnaissance optique de caractères (OCR) contribue à rendre l'information accessible aux personnes handicapées.
  6. Vérification d'identité : La technologie OCR est utilisée dans les processus de vérification d'identité, tels que la numérisation et le traitement de documents d'identité comme les passeports, les permis de conduire et les cartes d'identité. Il permet de vérifier l'authenticité des documents et d'extraire les informations pertinentes à des fins de vérification d'identité.
  7. Banque et finance : L'OCR est utilisé dans le secteur bancaire et financier pour des tâches telles que la lecture de chèques, le traitement de factures, la conversion d'un document PDF existant, l'extraction de données à partir d'états financiers et l'automatisation des flux de travail basés sur des documents afin d'améliorer la précision et l'efficacité des opérations financières.
  8. Traduction automatique : La technologie OCR est intégrée aux outils de traduction et aux applications d'apprentissage des langues pour convertir le texte imprimé d'une langue à une autre. Les utilisateurs peuvent capturer du texte avec leurs appareils, et la reconnaissance optique de caractères (OCR) permet de le traduire en temps réel dans la langue souhaitée.
  9. Préservation des documents d'archives et historiques : L'OCR est utilisée pour numériser les documents d'archives et les documents historiques, les préservant dans des formats numériques pour un accès, une recherche et une analyse futurs tout en assurant la préservation d'un précieux patrimoine culturel.

Exigences de licence

IronOCR. Veuillez fournir les informations ci-dessous pour recevoir la clé par e-mail.

Comment créer une reconnaissance de caractères en C# : Figure 9 - Page de licence d'essai d'IronPDF

Une fois la clé obtenue, que ce soit par achat ou par essai gratuit, suivez les étapes ci-dessous pour l'utiliser.

Définition de votre clé de licence : Définissez votre clé de licence IronOCR à l'aide du code. Ajoutez la ligne suivante au démarrage de votre application (avant d'utiliser IronOCR) :

IronOcr.License.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";
IronOcr.License.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";
IronOcr.License.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01"
$vbLabelText   $csharpLabel

Clé d'application globale (Web.Config ou App.Config) : Pour appliquer une clé globalement à votre application, utilisez le fichier de configuration (Web.Config ou App.Config). Ajoutez la clé suivante à vos appSettings :

<configuration>
    <!-- Other settings -->
    <appSettings>
        <add key="IronOcr.LicenseKey" value="IRONOCR-MYLICENSE-KEY-1EF01"/>
    </appSettings>
</configuration>
<configuration>
    <!-- Other settings -->
    <appSettings>
        <add key="IronOcr.LicenseKey" value="IRONOCR-MYLICENSE-KEY-1EF01"/>
    </appSettings>
</configuration>
XML

Utilisation du fichier appsettings.json .NET Core : Pour les applications .NET Core, créez un fichier appsettings.json dans le répertoire racine de votre projet. Remplacez la clé " IronOcr.LicenseKey " par votre valeur de licence :

{
    "IronOcr.LicenseKey": "IRONOCR-MYLICENSE-KEY-1EF01"
}

Test de votre clé de licence : vérifiez que votre clé a été correctement installée en la testant :

bool result = IronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF01");
bool result = IronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF01");
Dim result As Boolean = IronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF01")
$vbLabelText   $csharpLabel

Conclusion

En conclusion, IronOCR offre une solution OCR robuste à partir de $799 . Exploitez la puissance de l'OCR avec IronOCR et découvrez un monde de possibilités pour vos projets C#.

Questions Fréquemment Posées

Comment puis-je effectuer une reconnaissance de caractères en C#?

Pour effectuer une reconnaissance de caractères en C#, vous pouvez utiliser IronOCR. Commencez par créer un nouveau projet C# dans Visual Studio, puis installez la bibliothèque .NET IronOCR via le Gestionnaire de packages NuGet. Utilisez les classes et méthodes de IronOCR pour extraire du texte des images, PDF ou documents numérisés.

Quels sont les avantages d'utiliser IronOCR pour l'extraction de texte?

IronOCR améliore l'extraction de texte en augmentant la précision et la rapidité du moteur OCR Tesseract. Il prend en charge plus de 125 langues, offre des capacités OCR basées sur des zones et fournit des outils de prétraitement d'image pour optimiser les résultats OCR.

Comment puis-je optimiser la précision OCR avec IronOCR?

Pour optimiser la précision OCR avec IronOCR, utilisez des outils de prétraitement d'image tels que rotation, désinclinaison et ajustement de contraste. Vous pouvez également peaufiner les configurations avec la sélection de la langue, la segmentation des pages et la liste blanche ou noire de caractères.

Quelles sont les utilisations courantes de la technologie OCR?

La technologie OCR est couramment utilisée pour la numérisation de documents, l'extraction de données, la reconnaissance de texte dans les images, la reconnaissance automatique de plaques d'immatriculation et les solutions d'accessibilité. Elle joue également un rôle dans la banque, la vérification d'identité et la préservation des documents d'archives.

Quels environnements peuvent prendre en charge IronOCR?

IronOCR est compatible avec divers environnements .NET, y compris C#, F# et VB.NET. Il prend en charge les versions .NET 8, 7, 6, Core, Standard et Framework, ce qui le rend polyvalent pour de nombreux environnements de développement.

Comment puis-je gérer la licence pour IronOCR?

Pour gérer la licence pour IronOCR, appliquez votre clé de licence à l'aide de la propriété IronOcr.License.LicenseKey dans le démarrage de votre application. Vous pouvez également la configurer globalement dans votre fichier Web.Config ou App.Config, ou dans appsettings.json pour les applications .NET Core.

Quelles fonctionnalités avancées offre IronOCR?

IronOCR offre des fonctionnalités avancées telles que la sélection de la langue, le mode de segmentation de page, les variables personnalisées de Tesseract et la liste blanche ou noire de caractères. Ces fonctionnalités permettent une personnalisation détaillée et une optimisation des opérations OCR.

Puis-je utiliser IronOCR pour OCR basé sur des zones?

Oui, IronOCR prend en charge l'OCR basé sur des zones, ce qui vous permet de spécifier des zones particulières d'une image ou d'un document pour l'extraction de texte. Cette fonctionnalité est utile pour l'extraction ciblée de données à partir de mises en page complexes.

Comment puis-je intégrer l'OCR dans mon projet C#?

Pour intégrer l'OCR dans votre projet C#, installez la bibliothèque IronOCR depuis NuGet, puis référez-la dans votre projet. Utilisez les méthodes de la bibliothèque pour mettre en œuvre la fonctionnalité OCR, permettant à votre application de traiter des images et des documents numérisés.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite