Passer au contenu du pied de page
UTILISATION D'IRONOCR

OCR C# GitHub: Reconnaissance de texte avec IronOCR

IronOCR simplifie l'intégration OCR dans les projets C# GitHub en fournissant une solution à DLL unique avec une précision de 99,8 %, un prétraitement intégré et la prise en charge de plus de 125 langues, éliminant ainsi la configuration complexe requise par les implémentations Tesseract brutes.

Commencez avec IronOCR maintenant.
green arrow pointer

Si vous êtes un développeur C# explorant les options OCR sur GitHub, il y a de fortes chances que vous ayez besoin de plus que du simple code. Vous souhaitez une bibliothèque fonctionnelle immédiatement, fournie avec des exemples exécutables et bénéficiant d'une communauté active. Une intégration fiable et un contrôle de version robuste sont tout aussi importants que la précision. Ce guide vous explique comment intégrer IronOCR à vos projets GitHub afin de gérer la reconnaissance de texte dans les images et les PDF en toute confiance.

Que votre objectif soit d'extraire du texte brut, de récupérer des mots et des lignes structurés ou de générer des PDF consultables pour l'archivage, IronOCR répond à tous vos besoins. La bibliothèque prend en charge toutes les fonctionnalités, de la lecture des codes-barres à la reconnaissance optique de caractères multilingue, et ce dans plus de 125 langues.

Comment débuter avec IronOCR et GitHub?

IronOCR est une solution OCR .NET qui s'intègre naturellement aux flux de travail de développement basés sur GitHub. Contrairement aux implémentations brutes de Tesseract qui nécessitent une configuration complexe, IronOCR fournit une API raffinée qui vous permet de démarrer en quelques minutes.

Pour les néophytes en matière de reconnaissance optique de caractères, la documentation d'IronOCR couvre tous les aspects, de l'extraction de texte de base au traitement d'images avancé. La bibliothèque intègre une prise en charge des filtres d'image et des techniques d'optimisation OCR qui nécessiteraient autrement un réglage manuel important.

L'une des raisons pour lesquelles les développeurs privilégient IronOCR pour les projets GitHub est sa prévisibilité. Lorsqu'un contributeur clone votre dépôt et exécute votre projet, le moteur OCR doit se comporter de manière identique sur sa machine. L'architecture autonome d'IronOCR rend cela possible sans avoir à intégrer de binaires natifs spécifiques à une plateforme dans votre dépôt.

Quelle méthode d'installation devez-vous utiliser ?

Commencez par installer IronOCR via le Package Manager NuGet :

Install-Package IronOcr

 Fenêtre du Gestionnaire de packages NuGet dans Visual Studio affichant les résultats de la recherche du package IronOCR avec différents modules linguistiques disponibles pour l'installation

NuGet Installer avec NuGet

PM >  Install-Package IronOcr

Consultez IronOCR sur NuGet pour une installation rapide. Avec plus de 10 millions de téléchargements, il transforme le développement PDF avec C#. Vous pouvez également télécharger le DLL ou l'installateur Windows.

Pour les scénarios d'installation avancés, consultez le guide des packages NuGet . Si vous déployez votre application sur des plateformes spécifiques, consultez les guides pour Windows , Linux , macOS ou les conteneurs Docker.

Où trouver des exemples de code ?

IronOCR maintient des dépôts GitHub officiels contenant des exemples et des tutoriels. Le dépôt d'exemples IronOCR fournit des implémentations concrètes, tandis que le dépôt de tutoriels Image to Text présente des cas d'utilisation pratiques que vous pouvez cloner et modifier.

Ces référentiels présentent des fonctionnalités de reconnaissance optique de caractères (OCR) avec lecture de codes-barres, prise en charge multilingue et traitement des fichiers PDF. Comme IronOCR publie régulièrement des packages sur NuGet , vous aurez toujours accès aux dernières versions stables.

Flowchart showing OCR processing pipeline: GitHub OCR repository → IronOCR Project → OCR Processing → Extracted text output

Comment créer son premier projet OCR sur GitHub?

La création d'une application OCR adaptée au partage sur GitHub nécessite une structure cohérente que les contributeurs peuvent parcourir immédiatement. Dans Visual Studio (ou votre EDI préféré), créez une nouvelle application console qui suit les conventions établies pour le développement OCR.

Quelle structure de projet devez-vous utiliser ?

MyOcrProject/
├── src/
│   └── OcrProcessor.cs
├── images/
│   └── sample-invoice.jpg
├── .gitignore
├── README.md
└── MyOcrProject.csproj

Cette structure prend en charge différents formats d'entrée, notamment JPG, PNG, TIFF et BMP. Pour le traitement des fichiers TIFF ou GIF multipages, IronOCR les gère automatiquement.

Le dossier images/ permet de garder les fichiers d'exemple organisés et facilite l'ajout d'images de test par les contributeurs sans encombrer la racine. Le fait de séparer le dossier src/ des fichiers de configuration rend le projet plus facile à lire en un coup d'œil. Ajoutez un README.md qui explique ce que fait le projet, quelle variable de clé de licence définir et comment exécuter l'exemple.

Comment implémenter le code de traitement OCR ?

L'exemple suivant présente un processeur OCR complet qui illustre les principales fonctionnalités d'IronOCR, notamment le prétraitement d'images, l'extraction de texte et la détection de codes-barres :

using IronOcr;

var ocr = new IronTesseract();
ocr.Configuration.ReadBarCodes = true;
ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.Auto;
ocr.Language = OcrLanguage.English;

using var input = new OcrInput();
input.LoadImage("images/sample-invoice.jpg");
input.Deskew();
input.DeNoise();
input.EnhanceResolution(225);

var result = ocr.Read(input);

Console.WriteLine($"Confidence: {result.Confidence}%");
Console.WriteLine($"Text Found:\n{result.Text}");

foreach (var barcode in result.Barcodes)
{
    Console.WriteLine($"Barcode: {barcode.Value} ({barcode.Format})");
}

result.SaveAsSearchablePdf("output.pdf");
using IronOcr;

var ocr = new IronTesseract();
ocr.Configuration.ReadBarCodes = true;
ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.Auto;
ocr.Language = OcrLanguage.English;

using var input = new OcrInput();
input.LoadImage("images/sample-invoice.jpg");
input.Deskew();
input.DeNoise();
input.EnhanceResolution(225);

var result = ocr.Read(input);

Console.WriteLine($"Confidence: {result.Confidence}%");
Console.WriteLine($"Text Found:\n{result.Text}");

foreach (var barcode in result.Barcodes)
{
    Console.WriteLine($"Barcode: {barcode.Value} ({barcode.Format})");
}

result.SaveAsSearchablePdf("output.pdf");
$vbLabelText   $csharpLabel

Cet exemple illustre plusieurs fonctionnalités IronOCR . Le constructeur configure le moteur OCR avec la lecture des codes-barres activée et la segmentation automatique des pages. Le pipeline de prétraitement illustre le redressement (correction de la rotation), le débruitage (suppression des artefacts) et l'amélioration de la résolution.

Après traitement, le moteur extrait le texte anglais avec des scores de confiance, identifie les codes-barres et génère un PDF consultable. Le code est écrit en utilisant des instructions de haut niveau for .NET 10, ce qui permet de conserver un exemple court et lisible.

Pour les scénarios avancés, vous pouvez utiliser le traitement asynchrone pour un meilleur débit, ou implémenter un suivi de la progression pour les opérations de longue durée. La classe OcrResult fournit une sortie détaillée comprenant les positions du texte, les coordonnées des mots et la structure des paragraphes, vous offrant bien plus qu'une simple chaîne de texte.

Les développeurs peuvent également configurer IronOCR pour lire d'autres langues, comme le chinois, l'espagnol ou le français, ce qui en fait un choix judicieux pour les projets GitHub multilingues. Pour plus d'informations sur l'installation de modules linguistiques supplémentaires, consultez le guide des 125 langues internationales .

Écran partagé affichant une démonstration de reconnaissance optique de caractères (OCR) : à gauche, du texte Lorem Ipsum déformé sur fond blanc ; à droite, la console de débogage de Visual Studio avec le texte extrait et un score de confiance de 87,34 %.

Que devez-vous inclure dans votre fichier .gitignore ?

Dans votre fichier .gitignore, incluez des entrées empêchant l'inclusion des artefacts d'exécution, des résultats de tests et des configurations secrètes :

# IronOCR runtime files
runtimes/
# Test images and outputs
*.pdf
test-images/
output/
# License keys
appsettings.*.json

Il est particulièrement important de ne pas inclure le dossier runtimes/ dans le système de contrôle de version, car IronOCR télécharge des binaires spécifiques à chaque plateforme lors de la compilation. Leur inclusion dans le système de contrôle de version alourdirait considérablement votre dépôt et engendrerait des conflits entre plateformes. Apprenez-en davantage sur la gestion des clés de licence pour une mise en œuvre correcte.

Pourquoi choisir IronOCR pour vos projets GitHub ?

IronOCR offre des avantages distincts pour les développeurs qui maintiennent des projets OCR sur GitHub. La bibliothèque atteint une précision de 99,8 % dès le départ sans nécessiter de formation manuelle ou de fichiers de configuration complexes qui encombrent les dépôts. Grâce à la prise en charge de plus de 125 langues, votre projet GitHub peut être utilisé par des utilisateurs internationaux sans modification.

Les fonctionnalités de compatibilité garantissent un déploiement multiplateforme sur Windows, Linux, macOS et les plateformes cloud comme Azure et AWS . Cette compatibilité multiplateforme est essentielle pour les projets open source et les projets d'équipe où les contributeurs peuvent travailler sur différents systèmes d'exploitation.

Qu'est-ce qui différencie IronOCR des autres solutions OCR ?

IronOCR est suffisamment flexible pour reconnaître des mots individuels, des lignes et des paragraphes entiers, vous offrant un contrôle précis sur la quantité de détails extraits de chaque analyse. La bibliothèque excelle dans le traitement de types de documents spécialisés, notamment les plaques d'immatriculation, les passeports, les textes manuscrits, les captures d'écran et les documents numérisés.

La licence commerciale offre une clarté légale pour les dépôts publics. Vous êtes explicitement autorisé à inclure IronOCR dans des applications commerciales. Les filtres de prétraitement d'image intégrés comprennent des options avancées telles que la correction des couleurs, l'amélioration de la qualité et un assistant de filtre qui trouve automatiquement les paramètres optimaux pour les images difficiles.

Pourquoi l'architecture à DLL unique est-elle importante ?

L'architecture à un seul DLL d'IronOCR signifie que les contributeurs peuvent cloner votre dépôt et commencer à développer immédiatement, sans lutter contre les dépendances natives ou les configurations spécifiques à une plateforme qui affectent d'autres solutions OCR. C'est cette simplicité qui explique pourquoi les développeurs choisissent IronOCR plutôt que Tesseract brut .

En termes d'expérience d'installation, une implémentation Tesseract brute nécessite généralement l'installation séparée des binaires natifs, la configuration des variables PATH et la gestion manuelle des fichiers de langue tessdata. IronOCR gère tout cela en interne, ce qui signifie que le fichier README de votre projet peut rester concentré sur la logique de votre application plutôt que sur les instructions de configuration de l'environnement.

La bibliothèque inclut Tesseract 5 avec de nombreuses améliorations de performances et une prise en charge du multithreading qui vous permet de traiter plusieurs documents en parallèle sans écrire de code de threading personnalisé.

Quelles sont les meilleures pratiques de contrôle de version pour les projets OCR ?

La gestion de projets OCR sur GitHub présente quelques défis auxquels les projets logiciels classiques ne sont pas confrontés. Les images de test sont souvent de gros fichiers binaires, les clés de licence ne doivent jamais apparaître dans les commits et les configurations de prétraitement peuvent varier considérablement d'un environnement à l'autre.

En abordant ces problèmes dès le début, on évite les mauvaises surprises lorsqu'on travaille en équipe ou qu'on accepte les demandes de fusion des contributeurs. Les pratiques suivantes permettent de garder votre projet OCR propre et maintenable dans le temps.

Comment gérer les fichiers volumineux avec Git ?

Utilisez Git LFS pour les images de test volumineuses afin de limiter la taille de votre dépôt :

git lfs track "*.jpg" "*.png" "*.tiff"
git add .gitattributes
git commit -m "Track large image files with Git LFS"
git lfs track "*.jpg" "*.png" "*.tiff"
git add .gitattributes
git commit -m "Track large image files with Git LFS"
SHELL

Ceci est particulièrement important lors de la manipulation d'images haute résolution ou de fichiers TIFF multipages. Pour les numérisations de faible qualité, le prétraitement d'IronOCR peut améliorer considérablement les résultats sans vous obliger à modifier manuellement les images de test avant de les valider.

Lors du stockage de documents de test dans votre référentiel, tenez compte du fait qu'ils ne contiennent pas d'informations sensibles. Il est préférable de générer par programmation des images de test synthétiques plutôt que de conserver de véritables factures ou documents d'identité, même dans des référentiels privés.

Comment gérer les clés de licence et la documentation ?

Stockez les clés de licence IronOCR à l'aide de variables d'environnement ou de secrets utilisateur .NET . Ne les intégrez jamais directement à une branche, même privée. Suivez le guide des clés de licence pour une mise en œuvre correcte. Vous pouvez également configurer les licences dans le fichier web.config pour les applications ASP.NET .

Indiquez dans votre fichier README les formats d'image pris en charge et les niveaux de précision attendus. Incluez des exemples d'images dans un dossier test-data/ afin que les contributeurs puissent vérifier la fonctionnalité OCR immédiatement après le clonage. Ajoutez une courte section expliquant comment définir la clé de licence via une variable d'environnement afin que les nouveaux contributeurs ne soient pas bloqués lors de leur première utilisation.

Pour le développement multiplateforme, reportez-vous au guide d'installation d' IronOCR pour Linux ou aux instructions d'installation pour macOS. Les développeurs d'applications mobiles doivent consulter les guides Android et iOS disponibles dans la documentation IronOCR .

Quels sont les conseils de dépannage courants ?

Pourquoi la reconnaissance optique de caractères (OCR) ne fonctionne-t-elle pas sous Windows ?

Parmi les problèmes d'installation courants, on note l'absence des composants redistribuables Visual C++ sous Windows. IronOCR requiert la version 2019. Pour obtenir des instructions détaillées, consultez le guide de dépannage de Visual C++ Redistributable . Pour les déploiements Linux, assurez-vous que libgdiplus est installé.

Si la reconnaissance de texte semble médiocre, vérifiez que vos images ont une résolution d'au moins 200 DPI en utilisant le guide des paramètres DPI . La communauté OCR C# sur Stack Overflow offre également des solutions utiles pour les problèmes courants des projets GitHub.

Pour les problèmes de configuration spécifiques, utilisez l' utilitaire IronOCR pour diagnostiquer les problèmes et le guide de dépannage général pour un diagnostic étape par étape.

Où pouvez-vous obtenir de l'aide supplémentaire ?

Pour un dépannage détaillé, consultez le guide de dépannage IronOCR . L' équipe d'assistance IronOCR fournit une assistance rapide aux utilisateurs disposant d'une licence et travaillant sur des applications OCR hébergées sur GitHub. Consultez le journal des modifications du produit pour connaître les dernières mises à jour.

Quelles sont vos prochaines étapes ?

IronOCR simplifie l'implémentation de l'OCR dans les projets C# GitHub grâce à son API intuitive, son prétraitement intégré et sa précision fiable. Commencez par les exemples de code ci-dessus, explorez les dépôts officiels et créez des applications de traitement de documents qui tirent pleinement parti des fonctionnalités collaboratives de GitHub.

Que vous développiez des applications MAUI, traitiez des documents spécialisés ou implémentiez la reconnaissance optique de caractères (OCR) en une seule ligne de code, IronOCR vous fournit les outils dont vous avez besoin. La compatibilité multiplateforme de la bibliothèque et son installation simple NuGet permettent à chaque contributeur de configurer facilement son projet, quel que soit son environnement de développement.

Téléchargez la version d'essai gratuite d'IronOCR pour l'évaluer dès aujourd'hui dans votre projet GitHub . Explorez les options de licence, y compris les extensions et les mises à niveau, pour répondre aux besoins de votre équipe.

Questions Fréquemment Posées

Quel est le principal objectif du tutoriel OCR C# GitHub ?

Le principal objectif du tutoriel OCR C# GitHub est de guider les développeurs dans l'implémentation de la reconnaissance de texte dans leurs projets GitHub en utilisant IronOCR. Il comprend des exemples de code et des conseils sur le contrôle de version.

Comment IronOCR peut-il améliorer mes projets C# sur GitHub ?

IronOCR peut améliorer vos projets C# sur GitHub en fournissant des capacités puissantes de reconnaissance de texte, vous permettant d'extraire et de manipuler le texte des images avec une grande précision.

Quels sont les avantages de l'utilisation d'IronOCR pour la reconnaissance de texte ?

IronOCR offre plusieurs avantages pour la reconnaissance de texte, y compris la facilité d'utilisation, une grande précision et une intégration transparente dans les projets C#, ce qui en fait un excellent choix pour les développeurs travaillant avec des données textuelles basées sur des images.

Existe-t-il des exemples de code disponibles dans le tutoriel OCR C# GitHub ?

Oui, le tutoriel OCR C# GitHub inclut des exemples de code qui démontrent comment implémenter la reconnaissance de texte en utilisant IronOCR dans vos projets.

Quel genre de conseils de contrôle de version sont fournis dans le tutoriel ?

Le tutoriel fournit des conseils de contrôle de version pour aider à gérer efficacement les changements dans vos projets lors de l'intégration d'IronOCR, assurant une collaboration fluide et une maintenance des projets.

Puis-je utiliser IronOCR pour des applications de reconnaissance de texte en temps réel ?

Oui, IronOCR peut être utilisé pour des applications de reconnaissance de texte en temps réel, grâce à ses capacités de traitement efficaces et son support pour divers formats d'image.

Quels formats d'image IronOCR prend-il en charge pour la reconnaissance de texte ?

IronOCR prend en charge une large gamme de formats d'image pour la reconnaissance de texte, y compris JPEG, PNG, BMP, GIF et TIFF, garantissant une compatibilité avec la plupart des sources d'image.

Y a-t-il une version d'essai d'IronOCR disponible pour les tests ?

Oui, une version d'essai d'IronOCR est disponible, permettant aux développeurs de tester ses fonctionnalités et ses performances dans leurs projets avant de s'engager à un achat.

Comment IronOCR gère-t-il différentes langues dans la reconnaissance de texte ?

IronOCR prend en charge plusieurs langues pour la reconnaissance de texte, permettant aux développeurs d'extraire du texte à partir d'images dans diverses langues avec facilité.

Quelles sont les exigences système pour utiliser IronOCR dans les projets C# ?

IronOCR est compatible avec .NET Framework et .NET Core, et peut être facilement intégré dans les projets C# sans nécessiter de ressources système étendues.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite

Équipe de soutien Iron

Nous sommes en ligne 24 heures sur 24, 5 jours sur 7.
Chat
Email
Appelez-moi