How to Tesseract OCR in C# Alternatives with IronOCR

Q: Puis-je effectuer un OCR sur des documents PDF en utilisant C# ?

Oui, avec la classe OcrInput d'IronOCR, vous pouvez effectuer un OCR sur des documents PDF. Chargez un PDF en utilisant input.LoadPdf("file.pdf", "password") et traitez-le avec var result = ocr.Read(input); . Cela permet d'extraire du texte et de créer des PDF consultables directement dans vos applications C#.

Jacob Mellor

Mis à jour:3 juin 2026

Translated

View the article in English

Vous souhaitez implémenter la reconnaissance optique de caractères dans vos applications C# ? Bien que Google Tesseract propose une solution OCR gratuite, de nombreux développeurs rencontrent des difficultés en raison de sa configuration complexe, de sa précision limitée sur les documents réels et de ses exigences d'interopérabilité C++ difficiles à satisfaire. Ce guide complet vous montre comment atteindre une précision OCR de 99,8 à 100 % grâce à l'implémentation Tesseract améliorée d'IronOCR - une bibliothèque C# native qui élimine les problèmes d'installation tout en offrant des résultats supérieurs.

Que vous extrayiez du texte à partir de documents numérisés, traitiez des factures ou construisiez des systèmes d'automatisation de documents, vous apprendrez à mettre en œuvre une solution OCR prête pour la production en quelques minutes plutôt qu'en plusieurs semaines.

Quickstart : OCR en une ligne avec IronTesseract

Capturez du texte en quelques secondes grâce à l'API ultra-simple d'IronOCR. Cet exemple montre comment une seule ligne de code vous permet d'appeler IronTesseract, de lui donner une image, et d'obtenir en retour le texte reconnu—sans tracas, juste des résultats.

Installez IronOCR avec le Gestionnaire de Packages NuGet
PM > Install-Package IronOcr

Copiez et exécutez cet extrait de code.

string text = new IronTesseract().Read(new OcrInput("image.png")).Text;

Déployez pour tester sur votre environnement de production.

Commencez à utiliser IronOCR dans votre projet dès aujourd'hui avec un essai gratuit

Flux de travail minimal (5 étapes)

Installez la bibliothèque OCR Tesseract améliorée via le gestionnaire de packages NuGet.
Configurer le prétraitement des images pour une reconnaissance de texte optimale
Traitement de plusieurs formats de documents, y compris les PDF et les TIFF multi-images
Extraire des données structurées avec des métriques de précision au niveau des caractères
Déploiement multiplateforme sans dépendances natives

Présentation détaillée des fonctionnalités de l'implémentation Tesseract d'IronOCR pour C#, montrant la compatibilité avec différentes plateformes, les formats pris en charge et les capacités de traitement avancées.

Comment pouvez-vous extraire du texte des images en C# avec un code minimal ?

L'exemple suivant montre comment implémenter la fonctionnalité OCR dans votre application .NET en quelques lignes de code seulement. Contrairement à Tesseract classique, cette approche gère automatiquement le prétraitement des images et fournit des résultats précis même sur des numérisations imparfaites.

Utilisez le Package Manager NuGet pour installer le paquet NuGet IronOCR dans votre solution Visual Studio.

:path=/static-assets/ocr/content-code-examples/tutorials/c-sharp-tesseract-ocr-2.cs

using IronOcr;
using System;

var ocr = new IronTesseract();
using var input = new OcrInput();
var pageindices = new int[] { 1, 2 };
input.LoadImageFrames(@"img\example.tiff", pageindices);
input.DeNoise();  //fixes digital noise
input.Deskew();   //fixes rotation and perspective

// there are dozens more filters, but most users wont need them
OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);

Imports IronOcr
Imports System

Private ocr = New IronTesseract()
Private input = New OcrInput()
Private pageindices = New Integer() { 1, 2 }
input.LoadImageFrames("img\example.tiff", pageindices)
input.DeNoise() 'fixes digital noise
input.Deskew() 'fixes rotation and perspective

' there are dozens more filters, but most users wont need them
Dim result As OcrResult = ocr.Read(input)
Console.WriteLine(result.Text)

$vbLabelText $csharpLabel

Ce code illustre la puissance de l'API simplifiée d'IronOCR. La classe IronTesseract fournit un wrapper géré autour de Tesseract 5, éliminant le besoin d'interopération complexe avec du C++. La classe OcrInput supporte le chargement de multiples formats d'image et pages, tandis que les méthodes de prétraitement optionnelles (DeNoise() et Deskew()) peuvent drastiquement améliorer la précision sur des documents réels.

Au-delà de l'extraction de texte basique, l'objet OcrResult fournit des données structurées riches incluant des scores de confiance par mot, des positions de caractères, et la structure du document - permettant des fonctionnalités avancées comme la création de PDF indexés et le suivi précis de l'emplacement du texte.

Quelles sont les principales différences d'installation entre Tesseract et IronOCR ?

Utilisation du moteur Tesseract pour la reconnaissance optique de caractères (OCR) avec .NET

L'intégration traditionnelle de Tesseract en C# nécessite la gestion de bibliothèques C++, ce qui engendre plusieurs difficultés.

Les développeurs doivent gérer les binaires spécifiques à chaque plateforme, assurer l'installation de l'environnement d'exécution Visual C++ et gérer les problèmes de compatibilité 32/64 bits. L'installation nécessite souvent une compilation manuelle des bibliothèques Tesseract et Leptonica, en particulier pour les dernières versions de Tesseract 5 qui n'ont pas été conçues pour la compilation sous Windows.

Le déploiement multiplateforme devient particulièrement problématique avec les environnements Azure, Docker ou Linux où les autorisations et les dépendances varient considérablement.

IronOCR Tesseract for .NET

IronOCR élimine la complexité de l'installation grâce à une seule bibliothèque .NET gérée et distribuée via NuGet :

Install-Package IronOcr

Aucune DLL native, aucun environnement d'exécution C++, aucune configuration spécifique à la plateforme. Tout fonctionne comme du code purement managé avec résolution automatique des dépendances.

La bibliothèque offre une compatibilité totale avec :

.NET Framework 4.6.2 et versions ultérieures
.NET Standard 2.0 et versions ultérieures (y compris .NET 5, 6, 7, 8, 9 et 10)
.NET Core 2.0 et versions ultérieures

Cette approche garantit un comportement cohérent sur Windows, macOS, Linux, Azure, AWS Lambda, les conteneurs Docker et même les applications mobiles Xamarin.

Comment se comparent les dernières versions des moteurs OCR pour le développement .NET ?

Google Tesseract with C

Tesseract 5, bien que puissant, présente des défis importants pour les développeurs Windows.

Les dernières versions nécessitent une compilation croisée avec MinGW, qui produit rarement des binaires Windows fonctionnels. Les wrappers C# gratuits disponibles sur GitHub ont souvent des années de retard sur les dernières versions de Tesseract, et manquent d'améliorations critiques et de correctifs de bugs. Les développeurs ont souvent recours à des versions obsolètes de Tesseract 3.x ou 4.x en raison de ces problèmes de compilation.

IronOCR Tesseract for .NET

IronOCR est livré avec un moteur Tesseract 5 personnalisé et optimisé spécifiquement pour .NET.

Cette implémentation inclut des améliorations de performances telles que la prise en charge native du multithreading, le prétraitement automatique des images et le traitement économe en mémoire des documents volumineux. Des mises à jour régulières assurent la compatibilité avec les dernières versions de .NET tout en maintenant la rétrocompatibilité.

La bibliothèque offre également une prise en charge linguistique étendue grâce à des packages NuGet dédiés, ce qui simplifie l'ajout de fonctionnalités OCR pour plus de 127 langues sans avoir à gérer de fichiers de dictionnaire externes.

Comparaison de Google Cloud OCR

Bien que Google Cloud Vision OCR offre une grande précision, il nécessite une connexion Internet, engendre des coûts par requête et soulève des problèmes de confidentialité des données pour les documents sensibles. IronOCR offre une précision comparable à celle du traitement sur site, ce qui le rend idéal pour les applications nécessitant la sécurité des données ou une capacité hors ligne.

Quel niveau de précision en matière de reconnaissance optique de caractères (OCR) pouvez-vous atteindre avec différentes approches ?

Google Tesseract dans les projets .NET

Raw Tesseract excelle dans la lecture de textes haute résolution parfaitement alignés, mais peine à traiter les documents du monde réel.

Les pages numérisées, les photographies ou les images basse résolution produisent souvent un résultat illisible à moins d'être longuement prétraitées. Pour obtenir une précision acceptable, il est généralement nécessaire de mettre en place des chaînes de traitement d'images personnalisées utilisant ImageMagick ou des outils similaires, ce qui ajoute des semaines de temps de développement pour chaque type de document.

Les problèmes de précision courants incluent :

Mauvaise lecture des caractères sur des documents inclinés
Échec total des numérisations à faible résolution
Mauvaises performances avec des polices ou des mises en page mixtes
Incapacité à gérer le bruit de fond ou les filigranes

IronOCR Tesseract dans les projets .NET

La version améliorée d'IronOCR atteint une précision de 99,8 à 100 % sur les documents commerciaux courants sans prétraitement manuel :

using IronOcr;
using System;

// Create an instance of the IronTesseract class for OCR processing
var ocr = new IronTesseract();

// Create an OcrInput object to load and preprocess images
using var input = new OcrInput();

// Specify which pages to extract from multi-page documents
var pageIndices = new int[] { 1, 2 };

// Load specific frames from a TIFF file
// IronOCR automatically detects and handles various image formats
input.LoadImageFrames(@"img\example.tiff", pageIndices);

// Apply automatic image enhancement filters
// These filters dramatically improve accuracy on imperfect scans
input.DeNoise();    // Removes digital artifacts and speckles
input.Deskew();     // Corrects rotation up to 15 degrees

// Perform OCR with enhanced accuracy algorithms
OcrResult result = ocr.Read(input);

// Access the extracted text with confidence metrics
Console.WriteLine(result.Text);

// Additional accuracy features available:
// - result.Confidence: Overall accuracy percentage
// - result.Pages[0].Words: Word-level confidence scores
// - result.Blocks: Structured document layout analysis

using IronOcr;
using System;

// Create an instance of the IronTesseract class for OCR processing
var ocr = new IronTesseract();

// Create an OcrInput object to load and preprocess images
using var input = new OcrInput();

// Specify which pages to extract from multi-page documents
var pageIndices = new int[] { 1, 2 };

// Load specific frames from a TIFF file
// IronOCR automatically detects and handles various image formats
input.LoadImageFrames(@"img\example.tiff", pageIndices);

// Apply automatic image enhancement filters
// These filters dramatically improve accuracy on imperfect scans
input.DeNoise();    // Removes digital artifacts and speckles
input.Deskew();     // Corrects rotation up to 15 degrees

// Perform OCR with enhanced accuracy algorithms
OcrResult result = ocr.Read(input);

// Access the extracted text with confidence metrics
Console.WriteLine(result.Text);

// Additional accuracy features available:
// - result.Confidence: Overall accuracy percentage
// - result.Pages[0].Words: Word-level confidence scores
// - result.Blocks: Structured document layout analysis

Imports IronOcr
Imports System

' Create an instance of the IronTesseract class for OCR processing
Private ocr = New IronTesseract()

' Create an OcrInput object to load and preprocess images
Private input = New OcrInput()

' Specify which pages to extract from multi-page documents
Private pageIndices = New Integer() { 1, 2 }

' Load specific frames from a TIFF file
' IronOCR automatically detects and handles various image formats
input.LoadImageFrames("img\example.tiff", pageIndices)

' Apply automatic image enhancement filters
' These filters dramatically improve accuracy on imperfect scans
input.DeNoise() ' Removes digital artifacts and speckles
input.Deskew() ' Corrects rotation up to 15 degrees

' Perform OCR with enhanced accuracy algorithms
Dim result As OcrResult = ocr.Read(input)

' Access the extracted text with confidence metrics
Console.WriteLine(result.Text)

' Additional accuracy features available:
' - result.Confidence: Overall accuracy percentage
' - result.Pages[0].Words: Word-level confidence scores
' - result.Blocks: Structured document layout analysis

$vbLabelText $csharpLabel

Les filtres de prétraitement automatique gèrent les problèmes courants de qualité des documents qui nécessiteraient autrement une intervention manuelle. La méthode DeNoise() enlève les artefacts numériques du scannage, tandis que Deskew() corrige la rotation du document - les deux sont critiques pour maintenir une forte précision.

Les utilisateurs avancés peuvent optimiser davantage la précision grâce à des configurations personnalisées , notamment la mise en liste blanche des caractères, le traitement spécifique à la région et des modèles de langage spécialisés pour la terminologie propre à l'industrie.

Quels formats et sources d'images sont pris en charge pour le traitement OCR ?

Google Tesseract en .NET

Tesseract natif n'accepte que le format Leptonica PIX, un pointeur C++ non géré difficile à manipuler en C#.

La conversion d'images .NET au format PIX nécessite une gestion rigoureuse de la mémoire afin d'éviter les fuites. La prise en charge des fichiers PDF et TIFF multipages nécessite des bibliothèques supplémentaires présentant leurs propres problèmes de compatibilité. De nombreuses implémentations peinent à effectuer des conversions de format de base, ce qui limite leur utilisation pratique.

Compatibilité des images IronOCR

IronOCR offre une prise en charge complète des formats avec conversion automatique :

Documents PDF (y compris les documents protégés par mot de passe)
Fichiers TIFF multi-images
Formats standard : JPEG, PNG, GIF, BMP
Formats avancés : JPEG2000, WBMP
types .NET : System.Drawing.Image, System.Drawing.Bitmap
Sources de données : flux, tableaux d'octets, chemins de fichiers
Intégration directe du scanner

Exemple complet de prise en charge des formats

:path=/static-assets/ocr/content-code-examples/tutorials/c-sharp-tesseract-ocr-5.cs

using IronOcr;

var text = new IronTesseract().Read("img.png").Text;

Imports IronOcr

Private text = (New IronTesseract()).Read("img.png").Text

$vbLabelText $csharpLabel

Cette approche unifiée du chargement des documents élimine le code spécifique au format. Qu'il s'agisse de traiter des fichiers TIFF numérisés, des PDF numériques ou des photos prises avec un smartphone, la même API gère tous les cas de figure. La classe OcrInput gère intelligemment la mémoire et fournit des résultats cohérents quel que soit le format source.

Pour des scénarios spécifiques, IronOCR prend également en charge la lecture des codes-barres et des codes QR à partir des mêmes documents, permettant une extraction complète des données du document en une seule passe.

Comment les performances de la reconnaissance optique de caractères (OCR) se comparent-elles dans des applications réelles ?

Performances gratuites de Google Tesseract

Vanilla Tesseract peut offrir une vitesse acceptable sur des images prétraitées haute résolution correspondant à ses données d'entraînement.

Cependant, les performances dans la réalité sont souvent décevantes. Le traitement d'une seule page d'un document numérisé peut prendre de 10 à 30 secondes lorsque Tesseract rencontre des difficultés avec la qualité de l'image. L'architecture monothread devient un goulot d'étranglement pour le traitement par lots, et la consommation de mémoire peut exploser avec les images volumineuses.

Performances de la bibliothèque IronOCR Tesseract

IronOCR met en œuvre des optimisations intelligentes des performances pour les charges de travail de production :

:path=/static-assets/ocr/content-code-examples/tutorials/c-sharp-tesseract-ocr-6.cs

using IronOcr;

var ocr = new IronTesseract();
ocr.Language = OcrLanguage.Arabic;

using var input = new OcrInput();
var pageindices = new int[] { 1, 2 };
input.LoadImageFrames("img/arabic.gif", pageindices);

// Add image filters if needed
// In this case, even thought input is very low quality
// IronTesseract can read what conventional Tesseract cannot.

var result = ocr.Read(input);

// Console can't print Arabic on Windows easily.
// Let's save to disk instead.
result.SaveAsTextFile("arabic.txt");

Imports IronOcr

Private ocr = New IronTesseract()
ocr.Language = OcrLanguage.Arabic

Dim input = New OcrInput()
Dim pageindices = New Integer() { 1, 2 }
input.LoadImageFrames("img/arabic.gif", pageindices)

' Add image filters if needed
' In this case, even thought input is very low quality
' IronTesseract can read what conventional Tesseract cannot.

Dim result = ocr.Read(input)

' Console can't print Arabic on Windows easily.
' Let's save to disk instead.
result.SaveAsTextFile("arabic.txt")

$vbLabelText $csharpLabel

Ces optimisations démontrent que la conception d'IronOCR est prête pour la production. La configuration BlackListCharacters seule peut améliorer la rapidité de 20-30% lorsque les caractères spéciaux ne sont pas requis. Les packs de langues rapides offrent un excellent compromis pour le traitement de volumes importants où une précision parfaite n'est pas essentielle.

Pour les applications d'entreprise, la prise en charge multithread d'IronOCR permet de traiter plusieurs documents simultanément, ce qui permet d'obtenir des améliorations de débit de 4 à 8 fois sur les systèmes multicœurs modernes par rapport à Tesseract monothread.

Qu'est-ce qui différencie la conception de l'API entre Tesseract et IronOCR ?

Google Tesseract OCR en .NET

L'intégration de Tesseract brut dans des applications C# présente deux options complexes :

Interfaces d'interopérabilité : souvent obsolètes, mal documentées et sujettes aux fuites de mémoire.
Exécution en ligne de commande : Déploiement difficile, bloquée par les politiques de sécurité, gestion des erreurs médiocre

Aucune de ces deux approches ne fonctionne de manière fiable dans les environnements cloud, les applications web ou les déploiements multiplateformes. L'absence d'une intégration .NET adéquate signifie passer plus de temps à lutter contre les outils qu'à résoudre les problèmes métier.

Bibliothèque OCR IronOCR Tesseract for .NET

IronOCR fournit une API entièrement gérée et intuitive, conçue spécifiquement pour les développeurs .NET :

Mise en œuvre la plus simple

:path=/static-assets/ocr/content-code-examples/tutorials/c-sharp-tesseract-ocr-7.cs

using IronOcr;

// For the Chinese Language Pack:
// PM> Install IronOcr.Languages.ChineseSimplified

var ocr = new IronTesseract();
ocr.Language = OcrLanguage.ChineseSimplified;
ocr.AddSecondaryLanguage(OcrLanguage.English);

// We can add any number of languages
using var input = new OcrInput();
input.LoadPdf("multi-language.pdf");
var result = ocr.Read(input);
result.SaveAsTextFile("results.txt");

Imports IronOcr

' For the Chinese Language Pack:
' PM> Install IronOcr.Languages.ChineseSimplified

Private ocr = New IronTesseract()
ocr.Language = OcrLanguage.ChineseSimplified
ocr.AddSecondaryLanguage(OcrLanguage.English)

' We can add any number of languages
Dim input = New OcrInput()
input.LoadPdf("multi-language.pdf")
Dim result = ocr.Read(input)
result.SaveAsTextFile("results.txt")

$vbLabelText $csharpLabel

Cette API simplifiée élimine la complexité de l'intégration traditionnelle de Tesseract. Chaque méthode est accompagnée d'une documentation XML complète, facilitant l'exploration de ses fonctionnalités directement dans votre IDE. La documentation API exhaustive fournit des exemples détaillés pour chaque fonctionnalité.

L'assistance professionnelle d'ingénieurs expérimentés vous garantit de ne jamais être bloqué par les détails de la mise en œuvre. La bibliothèque bénéficie de mises à jour régulières, assurant sa compatibilité avec les dernières versions de .NET tout en ajoutant de nouvelles fonctionnalités basées sur les retours des développeurs.

Quelles plateformes et quels scénarios de déploiement sont pris en charge ?

Google Tesseract + Interop for .NET

Le déploiement multiplateforme de Tesseract nécessite des versions et des configurations spécifiques à chaque plateforme.

Chaque environnement cible nécessite des binaires, des dépendances d'exécution et des autorisations différents. Les conteneurs Docker nécessitent une sélection minutieuse de l'image de base. Les déploiements Azure échouent souvent en raison de l'absence d'environnements d'exécution Visual C++. La compatibilité Linux dépend des distributions spécifiques et de la disponibilité des paquets.

Bibliothèque OCR IronOCR Tesseract .NET

IronOCR offre une véritable capacité d'écriture unique et de déploiement partout :

Types d'applications :

Applications de bureau (WPF, WinForms, Console)
Applications Web (ASP.NET Core, Blazor)
Services cloud (Azure Functions, AWS Lambda)
Applications mobiles (via Xamarin)
Microservices (Docker, Kubernetes)

Prise en charge de la plateforme :

Windows (éditions 7, 8, 10, 11 et Server)
macOS (Intel et Apple Silicon)
Linux (Ubuntu, Debian, CentOS, Alpine)
Conteneurs Docker (images de base officielles)
Plateformes cloud (Azure, AWS, Google Cloud)

Compatibilité .NET :

.NET Framework 4.6.2 et au-dessus
.NET Standard 2.0 et au-dessus (y compris .NET 5, 6, 7, 8, 9, et 10)
.NET Core 2.0 et au-dessus
Cadre Mono
Xamarin.Mac

La bibliothèque gère en interne les différences entre les plateformes, garantissant des résultats cohérents dans tous les environnements. Les guides de déploiement couvrent des scénarios spécifiques, notamment la conteneurisation, les fonctions sans serveur et les configurations à haute disponibilité.

Comment se comparent les capacités OCR multilingues ?

Assistance linguistique Google Tesseract

La gestion des langues dans Tesseract brut nécessite le téléchargement et la maintenance des fichiers tessdata - environ 4 Go pour toutes les langues.

L'arborescence des dossiers doit être précise, les variables d'environnement correctement configurées et les chemins accessibles à l'exécution. Le changement de langue nécessite un accès au système de fichiers, ce qui complique le déploiement dans les environnements restreints. Les incompatibilités de versions entre les binaires de Tesseract et les fichiers de langue provoquent des erreurs cryptiques.

Gestion des langues IronOCR

IronOCR révolutionne la prise en charge des langues grâce à la gestion des packages NuGet :

Exemple de reconnaissance optique de caractères (OCR) arabe

:path=/static-assets/ocr/content-code-examples/tutorials/c-sharp-tesseract-ocr-8.cs

using IronOcr;

// Configure IronTesseract for Arabic text recognition
var ocr = new IronTesseract
{
    // Set primary language to Arabic
    // Automatically handles right-to-left text
    Language = OcrLanguage.Arabic
};

// Load Arabic documents for processing
using var input = new OcrInput();
var pageIndices = new int[] { 1, 2 };
input.LoadImageFrames("img/arabic.gif", pageIndices);

// IronOCR includes specialized preprocessing for Arabic scripts
// Handles cursive text and diacritical marks automatically

// Perform OCR with language-specific optimizations
var result = ocr.Read(input);

// Save results with proper Unicode encoding
// Preserves Arabic text formatting and direction
result.SaveAsTextFile("arabic.txt");

// Advanced Arabic features:
// - Mixed Arabic/English document support
// - Automatic number conversion (Eastern/Western Arabic)
// - Font-specific optimization for common Arabic typefaces

Imports IronOcr

' Configure IronTesseract for Arabic text recognition
Dim ocr As New IronTesseract With {
    ' Set primary language to Arabic
    ' Automatically handles right-to-left text
    .Language = OcrLanguage.Arabic
}

' Load Arabic documents for processing
Using input As New OcrInput()
    Dim pageIndices As Integer() = {1, 2}
    input.LoadImageFrames("img/arabic.gif", pageIndices)

    ' IronOCR includes specialized preprocessing for Arabic scripts
    ' Handles cursive text and diacritical marks automatically

    ' Perform OCR with language-specific optimizations
    Dim result = ocr.Read(input)

    ' Save results with proper Unicode encoding
    ' Preserves Arabic text formatting and direction
    result.SaveAsTextFile("arabic.txt")

    ' Advanced Arabic features:
    ' - Mixed Arabic/English document support
    ' - Automatic number conversion (Eastern/Western Arabic)
    ' - Font-specific optimization for common Arabic typefaces
End Using

$vbLabelText $csharpLabel

Traitement de documents multilingues

:path=/static-assets/ocr/content-code-examples/tutorials/c-sharp-tesseract-ocr-9.cs

using IronOcr;

// Install language packs via NuGet:
// PM> Install-Package IronOcr.Languages.ChineseSimplified

// Configure multi-language OCR
var ocr = new IronTesseract();

// Set primary language for majority content
ocr.Language = OcrLanguage.ChineseSimplified;

// Add secondary language for mixed content
// Perfect for documents with Chinese text and English metadata
ocr.AddSecondaryLanguage(OcrLanguage.English);

// Process multi-language PDFs efficiently
using var input = new OcrInput();
input.LoadPdf("multi-language.pdf");

// IronOCR automatically detects and switches between languages
// Maintains high accuracy across language boundaries
var result = ocr.Read(input);

// Export preserves all languages correctly
result.SaveAsTextFile("results.txt");

// Supported scenarios:
// - Technical documents with English terms in foreign text
// - Multilingual forms and applications  
// - International business documents
// - Mixed-script content (Latin, CJK, Arabic, etc.)

Imports IronOcr

' Install language packs via NuGet:
' PM> Install-Package IronOcr.Languages.ChineseSimplified

' Configure multi-language OCR
Dim ocr As New IronTesseract()

' Set primary language for majority content
ocr.Language = OcrLanguage.ChineseSimplified

' Add secondary language for mixed content
' Perfect for documents with Chinese text and English metadata
ocr.AddSecondaryLanguage(OcrLanguage.English)

' Process multi-language PDFs efficiently
Using input As New OcrInput()
    input.LoadPdf("multi-language.pdf")

    ' IronOCR automatically detects and switches between languages
    ' Maintains high accuracy across language boundaries
    Dim result = ocr.Read(input)

    ' Export preserves all languages correctly
    result.SaveAsTextFile("results.txt")
End Using

' Supported scenarios:
' - Technical documents with English terms in foreign text
' - Multilingual forms and applications  
' - International business documents
' - Mixed-script content (Latin, CJK, Arabic, etc.)

$vbLabelText $csharpLabel

Le système de packs de langue prend en charge plus de 127 langues, chacune optimisée pour des systèmes d'écriture et des scripts spécifiques. L'installation via NuGet garantit la compatibilité des versions et simplifie le déploiement dans différents environnements.

Quelles sont les fonctionnalités supplémentaires offertes par IronOCR au-delà de la reconnaissance optique de caractères (OCR) de base ?

IronOCR va bien au-delà de la simple extraction de texte grâce à ses fonctionnalités adaptées aux entreprises :

Analyse automatique d'images : configure intelligemment le traitement en fonction des caractéristiques de l'image
Création de PDF consultables : Convertissez des documents numérisés en PDF entièrement consultables. Passez true comme deuxième argument à SaveAsSearchablePdf() pour appliquer des filtres OCR actifs à la sortie (ajouté v2025.5.11)
OCR PDF avancé : extraction de texte tout en préservant la structure du document
Lecture des codes-barres et des codes QR : Détection et décodage des codes-barres en une seule passe
Exportation HTML : Générer du code HTML structuré à partir des résultats de la reconnaissance optique de caractères (OCR)
Conversion TIFF vers PDF : Transformez des fichiers TIFF multipages en PDF consultables
OCR de l'anglais manuscrit : reconnaissance native de l'écriture manuscrite en anglais, ajoutée dans la version 2025.11.31 — un atout majeur par rapport à Tesseract brut pour le traitement des formulaires et des notes remplis à la main
Détection de l'orientation : DetectPageOrientation() supporte quatre valeurs OrientationDetectionMode — Fast, Balanced, Detailed, ExtremeDetailed — pour contrôler le compromis précision/vitesse (ajouté v2025.8.6)
Prise en charge du multithreading : Traitement simultané de plusieurs documents
[Analyse détaillée des résultats](/csharp/ocr/object-reference/api/I IronOcr.OcrResult.html) : Accéder à des données au niveau des personnages avec des scores de confiance

Scale() et EnhanceResolution() sont incompatibles avec SaveAsSearchablePdf() en raison d'un problème connu dans v2025.12.3. Tous les autres filtres fonctionnent correctement avec la sortie de PDF indexable.

La classe OcrResult fournit un accès granulaire au contenu reconnu, permettant des flux de travail de post-traitement et validation sophistiqués.

Quelle solution OCR devriez-vous choisir pour le développement en C# ?

Google Tesseract pour C# OCR

Choisissez Tesseract vanille lorsque :

Travailler sur des projets universitaires ou de recherche
Traitement de documents parfaitement numérisés avec un temps de développement illimité
Création d'applications de démonstration de faisabilité Le coût est le seul critère à prendre en compte.

Préparez-vous à des défis d'intégration importants et à des exigences de maintenance continues.

Bibliothèque OCR IronOCR Tesseract for .NET Framework et Core

IronOCR est le choix optimal pour :

Applications de production exigeant une grande fiabilité
Projets avec une qualité documentaire réaliste
Déploiements multiplateformes
Calendriers de développement urgents
Applications nécessitant un soutien professionnel

La bibliothèque s'autofinance grâce à la réduction du temps de développement et à une précision supérieure sur les documents complexes.

Comment commencer avec l'OCR professionnel dans votre projet C# ?

Commencez à implémenter une reconnaissance optique de caractères (OCR) de haute précision dans votre projet Visual Studio :

Install-Package IronOcr

Vous pouvez également télécharger directement la DLL .NET d'IronOCR pour une installation manuelle.

Commencez par consulter notre guide de démarrage complet , explorez des exemples de code et bénéficiez d'un soutien professionnel en cas de besoin.

Découvrez la différence qu'apporte la reconnaissance optique de caractères (OCR) professionnelle : commencez votre essai gratuit dès aujourd'hui et rejoignez plus de 10 000 entreprises qui atteignent une précision supérieure à 99,8 % dans leurs flux de traitement de documents.

Logos de grandes entreprises telles que NASA, LEGO et 3M qui font confiance aux produits Iron Software pour leurs besoins en OCR La technologie OCR d'Iron Software est utilisée par des entreprises du Fortune 500 et des organisations gouvernementales du monde entier pour le traitement de documents critiques.

Questions Fréquemment Posées

Comment puis-je implémenter Tesseract OCR dans les applications C# ?

Pour implémenter Tesseract OCR dans les applications C#, vous pouvez utiliser la classe IronTesseract de IronOCR. Installez-la via NuGet avec la commande Install-Package IronOcr, puis ajoutez l'espace de noms using IronOcr;. Instanciez le moteur OCR en utilisant var ocr = new IronTesseract(); et extrayez le texte d'une image avec var result = ocr.Read("image.png");.

Quels sont les avantages d'utiliser IronOCR par rapport à Tesseract traditionnel ?

IronOCR offre plusieurs avantages par rapport à Tesseract traditionnel, y compris un déploiement simplifié sans dépendances natives, un prétraitement automatique des images pour une précision améliorée et une intégration .NET gérée. Il fournit des fonctionnalités telles que le support PDF et multilingue et peut être facilement installé via NuGet, évitant l'interopérabilité C++ complexe requise par Tesseract original.

Comment puis-je améliorer la précision de l'OCR dans mes projets C# ?

Pour améliorer la précision de l'OCR dans les projets C#, utilisez les fonctionnalités d'amélioration automatique des images d'IronOCR. Des méthodes comme input.DeNoise() et input.Deskew() aident à prétraiter les images, réduisant le bruit et corrigeant le décalage. En outre, choisissez les bons paramètres de langue et utilisez les métriques de confiance pour la validation de la précision via OcrResult.Confidence.

Puis-je effectuer un OCR sur des documents PDF en utilisant C# ?

Oui, avec la classe OcrInput d'IronOCR, vous pouvez effectuer un OCR sur des documents PDF. Chargez un PDF en utilisant input.LoadPdf("file.pdf", "password") et traitez-le avec var result = ocr.Read(input);. Cela permet d'extraire du texte et de créer des PDF consultables directement dans vos applications C#.

Comment puis-je gérer plusieurs langues dans un document OCR unique ?

IronOCR permet de traiter plusieurs langues au sein d'un même document. Définissez la langue principale en utilisant ocr.Language = OcrLanguage.English; et ajoutez des langues secondaires avec ocr.AddSecondaryLanguage(OcrLanguage.Spanish);. Cette flexibilité est bénéfique pour les documents contenant des langues ou des termes techniques mixtes.

Quelles plates-formes prennent en charge IronOCR ?

IronOCR prend en charge un large éventail de plates-formes, y compris .NET Framework 4.6.2+, .NET Core 2.0+, .NET 5-10 et .NET Standard 2.0+. Il fonctionne sur Windows, macOS et Linux, ainsi que dans des conteneurs Docker, Azure Functions, AWS Lambda et les applications mobiles Xamarin, offrant des performances cohérentes sur différents environnements.

Comment puis-je optimiser la performance du traitement OCR en C# ?

Pour optimiser la performance du traitement OCR en C#, utilisez les fonctionnalités d'IronOCR telles que la désactivation de la lecture de codes-barres inutiles avec ocr.Configuration.ReadBarCodes = false; et le choix de modèles de langue plus rapides comme ocr.Language = OcrLanguage.EnglishFast;. En outre, tirez parti des capacités multi-threading pour un traitement par lots plus rapide.

Quels formats d'image sont supportés par IronOCR ?

IronOCR prend en charge divers formats d'image, y compris PDF, TIFF, JPEG et PNG. Utilisez la classe OcrInput pour charger des images avec des méthodes comme input.LoadImage("photo.jpg") ou input.LoadPdf("file.pdf"). Cette large compatibilité permet une intégration facile avec différentes sources et formats d'image.

Jacob Mellor

Discutez maintenant avec l'équipe d'ingénierie

Directeur technique

Jacob Mellor est directeur de la technologie chez Iron Software et un ingénieur visionnaire pionnier de la technologie C# PDF. En tant que développeur à l'origine de la base de code centrale d'Iron Software, il a façonné l'architecture des produits de l'entreprise depuis sa création, la ...

Jeffrey T. Fritz

Responsable principal du programme - Équipe de la communauté .NET

Jeff est également responsable principal du programme pour les équipes .NET et Visual Studio. Il est le producteur exécutif de la série de conférences virtuelles .NET Conf et anime 'Fritz and Friends', une diffusion en direct pour développeurs qui est diffusée deux fois par semaine où il parle de technologie et écrit du code avec les téléspectateurs. Jeff écrit des ateliers, des présentations et prévoit du contenu pour les plus grands événements de développement Microsoft, y compris Microsoft Build, Microsoft Ignite, .NET Conf et le sommet Microsoft MVP

Prêt à commencer?

Nuget Téléchargements 6,136,090 | Version : 2026.7 vient de sortir

Voir Licences

Vous faites encore défiler ?

Vous voulez une preuve rapidement ? PM > Install-Package IronOcr
lancez un échantillon regardez votre image se transformer en texte consultable.

Voir Licences

Commencer un essai gratuit de 30 jours

Sur cette page

How to Tesseract OCR in C# Alternatives with IronOCR

Installez IronOCR avec le Gestionnaire de Packages NuGet

Copiez et exécutez cet extrait de code.

Déployez pour tester sur votre environnement de production.

Flux de travail minimal (5 étapes)

Comment pouvez-vous extraire du texte des images en C# avec un code minimal ?

Quelles sont les principales différences d'installation entre Tesseract et IronOCR ?

Utilisation du moteur Tesseract pour la reconnaissance optique de caractères (OCR) avec .NET

IronOCR Tesseract for .NET

Comment se comparent les dernières versions des moteurs OCR pour le développement .NET ?

Google Tesseract with C

IronOCR Tesseract for .NET

Comparaison de Google Cloud OCR

Quel niveau de précision en matière de reconnaissance optique de caractères (OCR) pouvez-vous atteindre avec différentes approches ?

Google Tesseract dans les projets .NET

IronOCR Tesseract dans les projets .NET

Quels formats et sources d'images sont pris en charge pour le traitement OCR ?

Google Tesseract en .NET

Compatibilité des images IronOCR

Exemple complet de prise en charge des formats

Comment les performances de la reconnaissance optique de caractères (OCR) se comparent-elles dans des applications réelles ?

Performances gratuites de Google Tesseract

Performances de la bibliothèque IronOCR Tesseract

Qu'est-ce qui différencie la conception de l'API entre Tesseract et IronOCR ?

Google Tesseract OCR en .NET

Bibliothèque OCR IronOCR Tesseract for .NET

Mise en œuvre la plus simple

Quelles plateformes et quels scénarios de déploiement sont pris en charge ?

Google Tesseract + Interop for .NET

Bibliothèque OCR IronOCR Tesseract .NET

Comment se comparent les capacités OCR multilingues ?

Assistance linguistique Google Tesseract

Gestion des langues IronOCR

Exemple de reconnaissance optique de caractères (OCR) arabe

Traitement de documents multilingues

Quelles sont les fonctionnalités supplémentaires offertes par IronOCR au-delà de la reconnaissance optique de caractères (OCR) de base ?

Quelle solution OCR devriez-vous choisir pour le développement en C# ?

Google Tesseract pour C# OCR

Bibliothèque OCR IronOCR Tesseract for .NET Framework et Core

Comment commencer avec l'OCR professionnel dans votre projet C# ?

Questions Fréquemment Posées

Comment puis-je implémenter Tesseract OCR dans les applications C# ?

Quels sont les avantages d'utiliser IronOCR par rapport à Tesseract traditionnel ?

Comment puis-je améliorer la précision de l'OCR dans mes projets C# ?

Puis-je effectuer un OCR sur des documents PDF en utilisant C# ?

Comment puis-je gérer plusieurs langues dans un document OCR unique ?

Quelles plates-formes prennent en charge IronOCR ?

Comment puis-je optimiser la performance du traitement OCR en C# ?

Quels formats d'image sont supportés par IronOCR ?

Vous faites encore défiler ?

Obtenez votre GRATUIT

Étape suivante : Commencer l'essai gratuit de 30 jours

Thank You

Étape suivante : Commencer l'essai gratuit de 30 jours

Vous voulez déployer IronSuite sur un projet en direct GRATUITEMENT ?

Qu'est-ce qui est inclus ?

Votre clé de licence a été livrée dans votre boîte de réception

Votre demande de démo est en cours.

De confiance par des millions d'ingénieurs dans le monde entier

Équipe de soutien Iron