Lire des documents numérisés en C#35 ; en utilisant IronOcr

Mis à jour:21 avril 2026

Translated

View the article in English

IronOCR permet aux développeurs C# d'extraire du texte à partir de PDF et d'images numérisés à l'aide de la technologie OCR, convertissant ainsi des documents à base d'images non consultables en contenu consultable et accessible en seulement quelques lignes de code.

De nombreux fichiers PDF contiennent du texte non consultable, basé sur des images. IronOcr convertit le tout en contenu consultable, ce qui facilite la localisation d'informations spécifiques et améliore l'accessibilité des documents, notamment pour les personnes souffrant de déficiences visuelles.

Au lieu de copier ou de recréer manuellement le texte et les images, l'extraction automatisée garantit précision et efficacité. Cette traduction est particulièrement utile pour la recherche, les documents juridiques et la création de contenu où la réutilisation de parties spécifiques de PDF est courante.

Les entreprises peuvent extraire des données critiques des fichiers PDF à des fins d'analyse ou d'intégration système, ce qui permet de rationaliser les flux de travail. Les concepteurs et les spécialistes du marketing peuvent également extraire des images pour les améliorer et les réutiliser dans divers projets.

Dans ce tutoriel, nous allons explorer les méthodes OcrPdfInput, en passant en revue les options et paramètres disponibles afin de montrer comment IronOCR simplifie l'extraction de texte et d'images à partir de fichiers PDF pour diverses applications.

Pour utiliser cette fonction, vous devez également installer le package IronOcr.Extensions.AdvancedScan.

Démarrage rapide : Extraire du texte d'un PDF ou d'une image numérisée

Commencez en quelques secondes : en une seule ligne de code, vous chargerez votre PDF ou votre image numérisée à l'aide de OcrInput.LoadPdf ou LoadImage de IronOCR et extrairez instantanément le texte via ReadDocument. Idéal pour les développeurs qui souhaitent une reconnaissance optique de caractères (OCR) opérationnelle rapidement.

Installez IronOCR avec le Gestionnaire de Packages NuGet
PM > Install-Package IronOcr

Copiez et exécutez cet extrait de code.

var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text;

Déployez pour tester sur votre environnement de production.

Commencez à utiliser IronOCR dans votre projet dès aujourd'hui avec un essai gratuit

Flux de travail minimal (5 étapes)

Téléchargez la bibliothèque C# pour la lecture des documents numérisés.
Importez le document numérisé pour traitement
Utilisez la méthode LoadImage pour les images ou LoadPdf pour les PDF numérisés.
Extraire du texte à l'aide de la méthode ReadDocument
Enregistrez ou exportez le texte extrait selon les besoins pour une utilisation ultérieure

Comment extraire du texte à partir de documents numérisés?

Pour extraire le texte de toutes les images d'un document, utilisez la méthode ReadDocument. Cette méthode traite le document et renvoie un objet contenant le texte extrait, accessible via la propriété Text. L'exemple ci-dessous illustre comment utiliser cette méthode avec un fichier TIFF .

IronOCR prend en charge une grande variété de formats de documents à numériser. Pour les images, vous pouvez travailler avec les formats JPG, PNG, GIF, TIFF et BMP, tandis que la prise en charge des PDF comprend à la fois les documents simples et multi-pages. La bibliothèque utilise la technologie avancée Tesseract 5 pour garantir une grande précision dans tous les formats pris en charge.

Veuillez noter

La méthode fonctionne actuellement uniquement pour l'anglais, le chinois, le japonais, le coréen et l'alphabet latin.
L'utilisation de l'analyse avancée sur .NET Framework nécessite que le projet s'exécute sur une architecture x64. )}]

À quoi ressemble le document d'entrée?

Page du livre Harry Potter présentant le chapitre huit

Comment j'Implémente le Code OCR ?

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs

using IronOcr;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");

// Perform OCR
OcrResult result = ocr.ReadDocument(input);

Console.WriteLine(result.Text);

Imports IronOcr
Imports System

' Instantiate OCR engine
Private ocr = New IronTesseract()

' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")

' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)

Console.WriteLine(result.Text)

$vbLabelText $csharpLabel

Quels résultats puis-je attendre du traitement OCR?

Fenêtre de débogage de Visual Studio affichant le texte de Harry Potter traité par OCR à partir d'un exemple de document numérisé

Si vous devez plutôt effectuer une reconnaissance optique de caractères (OCR) sur un fichier PDF, remplacez simplement la méthode LoadImage par LoadPdf. Cela permet à IronOCR de traiter et d'extraire le texte des PDF numérisés de la même manière.

Options de traitement avancé des documents

Lorsque vous travaillez avec des documents numérisés, vous avez souvent besoin de mieux contrôler le processus d'OCR. IronOcr propose plusieurs fonctionnalités avancées pour améliorer vos résultats d'extraction de texte.

Traitement des documents multi-pages

Pour les documents comportant plusieurs pages, IronOCR gère efficacement le traitement par lots :

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");

// Process all pages
OcrResult result = ocr.ReadDocument(input);

// Access individual page results
foreach (var page in result.Pages)
{
    Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");

// Process all pages
OcrResult result = ocr.ReadDocument(input);

// Access individual page results
foreach (var page in result.Pages)
{
    Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}

Imports IronOcr

Dim ocr As New IronTesseract()
Using input As New OcrInput()

    ' Load a multi-page PDF
    input.LoadPdf("multi-page-document.pdf")

    ' Process all pages
    Dim result As OcrResult = ocr.ReadDocument(input)

    ' Access individual page results
    For Each page In result.Pages
        Console.WriteLine($"Page {page.PageNumber}: {page.Text}")
    Next

End Using

$vbLabelText $csharpLabel

Optimiser les performances de l'OCR

La qualité de vos documents numérisés a un impact direct sur la précision de l'OCR. IronOCR comprend des filtres d'optimisation d'image intégrés pour améliorer la reconnaissance de texte :

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew();  // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white

OcrResult result = ocr.ReadDocument(input);

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew();  // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white

OcrResult result = ocr.ReadDocument(input);

Imports IronOcr

Dim ocr As New IronTesseract()
Using input As New OcrInput()
    ' Load and enhance image quality
    input.LoadImage("low-quality-scan.jpg")
    input.Deskew()  ' Correct image skew
    input.DeNoise() ' Remove background noise
    input.Binarize() ' Convert to black and white

    Dim result As OcrResult = ocr.ReadDocument(input)
End Using

$vbLabelText $csharpLabel

Créer des PDF consultables

L'une des fonctions les plus précieuses lors du traitement de documents numérisés est la possibilité de créer des PDF consultables. Cette traduction conserve l'aspect du document original tout en ajoutant une couche de texte :

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");

Imports IronOcr

Dim ocr As New IronTesseract()
Using input As New OcrInput()
    input.LoadPdf("scanned-document.pdf")

    ' Process and save as searchable PDF
    Dim result As OcrResult = ocr.ReadDocument(input)
    result.SaveAsSearchablePdf("searchable-output.pdf")
End Using

$vbLabelText $csharpLabel

Travailler avec différents types de documents

IronOCR excelle dans le traitement de divers types de documents couramment rencontrés dans les environnements professionnels. Qu'il s'agisse de factures, de contrats ou de documents historiques, la bibliothèque propose des fonctionnalités spécialisées pour l'extraction de données à partir de différentes sources.

Traitement des documents hérités

De nombreuses organisations possèdent des archives de documents numérisés dans d'anciens formats. IronOcr s'en charge efficacement, notamment en prenant en charge les fichiers TIFF multipages couramment utilisés dans les systèmes de gestion de documents.

Support Linguistique

Bien que cet exemple se concentre sur un texte en anglais, IronOcr prend en charge plus de 125 langues internationales. Elle est donc idéale pour le traitement de documents multilingues ou de documents rédigés dans des langues autres que l'anglais.

Bonnes pratiques pour la numérisation de documents

Pour obtenir des résultats optimaux lors du traitement de documents numérisés :

Qualité de l'Image : Utilisez une résolution minimale de 300 DPI pour de meilleurs résultats
Format de Fichier : Les formats TIFF et PNG conservent mieux la qualité que JPEG pour les documents texte
Prétraitement : Appliquez des filtres appropriés en fonction de l'état de votre document
Performance : Pour les lots importants, envisagez d'utiliser les capacités de multithreading

Résolution des problèmes courants

Lorsque vous travaillez avec des documents numérisés, vous pouvez être confronté à différents défis. Voici des solutions à des problèmes courants :

Scans de mauvaise qualité : Appliquez des filtres d'amélioration avant le traitement OCR
Documents inclinés : utilisez la méthode Deskew() pour corriger l'orientation
Contenu Mixte : Traitez des régions spécifiques si les documents contiennent à la fois du texte et des éléments non textuels

Pour des conseils plus détaillés, explorez notre tutoriel complet sur la ROC en C# ou consultez des exemples simples de ROC pour commencer rapidement.

Prochaines étapes

Maintenant que vous savez comment extraire du texte à partir de documents numérisés, vous pouvez explorer des fonctionnalités plus avancées, comme rendre n'importe quel PDF consultable ou traiter des flux PDF pour des applications web. La flexibilité d'IronOCR lui permet de s'adapter à toutes les situations, de la simple numérisation de documents aux flux de traitement de documents d'entreprise complexes.

Questions Fréquemment Posées

Comment extraire du texte d'un PDF scanné en C# ?

IronOCR simplifie l'extraction de texte à partir de PDF numérisés en C#. Utilisez la méthode LoadPdf pour importer votre PDF numérisé, puis appelez ReadDocument pour extraire le texte. Par exemple : var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text ; Cette simple ligne de code charge votre PDF et extrait tout le contenu textuel.

Quels formats de fichiers la bibliothèque OCR prend-elle en charge pour l'extraction de texte ?

IronOcr prend en charge une gamme complète de formats de documents pour la numérisation ROC. Pour les images, il fonctionne avec les formats JPG, PNG, GIF, TIFF et BMP. Pour les PDF, elle prend en charge les documents d'une ou plusieurs pages. La bibliothèque utilise la technologie avancée Tesseract 5 pour garantir une grande précision dans tous les formats pris en charge.

Dois-je installer des paquets supplémentaires pour la fonctionnalité OCR ?

Oui, pour utiliser toutes les fonctionnalités d'OCR avec IronOCR, vous devez installer le package IronOcr.Extensions.AdvancedScan en plus de la bibliothèque principale IronOCR. Ce paquet d'extension fournit des capacités de numérisation améliorées pour le traitement des documents numérisés.

Puis-je extraire du texte à partir d'images numérisées et de fichiers PDF ?

Oui, IronOcr gère aussi bien les images numérisées que les PDF. Utilisez la méthode LoadImage pour les fichiers images (JPG, PNG, GIF, TIFF, BMP) ou LoadPdf pour les documents PDF. La méthode ReadDocument fonctionne avec les deux types d'entrée pour extraire le contenu textuel.

Comment la reconnaissance optique de caractères (OCR) peut-elle aider à traiter les documents PDF non consultables ?

IronOcr convertit les PDF non consultables, basés sur des images, en contenu consultable en extrayant le texte à l'aide de la technologie OCR. Cette transformation facilite la localisation d'informations spécifiques dans les documents et améliore considérablement l'accessibilité des documents, en particulier pour les personnes souffrant de déficiences visuelles.

Quelles sont les principales applications commerciales de l'extraction de texte par OCR ?

IronOcr permet aux entreprises d'extraire des données essentielles des PDF à des fins d'analyse et d'intégration de systèmes, en rationalisant les flux de travail. Il est particulièrement utile pour le traitement des documents juridiques et des documents de recherche, ainsi que pour l'automatisation de la saisie des données. Les concepteurs et les spécialistes du marketing peuvent également extraire des images pour les améliorer et les réutiliser dans divers projets.

IronOCR peut-il être intégré dans des applications existantes ?

IronOCR est conçu pour être facilement intégré dans les applications existantes en utilisant C#, permettant aux développeurs d'ajouter des fonctionnalités OCR à leur logiciel avec un minimum d'effort.

Quels sont les avantages d'utiliser IronOCR pour la gestion des documents ?

Utiliser IronOCR pour la gestion des documents rationalise le flux de travail en convertissant les documents numérisés en texte modifiable et consultable, réduisant le besoin de saisie manuelle des données et améliorant l'accessibilité des documents.

Comment IronOCR peut-il améliorer la précision des données ?

IronOCR améliore la précision des données grâce à ses algorithmes de reconnaissance avancés et ses fonctionnalités de correction d'image, garantissant que le processus d'extraction de texte est à la fois fiable et précis.

Y a-t-il un essai gratuit disponible pour IronOCR ?

Oui, Iron Software propose un essai gratuit d'IronOCR, permettant aux utilisateurs de tester ses fonctionnalités et capacités avant de prendre une décision d'achat.

Curtis Chau

Discutez maintenant avec l'équipe d'ingénierie

Rédacteur technique

Curtis Chau détient un baccalauréat en informatique (Université de Carleton) et se spécialise dans le développement front-end avec expertise en Node.js, TypeScript, JavaScript et React. Passionné par la création d'interfaces utilisateur intuitives et esthétiquement plaisantes, Curtis aime travailler avec des frameworks modernes ...

Prêt à commencer?

Nuget Téléchargements 5,896,332 | Version : 2026.5 just released

Voir Licences

Vous faites encore défiler ?

Vous voulez une preuve rapidement ? PM > Install-Package IronOcr
lancez un échantillon regardez votre image se transformer en texte consultable.

Voir Licences

Mise en avant du client :

Projecteur sur les Développeurs:

Webinaires:

Commencer un essai gratuit de 30 jours

Sur cette page

Lire des documents numérisés en C#35 ; en utilisant IronOcr

Installez IronOCR avec le Gestionnaire de Packages NuGet

Copiez et exécutez cet extrait de code.

Déployez pour tester sur votre environnement de production.

Flux de travail minimal (5 étapes)

Comment extraire du texte à partir de documents numérisés?

À quoi ressemble le document d'entrée?

Comment j'Implémente le Code OCR ?

Quels résultats puis-je attendre du traitement OCR?

Options de traitement avancé des documents

Traitement des documents multi-pages

Optimiser les performances de l'OCR

Créer des PDF consultables

Travailler avec différents types de documents

Traitement des documents hérités

Support Linguistique

Bonnes pratiques pour la numérisation de documents

Résolution des problèmes courants

Prochaines étapes

Questions Fréquemment Posées

Comment extraire du texte d'un PDF scanné en C# ?

Quels formats de fichiers la bibliothèque OCR prend-elle en charge pour l'extraction de texte ?

Dois-je installer des paquets supplémentaires pour la fonctionnalité OCR ?

Puis-je extraire du texte à partir d'images numérisées et de fichiers PDF ?

Comment la reconnaissance optique de caractères (OCR) peut-elle aider à traiter les documents PDF non consultables ?

Quelles sont les principales applications commerciales de l'extraction de texte par OCR ?

IronOCR peut-il être intégré dans des applications existantes ?

Quels sont les avantages d'utiliser IronOCR pour la gestion des documents ?

Comment IronOCR peut-il améliorer la précision des données ?

Y a-t-il un essai gratuit disponible pour IronOCR ?

Vous faites encore défiler ?

Équipe de soutien Iron

Commencer un essai gratuit de 30 jours

Sur cette page

Lire des documents numérisés en C#35 ; en utilisant IronOcr

Installez IronOCR avec le Gestionnaire de Packages NuGet

Copiez et exécutez cet extrait de code.

Déployez pour tester sur votre environnement de production.

Flux de travail minimal (5 étapes)

Comment extraire du texte à partir de documents numérisés?

À quoi ressemble le document d'entrée?

Comment j'Implémente le Code OCR ?

Quels résultats puis-je attendre du traitement OCR?

Options de traitement avancé des documents

Traitement des documents multi-pages

Optimiser les performances de l'OCR

Créer des PDF consultables

Travailler avec différents types de documents

Traitement des documents hérités

Support Linguistique

Bonnes pratiques pour la numérisation de documents

Résolution des problèmes courants

Prochaines étapes

Questions Fréquemment Posées

Comment extraire du texte d'un PDF scanné en C# ?

Quels formats de fichiers la bibliothèque OCR prend-elle en charge pour l'extraction de texte ?

Dois-je installer des paquets supplémentaires pour la fonctionnalité OCR ?

Puis-je extraire du texte à partir d'images numérisées et de fichiers PDF ?

Comment la reconnaissance optique de caractères (OCR) peut-elle aider à traiter les documents PDF non consultables ?

Quelles sont les principales applications commerciales de l'extraction de texte par OCR ?

IronOCR peut-il être intégré dans des applications existantes ?

Quels sont les avantages d'utiliser IronOCR pour la gestion des documents ?

Comment IronOCR peut-il améliorer la précision des données ?

Y a-t-il un essai gratuit disponible pour IronOCR ?

Vous faites encore défiler ?

Obtenez votre GRATUIT

Étape suivante : Commencer l'essai gratuit de 30 jours

Thank You

Étape suivante : Commencer l'essai gratuit de 30 jours

Want to deploy IronSuite to a live project for FREE?

What’s included?

De confiance par des millions d'ingénieurs dans le monde entier

Équipe de soutien Iron