Comment lire des documents numérisés en C# | IronOCR

Lire des documents numérisés en C#35 ; en utilisant IronOcr

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR permet aux développeurs C# d'extraire du texte à partir de PDF et d'images numérisés à l'aide de la technologie OCR, convertissant ainsi des documents à base d'images non consultables en contenu consultable et accessible en seulement quelques lignes de code.

De nombreux fichiers PDF contiennent du texte non consultable, basé sur des images. IronOcr convertit le tout en contenu consultable, ce qui facilite la localisation d'informations spécifiques et améliore l'accessibilité des documents, notamment pour les personnes souffrant de déficiences visuelles.

Au lieu de copier ou de recréer manuellement le texte et les images, l'extraction automatisée garantit précision et efficacité. Cette traduction est particulièrement utile pour la recherche, les documents juridiques et la création de contenu où la réutilisation de parties spécifiques de PDF est courante.

Les entreprises peuvent extraire des données critiques des fichiers PDF à des fins d'analyse ou d'intégration système, ce qui permet de rationaliser les flux de travail. Les concepteurs et les spécialistes du marketing peuvent également extraire des images pour les améliorer et les réutiliser dans divers projets.

Dans ce tutoriel, nous explorerons les méthodes OcrPdfInput , en abordant les options et paramètres disponibles afin de montrer comment IronOCR simplifie l'extraction de texte et d'images PDF pour diverses applications.

Pour utiliser cette fonction, vous devez également installer le package IronOcr.Extensions.AdvancedScan .

<TODO : Ajouter une image ici -->

<Description : Organigramme montrant les étapes depuis l'entrée d'un document numérisé jusqu'à la sortie du texte, en passant par le traitement OCR -->

Démarrage rapide : Extraire du texte d'un PDF ou d'une image numérisée

Démarrez en quelques secondes - avec une seule ligne de code, vous chargerez votre PDF ou votre image numérisée à l'aide du OcrInput.LoadPdf ou du LoadImage d'IronOcr et extrairez instantanément le texte via ReadDocument. Idéal pour les développeurs qui souhaitent une reconnaissance optique de caractères (OCR) opérationnelle rapidement.

Nuget IconCommencez dès maintenant à créer des PDF avec NuGet :

  1. Installez IronOCR avec le gestionnaire de packages NuGet

    PM > Install-Package IronOcr

  2. Copiez et exécutez cet extrait de code.

    var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text;
  3. Déployez pour tester sur votre environnement de production.

    Commencez à utiliser IronOCR dans votre projet dès aujourd'hui grâce à un essai gratuit.
    arrow pointer

Comment extraire du texte à partir de documents numérisés?

Pour extraire le texte de toutes les images d'un document, utilisez la méthode ReadDocument . Cette méthode traite le document et renvoie un objet contenant le texte extrait, auquel on peut accéder par l'intermédiaire de la propriété Text. L'exemple ci-dessous illustre comment utiliser cette méthode avec un fichier TIFF .

IronOCR prend en charge une grande variété de formats de documents à numériser. Pour les images, vous pouvez travailler avec les formats JPG, PNG, GIF, TIFF et BMP, tandis que la prise en charge des PDF comprend à la fois les documents simples et multi-pages. La bibliothèque utilise la technologie avancée Tesseract 5 pour garantir une grande précision dans tous les formats pris en charge.

[{i:(

  • Cette méthode ne fonctionne actuellement que pour l'anglais, le chinois, le japonais, le coréen et l'alphabet latin.
  • L'utilisation de l'analyse avancée sur .NET Framework nécessite que le projet s'exécute sur une architecture x64.
    @@--BRACKET-FERMETURE--@@

À quoi ressemble le document d'entrée?

Page du livre Harry Potter montrant le chapitre huit "The Deathday Party" avec un texte narratif sur Poudlard en octobre

Comment implémenter le code OCR?

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");

// Perform OCR
OcrResult result = ocr.ReadDocument(input);

Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate OCR engine
Private ocr = New IronTesseract()

' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")

' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)

Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Quels résultats puis-je attendre du traitement OCR?

Visual Studio Debug window displaying OCR-processed Harry Potter text output from scanned document example (fenêtre de débogage de Visual Studio affichant le texte d'Harry Potter traité par OCR à partir d'un document numérisé)

Si vous devez effectuer une reconnaissance optique de caractères (OCR) sur un fichier PDF, remplacez simplement la méthode LoadImage par LoadPdf . Cela permet à IronOCR de traiter et d'extraire le texte des PDF numérisés de la même manière.

Options de traitement avancé des documents

Lorsque vous travaillez avec des documents numérisés, vous avez souvent besoin de mieux contrôler le processus d'OCR. IronOcr propose plusieurs fonctionnalités avancées pour améliorer vos résultats d'extraction de texte.

Traitement des documents multi-pages

Pour les documents comportant plusieurs pages, IronOCR gère efficacement le traitement par lots :

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");

// Process all pages
OcrResult result = ocr.ReadDocument(input);

// Access individual page results
foreach (var page in result.Pages)
{
    Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");

// Process all pages
OcrResult result = ocr.ReadDocument(input);

// Access individual page results
foreach (var page in result.Pages)
{
    Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Optimiser les performances de l'OCR

La qualité de vos documents numérisés a un impact direct sur la précision de l'OCR. IronOCR comprend des filtres d'optimisation d'image intégrés pour améliorer la reconnaissance de texte :

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew();  // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white

OcrResult result = ocr.ReadDocument(input);
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew();  // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white

OcrResult result = ocr.ReadDocument(input);
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Créer des PDF consultables

L'une des fonctions les plus précieuses lors du traitement de documents numérisés est la possibilité de créer des PDF consultables. Cette traduction conserve l'aspect du document original tout en ajoutant une couche de texte :

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Travailler avec différents types de documents

IronOCR excelle dans le traitement de divers types de documents couramment rencontrés dans les environnements professionnels. Qu'il s'agisse de factures, de contrats ou de documents historiques, la bibliothèque propose des fonctionnalités spécialisées pour l'extraction de données à partir de différentes sources.

Traitement des documents hérités

De nombreuses organisations possèdent des archives de documents numérisés dans d'anciens formats. IronOcr s'en charge efficacement, notamment en prenant en charge les fichiers TIFF multipages couramment utilisés dans les systèmes de gestion de documents.

Support Linguistique

Bien que cet exemple se concentre sur un texte en anglais, IronOcr prend en charge plus de 125 langues internationales. Elle est donc idéale pour le traitement de documents multilingues ou de documents rédigés dans des langues autres que l'anglais.

Bonnes pratiques pour la numérisation de documents

Pour obtenir des résultats optimaux lors du traitement de documents numérisés :

  1. Qualité de la numérisation : Utilisez une résolution minimale de 300 DPI pour obtenir les meilleurs résultats
  2. <Format de fichier : Les formats TIFF et PNG préservent mieux la qualité que le format JPEG pour les documents textuels
  3. Prétraitement : Appliquer les filtres appropriés en fonction de l'état de votre document
  4. Performance : Pour les lots importants, envisagez d'utiliser les capacités de multithreading

Résolution des problèmes courants

Lorsque vous travaillez avec des documents numérisés, vous pouvez être confronté à différents défis. Voici des solutions à des problèmes courants :

  • Scans de mauvaise qualité : Appliquer des filtres d'amélioration avant le traitement OCR
  • Documents tronqués : Utilisez la méthode Deskew() pour corriger l'orientation
  • Contenu mixte : Traiter des régions spécifiques si les documents contiennent à la fois des éléments textuels et non textuels

Pour des conseils plus détaillés, explorez notre tutoriel complet sur la ROC en C# ou consultez des exemples simples de ROC pour commencer rapidement.

Prochaines étapes

Maintenant que vous savez comment extraire du texte à partir de documents numérisés, vous pouvez explorer des fonctionnalités plus avancées, comme rendre n'importe quel PDF consultable ou traiter des flux PDF pour des applications web. La flexibilité d'IronOCR lui permet de s'adapter à toutes les situations, de la simple numérisation de documents aux flux de traitement de documents d'entreprise complexes.

Questions Fréquemment Posées

Comment extraire du texte d'un PDF scanné en C# ?

IronOCR simplifie l'extraction de texte à partir de PDF numérisés en C#. Utilisez la méthode LoadPdf pour importer votre PDF numérisé, puis appelez ReadDocument pour extraire le texte. Par exemple : var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text ; Cette simple ligne de code charge votre PDF et extrait tout le contenu textuel.

Quels formats de fichiers la bibliothèque OCR prend-elle en charge pour l'extraction de texte ?

IronOcr prend en charge une gamme complète de formats de documents pour la numérisation ROC. Pour les images, il fonctionne avec les formats JPG, PNG, GIF, TIFF et BMP. Pour les PDF, elle prend en charge les documents d'une ou plusieurs pages. La bibliothèque utilise la technologie avancée Tesseract 5 pour garantir une grande précision dans tous les formats pris en charge.

Dois-je installer des paquets supplémentaires pour la fonctionnalité OCR ?

Oui, pour utiliser toutes les fonctionnalités d'OCR avec IronOCR, vous devez installer le package IronOcr.Extensions.AdvancedScan en plus de la bibliothèque principale IronOCR. Ce paquet d'extension fournit des capacités de numérisation améliorées pour le traitement des documents numérisés.

Puis-je extraire du texte à partir d'images numérisées et de fichiers PDF ?

Oui, IronOcr gère aussi bien les images numérisées que les PDF. Utilisez la méthode LoadImage pour les fichiers images (JPG, PNG, GIF, TIFF, BMP) ou LoadPdf pour les documents PDF. La méthode ReadDocument fonctionne avec les deux types d'entrée pour extraire le contenu textuel.

Comment la reconnaissance optique de caractères (OCR) peut-elle aider à traiter les documents PDF non consultables ?

IronOcr convertit les PDF non consultables, basés sur des images, en contenu consultable en extrayant le texte à l'aide de la technologie OCR. Cette transformation facilite la localisation d'informations spécifiques dans les documents et améliore considérablement l'accessibilité des documents, en particulier pour les personnes souffrant de déficiences visuelles.

Quelles sont les principales applications commerciales de l'extraction de texte par OCR ?

IronOcr permet aux entreprises d'extraire des données essentielles des PDF à des fins d'analyse et d'intégration de systèmes, en rationalisant les flux de travail. Il est particulièrement utile pour le traitement des documents juridiques et des documents de recherche, ainsi que pour l'automatisation de la saisie des données. Les concepteurs et les spécialistes du marketing peuvent également extraire des images pour les améliorer et les réutiliser dans divers projets.

Curtis Chau
Rédacteur technique

Curtis Chau détient un baccalauréat en informatique (Université de Carleton) et se spécialise dans le développement front-end avec expertise en Node.js, TypeScript, JavaScript et React. Passionné par la création d'interfaces utilisateur intuitives et esthétiquement plaisantes, Curtis aime travailler avec des frameworks modernes ...

Lire la suite
Prêt à commencer?
Nuget Téléchargements 5,246,844 | Version : 2025.12 vient de sortir