Comment lire des documents numérisés en C# | IronOCR

How to Read Scanned Documents Using IronOCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

De nombreux PDF contiennent des textes non consultables, basés sur des images. IronOcr peut la convertir en contenu consultable, ce qui facilite la localisation d'informations spécifiques et améliore l'accessibilité des documents, notamment pour les personnes souffrant de déficiences visuelles.

Au lieu de copier ou de recréer manuellement le texte et les images, l'extraction automatisée garantit la précision et l'efficacité. Cette traduction est particulièrement utile pour la recherche, les documents juridiques et la création de contenu, où la réutilisation de parties spécifiques de PDF est courante.

Les entreprises peuvent extraire des données essentielles des PDF à des fins d'analyse ou d'intégration de systèmes, ce qui permet de rationaliser les flux de travail. Les concepteurs et les spécialistes du marketing peuvent également extraire des images pour les améliorer et les réutiliser dans divers projets.

Dans ce tutoriel, nous explorerons les méthodes OcrPdfInput, en couvrant les options et paramètres disponibles pour montrer comment IronOCR simplifie l'extraction de texte et d'images PDF pour diverses applications.

Pour utiliser cette fonction, vous devez également installer le paquet IronOcr.Extensions.AdvancedScan.

Démarrage rapide : extraction de texte à partir d'un PDF ou d'une image numérisés

Démarrez en quelques secondes - avec une seule ligne de code, vous chargerez votre PDF ou votre image numérisée à l'aide du OcrInput.LoadPdf ou du LoadImage d'IronOcr et extrairez instantanément le texte via ReadDocument. Parfait pour les développeurs qui veulent que l'OCR soit rapidement opérationnel.

Nuget IconGet started making PDFs with NuGet now:

  1. Install IronOCR with NuGet Package Manager

    PM > Install-Package IronOcr

  2. Copy and run this code snippet.

    var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text;
  3. Deploy to test on your live environment

    Start using IronOCR in your project today with a free trial
    arrow pointer

Exemple de lecture de documents numérisés

Pour extraire le texte de toutes les images d'un document, utilisez la méthode ReadDocument. Cette méthode traite le document et renvoie un objet contenant le texte extrait, auquel on peut accéder via la propriété Text. L'exemple ci-dessous montre comment utiliser cette méthode avec un fichier sample TIFF.

[{i :(

  • La méthode ne fonctionne actuellement que pour l'anglais, le chinois, le japonais, le coréen et l'alphabet latin.
  • L'utilisation d'un scan avancé sur .NET Framework nécessite que le projet soit exécuté sur une architecture x64. )}]

Entrée

input

Code

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");

// Perform OCR
OcrResult result = ocr.ReadDocument(input);

Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate OCR engine
Private ocr = New IronTesseract()

' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")

' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)

Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Sortie

output

Si vous devez effectuer l'OCR sur un fichier PDF, remplacez simplement la méthode LoadImage par LoadPdf. IronOCR peut ainsi traiter et extraire du texte à partir de PDF numérisés de la même manière.

Questions Fréquemment Posées

Comment puis-je lire des documents numérisés en utilisant C# ?

Vous pouvez lire des documents numérisés en C# en utilisant IronOCR. Tout d'abord, téléchargez la bibliothèque C# depuis NuGet, puis importez votre document numérisé en utilisant la méthode LoadImage pour les images ou LoadPdf pour les PDFs. Enfin, extrayez le texte en utilisant la méthode ReadDocument.

Quel est le but de convertir le texte basé sur l'image dans les PDFs en contenu consultable ?

Convertir le texte basé sur l'image dans les PDFs en contenu consultable avec IronOCR améliore l'accessibilité, facilitant ainsi la localisation de l'information spécifique et aidant les personnes avec des déficiences visuelles.

Puis-je extraire du texte à partir d'images et de PDFs avec IronOCR ?

Oui, IronOCR vous permet d'extraire du texte à la fois des images et des PDFs. Utilisez la méthode LoadImage pour les images et la méthode LoadPdf pour les PDFs, suivies de la méthode ReadDocument pour effectuer l'extraction.

Quelles sont les capacités de support linguistique d'IronOCR ?

IronOCR prend en charge l'extraction de texte en anglais, chinois, japonais, coréen et LatinAlphabet, ce qui le rend polyvalent pour le traitement de documents multilingues.

Quelle architecture est requise pour utiliser les fonctionnalités de numérisation avancées dans IronOCR ?

Pour utiliser les fonctionnalités de numérisation avancées dans IronOCR sur le .NET Framework, votre projet doit s'exécuter sur une architecture x64.

Comment puis-je utiliser IronOCR pour l'extraction automatique de texte dans les applications professionnelles ?

IronOCR peut être utilisé dans les applications professionnelles pour l'extraction automatique de texte en important des documents numérisés, en utilisant les méthodes LoadPdf ou LoadImage, et en extrayant le texte avec la méthode ReadDocument. Cela rationalise les flux de travail en permettant aux entreprises d'analyser et d'intégrer les données critiques efficacement.

Quelles étapes sont impliquées dans l'extraction de texte à partir d'un PDF numérisé utilisant IronOCR ?

Pour extraire du texte à partir d'un PDF numérisé en utilisant IronOCR, téléchargez la bibliothèque, importez le PDF en utilisant la méthode LoadPdf, puis extrayez le texte avec la méthode ReadDocument. Le texte extrait peut alors être enregistré ou exporté selon les besoins.

Comment IronOCR bénéficie-t-il aux designers et aux marketeurs ?

IronOCR bénéficie aux designers et aux marketeurs en leur permettant d'extraire des images et du texte des PDFs pour l'amélioration et la réutilisation dans divers projets, augmentant l'efficacité et les possibilités créatives.

Quel package est nécessaire pour installer afin d'utiliser les fonctionnalités avancées d'IronOCR ?

Pour accéder aux fonctionnalités avancées d'IronOCR, vous devez installer le package IronOcr.Extensions.AdvancedScan depuis NuGet.

Curtis Chau
Rédacteur technique

Curtis Chau détient un baccalauréat en informatique (Université de Carleton) et se spécialise dans le développement front-end avec expertise en Node.js, TypeScript, JavaScript et React. Passionné par la création d'interfaces utilisateur intuitives et esthétiquement plaisantes, Curtis aime travailler avec des frameworks modernes ...

Lire la suite
Prêt à commencer?
Nuget Téléchargements 5,044,537 | Version : 2025.11 vient de sortir