Comment lire des documents numérisés en C# | IronOCR

Lire des documents numérisés en C# avec IronOCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

De nombreux fichiers PDF contiennent du texte non consultable, basé sur des images. IronOCR peut convertir ces données en contenu consultable, facilitant ainsi la localisation d'informations spécifiques et améliorant l'accessibilité des documents, notamment pour les personnes ayant une déficience visuelle.

Au lieu de copier ou de recréer manuellement le texte et les images, l'extraction automatisée garantit précision et efficacité. Ceci est particulièrement utile pour la recherche, les documents juridiques et la création de contenu, où la réutilisation de portions spécifiques de fichiers PDF est courante.

Les entreprises peuvent extraire des données critiques des fichiers PDF à des fins d'analyse ou d'intégration système, ce qui permet de rationaliser les flux de travail. Les concepteurs et les spécialistes du marketing peuvent également extraire des images pour les améliorer et les réutiliser dans divers projets.

Dans ce tutoriel, nous explorerons les méthodes OcrPdfInput , en abordant les options et paramètres disponibles afin de montrer comment IronOCR simplifie l'extraction de texte et d'images PDF pour diverses applications.

Pour utiliser cette fonction, vous devez également installer le package IronOcr.Extensions.AdvancedScan .

Démarrage rapide : Extraire du texte d'un PDF ou d'une image numérisée

Démarrez en quelques secondes : avec une seule ligne de code, vous chargerez votre PDF ou image numérisé à l'aide de OcrInput.LoadPdf ou LoadImage d'IronOCR et extrairez instantanément le texte via ReadDocument . Idéal pour les développeurs qui souhaitent une reconnaissance optique de caractères (OCR) opérationnelle rapidement.

Nuget IconCommencez dès maintenant à créer des PDF avec NuGet :

  1. Installez IronOCR avec le gestionnaire de packages NuGet

    PM > Install-Package IronOcr

  2. Copiez et exécutez cet extrait de code.

    var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text;
  3. Déployez pour tester sur votre environnement de production.

    Commencez à utiliser IronOCR dans votre projet dès aujourd'hui grâce à un essai gratuit.
    arrow pointer

Exemple de lecture de documents numérisés

Pour extraire le texte de toutes les images d'un document, utilisez la méthode ReadDocument . Cette méthode traite le document et renvoie un objet contenant le texte extrait, accessible via la propriété Text. L'exemple ci-dessous illustre comment utiliser cette méthode avec un fichier TIFF .

Veuillez noter

  • Cette méthode ne fonctionne actuellement que pour l'anglais, le chinois, le japonais, le coréen et l'alphabet latin.
  • L'utilisation de l'analyse avancée sur .NET Framework nécessite que le projet s'exécute sur une architecture x64.

Entrée

input

Code

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");

// Perform OCR
OcrResult result = ocr.ReadDocument(input);

Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate OCR engine
Private ocr = New IronTesseract()

' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")

' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)

Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Sortie

output

Si vous devez effectuer une reconnaissance optique de caractères (OCR) sur un fichier PDF, remplacez simplement la méthode LoadImage par LoadPdf . Cela permet à IronOCR de traiter et d'extraire le texte des PDF numérisés de la même manière.

Questions Fréquemment Posées

Comment puis-je lire des documents numérisés en utilisant C# ?

Vous pouvez lire des documents numérisés en C# en utilisant IronOCR. Tout d'abord, téléchargez la bibliothèque C# depuis NuGet, puis importez votre document numérisé en utilisant la méthode LoadImage pour les images ou LoadPdf pour les PDFs. Enfin, extrayez le texte en utilisant la méthode ReadDocument.

Quel est le but de convertir le texte basé sur l'image dans les PDFs en contenu consultable ?

Convertir le texte basé sur l'image dans les PDFs en contenu consultable avec IronOCR améliore l'accessibilité, facilitant ainsi la localisation de l'information spécifique et aidant les personnes avec des déficiences visuelles.

Puis-je extraire du texte à partir d'images et de PDFs avec IronOCR ?

Oui, IronOCR vous permet d'extraire du texte à la fois des images et des PDFs. Utilisez la méthode LoadImage pour les images et la méthode LoadPdf pour les PDFs, suivies de la méthode ReadDocument pour effectuer l'extraction.

Quelles sont les capacités de support linguistique d'IronOCR ?

IronOCR prend en charge l'extraction de texte en anglais, chinois, japonais, coréen et LatinAlphabet, ce qui le rend polyvalent pour le traitement de documents multilingues.

Quelle architecture est requise pour utiliser les fonctionnalités de numérisation avancées dans IronOCR ?

Pour utiliser les fonctionnalités de numérisation avancées dans IronOCR sur le .NET Framework, votre projet doit s'exécuter sur une architecture x64.

Comment puis-je utiliser IronOCR pour l'extraction automatique de texte dans les applications professionnelles ?

IronOCR peut être utilisé dans les applications professionnelles pour l'extraction automatique de texte en important des documents numérisés, en utilisant les méthodes LoadPdf ou LoadImage, et en extrayant le texte avec la méthode ReadDocument. Cela rationalise les flux de travail en permettant aux entreprises d'analyser et d'intégrer les données critiques efficacement.

Quelles étapes sont impliquées dans l'extraction de texte à partir d'un PDF numérisé utilisant IronOCR ?

Pour extraire du texte à partir d'un PDF numérisé en utilisant IronOCR, téléchargez la bibliothèque, importez le PDF en utilisant la méthode LoadPdf, puis extrayez le texte avec la méthode ReadDocument. Le texte extrait peut alors être enregistré ou exporté selon les besoins.

Comment IronOCR bénéficie-t-il aux designers et aux marketeurs ?

IronOCR bénéficie aux designers et aux marketeurs en leur permettant d'extraire des images et du texte des PDFs pour l'amélioration et la réutilisation dans divers projets, augmentant l'efficacité et les possibilités créatives.

Quel package est nécessaire pour installer afin d'utiliser les fonctionnalités avancées d'IronOCR ?

Pour accéder aux fonctionnalités avancées d'IronOCR, vous devez installer le package IronOcr.Extensions.AdvancedScan depuis NuGet.

Curtis Chau
Rédacteur technique

Curtis Chau détient un baccalauréat en informatique (Université de Carleton) et se spécialise dans le développement front-end avec expertise en Node.js, TypeScript, JavaScript et React. Passionné par la création d'interfaces utilisateur intuitives et esthétiquement plaisantes, Curtis aime travailler avec des frameworks modernes ...

Lire la suite
Prêt à commencer?
Nuget Téléchargements 5,167,857 | Version: 2025.11 vient de sortir