Comment lire des documents numérisés en utilisant IronOCR
De nombreux PDF contiennent du texte basé sur des images et non consultable. IronOCR peut convertir ceci en contenu consultable, facilitant ainsi la localisation d'informations spécifiques et améliorant l'accessibilité des documents, notamment pour les personnes malvoyantes.
Au lieu de copier ou de recréer manuellement le texte et les images, l'extraction automatisée garantit précision et efficacité. Ceci est particulièrement utile pour la recherche, les documents juridiques et la création de contenu, où la réutilisation de certaines parties de PDF est courante.
Les entreprises peuvent extraire des données critiques des fichiers PDF pour l'analyse ou l'intégration de systèmes, rationalisant ainsi les flux de travail. Les designers et les spécialistes du marketing peuvent également extraire des images pour les améliorer et les réutiliser dans divers projets.
Dans ce didacticiel, nous allons explorer les méthodes OcrPdfInput, en couvrant les options et paramètres disponibles pour montrer comment IronOCR simplifie l'extraction de texte et d'images PDF pour diverses applications.
Comment lire des documents numérisés en utilisant IronOCR
- Téléchargez la bibliothèque C# pour lire des documents numérisés
- Importer le document numérisé pour le traitement
- Utiliser le
ChargerImage
méthode pour les images ouLoadPdf
pour les PDF scannés - Extraire le texte en utilisant le
LireDocument
méthode - Enregistrez ou exportez le texte extrait selon les besoins pour une utilisation ultérieure
Commencez à utiliser IronOCR dans votre projet dès aujourd'hui avec un essai gratuit.
Pour utiliser cette fonction, vous devez également installer le IronOcr.Extension.AdvancedScan l'emballage.
Lire des documents scannés Exemple
Pour extraire du texte de toutes les images d'un document, utilisez la méthode ReadDocument
. Cette méthode traite le document et renvoie un objet contenant le texte extrait, qui peut être consulté via la propriété Text. L'exemple ci-dessous démontre comment utiliser cette méthode avec unéchantillon TIFF fichier.
[{i :(
- La méthode ne fonctionne actuellement que pour l'anglais, le chinois, le japonais, le coréen et l'alphabet latin.
-
L'utilisation de l'analyse avancée sur le Framework .NET nécessite que le projet soit exécuté sur une architecture x64.
)}]
Entrée
Code
:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;
// Instantiate OCR engine
var ocr = new IronTesseract();
// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");
// Perform OCR
OcrResult result = ocr.ReadDocument(input);
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate OCR engine
Private ocr = New IronTesseract()
' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")
' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)
Console.WriteLine(result.Text)
Sortie
Si vous avez besoin d'effectuer une reconnaissance optique des caractères (OCR) sur un fichier PDF à la place, remplacez simplement la méthode LoadImage
par LoadPdf
. Cela permet à IronOCR de traiter et d'extraire le texte des PDF scannés de la même manière.