Mise à jour février 16, 2025
Partager:

Comment lire des documents numérisés en utilisant IronOCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

par Curtis Chau

De nombreux PDF contiennent du texte basé sur des images et non consultable. IronOCR peut convertir ceci en contenu consultable, facilitant ainsi la localisation d'informations spécifiques et améliorant l'accessibilité des documents, notamment pour les personnes malvoyantes.

Au lieu de copier ou de recréer manuellement le texte et les images, l'extraction automatisée garantit précision et efficacité. Ceci est particulièrement utile pour la recherche, les documents juridiques et la création de contenu, où la réutilisation de certaines parties de PDF est courante.

Les entreprises peuvent extraire des données critiques des fichiers PDF pour l'analyse ou l'intégration de systèmes, rationalisant ainsi les flux de travail. Les designers et les spécialistes du marketing peuvent également extraire des images pour les améliorer et les réutiliser dans divers projets.

Dans ce didacticiel, nous allons explorer les méthodes OcrPdfInput, en couvrant les options et paramètres disponibles pour montrer comment IronOCR simplifie l'extraction de texte et d'images PDF pour diverses applications.

Commencez à utiliser IronOCR dans votre projet dès aujourd'hui avec un essai gratuit.

Première étape :
green arrow pointer

Pour utiliser cette fonction, vous devez également installer le IronOcr.Extension.AdvancedScan l'emballage.

Lire des documents scannés Exemple

Pour extraire du texte de toutes les images d'un document, utilisez la méthode ReadDocument. Cette méthode traite le document et renvoie un objet contenant le texte extrait, qui peut être consulté via la propriété Text. L'exemple ci-dessous démontre comment utiliser cette méthode avec unéchantillon TIFF fichier.

[{i :(

  • La méthode ne fonctionne actuellement que pour l'anglais, le chinois, le japonais, le coréen et l'alphabet latin.
  • L'utilisation de l'analyse avancée sur le Framework .NET nécessite que le projet soit exécuté sur une architecture x64.

    )}]

Entrée

entrée

Code

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");

// Perform OCR
OcrResult result = ocr.ReadDocument(input);

Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate OCR engine
Private ocr = New IronTesseract()

' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")

' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)

Console.WriteLine(result.Text)
VB   C#

Sortie

sortie

Si vous avez besoin d'effectuer une reconnaissance optique des caractères (OCR) sur un fichier PDF à la place, remplacez simplement la méthode LoadImage par LoadPdf. Cela permet à IronOCR de traiter et d'extraire le texte des PDF scannés de la même manière.