Passer au contenu du pied de page
OUTILS OCR

Comment faire l'OCR d'un tutoriel PDF (Outils en ligne gratuits)

La ROC, ou reconnaissance optique de caractères, est un processus de conversion d'informations textuelles en format numérique. La reconnaissance optique de caractères (OCR) de fichiers PDF est une application populaire qui peut être utilisée pour améliorer les processus métier. L'un des avantages de la reconnaissance optique de caractères (OCR) des PDF est qu'elle peut être utilisée pour améliorer l'accessibilité de l'information. Ceci est particulièrement important pour les documents qui ne sont pas disponibles dans un format que tout le monde peut utiliser ou lire. La reconnaissance optique de caractères (OCR) des fichiers PDF peut être utilisée pour produire une copie du document disponible dans un format utilisable par tous.

L'OCR PDF est également utilisée pour le suivi des documents. Lorsqu'un document est classé, numérisé ou transcrit, il peut être difficile de retracer quelle version est associée à quel fichier. Grâce à la reconnaissance optique de caractères (OCR) des PDF, il est possible de suivre les modifications apportées à un document et de déterminer quelles versions correspondent à quel fichier. Ceci s'avère utile pour la gestion des archives documentaires et la prévention de la perte d'informations importantes.

Dans cet article, vous apprendrez comment utiliser la reconnaissance optique de caractères (OCR) pour n'importe quel fichier PDF à l'aide du logiciel Adobe Acrobat Pro. Cet article présentera également la bibliothèque OCR .NET IronOCR, qui est l'une des bibliothèques les plus efficaces et les plus riches en fonctionnalités disponibles. Commençons par Adobe Acrobat Pro.

OCR d'un PDF à l'aide d'Adobe Acrobat Pro DC

How to OCR a PDF - Figure 1

Adobe Acrobat Pro DC est la version professionnelle d'Adobe Acrobat Reader DC. C'est l'outil le plus populaire et le plus puissant pour la manipulation de fichiers PDF. Ce logiciel vous permet de créer, modifier, signer et réviser n'importe quel document PDF. De plus, il vous permet de convertir des fichiers PDF en présentations PowerPoint, en documents Word ou en fichiers Excel. Il permet également de modifier des documents numérisés.

La nouvelle version d'Acrobat DC est également un scanner de documents capable de transformer rapidement des documents numérisés en fichiers numériques grâce à la technologie OCR. Il est doté d'un système de reconnaissance optique de caractères (OCR) ainsi que d'une fonction intelligente de numérisation des cartes de visite qui détecte et enregistre automatiquement les informations de contact des cartes en quelques secondes.

Outre sa capacité à extraire du texte à partir de fichiers PDF, Acrobat Pro DC possède de nombreuses fonctionnalités qui en font un outil précieux pour la transcription de PDF.

Voyons comment utiliser la reconnaissance optique de caractères (OCR) d'un document numérisé avec Adobe Acrobat Pro.

  • Ouvrez le document PDF souhaité, dans notre exemple un fichier PDF numérisé, dans Adobe Acrobat.
  • Sélectionnez " Modifier le PDF " dans le volet droit du document.
How to OCR a PDF - Figure 2

  • Ceci ouvrira l'interface de l'outil OCR PDF d'Adobe Reader.
  • Cliquez sur le bouton " Modifier " du ruban supérieur.
  • Cela convertira les documents PDF numérisés en documents PDF entièrement modifiables. Vous pourrez modifier les fichiers texte et image directement dans le fichier PDF.
How to OCR a PDF - Figure 3

  • Vous pouvez également modifier l'emplacement du bloc de texte, la police du texte, etc.

Après avoir effectué des modifications, enregistrez le fichier et vous verrez ces modifications reflétées dans le document.

IronOCR : une bibliothèque OCR .NET

How to OCR a PDF - Figure 4

IronOCR est une bibliothèque OCR .NET et un outil OCR capable de lire des documents texte et des images en les convertissant dans un format lisible par machine.

Cette bibliothèque de reconnaissance optique de caractères a été développée en tenant compte des considérations suivantes :

  • Le besoin d'un moteur OCR robuste et précis, utilisable avec différentes langues sans nécessiter de logiciel externe.
  • Le besoin d'une API facile à utiliser et fonctionnant sur différentes plateformes telles que Windows, Linux et macOS.
  • Le besoin d'un moteur OCR facilement intégrable à diverses applications .NET et compatible avec les applications WPF et console.

IronOCR facilite la création, par les développeurs, de logiciels prenant en charge la numérisation de documents, l'extraction de texte et de métadonnées, l'indexation de fichiers image numérisés, la conversion d'images en PDF consultables et la conversion de documents numérisés en texte lisible. IronOCR offre de nombreuses options en matière d'encodage, de conversion de format d'image, de reconnaissance et d'extraction de texte. IronOCR prend en charge 125 langues.

IronOCR offre un processus OCR intuitif, robuste et précis pour reconnaître le texte à partir de documents numérisés, de photographies et de captures d'écran, tout en réduisant les tâches fastidieuses telles que la segmentation des pages et l'analyse de la mise en page. La bibliothèque est développée en C# et son API est simple et facile à lire.

Explorons quelques exemples de code utilisant IronOCR :

Exemples de code

using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively, OCR selected page numbers
    Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");

    // Read the PDF and output the recognized text
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively, OCR selected page numbers
    Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");

    // Read the PDF and output the recognized text
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
$vbLabelText   $csharpLabel

Cet exemple montre comment utiliser IronOCR pour traiter soit un document PDF entier, soit des pages spécifiques de ce document.

Fichier PDF (entrée)

How to OCR a PDF - Figure 5

Sortie dans la console

How to OCR a PDF - Figure 6

Vous pouvez convertir un PDF en PDF sélectionnable à l'aide d'IronOCR. C'est très simple et direct. Vous trouverez ci-dessous un extrait de code pour la conversion PDF :

using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // Add PDF for processing
    Input.AddPdf("scan.pdf", "password");

    // Clean up twisted pages to improve OCR results
    Input.Deskew();

    // Run OCR and save as a searchable PDF
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // Add PDF for processing
    Input.AddPdf("scan.pdf", "password");

    // Clean up twisted pages to improve OCR results
    Input.Deskew();

    // Run OCR and save as a searchable PDF
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
$vbLabelText   $csharpLabel

IronOCR propose de nombreux autres outils et fonctionnalités. Vous pouvez explorer les fonctionnalités d'IronOCR en visitant le lien suivant.

Conclusion

La bibliothèque IronOCR présente plusieurs avantages par rapport aux autres bibliothèques disponibles sur le marché. Vous pouvez modifier et étendre ses fonctionnalités en ajoutant vos propres modules avec seulement quelques lignes de code. IronOCR peut actuellement lire des textes dans plus de 125 langues. Elle a été développée pour produire des résultats de meilleure qualité et plus fiables, tout en consommant beaucoup moins de temps et de ressources mémoire que les autres bibliothèques.

IronOCR est gratuit pour le développement. IronOCR propose également un essai gratuit pour les tests en production. Pour plus de détails sur les prix et un essai gratuit d'IronOCR, suivez le lien .

How to OCR a PDF - Figure 7

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me