Passer au contenu du pied de page
OUTILS OCR

Comment faire l'OCR d'un tutoriel PDF (Outils en ligne gratuits)

La ROC ou reconnaissance optique de caractères est un processus de conversion d'informations textuelles en forme numérique. La ROC PDF est une application populaire qui peut être utilisée pour améliorer les processus commerciaux. L'un des avantages de la ROC PDF est qu'elle peut être utilisée pour améliorer l'accessibilité de l'information. Cela est particulièrement important pour les documents qui ne sont pas disponibles dans un format que tout le monde peut utiliser ou lire. La ROC PDF peut être utilisée pour produire une copie du document disponible dans un format que tout le monde peut utiliser.

Une autre utilisation de la ROC PDF est le suivi des documents. Lorsqu'un document est archivé, numérisé ou transcrit, il peut être difficile de suivre quelle version du document est associée à quel dossier. Avec la ROC PDF, il est possible de suivre les modifications apportées à un document et de déterminer quelles versions sont associées à quel fichier. Cela peut être utile pour gérer les archives de documents et prévenir la perte d'informations importantes.

Dans cet article, vous apprendrez comment utiliser l'OCR pour tout fichier PDF à l'aide du logiciel Adobe Acrobat Pro. Cet article introduira également la bibliothèque OCR .NET IronOCR, qui est l'une des bibliothèques les plus efficaces et riches en fonctionnalités disponibles. Commençons avec Adobe Acrobat Pro.

OCR d'un PDF à l'aide de Adobe Acrobat Pro DC

How to OCR a PDF - Figure 1

Adobe Acrobat Pro DC est la version Pro de Adobe Acrobat Reader DC. C'est l'outil le plus populaire et puissant pour la manipulation de PDF. Avec ce logiciel, vous pouvez créer, éditer, signer et réviser tout document PDF. De plus, il vous permet de convertir des PDFs en présentations PowerPoint, documents Word ou fichiers Excel. Il peut également éditer des documents numérisés.

La nouvelle version d'Acrobat DC est également un scanner de documents qui peut rapidement transformer des documents numérisés en fichiers numériques à l'aide de la technologie OCR. Il dispose de la reconnaissance optique de caractères ainsi que d'un balayage intelligent des cartes de visite qui détecte et enregistre automatiquement les informations de contact à partir des cartes en quelques secondes.

En plus de pouvoir extraire du texte à partir de fichiers PDF, Acrobat Pro DC propose de nombreuses fonctionnalités qui en font un outil précieux pour la transcription PDF.

Voyons comment nous pouvons utiliser l'OCR d'un document numérisé à l'aide de Adobe Acrobat Pro.

  • Ouvrez le document PDF souhaité, dans notre exemple un fichier PDF numérisé, dans Adobe Acrobat.
  • Sélectionnez "Modifier PDF" dans le volet de droite du document.
How to OCR a PDF - Figure 2

  • Cela ouvrira l'interface de l'outil OCR PDF d'Adobe Reader.
  • Cliquez sur le bouton "Modifier" dans le ruban supérieur.
  • Cela convertira les documents PDF numérisés en documents PDF entièrement éditables. Vous pourrez éditer des fichiers de texte et d'image sur le fichier PDF lui-même.
How to OCR a PDF - Figure 3

  • Vous pouvez également changer l'emplacement du bloc de texte, la police de texte, etc.

Après avoir apporté des modifications, enregistrez le fichier et vous verrez ces modifications reflétées dans le document.

IronOCR : Une bibliothèque OCR .NET

How to OCR a PDF - Figure 4

IronOCR est une bibliothèque OCR .NET et un outil OCR qui peut lire des documents texte et des images en les convertissant en un format lisible par machine.

Cette bibliothèque de reconnaissance optique de caractères a été développée en tenant compte des considérations suivantes :

  • La nécessité d'un moteur OCR robuste et précis qui peut être utilisé avec différentes langues sans avoir besoin de logiciels externes.
  • La nécessité d'une API facile à utiliser qui fonctionne sur différentes plateformes telles que Windows, Linux, et macOS.
  • La nécessité d'un moteur OCR qui peut être facilement intégré dans diverses applications .NET et prend en charge à la fois les applications WPF et console.

IronOCR facilite la création de logiciels qui prennent en charge la numérisation de documents, l'extraction de texte et de métadonnées, l'indexation des fichiers image numérisés, la conversion d'images en PDFs recherchables, et la conversion de documents numérisés en texte lisible. IronOCR offre de nombreuses options en matière de codage, de conversion de format d'image, et de reconnaissance et d'extraction de texte. IronOCR prend en charge 125 langues.

IronOCR fournit un processus OCR intuitif, robuste et précis pour reconnaître du texte à partir de documents numérisés, de photographies et de captures d'écran tout en réduisant les tâches chronophages telles que la segmentation de page et l'analyse de mise en page. La bibliothèque est développée en C# et son design API est simple avec une bonne lisibilité.

Explorons quelques exemples de code en utilisant IronOCR :

Exemples de Code

using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively, OCR selected page numbers
    Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");

    // Read the PDF and output the recognized text
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively, OCR selected page numbers
    Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");

    // Read the PDF and output the recognized text
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

' Initialize OCR input
Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	' Alternatively, OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	' Read the PDF and output the recognized text
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

Cet exemple montre comment utiliser IronOCR pour traiter soit un document PDF entier, soit des pages spécifiques du document.

Fichier PDF (entrée)

How to OCR a PDF - Figure 5

Sortie dans la console

How to OCR a PDF - Figure 6

Vous pouvez convertir un PDF en un PDF sélectionnable à l'aide de IronOCR. C'est très simple et direct. Voyez l'extrait de code de la conversion PDF ci-dessous :

using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // Add PDF for processing
    Input.AddPdf("scan.pdf", "password");

    // Clean up twisted pages to improve OCR results
    Input.Deskew();

    // Run OCR and save as a searchable PDF
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // Add PDF for processing
    Input.AddPdf("scan.pdf", "password");

    // Clean up twisted pages to improve OCR results
    Input.Deskew();

    // Run OCR and save as a searchable PDF
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()

' Initialize OCR input
Using Input = New OcrInput()
	' Add PDF for processing
	Input.AddPdf("scan.pdf", "password")

	' Clean up twisted pages to improve OCR results
	Input.Deskew()

	' Run OCR and save as a searchable PDF
	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
$vbLabelText   $csharpLabel

IronOCR propose de nombreux autres outils et fonctionnalités. Vous pouvez explorer les fonctionnalités d'IronOCR en visitant le lien suivant.

Conclusion

La bibliothèque IronOCR présente plusieurs avantages par rapport aux autres bibliothèques disponibles sur le marché. Vous pouvez modifier et étendre ses fonctionnalités en ajoutant vos propres modules avec juste quelques lignes de code. IronOCR peut actuellement lire des textes dans plus de 125 langues. Elle a été développée pour produire des résultats de qualité supérieure et plus fiables tout en consommant beaucoup moins de temps et de ressources mémoire par rapport à d'autres bibliothèques.

IronOCR est gratuit pour le développement. IronOCR propose également un essai gratuit pour tester en production. Pour plus de détails sur les prix et un essai gratuit d'IronOCR, suivez le lien.

How to OCR a PDF - Figure 7

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite