Passer au contenu du pied de page
OUTILS OCR

OCR depuis un PDF (Outils en ligne gratuits)

La reconnaissance optique de caractères, ou OCR, est une technologie utilisée pour reconnaître le texte dans les images. Cette technologie a été créée pour numériser du texte imprimé ou un fichier image et les reconnaître sur les ordinateurs. C'est parce que beaucoup de choses aujourd'hui sont numériques, comme les e-mails ou les livres. Cependant, la technologie OCR a évolué vers quelque chose de plus sophistiqué avec des algorithmes spécialisés capables de reconnaître le texte dans de nombreuses polices différentes, même s'ils ont été déformés par le bruit ou d'autres distorsions courantes comme la compression JPEG. L'OCR peut également lire l'écriture manuscrite sur papier avec une précision de 98%.

Le texte qui est numérisé à l'aide de l'OCR peut ensuite être édité, indexé, recherché, imprimé et archivé. Les logiciels OCR sont largement utilisés dans les industries de la santé, de la pharmacie, de l'assurance et du droit. Il aide à convertir les documents papier en documents numériques afin qu'ils puissent être réutilisés plus facilement et partagés avec d'autres.

Voyons comment vous pouvez faire un OCR de fichiers PDF en utilisant différents outils.

Adobe Acrobat Pro

Adobe est la société qui a initialement développé le PDF. Ils offrent un moteur OCR rapide et efficace qui peut éditer n'importe quel document PDF que vous lui confiez. C'est l'un des moteurs OCR les plus puissants du marché et si vous avez beaucoup de PDF à éditer, Adobe Acrobat DC est ce que vous devriez acheter. Ce logiciel a été conçu de telle manière qu'il peut convertir n'importe quel document textuel en format PDF avec une grande précision. Il conserve également la police du document d'origine en utilisant son générateur de polices personnalisé.

Voyons comment nous pouvons faire un OCR PDF en utilisant Adobe Acrobat :

  • Ouvrez le fichier dans Adobe Acrobat Pro DC.
  • Cliquez sur l'option "Modifier le PDF" dans le panneau de droite.

    OCR From PDF Free Online Tools - Figure 1

  • Il convertira un fichier PDF en un PDF modifiable en utilisant ses capacités OCR.
  • Maintenant, vous pouvez éditer n'importe quel texte et modifier les fichiers image dans les documents facilement.

    OCR From PDF Free Online Tools - Figure 2

  • Vous pouvez enregistrer le fichier en choisissant "Fichier > Enregistrer sous" et donner un nom approprié au nouveau document PDF.

Vous pouvez facilement effectuer un OCR de plusieurs documents PDF numérisés en même temps.

Sejda

Sejda est un logiciel de modification de PDF activé par OCR qui peut être hébergé sur le cloud ou téléchargé en tant qu'application de bureau pour macOS, Windows ou Linux. Sejda permet aux utilisateurs de compresser, éditer, signer numériquement, fusionner et remplir des fichiers PDF. Les fichiers dans divers formats, y compris JPEG et Excel, par exemple, peuvent être transformés en fichiers PDF. Les PDFs peuvent de la même manière être transformés en d'autres formats tels que des documents Word et PowerPoint. Voyons comment vous pouvez faire un OCR de documents PDF en utilisant Sejda OCR.

  • Open Sejda OCR website.
  • Cliquez sur le bouton "Télécharger fichier PDF" pour télécharger des fichiers, ou faites glisser et déposez les fichiers depuis votre ordinateur.
  • Après le téléchargement, vous verrez le nom du fichier téléchargé. Sélectionnez la langue du document.

    OCR From PDF Free Online Tools - Figure 3

  • Après avoir sélectionné la langue, vous devez choisir le format de sortie. Vous pouvez choisir "PDF" ou "Texte". Après avoir défini le format de sortie, cliquez sur le bouton "Reconnaître le texte sur toutes les pages". Il commencera à extraire le texte.

    OCR From PDF Free Online Tools - Figure 4

  • Lorsque le processus est terminé, vous pouvez télécharger le texte extrait.

    OCR From PDF Free Online Tools - Figure 5

SodaPDF

SodaPDF OCR est un logiciel OCR en ligne gratuit qui peut extraire du texte à partir d'images. C'est un outil de conversion OCR de PDF qui convertit les documents numérisés, les télécopies et d'autres impressions en texte modifiable, en PDF et en PDF interrogeable. L'utilisation la plus courante de SodaPDF OCR est pour convertir des documents numérisés ou des télécopies en fichiers éditables. C'est un logiciel OCR en ligne gratuit. Tous les documents téléchargés sont automatiquement supprimés du serveur après un certain temps. Il dispose de multiples fonctionnalités comme convertir PDF en Word, qui peut alors être ouvert en utilisant Microsoft Word.

Voyons comment nous pouvons effectuer un OCR sur un PDF en utilisant SodaPDF :

  • Open the SodaPDF website.
  • Cliquez sur le bouton "Choisir un fichier" et sélectionnez les documents PDF souhaités à télécharger.
  • Après le téléchargement, il vous donnera une interface utilisateur pour éditer le texte et les images du PDF. Vous pouvez télécharger le fichier en utilisant le bouton Télécharger.

    OCR From PDF Free Online Tools - Figure 6

IronOCR : Bibliothèque OCR pour .NET

IronOCR est une bibliothèque robuste pour l'OCR dans le .NET Framework. Il fournit une API puissante pour travailler avec le texte et les images, offrant des fonctionnalités telles que la reconnaissance en temps réel, la détection de champs, et la reconnaissance optique de caractères pour les fichiers PDF numérisés. IronPDF peut également éditer des documents numérisés.

IronOCR donne aux développeurs le pouvoir de la reconnaissance de texte dans leurs applications. Il peut être utilisé pour diverses fins, comme convertir des documents numérisés en formats numériques ou reconnaître des légendes sur des images. La bibliothèque IronOCR .NET fournit une interface de bas niveau facile à utiliser à l'IronOCR SDK. En plus de cela, elle inclut un pipeline de traitement d'image qui gère automatiquement les images en basse résolution et extrait le texte des documents PDF.

Voyons comment nous pouvons faire un OCR d'un fichier PDF en utilisant l'outil OCR :

OCR d'un fichier PDF complet

Le code suivant peut effectuer un OCR sur un document PDF entier.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the entire PDF document for OCR processing
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the entire PDF document for OCR processing
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' Add the entire PDF document for OCR processing
	Input.AddPdf("example.pdf", "password")

	Dim Result = Ocr.Read(Input)
	' Print the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

OCR de pages sélectionnées d'un PDF

Vous pouvez faire un OCR sur des pages sélectionnées de PDF en utilisant la fonction AddPdfPages.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add specific pages of the PDF document for OCR processing
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add specific pages of the PDF document for OCR processing
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' Add specific pages of the PDF document for OCR processing
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	' Print the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

Convertir un PDF en PDF interrogeable

Vous pouvez convertir un fichier PDF en un fichier PDF interrogeable en utilisant IronOCR en utilisant la fonction SaveAsSearchablePdf.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the PDF for processing and specify the password if any
    Input.AddPdf("scan.pdf", "password");

    // Correct twisted or skewed pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    // Save the processed result as a searchable PDF
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the PDF for processing and specify the password if any
    Input.AddPdf("scan.pdf", "password");

    // Correct twisted or skewed pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    // Save the processed result as a searchable PDF
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' Add the PDF for processing and specify the password if any
	Input.AddPdf("scan.pdf", "password")

	' Correct twisted or skewed pages
	Input.Deskew()

	Dim Result = Ocr.Read(Input)
	' Save the processed result as a searchable PDF
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
$vbLabelText   $csharpLabel

Conclusion

Nous avons exploré quelques excellents outils logiciels pour effectuer une reconnaissance optique de caractères. Ces outils vous permettent de reconnaître programmatiquement le texte et de créer des PDF interrogeables et éditables.

Si vous écrivez dans le .NET Framework, IronOCR est notre recommandation. IronOCR vous permet d'effectuer facilement un OCR dans le .NET Framework ; il est puissant et peut donc facilement être utilisé même lorsque le document original a été endommagé ou déformé, comme à cause de dégâts d'eau.

Un autre cas d'utilisation est la conversion d'anciens formulaires papiers remplis à la main, tels que des factures et des reçus de vente, en versions numériques. Cela permet à ces documents d'être traités automatiquement par des logiciels de comptabilité, ce qui augmente ainsi la précision et l'efficacité.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite