Passer au contenu du pied de page
OUTILS OCR

OCR depuis un PDF (Outils en ligne gratuits)

La reconnaissance optique de caractères, ou OCR, est une technologie utilisée pour reconnaître le texte dans les images. Cette technologie a été créée pour numériser un texte imprimé ou un fichier image et les reconnaître sur les ordinateurs. Ceci s'explique par le fait que beaucoup de choses sont aujourd'hui numériques, comme les courriels ou les livres. Cependant, la technologie OCR a évolué vers quelque chose de plus sophistiqué, avec des algorithmes spécialisés capables de reconnaître du texte dans de nombreuses polices différentes, même si celles-ci ont été déformées par du bruit ou d'autres distorsions courantes comme la compression JPEG. La reconnaissance optique de caractères (OCR) peut également lire l'écriture manuscrite sur papier avec une précision de 98 %.

Le texte numérisé à l'aide de la reconnaissance optique de caractères (OCR) peut ensuite être modifié, indexé, recherché, imprimé et archivé. Les logiciels de reconnaissance optique de caractères (OCR) sont largement utilisés dans les secteurs de la santé, de la pharmacie, des assurances et du droit. Il permet de convertir les documents papier en documents numériques afin qu'ils puissent être réutilisés plus facilement et partagés avec d'autres personnes.

Voyons comment effectuer une reconnaissance optique de caractères (OCR) sur des fichiers PDF à l'aide de différents outils.

Adobe Acrobat Pro

Adobe est la société qui a initialement développé le format PDF. Ils proposent un moteur OCR rapide et efficace capable de modifier n'importe quel document PDF. C'est l'un des moteurs OCR les plus puissants du marché, et si vous avez beaucoup de fichiers PDF à modifier, Adobe Acrobat DC est le logiciel qu'il vous faut. Ce logiciel a été conçu de manière à pouvoir convertir tout document basé sur du texte en format PDF avec une grande précision. Il conserve également la police du document original grâce à son générateur de polices personnalisées.

Voyons comment effectuer une reconnaissance optique de caractères (OCR) à partir d'un PDF avec Adobe Acrobat :

  • Ouvrez le fichier dans Adobe Acrobat Pro DC.
  • Cliquez sur l'option " Modifier le PDF " dans le volet de droite.

    OCR From PDF Free Online Tools - Figure 1

  • Il convertira un fichier PDF en PDF modifiable grâce à ses fonctionnalités OCR.
  • Désormais, vous pouvez modifier facilement n'importe quel texte et changer les fichiers image dans les documents.

    OCR From PDF Free Online Tools - Figure 2

  • Vous pouvez enregistrer le fichier en choisissant " Fichier > Enregistrer sous " et en donnant un nom approprié au nouveau document PDF.

Vous pouvez facilement effectuer la reconnaissance optique de caractères (OCR) de plusieurs documents PDF numérisés simultanément.

Sejda

Sejda est un logiciel d'édition de PDF compatible OCR qui peut être hébergé sur le cloud ou téléchargé en tant qu'application de bureau pour macOS, Windows ou Linux. Sejda permet aux utilisateurs de compresser, modifier, signer numériquement, fusionner et remplir des fichiers PDF. Les fichiers de différents formats, notamment JPEG et Excel par exemple, peuvent être convertis en fichiers PDF. Les fichiers PDF peuvent également être convertis en d'autres formats tels que les documents Word et PowerPoint. Voyons comment effectuer une reconnaissance optique de caractères (OCR) sur des documents PDF à l'aide de Sejda OCR.

  • Ouvrez le site Web Sejda OCR.
  • Cliquez sur le bouton " Téléverser un fichier PDF " pour téléverser des fichiers, ou glissez-déposez des fichiers depuis votre ordinateur.
  • Une fois le téléchargement terminé, vous verrez le nom du fichier téléchargé. Sélectionnez la langue du document.

    OCR From PDF Free Online Tools - Figure 3

Après avoir sélectionné la langue, vous devez choisir le format de sortie. Vous pouvez choisir " PDF " ou " Texte ". Après avoir défini le format de sortie, cliquez sur le bouton " Reconnaître le texte sur toutes les pages ". Il va commencer à extraire le texte.

<div class="content-img-align-center">
    <img src="/static-assets/ocr/blog/ocr-from-pdf-free-online-tools/ocr-from-pdf-free-online-tools-4.webp" alt="OCR From PDF Free Online Tools - Figure 4" class="img-responsive add-shadow">
    <p class="content__image-caption content-align"></p>
</div>
  • Une fois le processus terminé, vous pourrez télécharger le texte extrait.

    OCR From PDF Free Online Tools - Figure 5

SodaPDF

SodaPDF OCR est un logiciel OCR en ligne gratuit qui permet d'extraire du texte à partir d'images. Il s'agit d'un outil de conversion OCR PDF qui convertit les documents numérisés, les fax et autres impressions en texte modifiable, en PDF et en PDF consultables. L'utilisation la plus courante de SodaPDF OCR consiste à convertir des documents numérisés ou des fax en fichiers modifiables. Il s'agit d'un logiciel OCR en ligne gratuit. Tous les documents téléchargés sont automatiquement supprimés du serveur après un délai déterminé. Ce logiciel offre de nombreuses fonctionnalités, comme la conversion de PDF en Word, qui peut ensuite être ouvert avec Microsoft Word.

Voyons comment effectuer une reconnaissance optique de caractères (OCR) sur un PDF à l'aide de SodaPDF :

  • Ouvrez le site Web SodaPDF.
  • Cliquez sur le bouton " Choisir un fichier " et sélectionnez les documents PDF à télécharger. Après le téléchargement, une interface utilisateur vous permettra de modifier le texte et les images du PDF. Vous pouvez télécharger le fichier en utilisant le bouton Télécharger.

    OCR From PDF Free Online Tools - Figure 6

IronOCR : bibliothèque OCR .NET

IronOCR est une bibliothèque OCR robuste pour le framework .NET. Elle fournit une API puissante pour travailler avec du texte et des images, offrant des fonctionnalités telles que la reconnaissance en temps réel, la détection de champs et la reconnaissance optique de caractères pour les fichiers PDF numérisés. IronPDF permet également de modifier des documents numérisés.

IronOCR offre aux développeurs la puissance de la reconnaissance de texte dans leurs applications. Il peut être utilisé à diverses fins, comme la conversion de documents numérisés en formats numériques ou la reconnaissance des légendes sur les images. La bibliothèque IronOCR .NET fournit une interface de bas niveau facile à utiliser pour le SDK IronOCR. De plus, il comprend un pipeline de traitement d'images qui gère automatiquement les images à faible résolution et extrait le texte des documents PDF.

Voyons comment effectuer une reconnaissance optique de caractères (OCR) sur un fichier PDF à l'aide de l'outil OCR :

OCR d'un fichier PDF complet

Le code suivant permet d'effectuer une reconnaissance optique de caractères (OCR) sur un document PDF entier.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the entire PDF document for OCR processing
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the entire PDF document for OCR processing
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
$vbLabelText   $csharpLabel

Reconnaissance optique de caractères (OCR) de pages sélectionnées d'un PDF

Vous pouvez effectuer une reconnaissance optique de caractères (OCR) sur les pages PDF sélectionnées en utilisant la fonction AddPdfPages.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add specific pages of the PDF document for OCR processing
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add specific pages of the PDF document for OCR processing
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
$vbLabelText   $csharpLabel

Convertir un PDF en PDF consultable

Vous pouvez convertir un fichier PDF en un fichier PDF consultable à l'aide IronOCR en utilisant la fonction SaveAsSearchablePdf.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the PDF for processing and specify the password if any
    Input.AddPdf("scan.pdf", "password");

    // Correct twisted or skewed pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    // Save the processed result as a searchable PDF
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the PDF for processing and specify the password if any
    Input.AddPdf("scan.pdf", "password");

    // Correct twisted or skewed pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    // Save the processed result as a searchable PDF
    Result.SaveAsSearchablePdf("searchable.pdf");
}
$vbLabelText   $csharpLabel

Conclusion

Nous avons exploré quelques excellents logiciels pour effectuer la reconnaissance optique de caractères. Ces outils permettent de reconnaître du texte par programmation et de créer des PDF consultables et modifiables.

Si vous développez avec le framework .NET, nous vous recommandons IronOCR. IronOCR vous permet d'effectuer facilement des opérations OCR dans le framework .NET ; Il est puissant et peut donc être facilement utilisé même lorsque le document original a été endommagé ou déformé, par exemple par des dégâts d'eau.

Un autre cas d'utilisation consiste à convertir d'anciens formulaires papier remplis à la main, tels que les factures et les reçus de vente, en versions numériques. Cela permet à ces documents d'être traités automatiquement par les logiciels comptables, ce qui accroît la précision et l'efficacité.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite

Équipe de soutien Iron

Nous sommes en ligne 24 heures sur 24, 5 jours sur 7.
Chat
Email
Appelez-moi