OUTILS OCR

OCR à partir de PDF (outils en ligne gratuits)

Publié janvier 15, 2023
Partager:

La reconnaissance optique de caractères, ou OCR, est une technologie utilisée pour reconnaître du texte dans des images. Cette technologie a été créée pour scanner un texte imprimé ou un fichier image et les reconnaître sur les ordinateurs. En effet, de nombreuses choses sont aujourd'hui numériques, comme les courriels ou les livres. Cependant, la technologie OCR a évolué vers quelque chose de plus sophistiqué, avec des algorithmes spécialisés capables de reconnaître du texte dans de nombreuses polices différentes, même si elles ont été déformées par du bruit ou d'autres distorsions courantes telles que la compression JPEG. L'OCR peut également lire l'écriture manuscrite sur papier avec une précision de 98 %.

Le texte numérisé à l'aide de l'OCR peut ensuite être édité, indexé, recherché, imprimé et archivé. Les logiciels d'OCR sont largement utilisés dans les secteurs de la santé, de la pharmacie, de l'assurance et du droit. Il permet de convertir des documents papier en documents numériques afin qu'ils puissent être réutilisés plus facilement et partagés avec d'autres.

Voyons comment vous pouvez procéder à l'OCR de fichiers PDF à l'aide de différents outils.

Adobe Acrobat Pro

Adobe est la société qui a initialement développé le format PDF. Ils offrent un moteur d'OCR rapide et efficace qui peut modifier n'importe quel document PDF que vous lui soumettez. Il s'agit de l'un des moteurs d'OCR les plus puissants du marché. Si vous avez beaucoup de PDF à éditer, Adobe Acrobat DC est ce qu'il vous faut. Ce logiciel a été conçu de telle manière qu'il peut convertir n'importe quel document texte au format PDF avec une grande précision. Il conserve également la police du document original grâce à son générateur de polices personnalisées.

Voyons comment procéder à l'OCR de PDF à l'aide d'Adobe Acrobat :

  • Ouvrez le fichier dans Adobe Acrobat Pro DC.
  • Cliquez sur l'option "Editer le PDF" dans le panneau de droite.
    Outils en ligne gratuits pour l'OCR des PDF - Figure 1

  • Il convertit un fichier PDF en un fichier PDF modifiable grâce à ses capacités de reconnaissance optique des caractères (OCR).
  • Désormais, vous pouvez éditer n'importe quel texte et modifier les fichiers d'image dans les documents en toute simplicité.

    Outils en ligne gratuits pour l'OCR des PDF - Figure 2

  • Vous pouvez enregistrer le fichier en choisissant "Fichier > Enregistrer sous" et en donnant un nom approprié au nouveau document PDF.

    Vous pouvez facilement effectuer l'OCR de plusieurs documents PDF numérisés à la fois.

Sejda

Sejda est un logiciel d'édition de PDF avec reconnaissance optique de caractères (OCR) qui peut être hébergé sur le cloud ou téléchargé en tant qu'application de bureau sur macOS, Windows ou Linux. Sejda permet aux utilisateurs de compresser, d'éditer, de signer numériquement, de fusionner et de remplir des fichiers PDF. Des fichiers de différents formats, tels que JPEG et Excel, peuvent être transformés en fichiers PDF. Les PDF peuvent également être transformés en d'autres formats tels que les documents Word et PowerPoint. Voyons comment vous pouvez effectuer l'OCR de documents PDF à l'aide de Sejda OCR.

  • Ouvrir Site web de l'OCR de Sejda.
  • Cliquez sur le bouton "Télécharger un fichier PDF" pour télécharger les fichiers, ou faites glisser les fichiers depuis votre ordinateur.
  • Après le téléchargement, vous verrez le nom du fichier téléchargé. Sélectionnez la langue du document.

    Outils en ligne gratuits pour l'OCR des PDF - Figure 3

  • Après avoir sélectionné la langue, vous devez choisir le format de sortie. Vous pouvez choisir "PDF" ou "Texte". Après avoir défini le format de sortie, cliquez sur le bouton "Reconnaître le texte sur toutes les pages". Il commencera à extraire le texte.

    Outils en ligne gratuits pour l'OCR des PDF - Figure 4

  • Une fois le processus terminé, vous pouvez télécharger le texte extrait.
    Outils en ligne gratuits pour l'OCR des PDF - Figure 5

SodaPDF

SodaPDF OCR est un logiciel OCR en ligne gratuit qui permet d'extraire du texte à partir d'images. Il s'agit d'un outil de conversion PDF OCR qui convertit les documents numérisés, les télécopies et autres impressions en texte éditable, en PDF et en PDF consultables. Le cas d'utilisation le plus courant de SodaPDF OCR est la conversion de documents scannés ou de fax en fichiers éditables. Il s'agit d'un logiciel d'OCR en ligne gratuit. Tous les documents téléchargés sont automatiquement supprimés du serveur après un certain temps. Il possède de nombreuses fonctionnalités telles que la conversion de PDF en Word, qui peut ensuite être ouvert à l'aide de Microsoft Word.

Voyons comment nous pouvons effectuer l'OCR sur un PDF à l'aide de SodaPDF :

  • Ouvrir le SodaPDF site web.
  • Cliquez sur le bouton "Choisir un fichier" et sélectionnez les documents PDF à télécharger.
  • Après le téléchargement, vous disposez d'une interface utilisateur pour modifier le texte et les images du PDF. Vous pouvez télécharger le fichier à l'aide du bouton Télécharger.
    Outils en ligne gratuits pour l'OCR des PDF - Figure 6

IronOCR : Bibliothèque OCR .NET

IronOCR est la meilleure bibliothèque pour l'OCR dans le Framework .NET. Il fournit une API robuste pour travailler avec du texte et des images, ainsi que de nombreuses fonctionnalités telles que la reconnaissance en temps réel, la détection de champs, la reconnaissance optique de caractères pour les fichiers PDF scannés, et bien d'autres encore. IronPDF peut également éditer des documents numérisés.

IronOCR offre aux développeurs la puissance de la reconnaissance de texte dans leurs applications. Il peut être utilisé à diverses fins, comme la conversion de documents numérisés en formats numériques ou la reconnaissance de légendes sur des images. La bibliothèque IronOCR .NET fournit une interface de bas niveau facile à utiliser au SDK IronOCR. En outre, il dispose de certaines fonctionnalités qui permettent aux développeurs de travailler avec IronOCR de manière plus pratique. Par exemple, cette bibliothèque comprend un pipeline de traitement d'images qui traite automatiquement les images à faible résolution et extrait le texte des documents PDF.

Voyons comment nous pouvons effectuer l'OCR d'un fichier PDF à l'aide de l'outil OCR :

OCR d'un fichier PDF complet

Le code suivant permet d'effectuer une reconnaissance optique des caractères (OCR) sur un document PDF entier.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

OCR des pages sélectionnées d'un PDF

Vous pouvez effectuer l'OCR sur des pages PDF sélectionnées en utilisant la fonction AddPdfPages.

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	' Alternatively OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

Convertir les PDF en PDF consultables

Vous pouvez convertir un fichier PDF en un fichier PDF interrogeable à l'aide d'IronOCR en utilisant la fonction SaveAsSearchablePdf.

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf", "password")

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf", "password")

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddPdf("scan.pdf", "password") Input.Deskew()

	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

Conclusion

Nous avons exploré quelques excellents outils logiciels pour effectuer la reconnaissance optique de caractères. Ces outils vous permettent de reconnaître du texte par programmation et de créer des PDF consultables et modifiables.

Si vous écrivez dans le Framework .NET, nous recommandons IronOCR. IronOCR vous permet de réaliser facilement des OCR dans le Framework .NET ; il est puissant et peut donc être facilement utilisé même lorsque le document original a été endommagé ou déformé, par exemple à la suite d'un dégât des eaux.

Un autre cas d'utilisation est la conversion de vieux formulaires papier remplis à la main, tels que les factures et les reçus de vente, en versions numériques. Ces documents peuvent ainsi être traités automatiquement par les logiciels de comptabilité, ce qui accroît la précision et l'efficacité.

< PRÉCÉDENT
Installer Tesseract (Tutoriel étape par étape avec images)
SUIVANT >
Tutoriel sur l'OCR d'un PDF (outils gratuits en ligne)