Test dans un environnement réel
Test en production sans filigrane.
Fonctionne partout où vous en avez besoin.
La reconnaissance optique de caractères, ou OCR, est une technologie utilisée pour reconnaître du texte dans des images. Cette technologie a été créée pour scanner un texte imprimé ou un fichier image et les reconnaître sur les ordinateurs. En effet, de nombreuses choses sont aujourd'hui numériques, comme les courriels ou les livres. Cependant, la technologie OCR a évolué vers quelque chose de plus sophistiqué, avec des algorithmes spécialisés capables de reconnaître du texte dans de nombreuses polices différentes, même si elles ont été déformées par du bruit ou d'autres distorsions courantes telles que la compression JPEG. L'OCR peut également lire l'écriture manuscrite sur papier avec une précision de 98 %.
Le texte numérisé à l'aide de l'OCR peut ensuite être édité, indexé, recherché, imprimé et archivé. Les logiciels d'OCR sont largement utilisés dans les secteurs de la santé, de la pharmacie, de l'assurance et du droit. Il permet de convertir des documents papier en documents numériques afin qu'ils puissent être réutilisés plus facilement et partagés avec d'autres.
Voyons comment vous pouvez procéder à l'OCR de fichiers PDF à l'aide de différents outils.
Adobe est la société qui a initialement développé le format PDF. Ils offrent un moteur d'OCR rapide et efficace qui peut modifier n'importe quel document PDF que vous lui soumettez. Il s'agit de l'un des moteurs d'OCR les plus puissants du marché. Si vous avez beaucoup de PDF à éditer, Adobe Acrobat DC est ce qu'il vous faut. Ce logiciel a été conçu de telle manière qu'il peut convertir n'importe quel document texte au format PDF avec une grande précision. Il conserve également la police du document original grâce à son générateur de polices personnalisées.
Voyons comment procéder à l'OCR de PDF à l'aide d'Adobe Acrobat :
Désormais, vous pouvez éditer n'importe quel texte et modifier les fichiers d'image dans les documents en toute simplicité.
Vous pouvez enregistrer le fichier en choisissant "Fichier > Enregistrer sous" et en donnant un nom approprié au nouveau document PDF.
Vous pouvez facilement effectuer l'OCR de plusieurs documents PDF numérisés à la fois.
Sejda est un logiciel d'édition de PDF avec reconnaissance optique de caractères (OCR) qui peut être hébergé sur le cloud ou téléchargé en tant qu'application de bureau sur macOS, Windows ou Linux. Sejda permet aux utilisateurs de compresser, d'éditer, de signer numériquement, de fusionner et de remplir des fichiers PDF. Des fichiers de différents formats, tels que JPEG et Excel, peuvent être transformés en fichiers PDF. Les PDF peuvent également être transformés en d'autres formats tels que les documents Word et PowerPoint. Voyons comment vous pouvez effectuer l'OCR de documents PDF à l'aide de Sejda OCR.
Après le téléchargement, vous verrez le nom du fichier téléchargé. Sélectionnez la langue du document.
Après avoir sélectionné la langue, vous devez choisir le format de sortie. Vous pouvez choisir "PDF" ou "Texte". Après avoir défini le format de sortie, cliquez sur le bouton "Reconnaître le texte sur toutes les pages". Il commencera à extraire le texte.
SodaPDF OCR est un logiciel OCR en ligne gratuit qui permet d'extraire du texte à partir d'images. Il s'agit d'un outil de conversion PDF OCR qui convertit les documents numérisés, les télécopies et autres impressions en texte éditable, en PDF et en PDF consultables. Le cas d'utilisation le plus courant de SodaPDF OCR est la conversion de documents scannés ou de fax en fichiers éditables. Il s'agit d'un logiciel d'OCR en ligne gratuit. Tous les documents téléchargés sont automatiquement supprimés du serveur après un certain temps. Il possède de nombreuses fonctionnalités telles que la conversion de PDF en Word, qui peut ensuite être ouvert à l'aide de Microsoft Word.
Voyons comment nous pouvons effectuer l'OCR sur un PDF à l'aide de SodaPDF :
IronOCR est la meilleure bibliothèque pour l'OCR dans le Framework .NET. Il fournit une API robuste pour travailler avec du texte et des images, ainsi que de nombreuses fonctionnalités telles que la reconnaissance en temps réel, la détection de champs, la reconnaissance optique de caractères pour les fichiers PDF scannés, et bien d'autres encore. IronPDF peut également éditer des documents numérisés.
IronOCR offre aux développeurs la puissance de la reconnaissance de texte dans leurs applications. Il peut être utilisé à diverses fins, comme la conversion de documents numérisés en formats numériques ou la reconnaissance de légendes sur des images. La bibliothèque IronOCR .NET fournit une interface de bas niveau facile à utiliser au SDK IronOCR. En outre, il dispose de certaines fonctionnalités qui permettent aux développeurs de travailler avec IronOCR de manière plus pratique. Par exemple, cette bibliothèque comprend un pipeline de traitement d'images qui traite automatiquement les images à faible résolution et extrait le texte des documents PDF.
Voyons comment nous pouvons effectuer l'OCR d'un fichier PDF à l'aide de l'outil OCR :
Le code suivant permet d'effectuer une reconnaissance optique des caractères (OCR) sur un document PDF entier.
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' OCR entire document
Input.AddPdf("example.pdf", "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Vous pouvez effectuer l'OCR sur des pages PDF sélectionnées en utilisant la fonction AddPdfPages
.
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Vous pouvez convertir un fichier PDF en un fichier PDF interrogeable à l'aide d'IronOCR en utilisant la fonction SaveAsSearchablePdf
.
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf", "password")
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf", "password")
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("scan.pdf", "password") Input.Deskew()
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
Nous avons exploré quelques excellents outils logiciels pour effectuer la reconnaissance optique de caractères. Ces outils vous permettent de reconnaître du texte par programmation et de créer des PDF consultables et modifiables.
Si vous écrivez dans le Framework .NET, nous recommandons IronOCR. IronOCR vous permet de réaliser facilement des OCR dans le Framework .NET ; il est puissant et peut donc être facilement utilisé même lorsque le document original a été endommagé ou déformé, par exemple à la suite d'un dégât des eaux.
Un autre cas d'utilisation est la conversion de vieux formulaires papier remplis à la main, tels que les factures et les reçus de vente, en versions numériques. Ces documents peuvent ainsi être traités automatiquement par les logiciels de comptabilité, ce qui accroît la précision et l'efficacité.
10 produits API .NET pour vos documents de bureau