Test dans un environnement réel
Test en production sans filigrane.
Fonctionne partout où vous en avez besoin.
L'OCR ou reconnaissance optique de caractères est un processus de conversion d'informations textuelles sous forme numérique. L'OCR PDF est une application populaire qui peut être utilisée pour améliorer les processus d'entreprise. L'un des avantages de l'OCR PDF est qu'il peut être utilisé pour améliorer l'accessibilité de l'information. Ceci est particulièrement important pour les documents qui ne sont pas disponibles dans un format que tout le monde peut utiliser ou lire. L'OCR PDF peut être utilisé pour produire une copie du document disponible dans un format utilisable par tous.
L'OCR des PDF est également utilisée pour le suivi des documents. Lorsqu'un document est classé, scanné ou transcrit, il peut être difficile de savoir quelle version du document est associée à quel fichier. Avec l'OCR PDF, il est possible de suivre les modifications apportées à un document et de déterminer quelles versions sont associées à quel fichier. Cela peut être utile pour gérer des archives de documents et éviter la perte d'informations importantes.
Dans cet article, vous apprendrez comment utiliser l'OCR pour n'importe quel fichier PDF à l'aide du logiciel Adobe Acrobat Pro. Cet article présente également la bibliothèque OCR IronOCR for NET, qui est l'une des bibliothèques les plus efficaces et les plus riches en fonctionnalités disponibles. Commençons par Adobe Acrobat Pro.
Adobe Acrobat Pro DC est la version Pro d'Adobe Acrobat Reader DC. Il s'agit de l'outil le plus populaire et le plus puissant pour la manipulation des PDF. Avec ce logiciel, vous pouvez créer, éditer, signer et réviser n'importe quel document PDF. De plus, il vous permet de convertir des PDF en présentations PowerPoint, en documents Word ou en fichiers Excel. Il peut également éditer des documents numérisés.
La nouvelle version d'Acrobat DC est également un scanner de documents qui peut rapidement transformer des documents numérisés en fichiers numériques grâce à la technologie OCR. Il est doté d'une fonction de reconnaissance optique des caractères et d'une fonction de numérisation intelligente des cartes de visite qui détecte et enregistre automatiquement les coordonnées des cartes en quelques secondes.
Outre la possibilité d'extraire du texte des fichiers PDF, Acrobat Pro DC possède de nombreuses fonctionnalités qui en font un outil précieux pour la transcription des PDF.
Voyons comment utiliser l'OCR d'un document scanné avec Adobe Acrobat Pro.
Ce logiciel convertit les documents PDF numérisés en documents PDF entièrement modifiables. Vous pourrez modifier les fichiers texte et image sur le fichier PDF lui-même.
Vous pouvez également modifier l'emplacement du bloc de texte, la police du texte, etc.
Après avoir effectué des modifications, enregistrez le fichier et vous verrez que ces modifications sont reflétées dans le document.
IronOCR est une bibliothèque OCR .NET et un outil OCR qui peut lire des documents texte et des images en les convertissant dans un format lisible par une machine.
Cette bibliothèque de reconnaissance optique de caractères a été développée en tenant compte des considérations suivantes :
Le besoin d'un moteur d'OCR qui puisse être facilement intégré dans diverses applications .NET et qui prenne en charge à la fois les applications WPF et les applications en console.
IronOCR permet aux développeurs de créer plus facilement des logiciels qui prennent en charge la numérisation de documents, l'extraction de texte et de métadonnées, l'indexation de fichiers images numérisés, la conversion d'images en PDF interrogeables et la conversion de documents numérisés en texte lisible. IronOCR offre de nombreuses options en matière d'encodage, de conversion de format d'image et de reconnaissance et d'extraction de texte. IronOCR prend en charge 125 langues.
IronOCR offre un processus d'OCR intuitif, robuste et précis pour reconnaître le texte à partir de documents numérisés, de photographies et de captures d'écran, tout en réduisant les tâches fastidieuses telles que la segmentation des pages et l'analyse de la mise en page. La bibliothèque est développée en C# et la conception de son API est simple et bien lisible.
Explorons quelques exemples de code utilisant IronOCR :
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' OCR entire document
Input.AddPdf("example.pdf", "password")
' Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
IronOCR vous offre la possibilité d'effectuer l'OCR d'un document PDF entier ou d'une plage de pages sélectionnées dans un fichier PDF.
Vous pouvez convertir un PDF en un PDF sélectionnable à l'aide d'IronOCR ; c'est très simple et direct. Voir l'extrait de code de la conversion PDF ci-dessous :
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf","password");
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf","password");
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("scan.pdf","password")
' clean up twisted pages
Input.Deskew()
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
IronOCR offre de nombreux autres outils et fonctionnalités. Vous pouvez découvrir les fonctionnalités de l'IronOCR en visitant les sites suivantslien.
La bibliothèque IronOCR présente plusieurs avantages par rapport aux autres bibliothèques disponibles sur le marché. Vous pouvez modifier et étendre ses fonctionnalités en ajoutant vos propres modules avec seulement quelques lignes de code. IronOCR peut actuellement lire des textes dans plus de 125 langues. Elle a été développée pour produire des résultats de meilleure qualité et plus fiables tout en consommant beaucoup moins de temps et de ressources mémoire que les autres bibliothèques.
IronOCR est libre de développement. IronOCR propose également un service deessai gratuit pour les tests en production. Pour plus de détails sur les tarifs et un essai gratuit d'IronOCR, suivez le lien suivantlien.
9 produits de l'API .NET pour vos documents de bureau