Extraction de texte OCR PDF

VB C#

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using var ocrInput = new OcrInput();

// OCR entire document
ocrInput.LoadPdf("example.pdf", Password: "password");

int[] pages = { 1, 2, 3, 4, 5 };

// Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password: "password");

var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()

Private ocrInput = New OcrInput()

' OCR entire document
ocrInput.LoadPdf("example.pdf", Password:= "password")

Dim pages() As Integer = { 1, 2, 3, 4, 5 }

' Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password:= "password")

Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)

Install-Package IronOcr

Extraction de texte OCR PDF

Iron Tesseract peut lire de nombreux formats d'image ainsi que des documents PDF. Cette fonctionnalité n'est pas disponible avec les moteurs Tesseract gratuits classiques.

OcrInput offre la possibilité de corriger automatiquement les caractéristiques des PDF si les numérisations sont de mauvaise qualité.

Les développeurs peuvent choisir de lire un PDF entier, une sélection de pages ou une seule zone de recadrage.

Comment effectuer une reconnaissance optique de caractères (OCR) sur un fichier PDF en C#

Télécharger la bibliothèque C# pour l'OCR de fichiers PDF
Utilisez AddPdf de la méthode pour ajouter un document PDF
Ajouter certaines pages d'un document PDF avec AddPdfPages méthode
Utilisez Read méthode pour effectuer une OCR sur le PDF ajouté
Afficher toutes les valeurs du code QR dans Barcodes propriété. Accédez à la propriété Text pour récupérer le résultat de l'OCR

C# PDF OCR

De nombreux outils OCR fonctionnent bien dans des conditions optimales, mais lorsque vous avez besoin d'une solution offrant une stabilité et une précision accrues en toutes circonstances, la solution d'extraction de texte IronOCR est ce qu'il vous faut.

IronOCR, destiné à l'extraction de texte, a été entièrement conçu pour convertir des images réelles avec une précision de 99 %.

IronTesseract, notre bibliothèque OCR native C#, est capable de reconnaître les caractères de manière quasi humaine à partir d'images réelles qui ne sont pas toujours de bonne qualité et qui sont parfois déformées.

Notre OCR permet de corriger automatiquement les caractéristiques des PDF ou des images si les numérisations sont de mauvaise qualité.

Au fur et à mesure que je vous présenterai la meilleure solution OCR actuellement disponible, vous pourrez vous en rendre compte par vous-même.

Pourquoi choisir IronOCR pour l'extraction de texte par OCR à partir d'images ou de PDF ?

Opter pour la solution IronOCR pour la gestion de Tesseract est un choix évident si l'on considère ses capacités uniques, qui comprennent notamment :

Le moteur d'extraction de texte IronOCR pour PDF fonctionne immédiatement en .NET pur
Il n'est pas nécessaire d'installer Tesseract sur votre ordinateur.
Elle fonctionne remarquablement bien avec les derniers moteurs : Tesseract 5 (ainsi que Tesseract 4 et 3).
Elle est disponible pour tous les projets .NET : .NET Framework 4.5+, .NET Standard 2+ et .NET Core 2, 3 et 5 !
Elle offre une précision et une vitesse améliorées par rapport aux autres versions open source de Tesseract.
IronOCR prend en charge les plateformes de développement Xamarin, Mono, Azure et Docker.
Vous pouvez gérer des systèmes de dictionnaires Tesseract complexes à l'aide de paquets NuGet.
Il peut extraire du texte à partir de fichiers PDF, TIFF MultiFrame et de tous les principaux formats d'image sans aucune manipulation supplémentaire.
Elle permet de corriger les numérisations d'images de mauvaise qualité ou déformées afin d'obtenir les meilleurs résultats possibles pour votre projet d'extraction de texte.

Disposez-vous de numérisations de mauvaise qualité ? Pas de problème !

IronOCR se distingue nettement dans le domaine des tâches d'OCR. En réalité, de nombreux produits similaires sont conçus pour fonctionner correctement avec du texte ou des images imprimés par machine, en haute résolution et parfaits, et finissent donc par être imprécis ou ne pas fonctionner dans des applications concrètes. Ce n'est toutefois pas le cas avec IronOCR.

IronOCR excelle dans la correction de documents imparfaits. Elle permet de redresser une image numérisée de travers et d'améliorer les photos de mauvaise qualité afin qu'elles deviennent des documents PDF ou des images consultables. C'est ce qui distingue notre produit des autres.

Adaptez les performances d'IronOCR à votre flux de travail

Avec la solution OCR d'Iron Software, vous pouvez optimiser les performances de vos tâches d'extraction de texte afin d'obtenir le bon équilibre pour votre flux de travail. Nous savons que cela est très important pour de nombreux utilisateurs et développeurs ; c'est pourquoi nous avons conçu notre solution OCR pour qu'elle soit flexible et permette d'ajuster ses performances.

Par exemple, un facteur très important qui influence la vitesse d'une tâche OCR est la qualité de l'image d'entrée. Lorsque le bruit de fond est moindre et que l'image présente une résolution plus élevée (200 dpi est une bonne valeur), le traitement est plus rapide et les résultats de l'OCR sont plus précis. Cependant, grâce à la fonctionnalité d'optimisation des performances d'IronOCR, même les tâches impliquant des images de mauvaise qualité peuvent être réalisées rapidement.

De plus, le choix d'images d'entrée ou de formats de texte numérisé présentant moins de bruit numérique, tels que PNG ou TIFF, peut également donner des résultats plus rapides que les formats d'image de moindre qualité comme le JPEG.

L'installation de la solution IronOCR est un jeu d'enfant

La suite Iron Software est très facile à installer et à utiliser. Elle est disponible pour les plateformes de développement les plus populaires. Notre solution offre une prise en charge multiplateforme qui inclut Windows, Linux, macOS, Azure, AWS et Docker — ce n'est pas un hasard si C# en fait le moteur OCR Tesseract le plus apprécié des développeurs.

Prise en charge de plus de 125 langues internationales

Pour les tâches d'OCR, un logiciel est d'autant plus utile qu'il prend en charge plusieurs langues. La solution IronOCR se rend indispensable car elle prend en charge 125 langues internationales. Ces langues peuvent être installées via des packs linguistiques distribués sous forme de fichiers DLL. Ils peuvent être téléchargés depuis ce site web ou via le Package Manager NuGet pour Visual Studio.

Comment installer les packs de langues OCR

Cent vingt langues sont prises en charge. Vous pouvez télécharger des packs de langues OCR supplémentaires de deux manières :

Installez le package NuGet

Recherchez IronOCR Langues sur NuGet.

Utilisation de la méthode de données OCR

Téléchargez le fichier ocrdata et ajoutez-le à votre projet .NET ou à vos fichiers de programme.

Créez facilement des documents consultables à partir de vos fichiers numérisés ou de vos images

L'une des fonctionnalités dont nous sommes très fiers est la capacité de notre logiciel Tesseract à créer un document PDF consultable ou du texte consultable à partir d'images d'entrée ou d'un fichier PDF numérisé. Vous pouvez exporter le résultat de votre OCR sous forme de PDF qui sera un document PDF consultable en C# et VB.NET. Cela peut vraiment aider les entreprises et les administrations dans la constitution de bases de données, le référencement naturel (SEO) et la gestion des fichiers PDF.

Tirez parti de la puissance du meilleur outil OCR

IronOCR est le meilleur outil de sa catégorie pour extraire du texte à partir d'images et de documents. Elle est dotée d'un certain nombre de fonctionnalités et de solutions qui vous offrent une expérience fluide et sans encombre lors de la réalisation de tâches d'OCR.

Nos bibliothèques OCR Tesseract C# peuvent vous aider à extraire du texte à partir d'images et de documents numérisés dans des environnements de développement tels que les applications C# et .NET.

Avec IronOCR, vous pouvez même ouvrir facilement des documents PDF protégés par mot de passe et en extraire le texte sans difficulté.

Elle présente également les caractéristiques suivantes :

Ne nécessite pas de fichiers exécutables ni de code C#
Prise en charge complète de l'OCR pour les PDF
Compatible avec les applications MVC, Web, de bureau, en console et serveur
Prise en charge complète de .NET Core, Standard et Framework
Lire à l'aide de C# & VB .NET
Lit les QR codes et les BarCodes
Exportez l'OCR vers un document XHTML ou un document PDF consultable
Prise en charge du multithreading
Extrait des images, des coordonnées, des statistiques, des polices et bien plus encore

Faites le grand saut vers IronOCR

Compte tenu des fonctionnalités de cette incroyable solution OCR, vous ne pouvez pas vous tromper en essayant IronOCR.

Quelques clics suffisent pour utiliser notre logiciel. Commencez par installer IronOCR — une tâche incroyablement simple. De plus, nous proposons des guides étape par étape extrêmement utiles et détaillés sur l'utilisation de tous nos outils et des tutoriels, sans oublier notre centre d'assistance très réactif qui répond aux demandes dans les plus brefs délais (presque immédiatement).

N'hésitez pas : optez pour IronOCR dès aujourd'hui. Il s'agit de la première étape, et la plus importante, pour apprendre à lire des fichiers PDF en C#.

Si vous avez encore des doutes, notre clé de licence d'essai gratuite est faite pour vous. Elle peut vous aider à explorer tout le potentiel de la dernière version d'IronOCR sans aucune condition financière. Cela peut vous aider à choisir la licence logicielle qui vous convient le mieux. En cas de doute, n'hésitez pas à contacter notre équipe d'experts, où que vous soyez.

Apprenez à créer des PDF consultables avec IronOCR