Extraction de texte OCR PDF

VB C#

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using var ocrInput = new OcrInput();

// OCR entire document
ocrInput.LoadPdf("example.pdf", Password: "password");

int[] pages = { 1, 2, 3, 4, 5 };

// Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password: "password");

var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()

Private ocrInput = New OcrInput()

' OCR entire document
ocrInput.LoadPdf("example.pdf", Password:= "password")

Dim pages() As Integer = { 1, 2, 3, 4, 5 }

' Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password:= "password")

Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)

Install-Package IronOcr

Extraction de texte OCR PDF

Le tesseract de Iron peut lire de nombreux formats d'image ainsi que des documents PDF. Cette fonctionnalité n'est pas possible avec les moteurs Tesseract libres classiques.

OcrInput offre la possibilité de corriger automatiquement les caractéristiques PDF si les numérisations sont de mauvaise qualité.

Les développeurs peuvent spécifier de lire un PDF entier, une sélection de pages ou une zone de recadrage unique.

Comment effectuer une reconnaissance optique de caractères (OCR) sur un fichier PDF en C#

Télécharger la bibliothèque C# pour la reconnaissance optique de caractères (OCR) de fichiers PDF
Utilisez la méthode AddPdf pour ajouter un document PDF
Ajouter certaines pages d'un document PDF avec la méthode AddPdfPages
Utilisez la méthode Read pour effectuer la reconnaissance optique de caractères (OCR) sur le PDF ajouté.
Consultez toutes les valeurs des codes QR dans la propriété Barcodes . Accédez à la propriété " Texte " pour récupérer le résultat de la reconnaissance optique de caractères (OCR).

C# PDF OCR

De nombreux outils OCR fonctionnent bien dans des conditions optimales, mais si vous avez besoin d'un outil qui effectue le travail avec une stabilité et une précision accrues quelles que soient les conditions, la solution d'extraction de texte IronOCR est ce qu'il vous faut.

IronOCR pour l'extraction de texte est conçu de A à Z et possède la capacité de convertir des images du monde réel avec une précision de 99 %.

IronTesseract, notre bibliothèque OCR développée nativement en C#, peut reconnaître les caractères de façon presque humaine à partir d'images du monde réel qui ne sont pas toujours de bonne qualité et qui sont parfois inclinées.

Notre système OCR permet de corriger automatiquement les caractéristiques des fichiers PDF ou des images si les numérisations sont de mauvaise qualité.

Je vais vous présenter la meilleure solution OCR actuellement disponible, et vous pourrez le constater par vous-même.

Pourquoi choisir IronOCR pour l'extraction de texte OCR d'images ou de PDF ?

Choisir la solution IronOCR pour la gestion de Tesseract est une évidence si l'on considère ses capacités uniques, notamment les suivantes :

Le moteur d'extraction de texte OCR IronOCR pour PDF fonctionne immédiatement en .NET pur.
Il n'est pas nécessaire que Tesseract soit installé sur votre machine.
Il fonctionne exceptionnellement bien avec les moteurs les plus récents : Tesseract 5 (ainsi que Tesseract 4 et 3).
Il est disponible pour tout projet .NET : .NET Framework 4.5 +, .NET Standard 2 + et .NET Core 2, 3 et 5 !
Il offre une précision et une vitesse améliorées par rapport aux autres tesseracts open-source.
IronOCR prend en charge les plateformes de développement Xamarin, Mono, Azure et Docker.
Vous pouvez gérer des systèmes de dictionnaires Tesseract complexes à l'aide de packages NuGet.
Il peut extraire du texte à partir de fichiers PDF, de fichiers TIFF MultiFrame et de tous les principaux fichiers image sans aucune manipulation supplémentaire.
Il peut corriger les numérisations d'images de mauvaise qualité et déformées pour obtenir les meilleurs résultats de votre projet d'extraction de texte.

Avez-vous des numérisations de mauvaise qualité ? Pas de problème !

IronOCR se distingue par sa qualité supérieure en matière de tâches de reconnaissance optique de caractères (OCR). En réalité, de nombreux produits similaires sont conçus pour fonctionner correctement avec des textes ou des images imprimés à la machine, en haute résolution et de qualité parfaite, et deviennent donc imprécis ou défaillants dans les applications réelles. Ce n'est toutefois pas le cas avec IronOCR.

IronOCR excelle dans la correction de documents imparfaits. Il peut redresser une image scannée déformée et améliorer les photos de faible qualité afin qu'elles deviennent des documents PDF ou des images consultables. C'est ce qui distingue notre produit des autres.

Optimisez les performances d'IronOCR pour les adapter à votre flux de travail.

Avec la solution OCR d'Iron Software, vous pouvez optimiser les performances de vos tâches d'extraction de texte afin d'obtenir le bon équilibre pour votre flux de travail. Nous savons que cela est très important pour de nombreux utilisateurs et développeurs, c'est pourquoi nous avons conçu notre solution OCR pour qu'elle soit performante et flexible.

Par exemple, un facteur très important qui influence la vitesse d'une tâche de reconnaissance optique de caractères (OCR) est la qualité de l'image d'entrée. Lorsque le bruit de fond est moindre et que l'image a une résolution plus élevée (200 ppp est une bonne plage), le rendement est plus rapide et les résultats de la reconnaissance optique de caractères (OCR) plus précis. Cependant, grâce à la fonction d'optimisation des performances d'IronOCR, même les tâches impliquant des images de faible qualité peuvent être réalisées rapidement.

De plus, la sélection d'images d'entrée ou de formats de texte numérisés présentant moins de bruit numérique, tels que PNG ou TIFF, peut également donner des résultats plus rapides que les formats d'image de qualité inférieure tels que JPEG.

L'installation de la solution IronOCR est un jeu d'enfant.

La suite logicielle Iron est très facile à installer et à utiliser. Il est disponible pour les plateformes de développement les plus populaires. Notre solution bénéficie d'une compatibilité multiplateforme incluant Windows, Linux, macOS, Azure, AWS et Docker — ce n'est pas un hasard si C# est le moteur OCR Tesseract préféré des développeurs.

Prise en charge de plus de 125 langues internationales

Pour les tâches de reconnaissance optique de caractères (OCR), un logiciel particulier devient plus utile lorsqu'il prend en charge plusieurs langues. La solution IronOCR s'impose comme indispensable car elle prend en charge 125 langues internationales. Ces langues peuvent être installées via des modules linguistiques distribués sous forme de fichiers DLL. Ils peuvent être téléchargés depuis ce site web ou via le gestionnaire de packages NuGet pour Visual Studio.

Comment installer les packs de langue OCR

Cent vingt langues sont prises en charge. Vous pouvez télécharger des packs de langue OCR supplémentaires de deux manières :

Installez le package NuGet

Recherchez IronOCR Languages dans NuGet.

Utilisation de la méthode de données OCR

Téléchargez le fichier ocrdata et ajoutez-le à votre projet .NET ou à vos fichiers de programme.

Créez facilement des documents consultables à partir de vos fichiers ou images numérisés.

L'une des fonctionnalités dont nous sommes particulièrement fiers est la capacité de notre logiciel Tesseract à créer un document PDF interrogeable ou un texte interrogeable à partir d'images ou d'un fichier PDF numérisé. Vous pouvez exporter votre résultat OCR au format PDF, qui sera un document interrogeable en C# et VB.NET. Cela peut vraiment aider les entreprises et les gouvernements en matière de remplissage de bases de données, de référencement (SEO) et de création de fichiers PDF.

Exploitez la puissance du meilleur outil OCR

IronOCR est l'outil de référence pour extraire du texte à partir d'images et de documents. Il est doté de nombreuses fonctionnalités et solutions qui vous offrent une expérience fluide et agréable lors de la réalisation de tâches de reconnaissance optique de caractères (OCR).

Nos bibliothèques OCR Tesseract C# peuvent vous aider à extraire du texte à partir d'images et de documents numérisés dans des environnements de développement tels que les applications C# et .NET.

Avec IronOCR, vous pouvez même ouvrir facilement des documents PDF protégés par mot de passe et en extraire le texte sans problème.

Elle présente également les caractéristiques suivantes :

Ne nécessite aucun fichier exécutable ni code C++
Prise en charge complète de la reconnaissance optique de caractères (OCR) pour les fichiers PDF
Compatible avec les modèles MVC, les applications Web, les applications de bureau, les applications console et les applications serveur
Prise en charge complète de .NET Core, Standard et Framework
Lisez en utilisant C# et VB .NET
Lit les codes QR et les codes-barres
Exporte les données OCR vers un document XHTML ou un document PDF consultable
Prend en charge le multithreading
Extrait des images, des coordonnées, des statistiques, des polices et bien plus encore

Faites le choix audacieux d'IronOCR

Compte tenu des fonctionnalités exceptionnelles de cette solution OCR, vous ne pouvez pas vous tromper en décidant d'essayer IronOCR.

Utiliser notre logiciel se fait en quelques clics. Commencez par installer IronOCR — une tâche incroyablement facile. De plus, nous proposons des guides pas à pas incroyablement utiles et détaillés sur l'utilisation de tous nos outils et des tutoriels , sans oublier notre centre d'assistance très complet qui répond aux questions dans les plus brefs délais (presque immédiatement).

N'hésitez pas — choisissez IronOCR dès aujourd'hui. Il s'agit de la première et de la plus importante étape pour apprendre à lire des fichiers PDF en C#.

S'il vous reste le moindre doute, notre clé de licence d'essai gratuite est parfaite pour vous. Cela vous permettra d'explorer tout le potentiel de la dernière version d'IronOCR sans aucune condition financière. Cela peut vous aider à choisir la licence logicielle qui vous convient. En cas de doute, n'hésitez pas à contacter notre équipe d'experts, quel que soit votre lieu de résidence.

Apprenez à créer des PDF consultables avec IronOCR