Comment lire des PDF en C# ; avec IronOCR

Q: Comment extraire du texte d'un fichier PDF en C# ?

Vous pouvez extraire du texte à partir de fichiers PDF à l'aide d'IronOCR en une seule ligne de code. Il suffit de créer une instance IronTesseract et d'utiliser la méthode Read avec OcrPdfInput : `utilisant var result = new IronOcr.IronTesseract().Read(new IronOcr.OcrPdfInput("document.pdf", PdfContents.TextAndImages));`. IronOcr gère à la fois les PDF numérisés (basés sur des images) et les PDF consultables (basés sur du texte).

Q: Quelles sont les versions de PDF prises en charge pour l'extraction de texte ?

IronOcr prend en charge toutes les versions de PDF, des anciennes spécifications PDF 1.0 aux dernières normes PDF 2.0. Le moteur d'OCR est basé sur la technologie Tesseract, ce qui garantit une extraction de texte précise quelle que soit la version du PDF avec laquelle vous travaillez.

Q: Puis-je lire uniquement certaines pages d'un PDF au lieu de l'intégralité du document ?

Oui, IronOCR vous permet de lire des pages spécifiques d'un PDF en fournissant des index de page. Au lieu de traiter l'ensemble du document, vous pouvez spécifier les pages dont il faut extraire le texte à l'aide de l'objet OcrPdfInput, ce qui rend le processus d'OCR plus efficace pour les documents volumineux.

Q: Quel est le flux de travail minimal pour l'OCR sur un fichier PDF ?

Le flux de travail minimal avec IronOCR se compose de 5 étapes : 1) Télécharger la bibliothèque C#, 2) Préparer votre document PDF, 3) Créer un objet OcrPdfInput avec le chemin d'accès au fichier PDF, 4) Utiliser la méthode Read pour effectuer l'OCR, et 5) Spécifier éventuellement des indices de page pour une lecture sélective.

Q: Quand dois-je ajuster les paramètres DPI pour l'OCR PDF ?

Bien que les paramètres DPI par défaut d'IronOCR fonctionnent bien pour la plupart des PDF standard, vous devriez envisager d'ajuster le DPI lorsque vous travaillez avec des documents numérisés à faible résolution (moins de 200 DPI) ou des PDF contenant du texte de petite taille. Des paramètres DPI plus élevés dans la construction OcrPdfInput peuvent améliorer de manière significative la précision de lecture pour les documents spécialisés.

Q: Le moteur OCR fonctionne-t-il à la fois avec les PDF numérisés et les PDF consultables ?

Oui, IronOCR traite efficacement les PDF numérisés (basés sur l'image) et les PDF consultables (basés sur le texte). Le moteur basé sur Tesseract gère automatiquement les différents types de PDF, ce qui le rend polyvalent pour l'extraction de texte à partir de divers formats PDF sans nécessiter d'approches différentes.

Q: IronOCR peut-il être intégré dans des applications existantes ?

IronOCR est conçu pour être facilement intégré dans les applications existantes en utilisant C#, permettant aux développeurs d'ajouter des fonctionnalités OCR à leur logiciel avec un minimum d'effort.

Q: Quels sont les avantages d'utiliser IronOCR pour la gestion des documents ?

Utiliser IronOCR pour la gestion des documents rationalise le flux de travail en convertissant les documents numérisés en texte modifiable et consultable, réduisant le besoin de saisie manuelle des données et améliorant l'accessibilité des documents.

Q: Comment IronOCR peut-il améliorer la précision des données ?

IronOCR améliore la précision des données grâce à ses algorithmes de reconnaissance avancés et ses fonctionnalités de correction d'image, garantissant que le processus d'extraction de texte est à la fois fiable et précis.

Q: Y a-t-il un essai gratuit disponible pour IronOCR ?

Oui, Iron Software propose un essai gratuit d'IronOCR, permettant aux utilisateurs de tester ses fonctionnalités et capacités avant de prendre une décision d'achat.

Curtis Chau

Mis à jour:3 juin 2026

Translated

View the article in English

IronOCR permet d'extraire du texte de fichiers PDF en C# avec une seule ligne de code, en prenant en charge toutes les versions de PDF et en fournissant des résultats d'OCR précis grâce à son moteur basé sur Tesseract.

PDF est l'abréviation de "Portable Document Format" (format de document portable) Il s'agit d'un format de fichier développé par Adobe qui préserve les polices, les images, les graphiques et la mise en page de tout document source, quelles que soient l'application et la plateforme utilisées pour les créer. Les fichiers PDF sont généralement utilisés pour partager et consulter des documents dans un format uniforme, quel que soit le logiciel ou le matériel utilisé pour les ouvrir. IronOcr traite différentes versions de documents PDF, des anciennes spécifications PDF 1.0 aux dernières normes PDF 2.0.

Démarrage rapide : Effectuez une OCR sur un fichier PDF en quelques secondes

Configurez rapidement l'OCR avec IronOCR en construisant un OcrPdfInput qui pointe vers votre PDF, puis appelez Read. Cet exemple présente l'extraction de texte à partir d'un PDF à l'aide d'IronOCR.

Installez IronOCR avec le Gestionnaire de Packages NuGet
PM > Install-Package IronOcr

Copiez et exécutez cet extrait de code.

using var result = new IronOcr.IronTesseract().Read(new IronOcr.OcrPdfInput("document.pdf", PdfContents.TextAndImages));

Déployez pour tester sur votre environnement de production.

Commencez à utiliser IronOCR dans votre projet dès aujourd'hui avec un essai gratuit

Flux de travail minimal (5 étapes)

Télécharger une bibliothèque C# pour la lecture de fichiers PDF
Préparez le document PDF pour la lecture
Construisez l'objet OcrPdfInput avec le chemin du fichier PDF
Utilisez la méthode Read pour effectuer la reconnaissance optique de caractères (OCR) sur le PDF importé.
Lire des pages spécifiques en fournissant la liste des indices de pages

Comment lire un fichier PDF dans son intégralité ?

Commencez par instancier la classe IronTesseract pour effectuer l'OCR. Ensuite, utilisez une instruction 'using' pour créer un objet OcrPdfInput en lui passant le chemin du fichier PDF. Enfin, effectuez l'OCR en utilisant la méthode Read. Cette approche fonctionne à la fois avec les PDF numérisés (basés sur l'image) et les PDF consultables (basés sur le texte), ce qui convient pour extraire du texte à partir de divers types de PDF.

:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-2.cs

/* :path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-pdf.cs */
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Add PDF
using var pdfInput = new OcrPdfInput("Potter.pdf");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);

// Access the extracted text
string extractedText = ocrResult.Text;
System.Console.WriteLine(extractedText);

Imports IronOcr

' Instantiate IronTesseract
Dim ocrTesseract As New IronTesseract()

' Add PDF
Using pdfInput As New OcrPdfInput("Potter.pdf")
    ' Perform OCR
    Dim ocrResult As OcrResult = ocrTesseract.Read(pdfInput)

    ' Access the extracted text
    Dim extractedText As String = ocrResult.Text
    System.Console.WriteLine(extractedText)
End Using

$vbLabelText $csharpLabel

Dans la plupart des cas, il n'est pas nécessaire de spécifier la propriété DPI. Toutefois, fournir un nombre de DPI élevé dans la construction de OcrPdfInput peut améliorer la précision de la lecture. Le paramètre DPI par défaut est généralement suffisant pour la plupart des documents PDF standard, mais les documents spécialisés peuvent bénéficier d'un ajustement.

Quand dois-je ajuster les paramètres DPI?

Les paramètres DPI (Dots Per Inch) deviennent cruciaux lorsqu'il s'agit de documents numérisés à faible résolution ou de PDF contenant du texte de petite taille. Pour des résultats optimaux, pensez à ajuster les paramètres DPI lorsque :

Travailler avec des documents numérisés de moins de 200 DPI
Traitement de PDF historiques ou d'archives
Traiter des mises en page complexes ou des polices de petite taille
Problèmes de précision liés aux paramètres par défaut

Un DPI de 300 est recommandé pour la plupart des opérations d'OCR, tandis qu'un DPI de 600 peut s'avérer nécessaire pour les documents contenant des textes très petits ou des détails complexes.

Quels sont les formats de fichiers pris en charge par IronOCR en dehors du format PDF?

IronOcr offre une prise en charge complète de nombreux formats de fichiers au-delà des PDF. Vous pouvez traiter des images dans différents formats, y compris :

JPEG/JPG pour les photographies standard
PNG pour les images avec transparence
TIFF pour les documents multipages
BMP pour les images non compressées
GIF pour les graphiques simples

En outre, IronOcr peut traiter des flux de PDF directement à partir de la mémoire, ce qui convient aux applications web et aux services cloud.

Travailler avec des types de contenu PDF

Lorsque vous traitez des PDF, vous pouvez optimiser les performances en spécifiant le type de contenu. L'énumération PdfContents vous permet de cibler un contenu spécifique :

// For text-only PDFs (faster processing)
var textOnlyPdf = new OcrPdfInput("document.pdf", PdfContents.Text);

// For image-only PDFs (scanned documents)
var imageOnlyPdf = new OcrPdfInput("scanned.pdf", PdfContents.Images);

// For mixed content (default)
var mixedPdf = new OcrPdfInput("mixed.pdf", PdfContents.TextAndImages);

// For text-only PDFs (faster processing)
var textOnlyPdf = new OcrPdfInput("document.pdf", PdfContents.Text);

// For image-only PDFs (scanned documents)
var imageOnlyPdf = new OcrPdfInput("scanned.pdf", PdfContents.Images);

// For mixed content (default)
var mixedPdf = new OcrPdfInput("mixed.pdf", PdfContents.TextAndImages);

' For text-only PDFs (faster processing)
Dim textOnlyPdf = New OcrPdfInput("document.pdf", PdfContents.Text)

' For image-only PDFs (scanned documents)
Dim imageOnlyPdf = New OcrPdfInput("scanned.pdf", PdfContents.Images)

' For mixed content (default)
Dim mixedPdf = New OcrPdfInput("mixed.pdf", PdfContents.TextAndImages)

$vbLabelText $csharpLabel

Comment lire des pages spécifiques d'un PDF?

Lorsque vous lisez des pages spécifiques d'un document PDF, indiquez le numéro d'index de la page pour l'importation. Pour cela, passez la liste des indices de pages au paramètre PageIndices lors de la construction de OcrPdfInput. N'oubliez pas que les index de pages utilisent une numérotation à partir de zéro. Cette fonction est particulièrement utile lorsque l'on travaille avec des documents volumineux dont seules certaines pages contiennent des informations pertinentes.

:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-pdf-pages.cs

using IronOcr;
using System.Collections.Generic;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Create page indices list
List<int> pageIndices = new List<int>() { 0, 2 };

// Add PDF
using var pdfInput = new OcrPdfInput("Potter.pdf", PageIndices: pageIndices);
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);

Imports IronOcr
Imports System.Collections.Generic

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Create page indices list
Private pageIndices As New List(Of Integer)() From {0, 2}

' Add PDF
Private pdfInput = New OcrPdfInput("Potter.pdf", PageIndices:= pageIndices)
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(pdfInput)

$vbLabelText $csharpLabel

Pourquoi la numérotation des pages commence-t-elle à zéro ?

L'indexation à base zéro est une convention standard en C# et dans la plupart des langages de programmation. Cela signifie que la première page est l'index 0, la deuxième page est l'index 1, et ainsi de suite. Cette cohérence avec l'indexation des tableaux facilite l'utilisation programmatique des collections de pages par les développeurs. Pour convertir les numéros de page lisibles par l'homme (1, 2, 3...) en indices, il suffit de soustraire 1 au numéro de page.

Comment lire des pages non consécutives?

La lecture de pages non consécutives est simple avec IronOcr. Il vous suffit d'ajouter les index des pages souhaitées à votre liste, dans n'importe quel ordre. Par exemple :

// Read pages 1, 3, 5, and 10 (using zero-based indices)
List<int> pageIndices = new List<int>() { 0, 2, 4, 9 };

// Or use LINQ for range-based selection
var evenPages = Enumerable.Range(0, 10).Where(x => x % 2 == 0).ToList();

// Read pages 1, 3, 5, and 10 (using zero-based indices)
List<int> pageIndices = new List<int>() { 0, 2, 4, 9 };

// Or use LINQ for range-based selection
var evenPages = Enumerable.Range(0, 10).Where(x => x % 2 == 0).ToList();

Imports System.Collections.Generic
Imports System.Linq

' Read pages 1, 3, 5, and 10 (using zero-based indices)
Dim pageIndices As New List(Of Integer)() From {0, 2, 4, 9}

' Or use LINQ for range-based selection
Dim evenPages = Enumerable.Range(0, 10).Where(Function(x) x Mod 2 = 0).ToList()

$vbLabelText $csharpLabel

Le moteur OCR ne traitera que les pages spécifiées, ce qui améliore considérablement les performances pour les documents volumineux.

Que se passe-t-il si je spécifie des numéros de page non valides?

Si vous spécifiez des indices de page qui dépassent le nombre de pages du document, IronOCR lancera une exception. Mettre en œuvre la gestion des erreurs ou valider le nombre de pages avant le traitement. Vous pouvez vérifier le nombre total de pages d'un PDF avant d'effectuer l'OCR pour vous assurer que vos indices sont valides.

Comment reconnaître une région spécifique d'un PDF?

En restreignant la zone à lire, vous pouvez améliorer considérablement l'efficacité de la lecture. Pour ce faire, indiquez la région précise du PDF importé qui doit être lue. Dans l'exemple de code ci-dessous, IronOCR se concentre uniquement sur l'extraction du numéro et du titre du chapitre. Cette technique, similaire à la définition de régions OCR pour les images, améliore à la fois la vitesse et la précision.

:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-specific-region.cs

using IronOcr;
using IronSoftware.Drawing;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Specify crop regions
Rectangle[] scanRegions = { new Rectangle(550, 100, 600, 300) };

// Add PDF
using (var pdfInput = new OcrPdfInput("Potter.pdf", ContentAreas: scanRegions))
{
    // Perform OCR
    OcrResult ocrResult = ocrTesseract.Read(pdfInput);

    // Output the result to console
    Console.WriteLine(ocrResult.Text);
}

Imports IronOcr
Imports IronSoftware.Drawing
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Specify crop regions
Private scanRegions() As Rectangle = { New Rectangle(550, 100, 600, 300) }

' Add PDF
Using pdfInput = New OcrPdfInput("Potter.pdf", ContentAreas:= scanRegions)
	' Perform OCR
	Dim ocrResult As OcrResult = ocrTesseract.Read(pdfInput)

	' Output the result to console
	Console.WriteLine(ocrResult.Text)
End Using

$vbLabelText $csharpLabel

Comment déterminer les coordonnées correctes d'un rectangle?

Pour trouver les coordonnées correctes, il faut comprendre le système de coordonnées du PDF. Le constructeur Rectangle prend quatre paramètres : X (position horizontale), Y (position verticale), Width, et Height. Toutes les mesures sont exprimées en pixels. Des outils tels que les visionneuses PDF avec des fonctions de règle ou des utilitaires de débogage peuvent aider à identifier les coordonnées exactes. Vous pouvez également procéder par essais et erreurs en procédant à de petits ajustements pour affiner votre zone de sélection.

Pour une définition plus précise des régions, vous pouvez utiliser la fonction highlight texts for debugging pour visualiser les zones en cours de traitement.

Puis-je spécifier plusieurs régions en une seule opération?

Oui, IronOcr prend en charge plusieurs régions dans une seule opération d'OCR. Ajoutez simplement plusieurs objets Rectangle à votre tableau :

Rectangle[] scanRegions = { 
    new Rectangle(50, 50, 200, 100),    // Header region
    new Rectangle(50, 200, 500, 300),   // Main content region
    new Rectangle(50, 550, 200, 50)     // Footer region
};

Rectangle[] scanRegions = { 
    new Rectangle(50, 50, 200, 100),    // Header region
    new Rectangle(50, 200, 500, 300),   // Main content region
    new Rectangle(50, 550, 200, 50)     // Footer region
};

Imports System.Drawing

Dim scanRegions As Rectangle() = {
    New Rectangle(50, 50, 200, 100),    ' Header region
    New Rectangle(50, 200, 500, 300),   ' Main content region
    New Rectangle(50, 550, 200, 50)     ' Footer region
}

$vbLabelText $csharpLabel

Chaque région sera traitée séparément et les résultats seront combinés dans l'ordre indiqué.

Pourquoi utiliser l'OCR spécifique à une région plutôt que la pleine page ?

L'OCR spécifique à une région offre plusieurs avantages :

Performance : Le traitement de zones plus petites est nettement plus rapide
<Précision : En se concentrant sur des régions spécifiques, on réduit le bruit du contenu non pertinent
Structure : Extraire des données de formulaires et de tableaux de manière plus fiable
Rendement économique : Moins de temps de traitement signifie moins de coûts de calcul

Cette approche est particulièrement utile lorsque l'on travaille avec des documents structurés tels que des factures, des formulaires ou des rapports dans lesquels les données apparaissent à des endroits prévisibles. Pour les structures de documents complexes, explorez la lecture de tableaux dans des documents pour des techniques spécialisées d'extraction de tableaux.

Quelles sont les fonctionnalités avancées de l'OCR PDF ?

IronOcr offre des fonctionnalités supplémentaires pour le traitement des PDF qui vont au-delà de l'extraction de texte de base. Vous pouvez créer des PDF consultables à partir de documents numérisés, en préservant la mise en page d'origine tout en ajoutant une couche de texte pour la recherche et la copie. La bibliothèque prend également en charge le multithreading pour un traitement plus rapide des grandes collections de PDF.

Pour les développeurs qui cherchent à démarrer avec l'OCR dans leurs applications .NET, l'exploration des exemples simples d'OCR constitue une base solide pour comprendre les capacités et les meilleures pratiques d'IronOCR.

Gérer des scénarios PDF complexes

Lorsqu'il s'agit de documents PDF difficiles à traduire, IronOCR offre plusieurs fonctionnalités avancées :

Prétraitement de l'image : Appliquez des filtres d'image pour améliorer la clarté du texte
Langues multiples : Traitez des documents contenant plusieurs langues simultanément
Configurations personnalisées : Réglez finement les paramètres OCR pour des types de documents spécifiques
Options d'exportation : Enregistrez les résultats dans différents formats, notamment des PDF consultables et hOCR HTML

Ces caractéristiques font d'IronOcr une solution complète pour les besoins de traitement des PDF au niveau de l'entreprise.

Questions Fréquemment Posées

Comment extraire du texte d'un fichier PDF en C# ?

Vous pouvez extraire du texte à partir de fichiers PDF à l'aide d'IronOCR en une seule ligne de code. Il suffit de créer une instance IronTesseract et d'utiliser la méthode Read avec OcrPdfInput : `utilisant var result = new IronOcr.IronTesseract().Read(new IronOcr.OcrPdfInput("document.pdf", PdfContents.TextAndImages));`. IronOcr gère à la fois les PDF numérisés (basés sur des images) et les PDF consultables (basés sur du texte).

Quelles sont les versions de PDF prises en charge pour l'extraction de texte ?

IronOcr prend en charge toutes les versions de PDF, des anciennes spécifications PDF 1.0 aux dernières normes PDF 2.0. Le moteur d'OCR est basé sur la technologie Tesseract, ce qui garantit une extraction de texte précise quelle que soit la version du PDF avec laquelle vous travaillez.

Puis-je lire uniquement certaines pages d'un PDF au lieu de l'intégralité du document ?

Oui, IronOCR vous permet de lire des pages spécifiques d'un PDF en fournissant des index de page. Au lieu de traiter l'ensemble du document, vous pouvez spécifier les pages dont il faut extraire le texte à l'aide de l'objet OcrPdfInput, ce qui rend le processus d'OCR plus efficace pour les documents volumineux.

Quel est le flux de travail minimal pour l'OCR sur un fichier PDF ?

Le flux de travail minimal avec IronOCR se compose de 5 étapes : 1) Télécharger la bibliothèque C#, 2) Préparer votre document PDF, 3) Créer un objet OcrPdfInput avec le chemin d'accès au fichier PDF, 4) Utiliser la méthode Read pour effectuer l'OCR, et 5) Spécifier éventuellement des indices de page pour une lecture sélective.

Quand dois-je ajuster les paramètres DPI pour l'OCR PDF ?

Bien que les paramètres DPI par défaut d'IronOCR fonctionnent bien pour la plupart des PDF standard, vous devriez envisager d'ajuster le DPI lorsque vous travaillez avec des documents numérisés à faible résolution (moins de 200 DPI) ou des PDF contenant du texte de petite taille. Des paramètres DPI plus élevés dans la construction OcrPdfInput peuvent améliorer de manière significative la précision de lecture pour les documents spécialisés.

Le moteur OCR fonctionne-t-il à la fois avec les PDF numérisés et les PDF consultables ?

Oui, IronOCR traite efficacement les PDF numérisés (basés sur l'image) et les PDF consultables (basés sur le texte). Le moteur basé sur Tesseract gère automatiquement les différents types de PDF, ce qui le rend polyvalent pour l'extraction de texte à partir de divers formats PDF sans nécessiter d'approches différentes.

IronOCR peut-il être intégré dans des applications existantes ?

IronOCR est conçu pour être facilement intégré dans les applications existantes en utilisant C#, permettant aux développeurs d'ajouter des fonctionnalités OCR à leur logiciel avec un minimum d'effort.

Quels sont les avantages d'utiliser IronOCR pour la gestion des documents ?

Utiliser IronOCR pour la gestion des documents rationalise le flux de travail en convertissant les documents numérisés en texte modifiable et consultable, réduisant le besoin de saisie manuelle des données et améliorant l'accessibilité des documents.

Comment IronOCR peut-il améliorer la précision des données ?

IronOCR améliore la précision des données grâce à ses algorithmes de reconnaissance avancés et ses fonctionnalités de correction d'image, garantissant que le processus d'extraction de texte est à la fois fiable et précis.

Y a-t-il un essai gratuit disponible pour IronOCR ?

Oui, Iron Software propose un essai gratuit d'IronOCR, permettant aux utilisateurs de tester ses fonctionnalités et capacités avant de prendre une décision d'achat.

Curtis Chau

Discutez maintenant avec l'équipe d'ingénierie

Rédacteur technique

Curtis Chau détient un baccalauréat en informatique (Université de Carleton) et se spécialise dans le développement front-end avec expertise en Node.js, TypeScript, JavaScript et React. Passionné par la création d'interfaces utilisateur intuitives et esthétiquement plaisantes, Curtis aime travailler avec des frameworks modernes ...

Jeffrey T. Fritz

Responsable principal du programme - Équipe de la communauté .NET

Jeff est également responsable principal du programme pour les équipes .NET et Visual Studio. Il est le producteur exécutif de la série de conférences virtuelles .NET Conf et anime 'Fritz and Friends', une diffusion en direct pour développeurs qui est diffusée deux fois par semaine où il parle de technologie et écrit du code avec les téléspectateurs. Jeff écrit des ateliers, des présentations et prévoit du contenu pour les plus grands événements de développement Microsoft, y compris Microsoft Build, Microsoft Ignite, .NET Conf et le sommet Microsoft MVP

Prêt à commencer?

Nuget Téléchargements 6,136,090 | Version : 2026.7 vient de sortir

Voir Licences

Vous faites encore défiler ?

Vous voulez une preuve rapidement ? PM > Install-Package IronOcr
lancez un échantillon regardez votre image se transformer en texte consultable.

Voir Licences

Mise en avant du client :

Projecteur sur les Développeurs:

Webinaires:

Commencer un essai gratuit de 30 jours

Sur cette page

Comment lire des PDF en C# ; avec IronOCR

Installez IronOCR avec le Gestionnaire de Packages NuGet

Copiez et exécutez cet extrait de code.

Déployez pour tester sur votre environnement de production.

Flux de travail minimal (5 étapes)

Comment lire un fichier PDF dans son intégralité ?

Quand dois-je ajuster les paramètres DPI?

Quels sont les formats de fichiers pris en charge par IronOCR en dehors du format PDF?

Travailler avec des types de contenu PDF

Comment lire des pages spécifiques d'un PDF?

Pourquoi la numérotation des pages commence-t-elle à zéro ?

Comment lire des pages non consécutives?

Que se passe-t-il si je spécifie des numéros de page non valides?

Comment reconnaître une région spécifique d'un PDF?

Comment déterminer les coordonnées correctes d'un rectangle?

Puis-je spécifier plusieurs régions en une seule opération?

Pourquoi utiliser l'OCR spécifique à une région plutôt que la pleine page ?

Quelles sont les fonctionnalités avancées de l'OCR PDF ?

Gérer des scénarios PDF complexes

Questions Fréquemment Posées

Comment extraire du texte d'un fichier PDF en C# ?

Quelles sont les versions de PDF prises en charge pour l'extraction de texte ?

Puis-je lire uniquement certaines pages d'un PDF au lieu de l'intégralité du document ?

Quel est le flux de travail minimal pour l'OCR sur un fichier PDF ?

Quand dois-je ajuster les paramètres DPI pour l'OCR PDF ?

Le moteur OCR fonctionne-t-il à la fois avec les PDF numérisés et les PDF consultables ?

IronOCR peut-il être intégré dans des applications existantes ?

Quels sont les avantages d'utiliser IronOCR pour la gestion des documents ?

Comment IronOCR peut-il améliorer la précision des données ?

Y a-t-il un essai gratuit disponible pour IronOCR ?

Vous faites encore défiler ?

Votre clé de licence a été livrée dans votre boîte de réception

Votre demande de démo est en cours.

Équipe de soutien Iron

Commencer un essai gratuit de 30 jours

Sur cette page

Comment lire des PDF en C# ; avec IronOCR

Installez IronOCR avec le Gestionnaire de Packages NuGet

Copiez et exécutez cet extrait de code.

Déployez pour tester sur votre environnement de production.

Flux de travail minimal (5 étapes)

Comment lire un fichier PDF dans son intégralité ?

Quand dois-je ajuster les paramètres DPI?

Quels sont les formats de fichiers pris en charge par IronOCR en dehors du format PDF?

Travailler avec des types de contenu PDF

Comment lire des pages spécifiques d'un PDF?

Pourquoi la numérotation des pages commence-t-elle à zéro ?

Comment lire des pages non consécutives?

Que se passe-t-il si je spécifie des numéros de page non valides?

Comment reconnaître une région spécifique d'un PDF?

Comment déterminer les coordonnées correctes d'un rectangle?

Puis-je spécifier plusieurs régions en une seule opération?

Pourquoi utiliser l'OCR spécifique à une région plutôt que la pleine page ?

Quelles sont les fonctionnalités avancées de l'OCR PDF ?

Gérer des scénarios PDF complexes

Questions Fréquemment Posées

Comment extraire du texte d'un fichier PDF en C# ?

Quelles sont les versions de PDF prises en charge pour l'extraction de texte ?

Puis-je lire uniquement certaines pages d'un PDF au lieu de l'intégralité du document ?

Quel est le flux de travail minimal pour l'OCR sur un fichier PDF ?

Quand dois-je ajuster les paramètres DPI pour l'OCR PDF ?

Le moteur OCR fonctionne-t-il à la fois avec les PDF numérisés et les PDF consultables ?

IronOCR peut-il être intégré dans des applications existantes ?

Quels sont les avantages d'utiliser IronOCR pour la gestion des documents ?

Comment IronOCR peut-il améliorer la précision des données ?

Y a-t-il un essai gratuit disponible pour IronOCR ?

Vous faites encore défiler ?

Obtenez votre GRATUIT

Étape suivante : Commencer l'essai gratuit de 30 jours

Thank You

Étape suivante : Commencer l'essai gratuit de 30 jours

Vous voulez déployer IronSuite sur un projet en direct GRATUITEMENT ?

Qu'est-ce qui est inclus ?

Votre clé de licence a été livrée dans votre boîte de réception

Votre demande de démo est en cours.

De confiance par des millions d'ingénieurs dans le monde entier

Équipe de soutien Iron