Comment lire les PDF
PDF est l'abréviation de "Portable Document Format" (format de document portable) Il s'agit d'un format de fichier développé par Adobe qui préserve les polices, les images, les graphiques et la mise en page de tout document source, indépendamment de l'application et de la plate-forme utilisées pour le créer. Les fichiers PDF sont généralement utilisés pour partager et visualiser des documents dans un format cohérent, quel que soit le logiciel ou le matériel utilisé pour les ouvrir. IronOCR gère facilement les différentes versions d'un document PDF.
Commencez avec IronOCR
Commencez à utiliser IronOCR dans votre projet dès aujourd'hui avec un essai gratuit.
Comment lire les PDF
- Télécharger une bibliothèque C# pour la lecture des PDF
- Préparer le document PDF pour la lecture
- Construire le OcrPdfInput objet avec chemin d'accès au fichier PDF
- Employer le
Lire
pour effectuer l'OCR sur le PDF importé - Lire des pages spécifiques en fournissant la liste des index de pages
Lire l'exemple PDF
Commencez par instancier la classe IronTesseract pour effectuer l'OCR. Ensuite, utilisez une instruction " using " pour créer un objet OcrPdfInput, en lui transmettant le chemin d'accès au fichier PDF. Enfin, effectuez l'OCR à l'aide de la méthode Read
.
:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-pdf.cs
using IronOcr;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Add PDF
using var pdfInput = new OcrPdfInput("Potter.pdf");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);
Imports IronOcr
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Add PDF
Private pdfInput = New OcrPdfInput("Potter.pdf")
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(pdfInput)
Dans la plupart des cas, il n'est pas nécessaire de spécifier la propriété DPI. Cependant, le fait de fournir un nombre élevé de DPI lors de la construction d'OcrPdfInput peut améliorer la précision de la lecture.
Lire les pages d'un PDF Exemple
Lors de la lecture de pages spécifiques d'un document PDF, l'utilisateur peut spécifier le numéro d'index de la page à importer. Pour ce faire, passez la liste des index de pages au paramètre PageIndices lors de la construction de l'OcrPdfInput. N'oubliez pas que les index de page utilisent une numérotation basée sur le zéro.
:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-pdf-pages.cs
using IronOcr;
using System.Collections.Generic;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Create page indices list
List<int> pageIndices = new List<int>() { 0, 2 };
// Add PDF
using var pdfInput = new OcrPdfInput("Potter.pdf", PageIndices: pageIndices);
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);
Imports IronOcr
Imports System.Collections.Generic
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Create page indices list
Private pageIndices As New List(Of Integer)() From {0, 2}
' Add PDF
Private pdfInput = New OcrPdfInput("Potter.pdf", PageIndices:= pageIndices)
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(pdfInput)
Spécifier la région de balayage
En réduisant la zone à lire, vous pouvez améliorer considérablement l'efficacité de la lecture. Pour ce faire, vous pouvez spécifier la région précise du PDF importé qui doit être lue. Dans l'exemple de code ci-dessous, j'ai demandé à IronOCR de se concentrer uniquement sur l'extraction du numéro et du titre du chapitre.
:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-specific-region.cs
using IronOcr;
using IronSoftware.Drawing;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Specify crop regions
Rectangle[] scanRegions = { new Rectangle(550, 100, 600, 300) };
// Add PDF
using (var pdfInput = new OcrPdfInput("Potter.pdf", ContentAreas: scanRegions))
{
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);
// Output the result to console
Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports IronSoftware.Drawing
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Specify crop regions
Private scanRegions() As Rectangle = { New Rectangle(550, 100, 600, 300) }
' Add PDF
Using pdfInput = New OcrPdfInput("Potter.pdf", ContentAreas:= scanRegions)
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(pdfInput)
' Output the result to console
Console.WriteLine(ocrResult.Text)
End Using