Comment lire les PDF

This article was translated from English: Does it need improvement?
Translated
View the article in English

par Chaknith Bin

PDF est l'abréviation de "Portable Document Format" (format de document portable) Il s'agit d'un format de fichier développé par Adobe qui préserve les polices, les images, les graphiques et la mise en page de tout document source, indépendamment de l'application et de la plate-forme utilisées pour le créer. Les fichiers PDF sont généralement utilisés pour partager et visualiser des documents dans un format cohérent, quel que soit le logiciel ou le matériel utilisé pour les ouvrir. IronOCR gère facilement les différentes versions d'un document PDF.

Commencez avec IronOCR

Commencez à utiliser IronOCR dans votre projet dès aujourd'hui avec un essai gratuit.

Première étape :
green arrow pointer



Lire l'exemple PDF

Commencez par instancier la classe IronTesseract pour effectuer l'OCR. Ensuite, utilisez une instruction " using " pour créer un objet OcrPdfInput, en lui transmettant le chemin d'accès au fichier PDF. Enfin, effectuez l'OCR à l'aide de la méthode Read.

:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-pdf.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Add PDF
using var pdfInput = new OcrPdfInput("Potter.pdf");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Add PDF
Private pdfInput = New OcrPdfInput("Potter.pdf")
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(pdfInput)
VB   C#
Lire le fichier PDF

Dans la plupart des cas, il n'est pas nécessaire de spécifier la propriété DPI. Cependant, le fait de fournir un nombre élevé de DPI lors de la construction d'OcrPdfInput peut améliorer la précision de la lecture.

Lire les pages d'un PDF Exemple

Lors de la lecture de pages spécifiques d'un document PDF, l'utilisateur peut spécifier le numéro d'index de la page à importer. Pour ce faire, passez la liste des index de pages au paramètre PageIndices lors de la construction de l'OcrPdfInput. N'oubliez pas que les index de page utilisent une numérotation basée sur le zéro.

:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-pdf-pages.cs
using IronOcr;
using System.Collections.Generic;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Create page indices list
List<int> pageIndices = new List<int>() { 0, 2 };

// Add PDF
using var pdfInput = new OcrPdfInput("Potter.pdf", PageIndices: pageIndices);
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);
Imports IronOcr
Imports System.Collections.Generic

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Create page indices list
Private pageIndices As New List(Of Integer)() From {0, 2}

' Add PDF
Private pdfInput = New OcrPdfInput("Potter.pdf", PageIndices:= pageIndices)
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(pdfInput)
VB   C#

Spécifier la région de balayage

En réduisant la zone à lire, vous pouvez améliorer considérablement l'efficacité de la lecture. Pour ce faire, vous pouvez spécifier la région précise du PDF importé qui doit être lue. Dans l'exemple de code ci-dessous, j'ai demandé à IronOCR de se concentrer uniquement sur l'extraction du numéro et du titre du chapitre.

:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-specific-region.cs
using IronOcr;
using IronSoftware.Drawing;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Specify crop regions
Rectangle[] scanRegions = { new Rectangle(550, 100, 600, 300) };

// Add PDF
using (var pdfInput = new OcrPdfInput("Potter.pdf", ContentAreas: scanRegions))
{
    // Perform OCR
    OcrResult ocrResult = ocrTesseract.Read(pdfInput);

    // Output the result to console
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports IronSoftware.Drawing
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Specify crop regions
Private scanRegions() As Rectangle = { New Rectangle(550, 100, 600, 300) }

' Add PDF
Using pdfInput = New OcrPdfInput("Potter.pdf", ContentAreas:= scanRegions)
	' Perform OCR
	Dim ocrResult As OcrResult = ocrTesseract.Read(pdfInput)

	' Output the result to console
	Console.WriteLine(ocrResult.Text)
End Using
VB   C#

Résultat du ROC

Lire une région spécifique
Chaknith related to Résultat du ROC

Chaknith Bin

Ingénieur logiciel

Chaknith est le Sherlock Holmes des développeurs. C'est en s'amusant à relever des défis de code qu'il s'est rendu compte pour la première fois qu'il pourrait avoir un avenir dans le domaine de l'ingénierie logicielle. Il se concentre sur IronXL et IronBarcode, mais il est fier d'aider les clients avec chaque produit. Chaknith tire parti des connaissances qu'il a acquises en discutant directement avec les clients pour améliorer les produits eux-mêmes. Ses commentaires anecdotiques vont au-delà des tickets Jira et soutiennent le développement de produits, la documentation et le marketing, afin d'améliorer l'expérience globale des clients.Quand il n'est pas au bureau, on peut le trouver en train d'apprendre sur l'apprentissage automatique, le codage et la randonnée.