Passer au contenu du pied de page
UTILISATION D'IRONOCR
Libérer le pouvoir des PDF consultables avec IronOCR

Déverrouiller la puissance des PDF consultables avec IronOCR : Récapitulatif du webinaire

Dans le webinaire " Rationalisation de la conversion de documents avec IronOCR ", Chipego Kalinda (ingénieur commercial logiciel) et Darren Steddy (responsable des opérations commerciales) ont exploré trois cas d'utilisation pratiques d' IronOCR avec du code en direct et des exemples concrets, démontrant à quel point il est efficace et facile de convertir des PDF numérisés en documents consultables et conformes.

IronOCR permet aux entreprises de convertir des PDF numérisés en documents consultables et conformes en quelques lignes de code seulement, automatisant l'extraction de données et répondant aux normes d'accessibilité telles que PDF/UA pour la conformité légale et l'efficacité opérationnelle.

Comment puis-je rendre mes fichiers PDF conformes à la norme PDF/UA ?

Pourquoi les normes PDF/UA sont-elles importantes pour mon entreprise ?

De nombreuses organisations doivent se conformer à des normes d'accessibilité et de conformité telles que PDF/UA, que ce soit pour des politiques internes, des mandats du secteur public ou l'archivage à long terme. La norme PDF/UA (Accessibilité universelle) garantit que les fichiers PDF sont pleinement accessibles aux utilisateurs handicapés, notamment ceux qui utilisent des technologies d'assistance comme les lecteurs d'écran. Il ne s'agit pas seulement de conformité, mais aussi de garantir un accès égal à l'information pour tous les utilisateurs, tout en évitant d'éventuels problèmes juridiques liés aux violations d'accessibilité.

Qu'est-ce qui rend l'approche IronOCR si simple ?

Chipego a démontré comment IronOCR convertit un PDF ordinaire non conforme en un document entièrement conforme aux normes PDF/UA en seulement quelques lignes de code .

using IronOcr;
using IronPdf;

// Initialize IronOCR
var ocr = new IronTesseract();

// Configure OCR for accessibility compliance
ocr.Configuration.ReadBarCodes = true;
ocr.Configuration.RenderSearchablePdf = true;

// Read the scanned PDF
using var input = new OcrInput();
input.AddPdf("scanned-document.pdf");

// Perform OCR and create searchable PDF/UA compliant document
var result = ocr.Read(input);
result.SaveAsSearchablePdf("compliant-output.pdf");
using IronOcr;
using IronPdf;

// Initialize IronOCR
var ocr = new IronTesseract();

// Configure OCR for accessibility compliance
ocr.Configuration.ReadBarCodes = true;
ocr.Configuration.RenderSearchablePdf = true;

// Read the scanned PDF
using var input = new OcrInput();
input.AddPdf("scanned-document.pdf");

// Perform OCR and create searchable PDF/UA compliant document
var result = ocr.Read(input);
result.SaveAsSearchablePdf("compliant-output.pdf");
$vbLabelText   $csharpLabel

Le résultat a été vérifié à l'aide de VeraPDF, un outil de validation pour les normes d'accessibilité et d'archivage. Cette étape de validation est cruciale pour les organisations qui doivent prouver leur conformité aux exigences d'audit ou réglementaires.

Qui tire le plus grand profit de la conformité PDF/UA ?

La conformité PDF/UA garantit que les utilisateurs malvoyants peuvent accéder à vos documents à l'aide de lecteurs d'écran, assurant ainsi la conformité légale et une conception inclusive. Les agences gouvernementales, les établissements d'enseignement et les organismes de santé en bénéficient particulièrement, car ils ont souvent des exigences strictes en matière d'accessibilité. De plus, les entreprises opérant dans l'UE doivent se conformer à la loi européenne sur l'accessibilité, ce qui rend la conformité aux normes PDF/UA essentielle pour l'accès au marché.

Démonstration de la création de PDF consultables avec IronOCR : comparaison des documents avant et après traitement .

Comment rendre consultables les fichiers PDF numérisés ?

Quel problème cela résout-il ?

Avez-vous déjà eu un document numérisé qui ressemble à un PDF mais se comporte comme une image ? C'est là qu'intervient la technologie OCR . De nombreuses entreprises peinent à gérer leurs archives de documents anciens contenant des milliers de PDF numérisés ; ces fichiers occupent de l'espace de stockage mais n'offrent aucune capacité de recherche ou d'extraction de données. Sans la reconnaissance optique de caractères (OCR), les employés perdent d'innombrables heures à rechercher manuellement des documents, ce qui entraîne une baisse de la productivité et une augmentation des coûts opérationnels.

Comment fonctionne le processus de conversion ?

Chipego a démontré comment IronOCR transforme un PDF numérisé non consultable en un PDF consultable , permettant instantanément des fonctionnalités de recherche en texte intégral. Le processus comporte plusieurs étapes complexes :

using IronOcr;

// Create a new OCR engine instance
var ocr = new IronTesseract();

// Configure language and accuracy settings
ocr.Language = OcrLanguage.English;
ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;

// Load the scanned PDF
using var input = new OcrInput();
input.AddPdf("invoice-scan.pdf");

// Apply image improve for better accuracy
input.DeNoise();
input.Deskew();
input.EnhanceResolution(225);

// Perform OCR and save as searchable PDF
var result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-invoice.pdf");

// Extract text for indexing
string extractedText = result.Text;
Console.WriteLine($"Extracted {extractedText.Length} characters");
using IronOcr;

// Create a new OCR engine instance
var ocr = new IronTesseract();

// Configure language and accuracy settings
ocr.Language = OcrLanguage.English;
ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;

// Load the scanned PDF
using var input = new OcrInput();
input.AddPdf("invoice-scan.pdf");

// Apply image improve for better accuracy
input.DeNoise();
input.Deskew();
input.EnhanceResolution(225);

// Perform OCR and save as searchable PDF
var result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-invoice.pdf");

// Extract text for indexing
string extractedText = result.Text;
Console.WriteLine($"Extracted {extractedText.Length} characters");
$vbLabelText   $csharpLabel

Après conversion, les utilisateurs peuvent trouver un contenu spécifique à l'aide de Ctrl+F ou effectuer une recherche par mots-clés tels que des dates, des noms ou des sujets de documents. Le moteur OCR préserve intelligemment la mise en page originale du document tout en ajoutant une couche de texte invisible qui rend le contenu consultable et sélectionnable.

Quels secteurs tirent le plus grand profit des PDF consultables ?

Idéal pour :

  • Les cabinets d'avocats qui gèrent les dossiers et les contrats
  • Les prestataires de soins de santé qui gèrent les dossiers des patients
  • Équipes numérisant des documents papier nécessitant une recherche de contenu rapide
  • Les institutions financières chargées du traitement et de la conformité des factures
  • Les sociétés immobilières numérisent les documents de propriété

La capacité à localiser rapidement des informations spécifiques dans de vastes bases de données documentaires peut réduire le temps de recherche jusqu'à 90 %, selon les estimations du secteur.

! Interface IronOCR affichant les fonctionnalités d'extraction et de recherche de texte dans les PDF convertis

Comment extraire des données spécifiques d'un fichier PDF ?

Quand dois-je utiliser l'extraction ciblée ?

Pour les entreprises traitant de gros volumes de documents structurés tels que des reçus, des bons de commande ou des factures, Chipego a démontré comment IronOCR extrait des données de régions PDF spécifiques à l'aide des coordonnées de la boîte englobante. Cette approche ciblée est particulièrement précieuse lorsqu'il s'agit de formulaires standardisés où les informations essentielles apparaissent toujours au même endroit, comme les montants totaux sur les factures, les dates sur les contrats ou les identifiants clients sur les bons de commande.

Comment le traitement régional améliore-t-il les performances ?

Au lieu de traiter tout le fichier, IronOCR se concentre uniquement sur les champs pertinents tels que les numéros de commande, les totaux ou les adresses, améliorant considérablement la vitesse et réduisant les coûts de cloud ou de calcul. Voici comment mettre en œuvre l'extraction ciblée :

using IronOcr;
using System.Drawing;

var ocr = new IronTesseract();

// Load PDF and define extraction regions
using var input = new OcrInput();
input.AddPdf("purchase-order.pdf", 1); // Process first page only

// Define bounding box for PO number field (x, y, width, height)
var poNumberArea = new Rectangle(450, 100, 150, 50);
input.AddPdfPage("purchase-order.pdf", 1, poNumberArea);

// Extract just the PO number
var result = ocr.Read(input);
string poNumber = result.Text.Trim();

// Define multiple regions for batch extraction
var regions = new Dictionary<string, Rectangle>
{
    { "PONumber", new Rectangle(450, 100, 150, 50) },
    { "TotalAmount", new Rectangle(450, 600, 150, 50) },
    { "VendorName", new Rectangle(50, 200, 300, 50) }
};

// Extract data from each region
var extractedData = new Dictionary<string, string>();
foreach (var region in regions)
{
    input.Clear();
    input.AddPdfPage("purchase-order.pdf", 1, region.Value);
    var regionResult = ocr.Read(input);
    extractedData[region.Key] = regionResult.Text.Trim();
}
using IronOcr;
using System.Drawing;

var ocr = new IronTesseract();

// Load PDF and define extraction regions
using var input = new OcrInput();
input.AddPdf("purchase-order.pdf", 1); // Process first page only

// Define bounding box for PO number field (x, y, width, height)
var poNumberArea = new Rectangle(450, 100, 150, 50);
input.AddPdfPage("purchase-order.pdf", 1, poNumberArea);

// Extract just the PO number
var result = ocr.Read(input);
string poNumber = result.Text.Trim();

// Define multiple regions for batch extraction
var regions = new Dictionary<string, Rectangle>
{
    { "PONumber", new Rectangle(450, 100, 150, 50) },
    { "TotalAmount", new Rectangle(450, 600, 150, 50) },
    { "VendorName", new Rectangle(50, 200, 300, 50) }
};

// Extract data from each region
var extractedData = new Dictionary<string, string>();
foreach (var region in regions)
{
    input.Clear();
    input.AddPdfPage("purchase-order.pdf", 1, region.Value);
    var regionResult = ocr.Read(input);
    extractedData[region.Key] = regionResult.Text.Trim();
}
$vbLabelText   $csharpLabel

Cette approche ciblée permet de réduire le temps de traitement de 70 à 80 % par rapport à la reconnaissance optique de caractères (OCR) pleine page, ce qui la rend idéale pour les scénarios de traitement de documents à volume élevé.

Quels sont les avantages pour l'entreprise ?

Cela automatise les tâches répétitives de saisie de données, réduisant ainsi les efforts manuels, améliorant la précision et libérant les équipes pour des tâches à plus forte valeur ajoutée. Les entreprises déclarent économiser de 20 à 30 heures par semaine rien que sur la saisie de données. Les données extraites peuvent être exportées automatiquement vers des bases de données, intégrées aux systèmes existants ou déclencher des flux de travail automatisés. Par exemple, les totaux des factures extraits peuvent mettre à jour automatiquement les systèmes comptables, tandis que les informations client extraites peuvent alimenter les fiches CRM sans intervention manuelle.

Comment IronOCR gère-t-il l'automatisation à grande échelle ?

IronOCR peut-il traiter plusieurs fichiers simultanément ?

Bien que le webinaire ait présenté des exemples de code individuels, IronOCR est conçu pour le traitement par lots à grande échelle. Que vous convertissiez des centaines ou des millions de fichiers, IronOCR s'intègre facilement à vos systèmes existants. La solution d'entreprise prend en charge le multithreading et le traitement distribué, permettant aux organisations de traiter des milliers de documents par heure. Voici un exemple de traitement par lots :

using IronOcr;
using System.IO;
using System.Threading.Tasks;

public async Task ProcessDocumentBatch(string folderPath)
{
    var ocr = new IronTesseract();
    ocr.Configuration.RenderSearchablePdf = true;

    // Get all PDF files in directory
    var pdfFiles = Directory.GetFiles(folderPath, "*.pdf");

    // Process files in parallel for maximum efficiency
    await Parallel.ForEachAsync(pdfFiles, async (file, ct) =>
    {
        using var input = new OcrInput();
        input.AddPdf(file);

        var result = await Task.Run(() => ocr.Read(input));

        // Save searchable version
        var outputPath = Path.Combine(folderPath, "searchable", Path.GetFileName(file));
        result.SaveAsSearchablePdf(outputPath);

        // Log processing results
        Console.WriteLine($"Processed: {file} - {result.Pages.Length} pages");
    });
}
using IronOcr;
using System.IO;
using System.Threading.Tasks;

public async Task ProcessDocumentBatch(string folderPath)
{
    var ocr = new IronTesseract();
    ocr.Configuration.RenderSearchablePdf = true;

    // Get all PDF files in directory
    var pdfFiles = Directory.GetFiles(folderPath, "*.pdf");

    // Process files in parallel for maximum efficiency
    await Parallel.ForEachAsync(pdfFiles, async (file, ct) =>
    {
        using var input = new OcrInput();
        input.AddPdf(file);

        var result = await Task.Run(() => ocr.Read(input));

        // Save searchable version
        var outputPath = Path.Combine(folderPath, "searchable", Path.GetFileName(file));
        result.SaveAsSearchablePdf(outputPath);

        // Log processing results
        Console.WriteLine($"Processed: {file} - {result.Pages.Length} pages");
    });
}
$vbLabelText   $csharpLabel

Quelles sont les options d'assistance disponibles ?

Besoin d'aide ? Iron Software propose une assistance technique 24h/24 et 5j/7 par chat et e-mail pour vous permettre d'être opérationnel rapidement. Leur équipe d'assistance comprend des spécialistes de la reconnaissance optique de caractères (OCR) qui peuvent vous aider à améliorer votre cas d'utilisation spécifique, que vous ayez affaire à des types de documents complexes, à plusieurs langues ou à des exigences d'intégration complexes. De plus, une documentation complète et des exemples de code aident les développeurs à implémenter les solutions de manière indépendante.

Prêt à rendre vos PDF consultables, conformes et prêts pour l'automatisation ?

IronOCR transforme le traitement des documents, qui constituait un goulot d'étranglement manuel, en un flux de travail automatisé. Avec la prise en charge de plus de 125 langues, un prétraitement d'image avancé et une gestion fluide des fichiers PDF, c'est la solution complète pour la gestion moderne des documents. Que vous souhaitiez garantir la conformité, permettre la recherche ou extraire des données critiques, IronOCR offre des fonctionnalités OCR professionnelles avec une mise en œuvre conviviale pour les développeurs.

Consultez la documentation complète d'IronOCR et commencez dès aujourd'hui :

Essayer 30 jours d'essai

Questions Fréquemment Posées

Comment puis-je convertir un PDF scanné en un document consultable ?

Vous pouvez utiliser IronOCR pour convertir un PDF scanné non consultable en un document entièrement consultable. En appliquant la technologie OCR, cela permet des capacités de recherche en texte intégral, vous permettant de trouver du contenu spécifique à l'aide de mots-clés ou de phrases.

Quels sont les avantages de rendre les PDF conformes aux standards PDF/UA ?

Rendre les PDF conformes aux standards PDF/UA garantit l'accessibilité pour les utilisateurs malvoyants grâce aux lecteurs d'écran. IronOCR peut convertir des PDF non conformes en documents conformes PDF/UA avec seulement quelques lignes de code, vérifiés par des outils comme VeraPDF.

Comment IronOCR aide-t-il à l'extraction de données ciblée à partir de PDFs ?

IronOCR peut extraire des données de régions spécifiques d'un PDF en utilisant des coordonnées de boîte englobante. Cette fonctionnalité est particulièrement utile pour les documents structurés comme les factures ou les reçus, permettant de se concentrer sur les champs pertinents et d'améliorer l'efficacité du traitement.

Quel est le rôle d'IronOCR dans l'automatisation des tâches de traitement de documents ?

IronOCR est conçu pour le traitement par lots à grande échelle, idéal pour automatiser les tâches de conversion de documents. Il peut gérer efficacement de gros volumes de fichiers, s'intégrant parfaitement aux systèmes existants pour rationaliser les flux de travail.

Qui bénéficie de la conversion de PDFs scannés en formats consultables ?

Des organisations telles que les cabinets juridiques et les fournisseurs de soins de santé bénéficient de la conversion de PDFs scannés en formats consultables. Cela permet des recherches rapides basées sur le contenu dans de vastes archives, simplifiant la récupération d'informations.

Quelles sont les options de support disponibles pour les utilisateurs implémentant IronOCR ?

Iron Software propose une assistance technique 24/5 par chat et email pour aider les utilisateurs à implémenter IronOCR. Cette assistance garantit que les utilisateurs peuvent gérer efficacement leurs projets de conversion de documents et résoudre tout problème technique.

Comment puis-je m'assurer que mon projet de conversion de documents soit un succès ?

Pour garantir le succès, utilisez IronOCR pour ses fonctionnalités robustes et profitez du support technique fourni par Iron Software. Accédez à la documentation complète sur leur site officiel et envisagez leur essai de 30 jours pour explorer ses capacités.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite