L'INDUSTRIE

Comment utiliser C# pour convertir des documents HTML en PDF et OCR pour l'industrie juridique

Publié janvier 14, 2025
Partager:

Dans le paysage numérique moderne en constante évolution, l'automatisation joue un rôle essentiel dans l'amélioration de l'efficacité et de la précision. Une tâche courante dans l'automatisation juridique est la conversion d'une collection de fichiers HTML en un seul document PDF consultable.

Dans ce guide, nous examinerons comment Iron Suite, un ensemble puissant d'outils de développement conçu pour les environnements .NET peut rationaliser ce processus.

Iron Suite : Un ensemble d'outils complet pour les développeurs .NET

IronSoftware's Iron Suiteest une collection complète de composants logiciels .NET conçue pour rationaliser les processus de développement et améliorer la productivité des développeurs travaillant avec divers cadres .NET. IronSoftware, un fournisseur de premier plan d'outils logiciels .NET, propose Iron Suite comme une solution tout-en-un pour les développeurs à la recherche de composants de haute qualité pour des tâches allant de la manipulation de documents à la génération de codes-barres et au-delà.

Iron Suite for .NET : La Suite .NET pour votre bureau

Au cœur d'Iron Suite se trouve un riche assortiment de bibliothèques et d'outils conçus pour répondre aux défis courants rencontrés dans les projets de développement logiciel. Voici un aperçu de certains des principaux composants de l'Iron Suite :

  • IronPDFPour créer, modifier et gérer des documents PDF, y compris la conversion de HTML en PDF.
  • IronWordPermet de créer et d'éditer des fichiers DOC et DOCX.
  • IronXL: Permet de travailler directement avec des fichiers Excel, permettant la lecture, la modification et la création sans nécessiter Microsoft Office ou Excel Interop.
  • IronOCR: Fournit une fonctionnalité de reconnaissance optique de caractères pour extraire le texte des images dans plus de 127 langues.
  • IronBarcode: Offre la capacité de lire et écrire divers formats de codes-barres, y compris les codes QR.
  • IronQR: Spécifiquement axé sur la génération, la lecture et le style des codes QR.
  • IronZIP: Permet de compresser et de décompresser des fichiers au format ZIP.
  • IronPrint: Fournit des fonctionnalités pour gérer les tâches d'impression et interagir directement avec les imprimantes à partir de votre code .NET.
  • IronWebScraperConçu pour extraire efficacement des données structurées à partir de sites web.

Conversion HTML en PDF et analyse OCR avec Iron Suite

Imaginez un scénario où vous devez traiter un fichier zip contenant des fichiers HTML, et votre objectif est de convertir ces fichiers HTML en format PDF pour un OCR ultérieur.(Reconnaissance optique de caractères)analyse. Pour accomplir cette tâche de manière efficace et efficiente, tirer parti des capacités des trois bibliothèques essentielles d'Iron Suite est la solution optimale. Passons en revue brièvement chacune des bibliothèques.

IronZIP - La bibliothèque d'archives Zip C# .NET

Simplifier la compression et l'extraction de fichiers,IronZIPpermet une gestion transparente des archives zip au sein des applications C#. Son API intuitive permet une extraction facile des fichiers HTML depuis notre archive zip.

Use Csharp Convert Html To Pdf Ocr Documents For Legal Industry 2 related to IronZIP - La bibliothèque d'archives Zip C...

Quelques caractéristiques clés d'IronZIP :

  • Compression et Décompression : Prend en charge divers formats d'archives comme ZIP, ZIPX, RAR, 7Z et plus encore.
  • Chiffrement et Déchiffrement : Sécurisez vos archives avec un mot de passe traditionnel ou un chiffrement AES plus puissant.(256 bits par défaut).
  • Opérations de streaming : Traitez de grandes archives efficacement sans charger l'intégralité du fichier en mémoire.
  • Création d'archives auto-extractibles : Créez des archives exécutables qui peuvent être extraites sans nécessiter IronZIP.

IronPDF - La Bibliothèque PDF C#

En tant que bibliothèque robuste de rendu et de manipulation de PDF,IronPDFfacilite la création et la manipulation de documents PDF directement dans le code C#. Avec des fonctionnalités comme la conversion de HTML en PDF, il est parfait pour notre tâche de convertir des fichiers HTML au format PDF.

IronPDF for .NET : La bibliothèque PDF C#

Quelques fonctionnalités clés de la DLL IronPDF :

  • Conversion HTML en PDF : Convertissez le contenu d'une chaîne HTML ou un document HTML, y compris CSS et JavaScript, en PDF de haute qualité.
  • Création et manipulation de PDF : Créez de nouveaux PDF à partir de zéro, fusionnez des PDF existants ou extrayez des pages.
  • Personnalisation de la page : Contrôlez la mise en page, les marges, les en-têtes, les pieds de page et les filigranes.
  • Gestion des formulaires : Capturer les données de formulaire à partir de sources HTML et remplir les formulaires PDF.

IronOCR - La bibliothèque OCR C#

Un outil inestimable pour l'extraction de texte,IronOCRspécialisé dans l'extraction de texte à partir de diverses sources, y compris les documents numérisés et les fichiers PDF. Sa polyvalence le rend idéal pour extraire du texte consultable de notre document PDF généré.

IronOCR for .NET : La bibliothèque OCR pour C#

Quelques fonctionnalités clés de IronOCR :

  • Reconnaissance Optique de Caractères : Extrayez du texte à partir de documents numérisés, d'images et de PDF avec une grande précision.
  • Support multilingue : Reconnaît du texte dans plus de 127 langues.
  • Analyse de Mise en Page : Préserve autant que possible le formatage original du texte extrait.
  • Précision Personnalisable : Affinez la précision de l'OCR en utilisant diverses configurations.

Création d'un projet Visual Studio

Pour commencer, créez un nouveau projet Visual Studio pour notre tâche d'automatisation juridique. Assurez-vous d'avoir l'environnement nécessaire configuré pour le développement .NET. Suivez les étapes pour créer un projet dans Visual Studio:

  1. Ouvrez Visual Studio et cliquez sur l'option "Créer un nouveau projet".

    Ouvrez l'IDE Visual Studio et cliquez sur l'option Créer un nouveau projet.

  2. Choisissez le modèle de projet approprié en fonction de vos besoins(par exemple, application console, application Windows Forms).

    Pour le nouveau projet, sélectionnez une Application Console en C#.

  3. Spécifiez le nom et l'emplacement du projet, puis cliquez sur "Suivant".

    Configurez votre projet en spécifiant le nom du projet, l'emplacement et le nom de la solution.

  4. Dans la rubrique Informations complémentaires, sélectionnez le dernier Framework .NET.

    Ensuite, sélectionnez le framework .NET et cliquez sur Créer.

  5. Cliquez sur "Créer" pour créer le projet.

Installation des bibliothèques

Ensuite, installez les trois bibliothèques essentielles - IronZIP, IronPDF et IronOCR - dans votre projet. Vous pouvez facilement le faire en téléchargeant les packages respectifs à partir d'Iron Software.site webou en utilisant le gestionnaire de packages NuGet dans Visual Studio.

Installer à l'aide du gestionnaire de packages NuGet pour Solutions

Pour intégrer les bibliothèques dans votre projet .NET :

  • Dans votreVisual StudioC# ConsoleApp, cliquez avec le bouton droit sur votre projet dans l'Explorateur de solutions et sélectionnez "Gérer les packages NuGet pour la solution".

IronZIP

  1. Dans la fenêtre du gestionnaire de packages NuGet, recherchez "IronZip".

    Installez IronZIP en utilisant Gérer les packages NuGet pour la solution en recherchant IronZIP dans la barre de recherche du gestionnaire de packages NuGet, puis sélectionnez le projet et cliquez sur le bouton Installer.

  2. Sélectionnez "IronZIP" dans les résultats de recherche et cliquez sur le bouton "Installer".

  3. NuGet téléchargera et ajoutera automatiquement les dépendances nécessaires à votre projet.

IronPDF

  1. Dans la fenêtre du gestionnaire de packages NuGet, recherchez "IronPDF".

    Installez IronPDF en utilisant le Gestionnaire de packages NuGet pour solution en recherchant IronPdf dans la barre de recherche du Gestionnaire de packages NuGet, puis sélectionnez le projet et cliquez sur le bouton Installer.

  2. Sélectionnez "IronPDF" dans les résultats de recherche et cliquez sur le bouton "Installer".

    IronOCR

  3. Dans la fenêtre du gestionnaire de paquets NuGet, recherchez "IronOCR".

    Installez IronOCR en utilisant la gestion des packages NuGet pour la solution en recherchant IronOCR dans la barre de recherche du gestionnaire de packages NuGet, puis sélectionnez le projet et cliquez sur le bouton Installer.

  4. Sélectionnez "IronOCR" dans les résultats de recherche et cliquez sur le bouton "Installer".

Étapes pour convertir un fichier HTML en fichier PDF

Désormais, pour convertir facilement du HTML en PDF et ensuite effectuer l'OCR, nous avons mis en place les bibliothèques de l'Iron Suite, chacune offrant des fonctionnalités uniques adaptées à notre tâche. L'archive zip suivante contenant plusieurs fichiers de pages web HTML sera utilisée pour extraire les fichiers HTML, puis convertir les fichiers HTML au format de fichier PDF pour l'analyse OCR :

Archive ZIP website.zip contenant trois fichiers HTML

Le fichier Zip montré dans la capture d'écran ci-dessus contient 3 pages web HTML d'un site web simple. Les pages HTML contiennent du code HTML simple qui sera transmis à la méthode du convertisseur PDF pour convertir les fichiers HTML en un seul document PDF. Ensuite, l'OCR sera appliqué pour analyser les éléments HTML dans le document PDF généré et imprimer tout le contenu HTML dans la fenêtre de la console.

1. Incluant les bibliothèques Iron Suite (espaces de noms .NET)

Pour utiliser les fonctionnalités offertes par Iron Suite dans notre projet C#, nous devrons référencer les espaces de noms appropriés pour chaque bibliothèque. Voici comment les inclure dans notre fichier Program.cs :

using IronZip;
using IronPdf;
using IronOcr;
using IronZip;
using IronPdf;
using IronOcr;
Imports IronZip
Imports IronPdf
Imports IronOcr
VB   C#

2. Extraire des fichiers HTML de Zip en utilisant IronZIP :

Tout d'abord, nous utiliserons l'API intuitive d'IronZIP pour extraire des fichiers HTML de l'archive zip. Avec un simple appel de méthode, nous pouvons efficacementextraitles fichiers nécessaires pour continuer le processus de conversion.

// Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
// Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
' Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted")
VB   C#

Pour tirer le meilleur parti de la bibliothèque IronZIP, veuillez visiter ce documentation page.

Sortie - Fichiers HTML extraits

Sortie : Fichiers HTML extraits de l'archive website.zip en utilisant IronZIP.

3. Convertir le HTML en PDF en utilisant IronPDF :

Deuxièmement, nous utiliserons les puissantes capacités d'IronPDF pour convertir facilement tous les fichiers HTML extraits en un seul document PDF. Avec son API simple, nous pouvons facilement générer des PDF de haute qualité directement dans notre code C#.

// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
' Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
Dim renderer As New ChromePdfRenderer()

' Initialize an empty list to store the individual PDF documents
Dim pdfs As New List(Of PdfDocument)()

' Get all HTML files with the .html extension from the "extracted" folder
Dim htmlFiles = Directory.EnumerateFiles("extracted", "*.html")

' Loop through each HTML file
For Each htmlFile In htmlFiles
	' Render the current HTML file as a PDF document using the ChromePdfRenderer
	Dim pdf = renderer.RenderHtmlFileAsPdf(htmlFile)

	' Add the generated PDF document to the list
	pdfs.Add(pdf)
Next htmlFile

' Merge all the individual PDF documents in the list into a single PDF document
Dim document = PdfDocument.Merge(pdfs)

' Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf")
VB   C#

IronPDF ne fournit pas seulement la conversion PDF à partir de fichiers HTML, de formulaires HTML, de chaînes HTML ou d'URL, mais aussi à partir d'autres formats vers PDF. Pour des informations plus détaillées et des extraits de code prêts à l'emploi, veuillez visiter ce sitedocumentation etexemples de code page.

Sortie - PDF

Sortie de génération de PDF : conversion des fichiers HTML extraits en fichiers PDF, puis fusion des fichiers PDF convertis en un seul document PDF à l'aide de IronPDF.

Le fichier PDF de sortie affiche clairement le contenu de chaque page HTML sur une page PDF distincte en utilisant le puissant moteur de conversion HTML Chromium d'IronPDF.

En plus de cela, vous pouvez également utiliserIronPrint for .NET - La bibliothèque d'impression C#pour imprimer le fichier PDF généré. IronPrint envoie efficacement les PDFs ou les images à l'imprimante par défaut pour l'impression.

Pour plus d'informations sur la façon d'imprimer un document avec IronPrint, veuillez visiter ce sitedocumentation page.

4. Extraire du texte en utilisant IronOCR :

Enfin, employezIronOCRextraire le texte interrogeable du document PDF généré. En utilisant les fonctionnalités avancées d'extraction de texte d'IronOCR, nous pouvons garantir que le texte extrait est précis et prêt pour un traitement ultérieur.

Le code suivant extrait le fichier PDF généré à partir d'IronPDF et effectue avec succèsOCRpour une analyse plus approfondie :

// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
' Create an IronTesseract object for Optical Character Recognition (OCR)
Dim ocrTesseract = New IronTesseract()

' Create an OcrInput object to specify the input for OCR processing
Dim ocrInput As New OcrInput()

' Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf")

' Perform OCR on the loaded PDF using the IronTesseract engine
Dim ocrResult = ocrTesseract.Read(ocrInput)

' Print the extracted text to the console
Console.WriteLine(ocrResult.Text)
VB   C#

Pour une analyse plus détaillée du texte, visitez cette page d'exemples de code prêts à l'emploi.ici.

Sortie - Texte PDF

Sortie Console : Extraction de texte à partir d'un fichier PDF à l'aide de IronOCR

La sortie parle d'elle-même : Rapide, Précise, et Sans Erreur, attestant de l'efficacité de IronOCR.

Pourquoi Iron Suite ?

Iron Suitese distingue comme une suite .NET leader sur le marché pour vos documents de bureau, offrant plusieurs raisons convaincantes pour sa supériorité.

1. 9 pour le prix de 2 :

Avec Iron Suite, vous avez accès à les neuf produits Iron Software pour lesprixde seulement deux produits individuels. Cette proposition de valeur incroyable garantit que vous disposez d'une boîte à outils complète sans vous ruiner.

Informations sur la licence Iron Suite.

2. Compatibilité multiplateforme :

Iron Suite est conçu pour fonctionner parfaitement sur plusieurs plateformes, y compris Windows, macOS, Linux, Docker, Azure, et AWS. Que vous développiez des applications pour des environnements de bureau, web ou cloud, Iron Suite couvre tous vos besoins.

3. Configuration rapide :

À partir du moment où vous téléchargez Iron Suite jusqu'à son déploiement en production, vous pouvez être opérationnel en seulement cinq minutes. Le processus d'installation simple et les API intuitives permettent aux développeurs de commencer à exploiter les capacités de la suite avec un temps de configuration minimal.

4. Documentation complète :

Dites adieu aux approximations et aux tâtonnements. Iron Suite est livré avec une documentation détaillée et des exemples pour chaque composant, garantissant que les développeurs disposent de conseils clairs et de ressources à portée de main pour maximiser leur productivité.

5. Assistance technique 24/5 :

Besoin d'assistance ou avez-vous des questions sur l'utilisation de l'Iron Suite ? L'équipe dédiée d'ingénieurs est disponible 24h/24, cinq jours par semaine, pour fournir un support technique et résoudre tout problème que vous pourriez rencontrer. Soyez assuré que l'aide est toujours à un message près.

6. Garantie de remboursement :

Iron Suite offre une garantie de remboursement de 30 jours. Si, pour une raison quelconque, vous n'êtes pas entièrement satisfait de votre achat, faites-le simplement savoir à l'équipe Iron dans les 30 jours et ils vous rembourseront votre paiement, sans poser de questions.

7. Commencez votre essai gratuit :

Prêt à découvrir par vous-même la puissance et la polyvalence d'Iron Suite ? Commencez votre essai gratuit aujourd'hui et découvrez comment la suite complète d'outils de documents .NET peut rationaliser vos flux de travail de développement et ouvrir de nouvelles possibilités pour vos projets.

Conclusion

En conclusion, Iron Suite offre aux développeurs .NET une boîte à outils complète pour rationaliser les tâches d'automatisation légale telles que la génération de PDF et la conversion de fichiers HTML en documents PDF consultables. En exploitant la puissance deIronZIP, IronPDFetIronOCR, les développeurs peuvent automatiser et optimiser leurs flux de travail, améliorant ainsi l'efficacité et la précision dans le traitement des documents juridiques. AvecIron Suiteà votre disposition, les possibilités d'automatisation sont infinies.

Pour la tâche de conversion HTML en PDF, nous avons utilisé les trois bibliothèques essentielles de l'Iron Suite : IronZIP, IronPDF et IronOCR. IronPrint peut également être un candidat potentiel pour cette tâche si une installation d'impression est nécessaire. Si elles étaient achetées individuellement, ces quatre bibliothèques coûteraient un total de $749 * 4 = $2,996.

Cependant, avec Iron Suite, vous accédez non pas à trois ou quatre, mais à neuf bibliothèques puissantes pour le prix de seulement deux produits individuels. C'est une proposition de valeur incroyable, vous offrant une boîte à outils complète pour tous vos besoins de développement .NET. Pour seulement 1 498 $,IronSuiteoffre une valeur exceptionnelle, vous faisant économiser à la fois du temps et de l'argent, tout en vous dotant d'une large gamme d'outils pour rationaliser vos flux de travail de développement.

< PRÉCÉDENT
Iron Suite : Création de PDF en C# et OCR sans effort pour les flux de travail médicaux