INDUSTRIE

Comment utiliser C# pour convertir du HTML en PDF et OCR pour l'industrie juridique

Dans le paysage numérique actuel, en constante évolution, l'automatisation joue un rôle essentiel dans l'amélioration de l'efficacité et de la précision. Une tâche courante en automatisation juridique consiste à convertir un ensemble de fichiers HTML en un seul document PDF consultable.

Dans ce guide, nous verrons comment Iron Suite , un ensemble puissant d'outils de développement conçus pour les environnements .NET, peut simplifier ce processus.

Iron Suite : une boîte à outils complète pour les développeurs .NET

Iron Suite d'Iron Software est une collection complète de composants logiciels .NET conçue pour rationaliser les processus de développement et améliorer la productivité des développeurs travaillant avec différents frameworks .NET. Iron Software, fournisseur leader d'outils logiciels .NET, propose Iron Suite comme solution unique pour les développeurs à la recherche de composants de haute qualité pour des tâches allant de la manipulation de documents à la génération de codes-barres et bien plus encore.

Iron Suite for .NET : La suite .NET pour votre bureau

Au cœur d'Iron Suite se trouve un riche assortiment de bibliothèques et d'outils conçus pour répondre aux défis courants rencontrés dans les projets de développement logiciel. Voici un aperçu de certains des composants clés d'Iron Suite :

  • IronPDF : Pour créer, modifier et gérer des documents PDF, y compris la conversion de HTML en PDF.
  • IronWord : Permet de créer et de modifier des fichiers DOC et DOCX.
  • IronXL : Permet de travailler directement avec des fichiers Excel, permettant la lecture, la modification et la création sans nécessiter Microsoft Office ou Excel Interop.
  • IronOCR : Fournit une fonctionnalité de reconnaissance optique de caractères pour extraire du texte à partir d'images dans plus de 125 langues.
  • IronBarcode : Offre la possibilité de lire et d'écrire différents formats de codes-barres, y compris les codes QR.
  • IronQR : Spécialement conçu pour générer, lire et styliser les codes QR.
  • IronZIP : Permet de compresser et de décompresser des fichiers au format ZIP.
  • IronPrint : Fournit des fonctionnalités pour gérer les tâches d'impression et interagir avec les imprimantes directement depuis votre code .NET.
  • IronWebScraper : Conçu pour extraire efficacement des données structurées à partir de sites web.

Conversion HTML vers PDF et analyse OCR avec Iron Suite

Imaginez un scénario où vous devez traiter un fichier zip contenant des fichiers HTML, et votre objectif est de convertir ces fichiers HTML au format PDF pour une analyse OCR (reconnaissance optique de caractères) ultérieure. Pour accomplir cette tâche de manière efficace et efficiente, tirer parti des capacités des trois bibliothèques essentielles d'Iron Suite est la solution optimale. Passons brièvement en revue chacune des bibliothèques.

IronZIP - La bibliothèque .NET d'archivage Zip pour C

En simplifiant la compression et l'extraction de fichiers, IronZIP permet une gestion transparente des archives zip au sein des applications C#. Son API intuitive permet d'extraire facilement les fichiers HTML de notre archive zip.

Use Csharp Convert Html To Pdf Ocr Documents For Legal Industry 2 related to IronZIP - La bibliothèque .NET d'archi...

Quelques caractéristiques clés d'IronZIP :

  • Compression et décompression : Prend en charge différents formats d'archives tels que ZIP, ZIPX, RAR, 7Z, et plus encore.
  • Chiffrement et déchiffrement : Sécurisez vos archives avec un mot de passe traditionnel ou un chiffrement AES plus robuste (256 bits par défaut).
  • Opérations de flux : Traitez efficacement les archives volumineuses sans charger l'intégralité du fichier en mémoire.
  • Création d'archives auto-extractibles : Créez des archives exécutables qui peuvent être extraites sans nécessiter IronZIP.

IronPDF - La bibliothèque PDF pour C

En tant que bibliothèque robuste de rendu et de manipulation de fichiers PDF, IronPDF facilite la création et la manipulation de documents PDF directement dans le code C#. Grâce à des fonctionnalités comme la conversion HTML vers PDF, il est parfait pour notre tâche de conversion de fichiers HTML au format PDF.

IronPDF pour .NET : la bibliothèque PDF pour C#

Quelques caractéristiques clés de la DLL IronPDF :

  • Conversion HTML vers PDF : Convertissez le contenu de chaînes HTML ou de documents HTML, y compris CSS et JavaScript, en PDF de haute qualité.
  • Création et manipulation de fichiers PDF : créez de nouveaux PDF à partir de zéro, fusionnez des PDF existants ou extrayez des pages.
  • Personnalisation de la page : Contrôlez la mise en page, les marges, les en-têtes, les pieds de page et les filigranes.
  • Gestion des formulaires : Capture des données de formulaires à partir de sources HTML et remplissage des formulaires PDF.

IronOCR - La bibliothèque OCR pour C

IronOCR, un outil précieux pour l'extraction de texte, est spécialisé dans l'extraction de texte à partir de diverses sources, notamment les documents numérisés et les fichiers PDF. Sa polyvalence en fait un outil idéal pour extraire du texte consultable de nos documents PDF générés.

IronOCR pour .NET : la bibliothèque OCR C#

Quelques caractéristiques clés d'IronOCR :

  • Reconnaissance optique de caractères : Extraction de texte avec une grande précision à partir de documents numérisés, d'images et de fichiers PDF.
  • Prise en charge multilingue : reconnaît les textes dans plus de 125 langues.
  • Analyse de la mise en page : préserve autant que possible la mise en forme originale du texte extrait.
  • Précision personnalisable : Ajustez la précision de la reconnaissance optique de caractères (OCR) grâce à différentes configurations.

Création d'un projet Visual Studio

Pour commencer, créez un nouveau projet Visual Studio pour notre tâche d'automatisation juridique. Assurez-vous de disposer de l'environnement nécessaire au développement .NET. Suivez les étapes pour créer un projet dans Visual Studio :

  1. Ouvrez Visual Studio et cliquez sur l'option "Créer un nouveau projet".

Ouvrez l'IDE Visual Studio et cliquez sur l'option " Créer un nouveau projet ".

  1. Choisissez le modèle de projet approprié en fonction de vos besoins (par exemple, application console, application Windows Forms).

Pour le nouveau projet, sélectionnez une " application console " en C#.

  1. Spécifiez le nom et l'emplacement du projet, puis cliquez sur "Suivant".

Configurez votre projet en spécifiant son nom, son emplacement et le nom de la solution.

  1. Dans les Informations supplémentaires, sélectionnez la dernière version du Framework .NET.

Ensuite, sélectionnez le framework .NET et cliquez sur Créer.

  1. Cliquez sur " Créer " pour créer le projet.

Installation des bibliothèques

Ensuite, installez les trois bibliothèques essentielles – IronZIP, IronPDF et IronOCR – dans votre projet. Vous pouvez facilement le faire en téléchargeant les packages correspondants depuis le site web d'Iron Software ou en utilisant le gestionnaire de packages NuGet dans Visual Studio.

Installer à l'aide du gestionnaire de packages NuGet pour les solutions

Pour intégrer les bibliothèques à votre projet .NET :

Dans votre application console C# de Visual Studio , cliquez avec le bouton droit sur votre projet dans l'Explorateur de solutions et sélectionnez " Gérer les packages NuGet pour la solution ".

IronZIP

  1. Dans la fenêtre du Gestionnaire de packages NuGet, recherchez " IronZip ".

Installez IronZIP en utilisant la fonction " Gérer les packages NuGet pour la solution " : recherchez " IronZIP " dans la barre de recherche du Gestionnaire de packages NuGet, puis sélectionnez le projet et cliquez sur le bouton " Installer ".

  1. Sélectionnez " IronZip " dans les résultats de la recherche et cliquez sur le bouton " Installer ".

  2. NuGet téléchargera et ajoutera automatiquement les dépendances nécessaires à votre projet.

IronPDF

  1. Dans la fenêtre du Gestionnaire de packages NuGet, recherchez " IronPDF ".

Installez IronPDF en utilisant la fonction " Gérer les packages NuGet pour la solution " : recherchez " IronPDF " dans la barre de recherche du Gestionnaire de packages NuGet, puis sélectionnez le projet et cliquez sur le bouton " Installer ".

  1. Sélectionnez " IronPDF " dans les résultats de la recherche et cliquez sur le bouton " Installer ".

IronOCR

  1. Dans la fenêtre du Gestionnaire de packages NuGet, recherchez " IronOCR ".

Installez IronOCR à l'aide de la fonction Gérer les packages NuGet pour la solution en recherchant " IronOCR " dans la barre de recherche du Gestionnaire de packages NuGet, puis sélectionnez le projet et cliquez sur le bouton Installer.

  1. Sélectionnez " IronOCR " dans les résultats de la recherche et cliquez sur le bouton " Installer ".

Étapes pour convertir un fichier HTML en fichier PDF

Pour convertir facilement le HTML en PDF et effectuer ensuite une reconnaissance optique de caractères (OCR), nous avons configuré les bibliothèques d'Iron Suite, chacune offrant des fonctionnalités uniques adaptées à notre tâche. L'archive zip suivante, contenant plusieurs fichiers de pages Web HTML, sera utilisée pour extraire les fichiers HTML, puis les convertir au format PDF pour l'analyse OCR :

! Archive ZIP " website.zip " contenant trois fichiers HTML

Le fichier ZIP affiché dans la capture d'écran ci-dessus contient trois pages web HTML issues d'un site web simple. Ces pages contiennent du code HTML basique qui sera transmis à la méthode de conversion PDF afin de les transformer en un seul document PDF. L'OCR sera ensuite appliquée pour analyser les éléments HTML du document PDF généré et imprimer tout le contenu HTML dans la fenêtre de la console.

1. Inclusion des bibliothèques Iron Suite (espaces de noms .NET)

Pour utiliser les fonctionnalités offertes par Iron Suite dans notre projet C#, nous devrons référencer les espaces de noms appropriés pour chaque bibliothèque. Voici comment les inclure dans notre fichier Program.cs :

using IronZip;
using IronPdf;
using IronOcr;
using IronZip;
using IronPdf;
using IronOcr;
Imports IronZip
Imports IronPdf
Imports IronOcr
$vbLabelText   $csharpLabel

2. Extraire les fichiers HTML d'un fichier Zip à l'aide d'IronZIP

Nous utiliserons tout d'abord l'API intuitive d'IronZIP pour extraire les fichiers HTML de l'archive ZIP. Un simple appel de méthode nous permettra d'extraire efficacement les fichiers nécessaires à la conversion.

// Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
// Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
' Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted")
$vbLabelText   $csharpLabel

Pour tirer le meilleur parti de la bibliothèque IronZIP, veuillez consulter cette page de documentation .

Sortie - Fichiers HTML extraits

! Résultat : fichiers HTML extraits de l'archive " website.zip " à l'aide d'IronZIP.

3. Convertir du HTML en PDF avec IronPDF

Deuxièmement, nous utiliserons les puissantes fonctionnalités d' IronPDF pour convertir facilement tous les fichiers HTML extraits en un seul document PDF. Grâce à son API simple d'utilisation, nous pouvons facilement générer des PDF de haute qualité directement dans notre code C#.

// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
' Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
Dim renderer As New ChromePdfRenderer()

' Initialize an empty list to store the individual PDF documents
Dim pdfs As New List(Of PdfDocument)()

' Get all HTML files with the .html extension from the "extracted" folder
Dim htmlFiles = Directory.EnumerateFiles("extracted", "*.html")

' Loop through each HTML file
For Each htmlFile In htmlFiles
	' Render the current HTML file as a PDF document using the ChromePdfRenderer
	Dim pdf = renderer.RenderHtmlFileAsPdf(htmlFile)

	' Add the generated PDF document to the list
	pdfs.Add(pdf)
Next htmlFile

' Merge all the individual PDF documents in the list into a single PDF document
Dim document = PdfDocument.Merge(pdfs)

' Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf")
$vbLabelText   $csharpLabel

IronPDF permet non seulement la conversion de fichiers HTML, de formulaires HTML, de chaînes HTML ou d'URL en PDF, mais aussi la conversion d'autres formats vers le format PDF. Pour plus d'informations et des exemples de code prêts à l'emploi, veuillez consulter cette page de documentation et d'exemples de code .

Sortie - PDF

! Génération de fichiers PDF : Conversion des fichiers HTML extraits en fichiers PDF, puis fusion des fichiers PDF convertis en un seul document PDF à l'aide d'IronPDF.

Le fichier PDF généré affiche clairement le contenu de chaque page HTML sur une page PDF distincte grâce au puissant moteur de conversion HTML Chromium d'IronPDF.

De plus, vous pouvez également utiliser IronPrint pour .NET, la bibliothèque d'impression C#, pour imprimer le fichier PDF généré. IronPrint envoie efficacement les fichiers PDF ou les images à l'imprimante par défaut.

Pour plus d'informations sur la façon d'imprimer un document avec IronPrint , veuillez consulter cette page de documentation .

4. Extraire le texte à l'aide d'IronOCR

Enfin, utilisez IronOCR pour extraire le texte consultable du document PDF généré. En utilisant les fonctionnalités avancées d'extraction de texte d'IronOCR, nous pouvons garantir que le texte extrait est précis et prêt pour un traitement ultérieur.

L'extrait de code suivant prend le fichier PDF généré par IronPDF et effectue avec succès une reconnaissance optique de caractères (OCR) pour une analyse plus approfondie :

// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
' Create an IronTesseract object for Optical Character Recognition (OCR)
Dim ocrTesseract = New IronTesseract()

' Create an OcrInput object to specify the input for OCR processing
Dim ocrInput As New OcrInput()

' Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf")

' Perform OCR on the loaded PDF using the IronTesseract engine
Dim ocrResult = ocrTesseract.Read(ocrInput)

' Print the extracted text to the console
Console.WriteLine(ocrResult.Text)
$vbLabelText   $csharpLabel

Pour une analyse plus détaillée du texte, consultez cette page d'exemples de code prêts à l'emploi ici .

Sortie - Texte PDF

Sortie de la console : Extraction de texte à partir d'un fichier PDF à l'aide d'IronOCR

Les résultats parlent d'eux-mêmes : rapides , précis et sans erreur, ils confirment l'efficacité d'IronOCR.

Pourquoi Iron Suite ?

Iron Suite se distingue comme une suite .NET leader sur le marché pour vos documents bureautiques, offrant plusieurs raisons convaincantes de sa supériorité.

1. 9 pour le prix de 2 :

Avec Iron Suite, vous accédez aux neuf produits Iron Software pour le prix de seulement deux produits individuels. Cette proposition de valeur incroyable vous garantit une panoplie d'outils complète à votre disposition sans vous ruiner.

! Informations sur la licence d'Iron Suite.

2. Compatibilité multiplateforme :

Iron Suite est conçu pour fonctionner de manière transparente sur de multiples plateformes, notamment Windows, macOS, Linux, Docker, Azure et AWS. Que vous développiez des applications pour ordinateurs de bureau, le web ou le cloud, Iron Suite répond à tous vos besoins.

3. Installation rapide :

Du téléchargement d'Iron Suite à son déploiement en production, vous pouvez être opérationnel en seulement cinq minutes. Le processus d'installation simple et les API intuitives permettent aux développeurs de commencer à exploiter les fonctionnalités de la suite avec un temps de configuration minimal.

4. Documentation complète :

Dites adieu aux conjectures et aux essais et erreurs. Iron Suite est fourni avec une documentation complète et des exemples pour chaque composant, garantissant ainsi aux développeurs des instructions claires et des ressources à portée de main pour optimiser leur productivité.

5. Assistance technique 24h/24 et 5j/7 :

Besoin d'aide ou de réponses à vos questions sur l'utilisation d'Iron Suite ? Notre équipe d'ingénieurs est disponible 24 h/24 et 7 j/7 pour vous apporter une assistance technique et résoudre tous les problèmes que vous pourriez rencontrer. Soyez assuré que l'aide est toujours à portée de message.

6. Garantie de remboursement :

Iron Suite offre une garantie de remboursement de 30 jours. Si, pour une raison quelconque, vous n'êtes pas entièrement satisfait de votre achat, il vous suffit d'en informer l'équipe d'Iron dans les 30 jours, et ils vous rembourseront intégralement, sans poser de questions.

7. Commencez votre essai gratuit :

Prêt à découvrir par vous-même la puissance et la polyvalence d'Iron Suite ? Démarrez votre essai gratuit dès aujourd'hui et découvrez comment la suite complète d'outils de gestion de documents .NET peut simplifier vos flux de travail de développement et ouvrir de nouvelles perspectives pour vos projets.

Conclusion

En conclusion, Iron Suite offre aux développeurs .NET une boîte à outils complète pour rationaliser les tâches d'automatisation juridique telles que la génération de PDF et la conversion de fichiers HTML en documents PDF consultables. En exploitant la puissance d' IronZIP , d'IronPDF et d'IronOCR , les développeurs peuvent automatiser et optimiser leurs flux de travail, améliorant ainsi l'efficacité et la précision du traitement des documents juridiques. Avec Iron Suite à votre disposition, les possibilités d'automatisation sont infinies.

Pour la tâche de conversion HTML vers PDF, nous avons utilisé les trois bibliothèques essentielles de la suite Iron : IronZIP , IronPDF et IronOCR . IronPrint peut également être un candidat potentiel pour cette tâche si une imprimerie est nécessaire. Si elles étaient achetées individuellement, ces quatre bibliothèques coûteraient au total 749 $ * 4 = 2 996 $.

Cependant, avec Iron Suite , vous accédez non pas à trois ou quatre, mais à neuf puissantes bibliothèques pour le prix de seulement deux produits individuels. C'est une proposition de valeur incroyable, qui vous offre une boîte à outils complète pour tous vos besoins de développement .NET. À seulement $1,498 , Iron Suite offre un rapport qualité-prix exceptionnel, vous permettant d'économiser du temps et de l'argent tout en vous fournissant une large gamme d'outils pour rationaliser vos flux de travail de développement.