INDUSTRIA

Cómo usar C# para convertir HTML a PDF y documentos OCR para la industria legal

Publicado en 14 de enero, 2025
Compartir:

En el panorama digital acelerado de hoy, la automatización desempeña un papel fundamental en la mejora de la eficiencia y la precisión. Una tarea común en la automatización legal es convertir una colección de archivos HTML en un único documento PDF con capacidad de búsqueda.

En esta guía, exploraremos cómoSuite de Hierro, un conjunto potente de herramientas de desarrollo adaptadas a entornos .NET puede agilizar este proceso.

Iron Suite: Un conjunto de herramientas integral para desarrolladores .NET

IronSoftware's Suite de Hierroes una colección completa de componentes de software .NET diseñados para simplificar los procesos de desarrollo y mejorar la productividad de los desarrolladores que trabajan con varios marcos de .NET. IronSoftware, un proveedor líder de herramientas de software .NET, ofrece Iron Suite como una solución integral para desarrolladores que buscan componentes de alta calidad para tareas que van desde la manipulación de documentos hasta la generación de códigos de barras y más allá.

Iron Suite for .NET: La Suite .NET para su oficina

En el corazón de Iron Suite se encuentra una rica selección de bibliotecas y herramientas diseñadas para abordar los desafíos comunes que se encuentran en los proyectos de desarrollo de software. Aquí tienes un vistazo a algunos de los componentes clave de Iron Suite:

*IronPDFPara crear, editar y gestionar documentos PDF, incluyendo la conversión de HTML a PDF.

*IronWord: Permite crear y editar archivos DOC y DOCX.

*IronXL: Permite trabajar directamente con archivos de Excel, permitiendo la lectura, edición y creación sin requerir Microsoft Office o Excel Interop.

*IronOCRProporciona funcionalidad de reconocimiento óptico de caracteres para extraer texto de imágenes en más de 127 idiomas.

***Código de barras de hierroOfrece la capacidad de leer y escribir varios formatos de códigos de barras, incluidos los códigos QR.

*IronQR: Específicamente enfocado en generar, leer y estilizar códigos QR.

*IronZIP: Permite comprimir y descomprimir archivos en formato ZIP.

*IronPrintOfrece funcionalidades para administrar tareas de impresión e interactuar con impresoras directamente desde tu código .NET.

*IronWebScraperDiseñado para extraer datos estructurados de sitios web de manera eficiente.

Conversión de HTML a PDF y análisis OCR con Iron Suite

Considere un escenario en el que se le asigna la tarea de procesar un archivo zip que contiene archivos HTML, y su objetivo es convertir estos archivos HTML en formato PDF para su posterior OCR.(Reconocimiento óptico de caracteres)análisis. Para llevar a cabo esta tarea de manera eficiente y efectiva, aprovechar las capacidades de las tres bibliotecas esenciales de Iron Suite es la solución óptima. Hagamos un breve resumen de cada una de las bibliotecas.

IronZIP - La biblioteca .NET para archivos Zip en C#

Simplificando la compresión y extracción de archivos,IronZIPpermite el manejo sin complicaciones de archivos zip dentro de aplicaciones C#. Su API intuitiva permite la fácil extracción de archivos HTML desde nuestro archivo zip.

Use Csharp Convert Html To Pdf Ocr Documents For Legal Industry 2 related to IronZIP - La biblioteca .NET para archivos ...

Algunas características clave de IronZIP:

  • Compresión y Descompresión: Compatible con varios formatos de archivo como ZIP, ZIPX, RAR, 7Z y más.
  • Cifrado y Descifrado: Protege tus archivos con una contraseña tradicional o un cifrado AES más fuerte.(256 bits por defecto).
  • Operaciones de transmisión: Procesa grandes archivos de manera eficiente sin cargar todo el archivo en la memoria.
  • Creación de archivos autoextraíbles: Crea archivos ejecutables que se pueden extraer sin requerir IronZIP.

IronPDF - La biblioteca PDF para C#

Como una sólida biblioteca de renderización y manipulación de PDF,IronPDFfacilita la creación y manipulación de documentos PDF directamente dentro del código C#. Con características como la conversión de HTML a PDF, es perfecto para nuestra tarea de convertir archivos HTML a formato PDF.

IronPDF for .NET: La biblioteca PDF de C#

Algunas características clave de IronPDF DLL:

  • Conversión de HTML a PDF: Convierte contenido en cadena HTML o documento HTML, incluyendo CSS y JavaScript, en PDFs de alta calidad.
  • Creación y Manipulación de PDF: Crea nuevos PDF desde cero, fusiona PDF existentes o extrae páginas.
  • Personalización de la página: Controle el diseño de la página, los márgenes, encabezados, pies de página y marcas de agua.
  • Manejo de Formularios: Captura datos de formularios de fuentes HTML y llena formularios PDF.

IronOCR - La biblioteca de OCR para C#

Una herramienta invaluable para la extracción de texto, IronOCRse especializa en extraer texto de diversas fuentes, incluidos documentos escaneados y archivos PDF. Su versatilidad lo hace ideal para extraer texto searchable de nuestro documento PDF generado.

IronOCR for .NET: La biblioteca OCR de C#

Algunas características clave de IronOCR:

  • Reconocimiento Óptico de Caracteres: Extrae texto de documentos escaneados, imágenes y PDFs con alta precisión.
  • Soporte multilingüe: Reconoce texto en más de 127 idiomas.
  • Análisis de Diseño: Conserva el formato original del texto extraído tanto como sea posible.
  • Precisión Personalizable: Ajusta la precisión de OCR utilizando varias configuraciones.

Creación de un proyecto de Visual Studio

Para comenzar, crea un nuevo proyecto de Visual Studio para nuestra tarea de automatización legal. Asegúrate de tener el entorno necesario configurado para el desarrollo de .NET. Siga los pasos para crear un proyecto en Estudio Visual:

  1. Abra Visual Studio y haga clic en la opción "Crear un nuevo proyecto".

    Abre Visual Studio IDE y haz clic en la opción Crear un nuevo proyecto.

  2. Elija la plantilla de proyecto adecuada en función de sus necesidades(por ejemplo, aplicación de consola, aplicación Windows Forms).

    Para el nuevo proyecto, seleccione una Aplicación de consola en C#.

  3. Especifique el nombre y la ubicación del proyecto y haga clic en "Siguiente".

    Configura tu proyecto especificando el nombre del proyecto, la ubicación y el nombre de la solución.

  4. En Información adicional, seleccione la última versión de .NET Framework.

    A continuación, seleccione el framework .NET y haga clic en Crear.

  5. Haga clic en "Crear" para crear el proyecto.

Instalación de bibliotecas

A continuación, instala las tres bibliotecas esenciales: IronZIP, IronPDF e IronOCR en tu proyecto. Puede hacer esto fácilmente descargando los respectivos paquetes de Iron Software'ssitio webo utilizando el Administrador de Paquetes NuGet dentro de Visual Studio.

Instalar usando el Administrador de Paquetes NuGet para Soluciones

Para integrar las bibliotecas en su proyecto .NET:

  • En suVisual StudioC# ConsoleApp, haz clic derecho en tu proyecto en el Explorador de Soluciones y selecciona "Administrar paquetes NuGet para la solución".

IronZIP

  1. En la ventana del Administrador de Paquetes NuGet, busca "IronZIP".

    Instale IronZip utilizando el Administrador de Paquetes NuGet para Solución buscando IronZip en la barra de búsqueda del Administrador de Paquetes NuGet, luego seleccione el proyecto y haga clic en el botón Instalar.

  2. Seleccione "IronZip" de los resultados de búsqueda y haga clic en el botón "Instalar".

  3. NuGet descargará y añadirá automáticamente las dependencias necesarias a su proyecto.

HierroPDF

  1. En la ventana del Administrador de Paquetes NuGet, busque "IronPDF".

    Instale IronPDF utilizando el Administrador de Paquetes NuGet para la Solución buscando IronPdf en la barra de búsqueda del Administrador de Paquetes NuGet, luego seleccione el proyecto y haga clic en el botón Instalar.

  2. Seleccione "IronPDF" de los resultados de búsqueda y haga clic en el botón "Instalar".

    IronOCR

  3. En la ventana del gestor de paquetes NuGet, busque "IronOCR".

    Instala IronOCR utilizando el Administrador de Paquetes NuGet para la Solución buscando IronOCR en la barra de búsqueda del Administrador de Paquetes NuGet, luego selecciona el proyecto y haz clic en el botón Instalar.

  4. Seleccione "IronOCR" de los resultados de búsqueda y haga clic en el botón "Instalar".

Pasos para convertir un archivo HTML a un archivo PDF

Ahora, para convertir fácilmente HTML a PDF y posteriormente realizar OCR, hemos configurado las bibliotecas de Iron Suite, cada una ofreciendo funcionalidades únicas adaptadas a nuestra tarea. El siguiente archivo zip que contiene múltiples archivos de páginas web HTML se utilizará para extraer archivos HTML y luego convertir los archivos HTML al formato de archivo PDF para análisis OCR:

Archivo ZIP website.zip que contiene tres archivos HTML

El archivo Zip mostrado en la captura de pantalla anterior contiene 3 páginas web HTML de un sitio web simple. Las páginas HTML contienen código HTML sencillo que se pasará al método del convertidor de PDF para convertir los archivos HTML en un único documento PDF. Luego se aplicará OCR para analizar los elementos HTML en el documento PDF generado y se imprimirá todo el contenido HTML en la ventana de la consola.

1. Incluyendo las bibliotecas de Iron Suite (Espacios de nombres .NET)

Para utilizar las funcionalidades ofrecidas por Iron Suite en nuestro proyecto de C#, necesitaremos hacer referencia a los espacios de nombres apropiados para cada biblioteca. Aquí se muestra cómo incluirlos en nuestro archivo Program.cs:

using IronZip;
using IronPdf;
using IronOcr;
using IronZip;
using IronPdf;
using IronOcr;
Imports IronZip
Imports IronPdf
Imports IronOcr
VB   C#

2. Extraer archivos HTML de un Zip usando IronZIP:

En primer lugar, utilizaremos la API intuitiva de IronZIP para extraer archivos HTML del archivo zip. Con una llamada de método simple, podemos hacerlo de manera eficiente.extractolos archivos necesarios para proceder con el proceso de conversión.

// Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
// Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
' Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted")
VB   C#

Para sacar más provecho de la biblioteca IronZIP, por favor visite este documentación página.

Salida - Archivos HTML Extraídos

Salida: Archivos HTML extraídos del archivo website.zip usando IronZIP.

3. Convertir HTML a PDF usando IronPDF:

En segundo lugar, utilizaremos las potentes capacidades de IronPDF para convertir fácilmente todos los archivos HTML extraídos en un único documento PDF. Con su API sencilla, podemos generar fácilmente PDFs de alta calidad directamente dentro de nuestro código C#.

// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
' Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
Dim renderer As New ChromePdfRenderer()

' Initialize an empty list to store the individual PDF documents
Dim pdfs As New List(Of PdfDocument)()

' Get all HTML files with the .html extension from the "extracted" folder
Dim htmlFiles = Directory.EnumerateFiles("extracted", "*.html")

' Loop through each HTML file
For Each htmlFile In htmlFiles
	' Render the current HTML file as a PDF document using the ChromePdfRenderer
	Dim pdf = renderer.RenderHtmlFileAsPdf(htmlFile)

	' Add the generated PDF document to the list
	pdfs.Add(pdf)
Next htmlFile

' Merge all the individual PDF documents in the list into a single PDF document
Dim document = PdfDocument.Merge(pdfs)

' Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf")
VB   C#

IronPDF no solo permite la conversión de PDF a partir de un archivo HTML, formulario HTML, cadena HTML o URL, sino también desde otros formatos a PDF. Para obtener información más detallada y fragmentos de código de muestra listos para usar, por favor visite este documentación yejemplos de código página.

Salida - PDF

Salida de Generación de PDF: Convertir los archivos HTML extraídos a archivos PDF y luego fusionar los archivos PDF convertidos en un solo documento PDF utilizando IronPDF.

El PDF de salida muestra claramente el contenido de cada página HTML en una página PDF separada utilizando el potente motor de conversión HTML de Chromium de IronPDF.

Además de esto, también puedes usar IronPrint for .NET - La biblioteca de impresión C#para imprimir el archivo PDF generado. IronPrint envía de manera eficiente los PDFs o imágenes a la impresora predeterminada para su impresión.

Para obtener más información sobre cómo imprimir un documento usando IronPrint, por favor visite este documentación página.

4. Extraer texto usando IronOCR:

Finalmente, empleaIronOCRpara extraer texto searchable del documento PDF generado. Al utilizar las avanzadas funciones de extracción de texto de IronOCR, podemos asegurar que el texto extraído sea preciso y esté listo para su procesamiento posterior.

El siguiente fragmento de código toma el archivo PDF generado por IronPDF y realiza con éxitoOCRpara un análisis más detallado:

// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
' Create an IronTesseract object for Optical Character Recognition (OCR)
Dim ocrTesseract = New IronTesseract()

' Create an OcrInput object to specify the input for OCR processing
Dim ocrInput As New OcrInput()

' Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf")

' Perform OCR on the loaded PDF using the IronTesseract engine
Dim ocrResult = ocrTesseract.Read(ocrInput)

' Print the extracted text to the console
Console.WriteLine(ocrResult.Text)
VB   C#

Para un análisis más detallado del texto, visite esta página de ejemplos de código listos para usar.aquí.

Salida - Texto PDF

Salida de consola: Extracción de texto de archivo PDF usando IronOCR

La salida habla por sí misma: Rápido, Preciso y Sin Errores, respaldando la eficiencia de IronOCR.

¿Por qué Iron Suite?

Suite de Hierrodestaca como una suite líder en el mercado para .NET para sus documentos de oficina, ofreciendo varias razones convincentes para su superioridad.

1. 9 por el precio de 2:

Con Iron Suite, obtienes acceso a todos los nueve productos de Iron Software para lapreciode solo dos productos individuales. Esta increíble propuesta de valor garantiza que tenga un conjunto de herramientas completo a su disposición sin gastar una fortuna.

Información de licencias de Iron Suite.

2. Compatibilidad multiplataforma:

Iron Suite está diseñado para funcionar sin problemas en múltiples plataformas, incluidas Windows, macOS, Linux, Docker, Azure y AWS. Ya sea que esté desarrollando aplicaciones para entornos de escritorio, web o en la nube, Iron Suite lo tiene cubierto.

3. Configuración Rápida:

Desde el momento en que descargas Iron Suite hasta su implementación en producción, puedes estar en funcionamiento en tan solo cinco minutos. El proceso de instalación sencillo y las API intuitivas permiten a los desarrolladores comenzar a aprovechar las capacidades del conjunto con un tiempo de configuración mínimo.

4. Documentación Completa:

Di adiós a las conjeturas y al ensayo y error. Iron Suite viene con documentación extensa y ejemplos para cada componente, asegurando que los desarrolladores tengan orientación clara y recursos a su alcance para maximizar la productividad.

5. Soporte Técnico 24/5:

¿Necesita ayuda o tiene preguntas sobre el uso de Iron Suite? El equipo dedicado de ingenieros está disponible las 24 horas del día, cinco días a la semana, para brindar soporte técnico y resolver cualquier problema que pueda encontrar. Tenga la seguridad de que la ayuda siempre está a solo un mensaje de distancia.

6. Garantía de devolución de dinero:

Iron Suite ofrece una garantía de devolución de dinero de 30 días. Si por alguna razón no estás completamente satisfecho con tu compra, simplemente informa al equipo de Iron dentro de los 30 días y te reembolsarán el pago sin hacer preguntas.

7. Comienza tu prueba gratuita:

¿Listo para experimentar el poder y la versatilidad de Iron Suite por ti mismo? Comience su prueba gratuita hoy y descubra cómo el conjunto completo de herramientas de documentos .NET puede optimizar sus flujos de trabajo de desarrollo y desbloquear nuevas posibilidades para sus proyectos.

Conclusión

En conclusión, Iron Suite ofrece a los desarrolladores de .NET un conjunto de herramientas integral para agilizar tareas de automatización legal, como la generación de PDF y la conversión de archivos HTML a documentos PDF buscables. Aprovechando el poder de IronZIP, IronPDFyIronOCR, los desarrolladores pueden automatizar y optimizar sus flujos de trabajo, mejorando en última instancia la eficiencia y precisión en el procesamiento de documentos legales. ConSuite de Hierroa su disposición, las posibilidades para la automatización son infinitas.

Para la tarea de conversión de HTML a PDF, utilizamos las tres bibliotecas esenciales de Iron Suite: IronZIP, IronPDF y IronOCR. IronPrint también puede ser un posible candidato para esta tarea si se requiere una instalación de impresión. Si se compraran individualmente, estas cuatro bibliotecas tendrían un costo total de $749 * 4 = $2,996.

Sin embargo, con Iron Suite, obtienes acceso no solo a tres o cuatro, sino a nueve potentes bibliotecas por el precio de solo dos productos individuales. Esa es una propuesta de valor increíble, que te ofrece un conjunto completo de herramientas para todas tus necesidades de desarrollo .NET. Por solo $1,498,IronSuiteofrece un valor excepcional, ahorrándole tiempo y dinero al mismo tiempo que le proporciona una amplia gama de herramientas para optimizar sus flujos de trabajo de desarrollo.

< ANTERIOR
Iron Suite: Creación de PDF en C# y OCR sin esfuerzo para flujos de trabajo médicos