INDúSTRIA

Como usar C# para converter documentos HTML em PDF e OCR para o setor jurídico

No cenário digital acelerado de hoje, a automação desempenha um papel fundamental na melhoria da eficiência e precisão. Uma tarefa comum na automação legal é converter uma coleção de arquivos HTML em um único documento PDF pesquisável.

Neste guia, exploraremos como o Iron Suite, um poderoso conjunto de ferramentas para desenvolvedores adaptadas para ambientes .NET, pode agilizar esse processo.

Iron Suite: Um Kit de Ferramentas Abrangente para Desenvolvedores .NET

IronSoftware's Iron Suite é uma coleção abrangente de componentes de software .NET projetados para simplificar processos de desenvolvimento e aumentar a produtividade dos desenvolvedores que trabalham com várias estruturas .NET. A IronSoftware, um provedor líder de ferramentas de software .NET, oferece o Iron Suite como uma solução única para desenvolvedores que buscam componentes de alta qualidade para tarefas que vão desde a manipulação de documentos até a geração de código de barras e além.

Iron Suite for .NET: A Suite .NET para o seu escritório

No coração do Iron Suite está uma rica variedade de bibliotecas e ferramentas feitas sob medida para lidar com desafios comuns encontrados em projetos de desenvolvimento de software. Aqui está um vislumbre de alguns dos principais componentes do Iron Suite:

  • IronPDF: Para criar, editar e gerenciar documentos PDF, incluindo a conversão de HTML para PDF.
  • IronWord: Permite criar e editar arquivos DOC e DOCX.
  • IronXL: Permite trabalhar diretamente com arquivos Excel, possibilitando leitura, edição e criação sem precisar do Microsoft Office ou do Excel Interop.
  • IronOCR: Oferece funcionalidade de Reconhecimento Óptico de Caracteres para extrair texto de imagens em mais de 125 idiomas.
  • IronBarcode: Oferece a capacidade de ler e escrever vários formatos de código de barras, incluindo códigos QR.
  • IronQR: Focado especificamente em gerar, ler e estilizar códigos QR.
  • IronZIP: Permite comprimir e descomprimir arquivos no formato ZIP.
  • IronPrint: Oferece funcionalidades para gerenciar tarefas de impressão e interagir com impressoras diretamente a partir do seu código .NET.
  • IronWebScraper: Projetado para extrair dados estruturados de sites de forma eficiente.

Conversão de HTML para PDF e Análise OCR com Iron Suite

Considere um cenário em que você precisa processar um arquivo zip contendo arquivos HTML, e seu objetivo é converter esses arquivos HTML em formato PDF para posterior análise OCR (Reconhecimento Óptico de Caracteres). Para realizar esta tarefa de maneira eficiente e eficaz, aproveitar as capacidades das três bibliotecas essenciais do Iron Suite é a solução ideal. Vamos fazer uma breve visão geral de cada uma das bibliotecas.

IronZIP - A Biblioteca .NET para Arquivos Zip em C

Simplificando a compressão e extração de arquivos, IronZIP permite o manuseio contínuo de arquivos zip dentro de aplicações C#. Sua API intuitiva permite a fácil extração de arquivos HTML do nosso arquivo zip.

Use Csharp Convert Html To Pdf Ocr Documents For Legal Industry 2 related to IronZIP - A Biblioteca .NET para Arquivos Z...

Algumas características principais do IronZIP:

  • Compressão e Descompressão: Suporta vários formatos de arquivo como ZIP, ZIPX, RAR, 7Z e mais.
  • Criptografia e Descriptografia: Proteja seus arquivos com senha tradicional ou criptografia AES mais forte (256 bits por padrão).
  • Operações de Streaming: Processa arquivos grandes de forma eficiente sem carregar o arquivo inteiro na memória.
  • Criação de Arquivo Autoextraível: Crie arquivos executáveis que podem ser extraídos sem necessidade do IronZIP.

IronPDF - A Biblioteca PDF para C

Como uma biblioteca robusta para renderização e manipulação de PDFs, IronPDF facilita a criação e manipulação de documentos PDF diretamente dentro do código C#. Com funcionalidades como a conversão de HTML para PDF, é perfeito para nossa tarefa de converter arquivos HTML para formato PDF.

IronPDF for .NET: A Biblioteca C# para PDF

Algumas características principais do IronPDF DLL:

  • Conversão de HTML para PDF: Converte conteúdo de string HTML ou documentos HTML, incluindo CSS e JavaScript, em PDFs de alta qualidade.
  • Criação e Manipulação de PDF: Crie novos PDFs do zero, mescle PDFs existentes ou extraia páginas.
  • Personalização de Página: Controle o layout da página, margens, cabeçalhos, rodapés e marcas d'água.
  • Manipulação de Formulários: Capture dados de formulários de fontes HTML e preencha formulários PDF.

IronOCR - A Biblioteca OCR para C

Uma ferramenta inestimável para extração de texto, IronOCR se especializa em extrair texto de várias fontes, incluindo documentos escaneados e arquivos PDF. Sua versatilidade o torna ideal para extrair texto pesquisável do nosso documento PDF gerado.

IronOCR for .NET: A Biblioteca C# para OCR

Algumas características principais do IronOCR:

  • Reconhecimento Óptico de Caracteres: Extrair texto de documentos escaneados, imagens e PDFs com alta precisão.
  • Suporte Multilíngue: Reconhece texto em mais de 125 idiomas.
  • Análise de Layout: Preserva o formato original do texto extraído tanto quanto possível.
  • Precisão Personalizável: Ajuste a precisão do OCR usando várias configurações.

Criando um Projeto no Visual Studio

Para começar, crie um novo projeto no Visual Studio para nossa tarefa de automação legal. Certifique-se de ter o ambiente necessário configurado para desenvolvimento em .NET. Siga as etapas para criar um projeto no Visual Studio:

  1. Abra o Visual Studio e clique na opção "Criar um novo projeto".

    Open Visual Studio IDE and click on Create a new project option.

  2. Escolha o modelo de projeto apropriado com base em suas necessidades (por exemplo, Aplicativo de Console, Aplicativo Windows Forms).

    For the new project, select a Console App in C#.

  3. Especifique o nome e a localização do projeto e clique em "Avançar".

    Configure seu projeto especificando o nome do projeto, localização e nome da solução.

  4. Em Informações adicionais, selecione a versão mais recente do .NET Framework.

    Em seguida, selecione o .NET framework e clique em Criar.

  5. Clique em "Criar" para criar o projeto.

Instalando Bibliotecas

Em seguida, instale as três bibliotecas essenciais - IronZIP, IronPDF e IronOCR - em seu projeto. Você pode fazer isso facilmente baixando os pacotes respectivos do site da Iron Software ou usando o Gerenciador de Pacotes NuGet dentro do Visual Studio.

Instalar usando o Gerenciador de Pacotes NuGet para Soluções

Para integrar as bibliotecas em seu projeto .NET:

  • No seu Visual Studio ConsoleApp C#, clique com o botão direito no seu projeto no Solution Explorer e selecione "Gerenciar Pacotes NuGet para Solução"

IronZIP

  1. Na janela do Gerenciador de Pacotes NuGet, procure por "IronZip".

    Install IronZIP using the Manage NuGet Package for Solution by searching IronZip in the search bar of NuGet Package Manager, then select the project and click on the Install button.

  2. Selecione "IronZip" nos resultados da pesquisa e clique no botão "Instalar".

  3. O NuGet irá baixar e adicionar automaticamente as dependências necessárias ao seu projeto.

IronPDF

  1. Na janela do Gerenciador de Pacotes NuGet, procure por "IronPDF".

    Install IronPDF using the Manage NuGet Package for Solution by searching IronPdf in the search bar of NuGet Package Manager, then select the project and click on the Install button.

  2. Selecione "IronPDF" nos resultados da pesquisa e clique no botão "Instalar".

IronOCR

  1. Na janela do Gerenciador de Pacotes NuGet, procure por "IronOCR".

    Install IronOCR using the Manage NuGet Package for Solution by searching IronOCR in the search bar of NuGet Package Manager, then select the project and click on the Install button.

  2. Selecione "IronOCR" nos resultados da pesquisa e clique no botão "Instalar".

Passos para Converter Arquivo HTML para Arquivo PDF

Agora, para converter HTML facilmente para PDF e posteriormente realizar OCR, configuramos as bibliotecas do Iron Suite, cada uma oferecendo funcionalidades exclusivas adaptadas à nossa tarefa. O seguinte arquivo zip contendo vários arquivos de página da web HTML será usado para extrair arquivos HTML e, em seguida, converter arquivos HTML para o formato de arquivo PDF para análise OCR:

ZIP archive website.zip containing three HTML files

O arquivo Zip mostrado na captura de tela acima contém 3 páginas da web HTML de um site simples. As páginas HTML contêm código HTML simples que será passado para o método de conversão de PDF para converter arquivos HTML em um único documento PDF. Em seguida, o OCR será aplicado para analisar os elementos html no documento PDF gerado e imprimir todo o conteúdo HTML na janela do console.

1. Incluindo Bibliotecas Iron Suite (Namespaces .NET)

Para utilizar as funcionalidades oferecidas pelo Iron Suite em nosso projeto C#, precisaremos referenciar os namespaces apropriados para cada biblioteca. Veja como incluí-los no nosso arquivo Program.cs:

using IronZip;
using IronPdf;
using IronOcr;
using IronZip;
using IronPdf;
using IronOcr;
$vbLabelText   $csharpLabel

2. Extrair Arquivos HTML do Zip usando IronZIP

Primeiramente, vamos utilizar a API intuitiva do IronZIP para extrair arquivos HTML do arquivo zip. Com uma chamada de método simples, podemos extrair eficientemente os arquivos necessários para prosseguir com o processo de conversão.

// Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
// Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
$vbLabelText   $csharpLabel

Para aproveitar mais a biblioteca IronZIP, visite esta página de documentação.

Saída - Arquivos HTML Extraídos

Output: HTML files extracted from the archive website.zip using IronZIP.

3. Converter HTML para PDF usando IronPDF

Em segundo lugar, usaremos as poderosas capacidades do IronPDF para converter facilmente todos os arquivos HTML extraídos em um único documento PDF. Com sua API direta, podemos gerar facilmente PDFs de alta qualidade diretamente dentro do nosso código C#.

// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
$vbLabelText   $csharpLabel

IronPDF não apenas fornece conversão de PDF a partir de arquivo HTML, formulário HTML, string HTML ou URL, mas também de outros formatos para PDF. Para informações mais detalhadas e trechos de código de exemplo prontos para uso, visite esta página de documentação e exemplos de código.

Saída - PDF

Saída de Geração de PDF: Convertendo os arquivos HTML extraídos para arquivos PDF e depois unindo os arquivos PDF convertidos em um único documento PDF usando IronPDF.

O PDF resultante mostra claramente o conteúdo de cada página HTML em uma página PDF separada usando o poderoso mecanismo de conversão HTML Chromium do IronPDF.

Além disso, você também pode usar IronPrint for .NET - A Biblioteca de Impressão C# para imprimir o arquivo PDF gerado. IronPrint envia eficientemente os PDFs ou Imagens para a impressora padrão para impressão.

Para mais informações sobre como imprimir um documento usando IronPrint, visite esta página de documentação.

4. Extrair Texto usando IronOCR

Finalmente, empregue IronOCR para extrair texto pesquisável do documento PDF gerado. Ao utilizar os recursos avançados de extração de texto do IronOCR, podemos garantir que o texto extraído seja preciso e pronto para processamento posterior.

O trecho de código a seguir pega o arquivo PDF gerado a partir do IronPDF e executa com sucesso OCR para análise posterior:

// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
$vbLabelText   $csharpLabel

Para uma análise mais detalhada do texto, visite esta página de exemplos de código prontos para uso aqui.

Saída - Texto PDF

Saída do Console: Extração de texto de arquivo PDF usando IronOCR

O resultado fala por si: Rápido, Preciso e Sem erros, endossando a eficiência do IronOCR.

Por que Iron Suite?

Iron Suite destaca-se como uma suíte .NET líder de mercado para seus documentos de escritório, oferecendo várias razões convincentes para sua superioridade.

1. 9 pelo preço de 2:

Com a Iron Suite, você tem acesso a todos os nove produtos da Iron Software pelo preço de apenas dois produtos individuais. Esta proposta de valor incrível garante que você tenha um conjunto completo de ferramentas à sua disposição sem gastar muito.

Informações de licença do Iron Suite.

2. Compatibilidade multiplataforma:

A Iron Suite foi projetada para funcionar perfeitamente em várias plataformas, incluindo Windows, macOS, Linux, Docker, Azure e AWS. Seja desenvolvendo aplicações para ambientes de desktop, web ou nuvem, a Iron Suite cobre suas necessidades.

3. Configuração rápida:

Desde o momento em que você baixa a Iron Suite até implementá-la em produção, você pode iniciar em até cinco minutos. O processo de instalação simples e as APIs intuitivas permitem que os desenvolvedores comecem a aproveitar as capacidades do conjunto com tempo mínimo de configuração.

4. Documentação abrangente:

Diga adeus à tentativa e erro. A Iron Suite vem com documentação extensa e exemplos para cada componente, garantindo que os desenvolvedores tenham orientações claras e recursos em mãos para maximizar a produtividade.

5. Suporte técnico 24/5:

Precisa de assistência ou tem dúvidas sobre o uso da Iron Suite? A equipe dedicada de engenheiros está disponível 24 horas por dia, cinco dias por semana, para fornecer suporte técnico e resolver quaisquer problemas que você possa encontrar. Fique tranquilo, a ajuda está sempre a uma mensagem de distância.

6. Garantia de devolução do dinheiro:

A Iron Suite oferece uma garantia de devolução do dinheiro em 30 dias. Se por qualquer motivo você não estiver completamente satisfeito com sua compra, basta informar a equipe Iron dentro de 30 dias, e eles reembolsarão seu pagamento, sem perguntas.

7. Comece seu teste gratuito:

Pronto para experimentar o poder e a versatilidade da Iron Suite você mesmo? Comece seu teste gratuito hoje e descubra como o conjunto abrangente de ferramentas de documentos .NET pode simplificar seus fluxos de trabalho de desenvolvimento e desbloquear novas possibilidades para seus projetos.

Conclusão

Em conclusão, a Iron Suite oferece aos desenvolvedores .NET uma caixa de ferramentas abrangente para agilizar tarefas de automação legal, como gerar PDFs e converter arquivos HTML para documentos PDF pesquisáveis. Ao aproveitar o poder do IronZIP, IronPDF e IronOCR, os desenvolvedores podem automatizar e otimizar seus fluxos de trabalho, melhorando assim a eficiência e precisão no processamento de documentos legais. Com a Iron Suite à sua disposição, as possibilidades de automação são infinitas.

Para a tarefa de conversão de HTML para PDF, utilizamos as três bibliotecas essenciais da Iron Suite: IronZIP, IronPDF e IronOCR. IronPrint também pode ser um concorrente potencial para esta tarefa, se for necessária uma instalação de impressão. Se adquiridas individualmente, estas quatro bibliotecas teriam um custo total de $1,999 * 4 = $2,996.

No entanto, com a Iron Suite, você ganha acesso não apenas a três ou quatro, mas a nove poderosas bibliotecas pelo preço de apenas dois produtos individuais. Essa é uma proposta de valor incrível, fornecendo a você um conjunto de ferramentas abrangente para todas as suas necessidades de desenvolvimento .NET. Apenas por $1,498, Iron Suite oferece um valor excepcional, economizando tanto tempo quanto dinheiro, enquanto equipa você com uma ampla gama de ferramentas para simplificar seus fluxos de trabalho de desenvolvimento.