行业

如何使用C#将HTML转换为PDF及OCR文档用于法律行业

发布 2025年一月14日
分享:

在当今快速发展的数字环境中,自动化在提高效率和准确性方面起着关键作用。 在法律自动化中,一个常见任务是将一组HTML文件转换为一个可搜索的PDF文档。

在本指南中,我们将探讨如何铁套房,专为 .NET 环境量身定制的强大开发工具集可以简化此过程。

Iron Suite:为 .NET 开发人员提供的全面工具包

IronSoftware的 铁套房是一个全面的.NET软件组件集合,旨在简化开发过程并提高使用各种.NET框架的开发人员的生产力。 IronSoftware是一家领先的.NET软件工具提供商,提供Iron Suite作为开发人员的一站式解决方案,适用于从文档操作到条形码生成及其他任务的高质量组件。

Iron Suite for .NET:适合您办公的 .NET 套件

Iron Suite 的核心是一系列丰富的库和工具,专为解决软件开发项目中常见的挑战而设计。 以下是Iron Suite的一些关键组件的概览:

  • IronPDF用于创建、编辑和管理PDF文档,包括将HTML转换为PDF。
  • **铁字*** 允许创建和编辑DOC和DOCX文件。
  • 铁XL 使直接处理Excel文件成为可能,可以在不需要Microsoft Office或Excel Interop的情况下进行读取、编辑和创建。
  • IronOCR 提供光学字符识别功能,可以从图像中提取超过127种语言的文本。
  • IronBarcode提供读取和写入各种条形码格式的能力,包括QR码。
  • IronQR专注于生成、读取和样式化二维码。
  • IronZIP 启用ZIP格式的文件压缩和解压缩。
  • 铁印提供从您的.NET代码中直接管理打印任务和与打印机交互的功能。
  • IronWebScraper专为高效抓取网站结构化数据而设计。

HTML 转 PDF 转换和 OCR 分析与 Iron Suite

考虑一种情况,你的任务是处理一个包含HTML文件的压缩文件,你的目标是将这些HTML文件转换为PDF格式以便后续OCR。(光学字符识别)分析。 为了高效且有效地完成这项任务,利用Iron Suite的三个基本库的功能是最佳解决方案。 让我们简要概览一下每个库。

IronZIP - C# Zip存档 .NET库

简化文件压缩和提取,IronZIP在C#应用程序中实现无缝处理ZIP存档。 其直观的API允许轻松从我们的zip档案中提取HTML文件。

Use Csharp Convert Html To Pdf Ocr Documents For Legal Industry 2 related to IronZIP - C# Zip存档 .NET库

IronZIP的一些关键功能:

  • 压缩和解压缩: 支持多种档案格式,如ZIP、ZIPX、RAR、7Z等。
  • 加密和解密: 使用传统密码或更强的AES加密来保护您的档案(默认情况下为256位).
  • 流式操作: 在不将整个文件加载到内存中的情况下高效处理大型归档文件。
  • 自解压存档创建: 创建可执行存档,无需 IronZIP 即可提取。

IronPDF - C# PDF库

作为一个强大的PDF渲染和操作库,IronPDF可在C#代码中直接创建和操作PDF文档。 具备HTML转PDF转换的功能,它非常适合我们将HTML文件转换为PDF格式的任务。

IronPDF for .NET:C# PDF库

IronPDF DLL 的一些关键功能:

  • HTML 转 PDF 转换: 将 HTML 字符串内容或 HTML 文档,包括 CSS 和 JavaScript,转换为高质量的 PDF。
  • PDF 创建和操作: 从头开始创建新的 PDF,合并现有 PDF,或提取页面。
  • 页面自定义: 控制页面布局、边距、页眉、页脚和水印。
  • 表单处理: 从HTML源中捕获表单数据并填充PDF表单。

IronOCR - C# OCR库

一个无价的文本提取工具,IronOCR专门从各种来源提取文本,包括扫描文档和 PDF 文件。 其多功能性使其非常适合从我们生成的 PDF 文档中提取可搜索的文本。

IronOCR for .NET:C# OCR库

IronOCR的一些关键功能:

  • 光学字符识别: 以高精度从扫描文档、图像和PDF中提取文本。
  • 多语言支持: 识别超过127种语言的文本。
  • 布局分析: 尽可能保留提取文本的原始格式。
  • 可定制的准确性: 使用各种配置微调OCR的准确性。

创建 Visual Studio 项目

首先,为我们的法律自动化任务创建一个新的Visual Studio项目。 确保你已为 .NET 开发设置好必要的环境。 按照以下步骤在中创建项目视觉工作室:

  1. 打开 Visual Studio,点击 "创建新项目 "选项。

    打开 Visual Studio IDE,然后点击“创建新项目”选项。

  2. 根据您的要求选择合适的项目模板(例如,控制台应用程序、Windows 窗体应用程序).

    对于新项目,选择 C# 中的“控制台应用程序”。

  3. 指定项目名称和位置,然后单击 "下一步"。

    通过指定项目名称、位置和解决方案名称来配置您的项目。

  4. 从 "附加信息 "中选择最新的 .NET Framework。

    接下来,选择.NET框架并点击“创建”。

  5. 单击 "创建 "创建项目。

安装库

接下来,将三个必备库 - IronZIP、IronPDF 和 IronOCR - 安装到您的项目中。 您可以通过从Iron Software下载相应的软件包来轻松完成此操作。网站或在 Visual Studio 中使用 NuGet 包管理器。

使用 NuGet 包管理器为解决方案安装

将库集成到您的.NET项目中:

  • 在您的Visual StudioC# ConsoleApp,在解决方案资源管理器中右键单击您的项目,然后选择“为解决方案管理 NuGet 包”

IronZIP

  1. 在 NuGet 包管理器窗口中,搜索 "IronZip"。

    使用解决方案的“管理 NuGet 包”安装 IronZIP,在 NuGet 包管理器的搜索栏中搜索IronZIP,然后选择项目并点击安装按钮。

  2. 从搜索结果中选择“IronZip”并点击“安装”按钮。

  3. NuGet 会自动下载并将必要的依赖项添加到您的项目中。

IronPDF

  1. 在 NuGet 包管理器窗口中,搜索 "IronPDF"。

    通过在NuGet包管理器的搜索栏中搜索“IronPdf”,使用“为解决方案管理NuGet包”安装IronPDF,然后选择项目并点击安装按钮。

  2. 从搜索结果中选择“IronPDF”,然后点击“安装”按钮。

    IronOCR

  3. 在 NuGet 包管理器窗口中,搜索 "IronOCR"。

    通过在 NuGet 包管理器的搜索栏中搜索“IronOCR”,并使用解决方案的管理 NuGet 包进行安装,然后选择项目并点击安装按钮。

  4. 从搜索结果中选择“IronOCR”,然后点击“安装”按钮。

将HTML文件转换为PDF文件的步骤

现在,为了轻松将HTML转换为PDF并随后执行OCR,我们已经设置了Iron Suite的库,每个库都提供了针对我们的任务量身定制的独特功能。 以下包含多个 HTML 网页文件的压缩档案将用于提取 HTML 文件,然后将 HTML 文件转换为 PDF 文件格式以进行 OCR 分析:

包含三个HTML文件的ZIP档案“website.zip”

上面截图中显示的Zip文件包含来自一个简单网站的三个HTML网页。HTML页面包含简单的HTML代码,这些代码将传递给PDF转换方法,以将HTML文件转换为单个PDF文档。 然后将应用OCR来分析生成的PDF文档中的HTML元素,并在控制台窗口中打印所有HTML内容。

1. 包括 Iron Suite 库(.NET 命名空间)

要在我们的C#项目中使用Iron Suite提供的功能,我们需要引用每个库的适当命名空间。 以下是在我们的Program.cs文件中包含它们的方法:

using IronZip;
using IronPdf;
using IronOcr;
using IronZip;
using IronPdf;
using IronOcr;
Imports IronZip
Imports IronPdf
Imports IronOcr
VB   C#

2. 使用 IronZIP 从 Zip 文件中提取 HTML 文件:

首先,我们将利用IronZIP直观的API从压缩档案中提取HTML文件。通过简单的方法调用,我们可以高效地提取进行转换过程所需的文件。

// Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
// Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
' Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted")
VB   C#

要充分利用IronZIP库,请访问此链接。文件page.

输出 - 提取的HTML文件

输出:使用IronZIP从“website.zip”档案中提取的HTML文件。

3. 使用 IronPDF 将 HTML 转换为 PDF:

其次,我们将利用IronPDF强大的功能轻松将所有提取的HTML文件转换为单个PDF文档。 借助其简洁的API,我们可以直接在C#代码中轻松生成高质量的PDF。

// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
' Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
Dim renderer As New ChromePdfRenderer()

' Initialize an empty list to store the individual PDF documents
Dim pdfs As New List(Of PdfDocument)()

' Get all HTML files with the .html extension from the "extracted" folder
Dim htmlFiles = Directory.EnumerateFiles("extracted", "*.html")

' Loop through each HTML file
For Each htmlFile In htmlFiles
	' Render the current HTML file as a PDF document using the ChromePdfRenderer
	Dim pdf = renderer.RenderHtmlFileAsPdf(htmlFile)

	' Add the generated PDF document to the list
	pdfs.Add(pdf)
Next htmlFile

' Merge all the individual PDF documents in the list into a single PDF document
Dim document = PdfDocument.Merge(pdfs)

' Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf")
VB   C#

IronPDF不仅能将HTML文件、HTML表单、HTML字符串或URL转换为PDF,还可以将其他格式转换为PDF。 有关更详细的信息和可直接使用的代码示例,请访问此文件代码示例page.

输出 - PDF

PDF生成输出:使用IronPDF将提取的HTML文件转换为PDF文件,然后将转换后的PDF文件合并成一个PDF文档。

输出的PDF通过IronPDF强大的Chromium HTML转换引擎,清晰地在单独的PDF页面上显示每个HTML页面的内容。

除此之外,您还可以使用IronPrint for .NET - C#打印库用于打印生成的 PDF 文件。IronPrint 能够高效地将 PDF 或图像发送到默认打印机进行打印。

如需了解更多关于如何使用IronPrint打印文档的信息,请访问此页面。文件page.

4. 使用IronOCR提取文本:

最后,使用IronOCR从生成的PDF文档中提取可搜索的文本。 通过利用IronOCR的先进文本提取功能,我们可以确保提取的文本准确并准备好进行进一步处理。

以下代码片段从IronPDF生成的PDF文件中获取并成功执行OCR以供进一步分析:

// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
' Create an IronTesseract object for Optical Character Recognition (OCR)
Dim ocrTesseract = New IronTesseract()

' Create an OcrInput object to specify the input for OCR processing
Dim ocrInput As New OcrInput()

' Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf")

' Perform OCR on the loaded PDF using the IronTesseract engine
Dim ocrResult = ocrTesseract.Read(ocrInput)

' Print the extracted text to the console
Console.WriteLine(ocrResult.Text)
VB   C#

要获取文本的更详细分析,请访问此即用代码示例页面。*这里***.

输出 - PDF 文本

控制台输出:使用IronOCR从PDF文件中提取文本

输出本身说明了一切:快速准确、以及无错误,这证明了IronOCR的高效性。

为什么选择Iron Suite?

铁套房作为市场领先的.NET办公文档套件,具有多个令人信服的优越性理由。

2件的价格买9件:

使用 Iron Suite,您可以访问所有九个Iron Software产品价格仅有两个独立产品。 这个极具价值的提案确保您在不超出预算的情况下拥有一套全面的工具包。

Iron Suite 许可信息。

2. 跨平台兼容性:

Iron Suite 旨在跨多个平台无缝运行,包括 Windows、macOS、Linux、Docker、Azure 和 AWS。 无论您是在为桌面、Web 或云环境开发应用程序,Iron Suite 都能满足您的需求。

3. 快速设置:

从下载Iron Suite到将其部署到生产环境,您只需五分钟即可启动和运行。 简单的安装过程和直观的API使开发人员可以在最短的设置时间内开始利用该套件的功能。

4. 全面的文档:

告别猜测和反复试验。 Iron Suite 的每个组件都提供了详细的文档和示例,确保开发人员可以随时获得清晰的指导和资源,从而最大限度地提高生产力。

5. 24/5 技术支持:

需要帮助或对使用Iron Suite有疑问?专门的工程师团队每周五天、全天候提供技术支持,并解决您可能遇到的任何问题。 请放心,帮助始终只需发送一条消息即可获得。

6. 退款保证:

Iron Suite提供30天退款保证。 如果您因任何原因对购买不完全满意,只需在30天内告知Iron团队,他们将无条件退还您的付款。

7. 开始您的免费试用:

准备亲自体验Iron Suite的强大功能和多样性吗? 立即开始您的免费试用,并发现.NET文档工具的综合套件如何简化您的开发工作流程,并为您的项目解锁新的可能性。

结论

总之,Iron Suite为.NET开发人员提供了一个全面的工具包,用于简化法律自动化任务,例如生成PDF文件和将HTML文件转换为可搜索的PDF文档。 通过利用...的力量IronZIP, IronPDFIronOCR开发人员可以自动化并优化他们的工作流程,从而最终提高法律文件处理的效率和准确性。 与铁套房有了您的设备,自动化的可能性是无穷无尽的。

对于HTML到PDF的转换任务,我们使用了Iron Suite的三个重要库:IronZIPIronPDFIronOCRIronPrint 如果需要打印功能,也可能是这项任务的潜在竞争者。 如果单独购买,这四个库的总成本为 $749 * 4 = $2,996。

然而,使用 Iron Suite,您不仅可以访问三或四个,而是九个强大的库,而价格仅为两个单独产品的价格。 这是一个令人难以置信的价值主张,为您提供了全面的工具包以满足您所有的.NET开发需求。 仅需 $1,498,IronSuite提供卓越的价值,为您节省时间和金钱,并为您配备多种工具以简化您的开发工作流程。

< 前一页
Iron Suite:轻松实现医疗工作流程的C# PDF创建和OCR功能