行业

如何使用C#将HTML转换为PDF及OCR文档用于法律行业

2025年一月14日
分享:

在当今快速发展的数字环境中,自动化在提高效率和准确性方面起着关键作用。 在法律自动化中,一个常见任务是将一组HTML文件转换为一个可搜索的PDF文档。

在本指南中,我们将探讨如何通过Iron Suite,这一强大的开发者工具集,专为.NET环境量身定制,如何简化此过程。

Iron Suite:为 .NET 开发人员提供的全面工具包

IronSoftware的 Iron Suite 是一个全面的.NET软件组件集合,旨在简化开发流程,提高使用各种.NET框架的开发人员的生产力。 IronSoftware是一家领先的.NET软件工具提供商,提供Iron Suite作为开发人员的一站式解决方案,适用于从文档操作到条形码生成及其他任务的高质量组件。

Iron Suite for .NET:您办公室的.NET套件

Iron Suite 的核心是一系列丰富的库和工具,专为解决软件开发项目中常见的挑战而设计。 以下是Iron Suite的一些关键组件的概览:

  • IronPDF用于创建、编辑和管理PDF文档,包括将HTML转换为PDF。
  • IronWord允许创建和编辑DOC和DOCX文件。
  • IronXL 允许直接处理 Excel 文件,可进行读取、编辑和创建,无需安装 Microsoft Office 或使用 Excel Interop。
  • IronOCR 提供光学字符识别功能,可从图像中提取超过127种语言的文本。
  • IronBarcode提供读取和写入各种条形码格式的功能,包括二维码。
  • IronQR专注于生成、读取和设计 QR 码。
  • IronZIP支持以ZIP格式压缩和解压文件。
  • IronPrint提供用于管理打印任务和直接从您的.NET代码与打印机交互的功能。
  • IronWebScraper专为高效抓取网站结构化数据而设计。

HTML 转 PDF 转换和 OCR 分析与 Iron Suite

考虑这样一种情况,您需要处理一个包含 HTML 文件的 zip 文件,并且您的目标是将这些 HTML 文件转换为 PDF 格式,以便进行后续的 OCR(光学字符识别)分析。 为了高效且有效地完成这项任务,利用Iron Suite的三个基本库的功能是最佳解决方案。 让我们简要概览一下每个库。

IronZIP - C# Zip归档.NET库

简化文件压缩和提取,IronZIP 允许在 C# 应用程序中无缝处理 zip 压缩档案。 其直观的API允许轻松从我们的zip档案中提取HTML文件。

Use Csharp Convert Html To Pdf Ocr Documents For Legal Industry 2 related to IronZIP - C# Zip归档.NET库

IronZIP的一些关键功能:

  • 压缩和解压缩:支持多种归档格式,如ZIP、ZIPX、RAR、7Z等。
  • 加密和解密:使用传统密码或更强的AES加密(默认256位)保护您的存档。
  • 流媒体操作:高效处理大型文件存档,而无需将整个文件加载到内存中。
  • 自解压存档创建:创建无需 IronZIP 就可以提取的可执行存档。

IronPDF - C# PDF库

作为一个强大的PDF渲染和操作库,IronPDF能够直接在C#代码中创建和操作PDF文档。 具备HTML转PDF转换的功能,它非常适合我们将HTML文件转换为PDF格式的任务。

IronPDF for .NET:C# PDF 库

IronPDF DLL 的一些关键功能:

  • HTML 到 PDF 转换: 将 HTML 字符串内容或 HTML 文档(包括 CSS 和 JavaScript)转换为高质量的 PDF。
  • PDF 创建和操作:从头开始创建新的PDF,合并现有的PDF,或提取页面。
  • 页面自定义: 控制页面布局、页边距、页眉、页脚和水印。
  • 表单处理:从HTML来源捕获表单数据并填充PDF表单。

IronOCR - C# OCR 库

作为文本提取的宝贵工具,IronOCR专注于从各种来源提取文本,包括扫描文件和PDF文件。 其多功能性使其非常适合从我们生成的 PDF 文档中提取可搜索的文本。

IronOCR for .NET:C# OCR 库

IronOCR的一些关键功能:

  • 光学字符识别:以高精度从扫描文件、图像和PDF中提取文本。
  • 多语言支持:识别超过127种语言的文本。
  • 布局分析:尽可能保留提取文本的原始格式。
  • 可自定义的准确性:通过多种配置微调OCR的准确性。

创建 Visual Studio 项目

首先,为我们的法律自动化任务创建一个新的Visual Studio项目。 确保你已为 .NET 开发设置好必要的环境。 按照以下步骤在Visual Studio中创建项目:

  1. 打开 Visual Studio,点击 "创建新项目 "选项。

    打开 Visual Studio IDE,然后点击“创建新项目”选项。

  2. 根据您的需求选择合适的项目模板(例如,控制台应用程序、Windows窗体应用程序)。

    对于新项目,选择 C# 中的“控制台应用程序”。

  3. 指定项目名称和位置,然后单击 "下一步"。

    通过指定项目名称、位置和解决方案名称来配置您的项目。

  4. 从 "附加信息 "中选择最新的 .NET Framework。

    接下来,选择 .NET 框架并点击创建。

  5. 单击 "创建 "创建项目。

安装库

接下来,将三个必备库 - IronZIP、IronPDF 和 IronOCR - 安装到您的项目中。 您可以通过从IronSoftware的网站下载相应的软件包,或在Visual Studio中使用NuGet包管理器轻松实现这一点。

使用 NuGet 包管理器为解决方案安装

将库集成到您的.NET项目中:

  • 在您的Visual Studio C# 控制台应用中,右键单击解决方案资源管理器中的项目,然后选择“为解决方案管理 NuGet 包”

IronZIP

  1. 在 NuGet 包管理器窗口中,搜索 "IronZip"。

    在 NuGet 包管理器的搜索栏中搜索 IronZip,通过解决方案的管理 NuGet 包安装 IronZip,然后选择项目并点击安装按钮。

  2. 从搜索结果中选择“IronZip”并点击“安装”按钮。

  3. NuGet 会自动下载并将必要的依赖项添加到您的项目中。

IronPDF

  1. 在 NuGet 包管理器窗口中,搜索 "IronPDF"。

    在 NuGet 包管理器的搜索栏中搜索“IronPdf”,然后选择项目并点击安装按钮,通过解决方案管理 NuGet 包来安装 IronPDF。

  2. 从搜索结果中选择“IronPDF”,然后点击“安装”按钮。

    IronOCR

  3. 在 NuGet 包管理器窗口中,搜索 "IronOCR"。

    在 NuGet 包管理器的搜索栏中搜索“IronOCR”,使用解决方案管理 NuGet 包来安装 IronOCR,然后选择项目并点击安装按钮。

  4. 从搜索结果中选择“IronOCR”,然后点击“安装”按钮。

将HTML文件转换为PDF文件的步骤

现在,为了轻松将HTML转换为PDF并随后执行OCR,我们已经设置了Iron Suite的库,每个库都提供了针对我们的任务量身定制的独特功能。 以下包含多个 HTML 网页文件的压缩档案将用于提取 HTML 文件,然后将 HTML 文件转换为 PDF 文件格式以进行 OCR 分析:

ZIP 压缩文件 website.zip,包含三个 HTML 文件

上面截图中显示的Zip文件包含来自一个简单网站的三个HTML网页。HTML页面包含简单的HTML代码,这些代码将传递给PDF转换方法,以将HTML文件转换为单个PDF文档。 然后将应用OCR来分析生成的PDF文档中的HTML元素,并在控制台窗口中打印所有HTML内容。

1. 包括 Iron Suite 库(.NET 命名空间)

要在我们的C#项目中使用Iron Suite提供的功能,我们需要引用每个库的适当命名空间。 以下是如何将它们包含在我们的Program.cs文件中:

using IronZip;
using IronPdf;
using IronOcr;
using IronZip;
using IronPdf;
using IronOcr;
Imports IronZip
Imports IronPdf
Imports IronOcr
$vbLabelText   $csharpLabel

2. 使用 IronZIP 从 Zip 文件中提取 HTML 文件:

首先,我们将利用IronZIP直观的API从zip归档中提取HTML文件。通过简单的方法调用,我们可以高效地提取必要的文件以继续转换过程。

// Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
// Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
' Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted")
$vbLabelText   $csharpLabel

要充分利用IronZIP库,请访问此文档页面。

输出 - 提取的HTML文件

输出:使用IronZIP从归档文件“website.zip”中提取的HTML文件。

3. 使用 IronPDF 将 HTML 转换为 PDF:

其次,我们将利用IronPDF的强大功能,轻松地将所有提取的HTML文件转换为一个单独的PDF文档。 借助其简洁的API,我们可以直接在C#代码中轻松生成高质量的PDF。

// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
' Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
Dim renderer As New ChromePdfRenderer()

' Initialize an empty list to store the individual PDF documents
Dim pdfs As New List(Of PdfDocument)()

' Get all HTML files with the .html extension from the "extracted" folder
Dim htmlFiles = Directory.EnumerateFiles("extracted", "*.html")

' Loop through each HTML file
For Each htmlFile In htmlFiles
	' Render the current HTML file as a PDF document using the ChromePdfRenderer
	Dim pdf = renderer.RenderHtmlFileAsPdf(htmlFile)

	' Add the generated PDF document to the list
	pdfs.Add(pdf)
Next htmlFile

' Merge all the individual PDF documents in the list into a single PDF document
Dim document = PdfDocument.Merge(pdfs)

' Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf")
$vbLabelText   $csharpLabel

IronPDF不仅能将HTML文件、HTML表单、HTML字符串或URL转换为PDF,还可以将其他格式转换为PDF。 有关更详细的信息和可直接使用的示例代码片段,请访问此文档代码示例页面。

输出 - PDF

PDF 生成输出:使用 IronPDF 将提取的 HTML 文件转换为 PDF 文件,然后将转换后的 PDF 文件合并为一个 PDF 文档。

输出的PDF通过IronPDF强大的Chromium HTML转换引擎,清晰地在单独的PDF页面上显示每个HTML页面的内容。

除此之外,您还可以使用IronPrint for .NET - The C# Printing Library打印生成的PDF文件。IronPrint能够高效地将PDF或图像发送至默认打印机进行打印。

有关如何使用IronPrint打印文档的更多信息,请访问此文档页面。

4. 使用IronOCR提取文本:

最后,使用IronOCR从生成的PDF文档中提取可搜索的文本。 通过利用IronOCR的先进文本提取功能,我们可以确保提取的文本准确并准备好进行进一步处理。

以下代码片段获取从IronPDF生成的PDF文件,并成功执行OCR以进行进一步分析:

// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
' Create an IronTesseract object for Optical Character Recognition (OCR)
Dim ocrTesseract = New IronTesseract()

' Create an OcrInput object to specify the input for OCR processing
Dim ocrInput As New OcrInput()

' Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf")

' Perform OCR on the loaded PDF using the IronTesseract engine
Dim ocrResult = ocrTesseract.Read(ocrInput)

' Print the extracted text to the console
Console.WriteLine(ocrResult.Text)
$vbLabelText   $csharpLabel

要获得更详细的文本分析,请访问此现成代码示例页面此处

输出 - PDF 文本

控制台输出:使用 IronOCR 从 PDF 文件中提取文本

输出结果不言自明:快速准确无误,证明了IronOCR的高效。

为什么选择Iron Suite?

Iron Suite 作为市场领先的.NET套件,适用于您的办公文档,提供了其卓越性的多个令人信服的理由。

2件的价格买9件:

通过Iron Suite,您可以以仅购买两个单独产品的价格获得全部九个IronSoftware产品的使用权。 这个极具价值的提案确保您在不超出预算的情况下拥有一套全面的工具包。

Iron Suite 授权信息。

2. 跨平台兼容性:

Iron Suite 旨在跨多个平台无缝运行,包括 Windows、macOS、Linux、Docker、Azure 和 AWS。 无论您是在为桌面、Web 或云环境开发应用程序,Iron Suite 都能满足您的需求。

3. 快速设置:

从下载Iron Suite到将其部署到生产环境,您只需五分钟即可启动和运行。 简单的安装过程和直观的API使开发人员可以在最短的设置时间内开始利用该套件的功能。

4. 全面的文档:

告别猜测和反复试验。 Iron Suite 的每个组件都提供了详细的文档和示例,确保开发人员可以随时获得清晰的指导和资源,从而最大限度地提高生产力。

5. 24/5 技术支持:

需要帮助或对使用Iron Suite有疑问?专门的工程师团队每周五天、全天候提供技术支持,并解决您可能遇到的任何问题。 请放心,帮助始终只需发送一条消息即可获得。

6. 退款保证:

Iron Suite提供30天退款保证。 如果您因任何原因对购买不完全满意,只需在30天内告知Iron团队,他们将无条件退还您的付款。

7. 开始您的免费试用:

准备亲自体验Iron Suite的强大功能和多样性吗? 立即开始您的免费试用,并发现.NET文档工具的综合套件如何简化您的开发工作流程,并为您的项目解锁新的可能性。

结论

总之,Iron Suite为.NET开发人员提供了一个全面的工具包,用于简化法律自动化任务,例如生成PDF文件和将HTML文件转换为可搜索的PDF文档。 通过利用IronZIPIronPDFIronOCR的强大功能,开发人员可以自动化和优化他们的工作流程,从而最终提高法律文件处理的效率和准确性。 有了Iron Suite在您的掌握之中,自动化的可能性是无穷无尽的。

用于HTML到PDF的转换任务,我们利用了Iron Suite的三个基本库:IronZIPIronPDFIronOCRIronPrint 也可以成为执行此任务的潜在竞争者,如果需要打印设备的话。 如果单独购买,这四个库的总成本为 $749 * 4 = $2,996。

然而,使用Iron Suite,您不仅可以访问三个或四个,而是九个强大的库,但价格仅相当于两个单独产品。 这是一个令人难以置信的价值主张,为您提供了全面的工具包以满足您所有的.NET开发需求。 仅需 $1,498,IronSuite 提供了卓越的价值,为您节省时间和资金,同时为您配备了一系列工具以简化开发工作流程。

< 前一页
Iron Suite:轻松实现医疗工作流程的C# PDF创建和OCR功能