行業

如何使用 C# 將 HTML 轉換為 PDF 和 OCR 文件以應用於法律行業

2025年1月14日

在當今快速變化的數位環境中，自動化在提高效率和準確性方面發揮著關鍵作用。在法律自動化中，一個常見的任務是將一系列的 HTML 文件轉換為單一的可搜尋 PDF 文件。

在本指南中，我們將探討如何透過Iron Suite，這一組為 .NET 環境量身定制的強大開發工具來簡化這一過程。

Iron Suite：適用於 .NET 開發人員的綜合工具包

IronSoftware 的Iron Suite 是一套全面的 .NET 軟體元件集合，旨在簡化開發流程並提高使用各種 .NET 框架的開發人員的生產力。 IronSoftware 是 .NET 軟體工具的領先提供商，提供 Iron Suite 作為開發人員的一站式解決方案，為從文件操作到條碼生成等任務提供高品質的組件。

Iron Suite for .NET：適合您辦公室的 .NET 套件

Iron Suite的核心是一系列丰富的库和工具，专为解决软件开发项目中常见的挑战而量身打造。以下是 Iron Suite 的部分核心組件：

IronPDF: 用於創建、編輯和管理PDF文件，包括將HTML轉換為PDF。
IronWord: 允許創建和編輯 DOC 與 DOCX 文件。
IronXL：允許直接處理 Excel 檔案，並提供讀取、編輯和創建功能，無需安裝 Microsoft Office 或 Excel Interop。
IronOCR：提供光學字符識別功能，可從影像中擷取文字，支持超過127種語言。
IronBarcode：提供讀寫各種條碼格式的能力，包括 QR 碼。
IronQR：專注於生成、讀取和設計 QR 碼。
IronZIP: 可壓縮和解壓縮 ZIP 格式的文件。
IronPrint：提供功能來管理列印任務，並直接從您的 .NET 代碼與印表機進行互動。
IronWebScraper：專為從網站高效抓取結構化數據而設計。

使用 Iron Suite 進行 HTML 轉換為 PDF 和 OCR 分析

考慮一種情境，您需要處理一個包含 HTML 文件的 zip 檔，而您的目標是將這些 HTML 文件轉換為 PDF 格式，以便隨後進行 OCR（光學字符識別）分析。為了高效且有效地完成此任務，利用Iron Suite的三個基本庫的功能是最佳解決方案。讓我們簡要概述一下每個庫。

IronZIP - C# Zip 壓縮文件 .NET Library

簡化檔案壓縮和提取，IronZIP 使 C# 應用程式能夠無縫處理 zip 壓縮檔案。其直观的 API 允许运行轻松从我们的 zip 压缩档案中提取 HTML 文件。

Use Csharp Convert Html To Pdf Ocr Documents For Legal Industry 2 related to IronZIP - C# Zip 壓縮文件 .NET Library

IronZIP 的一些主要功能：

壓縮和解壓縮： 支援多種壓縮格式，如ZIP、ZIPX、RAR、7Z等。
加密和解密：使用傳統密碼或更強的 AES 加密（預設為 256 位元）來保護您的檔案。
串流操作：有效地處理大型檔案，而不需要將整個文件載入記憶體中。
自解壓縮檔案創建：創建可執行檔案，無需 IronZIP 即可解壓。

IronPDF - C# PDF庫

作為一個強大的 PDF 呈現和操作庫，IronPDF 促進在 C# 代碼中直接創建和操作 PDF 文檔。具備 HTML 到 PDF 的轉換功能，它非常適合我們將 HTML 文件轉換為 PDF 格式的任務。

IronPDF for .NET：C# PDF 程式庫

IronPDF DLL的一些關鍵功能：

HTML 到 PDF 轉換：將 HTML 字串內容或 HTML 文件，包括 CSS 和 JavaScript，轉換成高品質的 PDF。
PDF 創建與操作：從頭開始創建新的 PDFs，合併現有的 PDFs，或提取頁面。
頁面自定義：控制頁面佈局、邊距、頁首、頁尾和浮水印。
表單處理：從 HTML 資源捕獲表單數據並填寫 PDF 表單。

IronOCR - C# OCR程式庫

一個無價的文字提取工具，IronOCR 專門從各種來源（包括掃描檔和 PDF 文件）中提取文字。其多功能性使其非常適合從我們生成的 PDF 文件中提取可搜索的文字。

IronOCR for .NET：C# OCR 函式庫

IronOCR 的一些主要功能：

光學字符識別：以高精度從掃描文件、圖像及PDF中提取文本。
多語言支持：辨識超過127種語言的文本。
版面分析：盡可能保留提取文本的原始格式。
可自訂的準確性：使用各種設定微調 OCR 準確性。

在 Visual Studio 中创建项目

首先，為我們的法律自動化任務創建一個新的 Visual Studio 專案。確保已設置好開發 .NET 所需的環境。按照以下步驟在Visual Studio中創建專案：

打開 Visual Studio，然後點擊「建立新專案」選項。
根據您的需求選擇合適的項目模板（例如，控制台應用程式、Windows Forms 應用程式）。
指定專案名稱和位置，然後點擊「下一步」。
從其他資訊中選取最新的 .NET Framework。
！接下來，選擇 .NET Framework，然後點擊建立。
按「建立」以建立專案。

安裝庫文件

接下來，將三個基本庫——IronZIP、IronPDF 和 IronOCR——安裝到您的專案中。您可以輕鬆地透過從IronSoftware的網站下載相應的套件，或是使用Visual Studio中的NuGet套件管理器來完成。

使用 NuGet 套件管理員安裝解決方案

要將庫整合到您的 .NET 專案中：

在您的Visual Studio C# ConsoleApp 中，右鍵單擊方案總管中的專案，然後選擇「管理 NuGet 套件以解決方案」

IronZIP

在 NuGet 套件管理器窗口中，搜索「IronZip」。
從搜尋結果中選擇「IronZip」，然後點擊「安裝」按鈕。
NuGet 會自動下載並添加必要的依賴項到您的專案中。

IronPDF

在 NuGet 套件管理器窗口中，搜尋 "IronPDF"。
從搜尋結果中選擇「IronPDF」，然後點擊「安裝」按鈕。
IronOCR
在 NuGet 套件管理器視窗中，搜尋 "IronOCR"。
從搜尋結果中選擇「IronOCR」，然後點擊「安裝」按鈕。

將 HTML 文件轉換為 PDF 文件的步驟

現在，為了輕鬆將 HTML 轉換為 PDF 並隨後執行 OCR，我們已經設置了來自 Iron Suite 的庫，每個庫都提供了針對我們任務的獨特功能。以下包含多個 HTML 網頁文件的 zip 壓縮文件將被用來提取 HTML 文件，然後將 HTML 文件轉換為 PDF 文件格式以進行 OCR 分析：

ZIP壓縮檔案「website.zip」，包含三個HTML檔案

上面截圖中顯示的 Zip 文件包含一個簡單網站的 3 個 HTML 網頁。這些 HTML 頁面包含簡單的 HTML 代碼，將傳遞給 PDF 轉換器方法，用於將 HTML 文件轉換為單個 PDF 文檔。然後將應用OCR來分析生成的PDF文件中的html元素，並將所有HTML內容列印在控制台視窗中。

1. 包含 Iron Suite 庫（.NET 命名空間）

要在我們的 C# 專案中利用 Iron Suite 提供的功能，我們需要引用每個庫的適當命名空間。以下是將它們包含在我們的Program.cs文件中的方法：

using IronZip;
using IronPdf;
using IronOcr;

using IronZip;
using IronPdf;
using IronOcr;

Imports IronZip
Imports IronPdf
Imports IronOcr

$vbLabelText $csharpLabel

2. 使用 IronZIP 從 Zip 中提取 HTML 文件：

首先，我們將利用IronZIP的直觀API從zip壓縮檔案中提取HTML文件。通過簡單的方法調用，我們可以高效地提取必要的文件以繼續轉換過程。

// Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");

// Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");

' Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted")

$vbLabelText $csharpLabel

如需充分利用IronZIP庫，請造訪此文件頁面。

輸出 - 提取的 HTML 文件

輸出：使用 IronZIP 從 website.zip 壓縮檔中提取的 HTML 文件。

3. 使用 IronPDF 將 HTML 轉換為 PDF：

其次，我們將使用IronPDF的強大功能，輕鬆將所有提取的HTML文件轉換為單一的PDF檔案。藉由其簡單易用的 API，我們可以輕鬆地在 C# 程式碼中直接生成高品質的 PDF。

// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");

// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");

' Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
Dim renderer As New ChromePdfRenderer()

' Initialize an empty list to store the individual PDF documents
Dim pdfs As New List(Of PdfDocument)()

' Get all HTML files with the .html extension from the "extracted" folder
Dim htmlFiles = Directory.EnumerateFiles("extracted", "*.html")

' Loop through each HTML file
For Each htmlFile In htmlFiles
	' Render the current HTML file as a PDF document using the ChromePdfRenderer
	Dim pdf = renderer.RenderHtmlFileAsPdf(htmlFile)

	' Add the generated PDF document to the list
	pdfs.Add(pdf)
Next htmlFile

' Merge all the individual PDF documents in the list into a single PDF document
Dim document = PdfDocument.Merge(pdfs)

' Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf")

$vbLabelText $csharpLabel

IronPDF 不僅提供從 HTML 文件、HTML 表單、HTML 字串或網址轉換為 PDF，還可從其他格式轉換為 PDF。如需詳細信息和現成的示例代碼片段，請訪問此文檔和代碼示例頁面。

輸出 - PDF

PDF 生成輸出：使用 IronPDF 將提取出的 HTML 文件轉換為 PDF 文件，然後將轉換後的 PDF 文件合併為單一 PDF 文件。

使用IronPDF功能強大的Chromium HTML轉換引擎，輸出PDF明確顯示每個HTML頁面的內容在單獨的PDF頁面上。

除此之外，您還可以使用IronPrint for .NET - The C# Printing Library來列印生成的 PDF 檔案。IronPrint 能有效地將 PDF 或圖像發送到預設的印表機進行列印。

欲了解更多有關如何使用IronPrint列印文件的信息，請造訪此文件頁面。

4. 使用 IronOCR 提取文本：

最後，使用IronOCR從生成的 PDF 文件中提取可搜索的文本。透過使用 IronOCR 的先進文字提取功能，我們可以確保提取的文字準確並準備好進一步處理。

以下程式碼片段從IronPDF生成的PDF檔案成功執行OCR以進行進一步分析：

// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);

// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);

' Create an IronTesseract object for Optical Character Recognition (OCR)
Dim ocrTesseract = New IronTesseract()

' Create an OcrInput object to specify the input for OCR processing
Dim ocrInput As New OcrInput()

' Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf")

' Perform OCR on the loaded PDF using the IronTesseract engine
Dim ocrResult = ocrTesseract.Read(ocrInput)

' Print the extracted text to the console
Console.WriteLine(ocrResult.Text)

$vbLabelText $csharpLabel

欲了解更詳細的文本分析，請造訪此處的現成代碼示例頁面此處。

輸出 - PDF 文字

控制台輸出：使用IronOCR從PDF文件提取文本

輸出結果不言自明：快速、準確且無錯誤，證明了IronOCR的高效能。

為什麼選擇 Iron Suite？

Iron Suite 凸顯了作為一個領先市場的 .NET 套件，用於您的辦公文件，它提供了多個引人注目的理由來證明其優越性。

1. 以2個價格買9個：

使用 Iron Suite，您可以以僅兩個單獨產品的價格訪問所有九個 IronSoftware 產品。這個不可思議的價值主張確保您擁有一套完整的工具包，而不會讓您花費過多。

Iron Suite 授權資訊。

2. 跨平台相容性：

Iron Suite 被設計為能夠在多個平台上無縫運行，包括 Windows、macOS、Linux、Docker、Azure 和 AWS。無論您是在為桌面、網路還是雲環境開發應用程式，Iron Suite 都能滿足您的需求。

3. 快速設定：

從下載 Iron Suite 到將其部署到生產環境，您只需短短五分鐘即可開始運行。簡單的安裝過程和直觀的 API 使開發人員能夠以最少的設置時間開始利用套件的功能。

4. 詳盡文件：

告別猜測和反覆試驗。 Iron Suite 提供每個組件的詳細文檔和示例，確保開發人員隨時擁有清晰的指導和資源，從而最大化生產力。

5. 24/5 技術支援：

需要協助或有關於使用 Iron Suite 的問題嗎？專業工程師團隊提供技術支援，每週五天全天候為您解決任何可能遇到的問題。請放心，隨時只需一則訊息即可獲得幫助。

6. 退款保證：

Iron Suite 提供30天退款保證。如果您對購買的產品不完全滿意，請於30天內通知Iron團隊，他們將退款給您，無需任何問題。

7. 開始您的免費試用：

準備好親自體驗 Iron Suite 的強大和多功能性了嗎？立即開始您的免費試用，瞭解這套完整的 .NET 文檔工具如何簡化您的開發工作流程，並為您的項目開啟新的可能性。

結論

總之，Iron Suite 為 .NET 開發人員提供了一套全面的工具組，以簡化法律自動化任務，例如生成pdf和將HTML文件轉換為可搜索的PDF文檔。透過利用IronZIP、IronPDF和IronOCR的強大功能，開發人員可以自動化和優化他們的工作流程，最終提升法律文件處理的效率和準確性。使用Iron Suite，自動化的可能性是無窮無盡的。

為了將 HTML 轉換為 PDF 的任務，我們利用了 Iron Suite 的三個基本庫：IronZIP、IronPDF 和 IronOCR。 IronPrint 如果需要列印功能，也可能是此任務的潛在競爭者。如果單獨購買，這四個函式庫的總成本為 $749 * 4 = $2,996。

然而，使用Iron Suite，您獲得的權限不僅僅是三或四個，而是九個強大的程式庫，僅需支付兩個單獨產品的價格。這是一個極具吸引力的價值主張，為您提供滿足所有 .NET 開發需求的全方位工具包。只需 $1,498，IronSuite 提供卓越的價值，不僅幫助您節省時間和金錢，還為您提供各式工具以簡化您的開發流程。

< 上一頁
Iron Suite：輕鬆打造 C# PDF 生成和醫療工作流程的 OCR

如何使用 C# 將 HTML 轉換為 PDF 和 OCR 文件以應用於法律行業

Iron Suite：適用於 .NET 開發人員的綜合工具包

使用 Iron Suite 進行 HTML 轉換為 PDF 和 OCR 分析

IronZIP - C# Zip 壓縮文件 .NET Library

IronPDF - C# PDF庫

IronOCR - C# OCR程式庫

在 Visual Studio 中创建项目

安裝庫文件

使用 NuGet 套件管理員安裝解決方案

IronZIP

IronPDF

將 HTML 文件轉換為 PDF 文件的步驟

1. 包含 Iron Suite 庫（.NET 命名空間）

2. 使用 IronZIP 從 Zip 中提取 HTML 文件：

輸出 - 提取的 HTML 文件

3. 使用 IronPDF 將 HTML 轉換為 PDF：

輸出 - PDF

4. 使用 IronOCR 提取文本：

輸出 - PDF 文字

為什麼選擇 Iron Suite？

1. 以2個價格買9個：

2. 跨平台相容性：

3. 快速設定：

4. 詳盡文件：

5. 24/5 技術支援：

6. 退款保證：

7. 開始您的免費試用：

結論

本頁內容

下一步：開始免費 30 天試用