如何使用C#為法律行業將HTML轉換為PDF和OCR文件
在當今快節奏的數位化環境中,自動化在提高效率和準確性方面發揮關鍵作用。 法律自動化中的一項常見任務是將一系列 HTML 文件轉換為單一可搜尋的 PDF 文件。
在本指南中,我們將探討Iron Suite (一套專為 .NET 環境量身打造的強大開發工具)如何簡化此流程。
Iron Suite:針對.NET開發人員的綜合工具包
IronSoftware 的Iron Suite是一套全面的 .NET 軟體元件,旨在簡化開發流程,提高使用各種 .NET 框架的開發人員的生產力。 IronSoftware 是一家領先的 .NET 軟體工具供應商,提供 Iron Suite 作為一站式解決方案,為尋求高品質組件的開發人員提供服務,這些組件可用於從文件處理到條碼生成等各種任務。
Iron Suite for .NET:適用於您辦公室的 .NET 套件
Iron Suite 的核心在於其豐富的程式庫和工具,這些程式庫和工具旨在解決軟體開發專案中遇到的常見挑戰。 以下簡要介紹Iron Suite的一些關鍵組成部分:
- IronPDF :用於建立、編輯和管理 PDF 文檔,包括將 HTML 轉換為 PDF。
- IronWord :允許建立和編輯 DOC 和 DOCX 檔案。
- IronXL :可直接處理 Excel 文件,允許讀取、編輯和創建,而無需 Microsoft Office 或 Excel Interop。
- IronOCR :提供光學字元辨識功能,可從影像中擷取超過 125 種語言的文字。
- IronBarcode :能夠讀取和寫入各種條碼格式,包括二維碼。
- IronQR :專門用於產生、讀取和設計二維碼。
- IronZIP :支援壓縮和解壓縮 ZIP 格式的檔案。
- IronPrint :提供管理列印任務和直接從 .NET 程式碼與印表機互動的功能。
- IronWebScraper :專為高效抓取網站上的結構化資料而設計。
使用 Iron Suite 進行 HTML 轉 PDF 轉換和 OCR 分析
假設您需要處理一個包含 HTML 文件的 zip 文件,而您的目標是將這些 HTML 文件轉換為 PDF 格式,以便進行後續的 OCR(光學字元辨識)分析。 為了有效率、有效地完成這項任務,充分利用 Iron Suite 的三個基本函式庫的功能是最佳解決方案。 讓我們簡要概述一下各個庫。
IronZIP - C# Zip 歸檔 .NET 函式庫
IronZIP簡化了檔案壓縮和提取,使 C# 應用程式能夠無縫處理 zip 檔案。 它直覺的 API 可以輕鬆地從我們的 zip 壓縮包中提取 HTML 檔案。

IronZIP 的一些主要特點:
*壓縮和解壓縮:*支援各種存檔格式,如 ZIP、ZIPX、RAR、7Z 等。 加密和解密:使用傳統密碼或更強大的 AES 加密(預設 256 位元)來保護您的存檔。 串流操作:高效處理大型歸檔文件,而無需將整個文件載入到記憶體中。 自解壓縮歸檔建立:**建立無需 IronZIP 即可解壓縮的可執行歸檔。
IronPDF - C# PDF 庫
作為一個強大的 PDF 渲染和操作庫, IronPDF可以直接在 C# 程式碼中建立和操作 PDF 文件。 它具備 HTML 轉 PDF 等功能,非常適合我們將 HTML 檔案轉換為 PDF 格式的任務。
IronPDF DLL 的一些主要功能:
- HTML 轉 PDF 轉換:將 HTML 字串內容或 HTML 文件(包括 CSS 和 JavaScript)轉換為高品質的 PDF。
- PDF 建立與操作:從頭開始建立新的 PDF,合併現有的 PDF,或擷取頁面。 *頁面自訂:*控制頁面佈局、邊距、頁首、頁尾和浮水印。 表單處理:**從 HTML 來源擷取表單資料並填入 PDF 表單。
IronOCR - C# OCR 庫
IronOCR 是一款非常寶貴的文字擷取工具,專門用於從各種來源(包括掃描文件和 PDF 文件)提取文字。 它的多功能性使其成為從我們生成的 PDF 文件中提取可搜尋文字的理想選擇。
IronOCR 的一些主要特點:
*光學字元辨識:*從掃描文件、影像和 PDF 中提取文本,準確率高。 多語言支援:可辨識超過 125 種語言的文字。 佈局分析:盡可能保留提取文字的原始格式。 可自訂精度:**使用各種配置微調 OCR 精度。
建立 Visual Studio 項目
首先,為我們的法律自動化任務建立一個新的 Visual Studio 專案。 請確保您已設定好 .NET 開發所需的必要環境。 請依照下列步驟在Visual Studio中建立專案:
1.開啟 Visual Studio 並點選"建立新專案"選項。
開啟 Visual Studio IDE,然後按一下"建立新專案"選項。
2.根據您的需求選擇適當的專案範本 (例如:主控台應用程式、Windows 表單應用程式)。
3.指定專案名稱和位置,然後按一下"下一步"。
4.從附加資訊中選擇最新的 .NET Framework。
- 點選"建立"按鈕建立項目。
安裝庫
接下來,將三個必要的庫——IronZIP、IronPDF 和 IronOCR——安裝到您的專案中。 您可以透過從 IronSoftware網站下載對應的軟體包,或在 Visual Studio 中使用 NuGet 套件管理器輕鬆完成此操作。
使用 NuGet 套件管理器安裝解決方案
要將這些庫整合到您的 .NET 專案中:
- 在Visual Studio C# ConsoleApp 中,以滑鼠右鍵按一下解決方案資源管理器中的項目,然後選擇"管理解決方案的 NuGet 套件"。
IronZIP
在 NuGet 套件管理器視窗中,搜尋"IronZip"。
! 使用 NuGet 套件管理器的"管理解決方案的 NuGet 套件"安裝 IronZIP,方法是在 NuGet 套件管理器的搜尋列中搜尋"IronZip",然後選擇項目並點擊"安裝"按鈕。
從搜尋結果中選擇"IronZip",然後點選"安裝"按鈕。
- NuGet 將自動下載並為您的專案添加必要的依賴項。
IronPDF。
在 NuGet 套件管理器視窗中,搜尋"IronPDF"。
! 使用 NuGet 套件管理器管理解決方案中的 NuGet 套件來安裝 IronPDF,方法是在 NuGet 套件管理器的搜尋列中搜尋"IronPdf",然後選擇項目並點擊"安裝"按鈕。
- 從搜尋結果中選擇"IronPDF",然後點選"安裝"按鈕。
IronOCR
在 NuGet 套件管理器視窗中,搜尋"IronOCR"。
! 使用 NuGet 套件管理器管理解決方案中的 NuGet 套件來安裝 IronOCR,方法是在 NuGet 套件管理器的搜尋列中搜尋"IronOCR",然後選擇項目並點擊"安裝"按鈕。
- 從搜尋結果中選擇"IronOCR",然後點選"安裝"按鈕。
將 HTML 文件轉換為 PDF 文件的步驟
為了方便地將 HTML 轉換為 PDF 並隨後執行 OCR,我們安裝了 Iron Suite 中的庫,每個庫都提供了針對我們任務量身定制的獨特功能。 以下包含多個 HTML 網頁文件的 zip 壓縮套件將用於提取 HTML 文件,然後將 HTML 文件轉換為 PDF 文件格式以進行 OCR 分析:
包含三個 HTML 檔案的 ZIP 壓縮套件"website.zip"
上圖所示的壓縮檔案包含一個簡單網站的 3 個 HTML 網頁。這些 HTML 網頁包含簡單的 HTML 程式碼,這些程式碼將傳遞給 PDF 轉換器,以將 HTML 檔案轉換為單一 PDF 文件。 然後,將套用 OCR 分析產生的 PDF 文件中的 html 元素,並將所有 HTML 內容列印到控制台視窗中。
1. 包含 Iron Suite 函式庫(.NET 命名空間)
為了在我們的 C# 專案中使用 Iron Suite 提供的功能,我們需要為每個庫引用對應的命名空間。 以下是如何將它們新增至我們的Program.cs檔案的方法:
using IronZip;
using IronPdf;
using IronOcr;using IronZip;
using IronPdf;
using IronOcr;Imports IronZip
Imports IronPdf
Imports IronOcr2. 使用 IronZip 從 Zip 檔案中提取 HTML 文件
首先,我們將利用 IronZIP 直覺的 API 從 zip 壓縮包中提取 HTML 檔案。只要呼叫一個簡單的方法,我們就能有效率地提取轉換過程所需的必要檔案。
// Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");// Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");' Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted")若要充分利用 IronZIP 庫,請造訪此文件頁面。
輸出 - 提取的 HTML 文件
3. 使用 IronPDF 將 HTML 轉換為 PDF
其次,我們將利用IronPDF的強大功能,輕鬆地將所有提取的 HTML 文件轉換為單一 PDF 文件。 憑藉其簡單易用的 API,我們可以直接在 C# 程式碼中輕鬆產生高品質的 PDF。
// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();
// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();
// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");
// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
// Render the current HTML file as a PDF document using the ChromePdfRenderer
var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);
// Add the generated PDF document to the list
pdfs.Add(pdf);
}
// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);
// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();
// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();
// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");
// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
// Render the current HTML file as a PDF document using the ChromePdfRenderer
var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);
// Add the generated PDF document to the list
pdfs.Add(pdf);
}
// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);
// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");' Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
Dim renderer As New ChromePdfRenderer()
' Initialize an empty list to store the individual PDF documents
Dim pdfs As New List(Of PdfDocument)()
' Get all HTML files with the .html extension from the "extracted" folder
Dim htmlFiles = Directory.EnumerateFiles("extracted", "*.html")
' Loop through each HTML file
For Each htmlFile In htmlFiles
' Render the current HTML file as a PDF document using the ChromePdfRenderer
Dim pdf = renderer.RenderHtmlFileAsPdf(htmlFile)
' Add the generated PDF document to the list
pdfs.Add(pdf)
Next htmlFile
' Merge all the individual PDF documents in the list into a single PDF document
Dim document = PdfDocument.Merge(pdfs)
' Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf")IronPDF 不僅提供從 HTML 檔案、HTML 表單、HTML 字串或 URL 轉換 PDF 的功能,還提供從其他格式轉換 PDF 的功能。 如需更多詳細資訊和可直接使用的範例程式碼片段,請造訪此文件和程式碼範例頁面。
輸出 - PDF
! PDF 產生輸出:將提取的 HTML 文件轉換為 PDF 文件,然後使用 IronPDF 將轉換後的 PDF 文件合併為一個 PDF 文件。
使用 IronPDF 強大的 Chromium HTML 轉換引擎,輸出的 PDF 可以清楚地將每個 HTML 頁面內容顯示在單獨的 PDF 頁面上。
此外,您也可以使用IronPrint for .NET(C# 列印庫)來列印產生的 PDF 檔案。 IronPrint可以有效率地將 PDF 或影像傳送到預設印表機進行列印。
有關如何使用IronPrint列印文件的更多信息,請訪問此文件頁面。
4. 使用 IronOCR 提取文本
最後,使用IronOCR從生成的 PDF 文件中提取可搜尋文字。 利用 IronOCR 的先進文字擷取功能,我們可以確保擷取的文字準確無誤,並可用於進一步處理。
以下程式碼片段讀取由 IronPDF 產生的 PDF 文件,並成功執行OCR以進行進一步分析:
// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();
// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();
// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf");
// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);
// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();
// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();
// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf");
// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);
// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);' Create an IronTesseract object for Optical Character Recognition (OCR)
Dim ocrTesseract = New IronTesseract()
' Create an OcrInput object to specify the input for OCR processing
Dim ocrInput As New OcrInput()
' Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf")
' Perform OCR on the loaded PDF using the IronTesseract engine
Dim ocrResult = ocrTesseract.Read(ocrInput)
' Print the extracted text to the console
Console.WriteLine(ocrResult.Text)如需對文字進行更詳細的分析,請造訪此處的現成程式碼範例頁面。
輸出 - PDF 文字
控制台輸出:使用 IronOCR 從 PDF 文件中提取文本
輸出結果不言自明:快速、準確、無誤,充分證明了 IronOCR 的高效性。
為什麼選擇 Iron Suite?
Iron Suite是一款市場領先的 .NET 辦公室文件套件,其卓越性能體現在許多方面。
1. 買二送一:
使用 Iron Suite,您只需支付兩款單獨產品的價格,即可獲得所有九款 Iron Software 產品。 這項極具價值的方案確保您擁有全面的工具包,而無需花費大量資金。
2. 跨平台相容性:
Iron Suite 旨在跨多個平台無縫運行,包括 Windows、macOS、Linux、Docker、Azure 和 AWS。 無論您是開發桌面、Web 還是雲端環境的應用程序,Iron Suite 都能滿足您的需求。
3. 快速安裝:
從下載 Iron Suite 到將其部署到生產環境,最快只需五分鐘即可完成啟動和運行。 簡單的安裝過程和直覺的 API 使開發人員能夠以最短的設定時間開始利用該套件的功能。
4. 完善的文檔:
告別猜測和反覆試驗。 Iron Suite 為每個組件提供了詳盡的文件和範例,確保開發人員隨時可以獲得清晰的指導和資源,從而最大限度地提高生產力。
5. 24/5 技術支援:
需要協助或對使用 Iron Suite 有任何疑問?我們專業的工程師團隊每週五天、每天 24 小時隨時待命,提供技術支援並解決您可能遇到的任何問題。 請放心,只需發送一條訊息即可獲得幫助。
6. 退款保證:
Iron Suite 提供 30 天退款保證。 如果您因任何原因對購買的產品不完全滿意,只需在 30 天內告知 Iron 團隊,他們將全額退款,無需任何理由。
7. 開始免費試用:
準備好親自體驗 Iron Suite 的強大功能和多功能性了嗎? 立即開始免費試用,探索這套全面的 .NET 文件工具如何簡化您的開發工作流程,並為您的專案開啟新的可能性。
結論
總而言之,Iron Suite 為 .NET 開發人員提供了一套全面的工具包,用於簡化法律自動化任務,例如產生 pdf 和將 HTML 檔案轉換為可搜尋的 PDF 文件。 透過利用IronZIP 、 IronPDF和IronOCR的強大功能,開發人員可以自動化和優化其工作流程,最終提高法律文件處理的效率和準確性。 有了Iron Suite ,自動化的可能性是無限的。
對於 HTML 到 PDF 的轉換任務,我們使用了 Iron Suite 的三個基本函式庫: IronZIP 、 IronPDF和IronOCR 。 如果需要印刷設備, IronPrint也可以成為這項任務的潛在競爭者。 如果單獨購買這四本書,總成本為 749 美元 * 4 = 2,996 美元。
但是,使用Iron Suite ,您只需支付兩個單獨產品的價格,即可獲得九個強大的庫,而不僅僅是三到四個。 這是一個極具價值的方案,它為您提供了一套全面的工具包,滿足您所有的 .NET 開發需求。 Iron Suite只需$1,498即可提供卓越的價值,既能節省您的時間和金錢,又能為您提供各種工具來簡化您的開發工作流程。