行業

如何使用 C# 將 HTML 轉換為 PDF 和 OCR 文件以應用於法律行業

發佈 2025年1月14日
分享:

在當今快速變化的數位環境中,自動化在提高效率和準確性方面發揮著關鍵作用。 在法律自動化中,一個常見的任務是將一系列的 HTML 文件轉換為單一的可搜尋 PDF 文件。

在本指南中,我們將探討如何Iron Suite,強大的開發工具集專為 .NET 環境量身打造,可以簡化這個過程。

Iron Suite:適用於 .NET 開發人員的綜合工具包

IronSoftware的 Iron Suite是一個全面的.NET軟體組件集合,旨在簡化開發過程並提高從事各種.NET框架的開發者的生產力。 IronSoftware 是 .NET 軟體工具的領先提供商,提供 Iron Suite 作為開發人員的一站式解決方案,為從文件操作到條碼生成等任務提供高品質的組件。

Iron Suite for .NET:適用於您的辦公室的 .NET 套件

Iron Suite的核心是一系列丰富的库和工具,专为解决软件开发项目中常见的挑战而量身打造。 以下是 Iron Suite 的部分核心組件:

*IronPDF 用於建立、編輯和管理 PDF 文檔,包括將 HTML 轉換為 PDF。

*IronWord允許創建和編輯DOC和DOCX文件。

*IronXL 允許直接操作 Excel 文件,可以進行讀取、編輯和創建,而無需安裝 Microsoft Office 或 Excel Interop。

*IronOCR 提供光學字符識別功能,以從圖像中提取超過127種語言的文本。

*IronBarcode 提供讀寫各種條碼格式的能力,包括 QR 碼。

*IronQR專門聚焦於生成、讀取及樣式化 QR 代碼。

*IronZIP可以壓縮和解壓ZIP格式的文件。

*IronPrint 提供用於管理列印任務以及直接從您的 .NET 程式碼與印表機互動的功能。

*IronWebScraper 設計用於高效地從網站擷取結構化數據。

使用 Iron Suite 進行 HTML 轉換為 PDF 和 OCR 分析

考慮一個情境:您需要處理包含 HTML 文件的 zip 文件,並且您的目標是將這些 HTML 文件轉換為 PDF 格式以供後續 OCR 使用。(光學字符識別)分析。 為了高效且有效地完成此任務,利用Iron Suite的三個基本庫的功能是最佳解決方案。 讓我們簡要概述一下每個庫。

IronZIP - C# Zip 壓縮檔 .NET 程式庫

簡化文件壓縮和提取,IronZIP在 C# 應用程序中實現無縫處理 zip 壓縮檔案。 其直观的 API 允许运行轻松从我们的 zip 压缩档案中提取 HTML 文件。

Use Csharp Convert Html To Pdf Ocr Documents For Legal Industry 2 related to IronZIP - C# Zip 壓縮檔 .NET 程式庫

IronZIP 的一些主要功能:

  • 壓縮和解壓縮: 支援多種壓縮格式,如 ZIP、ZIPX、RAR、7Z 等。
  • 加密與解密: 使用傳統密碼或更強的 AES 加密來保護您的檔案壓縮包(默認為256位元).
  • 流式操作: 高效處理大型壓縮檔,無需將整個文件加載到記憶體中。
  • 自解壓縮檔案創建: 創建不需要 IronZIP 就可以解壓的可執行檔案。

IronPDF - C# PDF 函式庫

作為一個穩健的 PDF 渲染和操作庫,IronPDF促進直接在 C# 代碼中創建和操作 PDF 文件。 具備 HTML 到 PDF 的轉換功能,它非常適合我們將 HTML 文件轉換為 PDF 格式的任務。

IronPDF for .NET:C# PDF 函式庫

IronPDF DLL的一些關鍵功能:

  • HTML 轉換為 PDF:將 HTML 字串內容或 HTML 文件(包括 CSS 和 JavaScript)轉換為高品質的 PDF。
  • PDF 創建與操作: 從頭開始創建新的 PDF、合併現有 PDF 或提取頁面。
  • 頁面自訂: 控制頁面佈局、邊距、頁首、頁尾和浮水印。
  • 表單處理: 從 HTML 資源捕獲表單數據並填充 PDF 表單。

IronOCR - C# OCR 函式庫

一個無價的文字提取工具,IronOCR專門從各種來源提取文本,包括掃描文件和PDF檔案。 其多功能性使其非常適合從我們生成的 PDF 文件中提取可搜索的文字。

IronOCR for .NET:C# OCR 庫

IronOCR 的一些主要功能:

  • 光學字符識別: 從掃描文件、圖像和 PDF 中提取高準確度的文字。
  • 多語支援: 可以識別超過127種語言的文本。
  • 版面分析: 儘可能保留提取文本的原始格式。
  • 可自訂精確度: 使用多種配置微調 OCR 精確度。

在 Visual Studio 中创建项目

首先,為我們的法律自動化任務創建一個新的 Visual Studio 專案。 確保已設置好開發 .NET 所需的環境。 按照以下步驟在 中建立專案Visual Studio:

  1. 打開 Visual Studio,然後點擊「建立新專案」選項。

    開啟 Visual Studio IDE,然後點擊「建立新專案」選項。

  2. 根據您的需求選擇合適的專案模板(例如,控制台應用程式,Windows Forms 應用程式).

    對於新專案,選擇 C# 中的「控制台應用程式」。

  3. 指定專案名稱和位置,然後點擊「下一步」。

    通過指定專案名稱、位置和解決方案名稱來配置您的專案。

  4. 從其他資訊中選取最新的 .NET Framework。

    接下來,選擇 .NET 框架並點擊建立。

  5. 按「建立」以建立專案。

安裝庫文件

接下來,將三個基本庫——IronZIP、IronPDF 和 IronOCR——安裝到您的專案中。 您可以通過從 Iron Software 下載相應的套件輕鬆完成此操作。網站或使用 Visual Studio 中的 NuGet 套件管理員。

使用 NuGet 套件管理員安裝解決方案

要將庫整合到您的 .NET 專案中:

  • 在你的Visual StudioC# ConsoleApp,右鍵點擊在方案總管中的專案,然後選擇「管理方案的 NuGet 套件」

IronZIP

  1. 在 NuGet 套件管理器窗口中,搜索「IronZip」。

    使用 NuGet 套件管理器為方案安裝 IronZIP。在 NuGet 套件管理器的搜尋欄中搜尋 IronZIP,然後選擇專案並點擊安裝按鈕。

  2. 從搜尋結果中選擇「IronZip」,然後點擊「安裝」按鈕。

  3. NuGet 會自動下載並添加必要的依賴項到您的專案中。

IronPDF

  1. 在 NuGet 套件管理器窗口中,搜尋 "IronPDF"。

    在 NuGet 套件管理器的搜尋欄中搜尋 IronPdf,使用方案的管理 NuGet 套件來安裝 IronPDF,然後選擇專案並點擊安裝按鈕。

  2. 從搜尋結果中選擇「IronPDF」,然後點擊「安裝」按鈕。

    IronOCR

  3. 在 NuGet 套件管理器視窗中,搜尋 "IronOCR"。

    使用「方案的 NuGet 套件管理」安裝 IronOCR,方法是在 NuGet 套件管理器的搜索欄中搜索「IronOCR」,然後選擇專案並點擊「安裝」按鈕。

  4. 從搜尋結果中選擇「IronOCR」,然後點擊「安裝」按鈕。

將 HTML 文件轉換為 PDF 文件的步驟

現在,為了輕鬆將 HTML 轉換為 PDF 並隨後執行 OCR,我們已經設置了來自 Iron Suite 的庫,每個庫都提供了針對我們任務的獨特功能。 以下包含多個 HTML 網頁文件的 zip 壓縮文件將被用來提取 HTML 文件,然後將 HTML 文件轉換為 PDF 文件格式以進行 OCR 分析:

ZIP 壓縮檔 website.zip,內含三個 HTML 檔案

上面截圖中顯示的 Zip 文件包含一個簡單網站的 3 個 HTML 網頁。這些 HTML 頁面包含簡單的 HTML 代碼,將傳遞給 PDF 轉換器方法,用於將 HTML 文件轉換為單個 PDF 文檔。 然後將應用OCR來分析生成的PDF文件中的html元素,並將所有HTML內容列印在控制台視窗中。

1. 包含 Iron Suite 庫(.NET 命名空間)

要在我們的 C# 專案中利用 Iron Suite 提供的功能,我們需要引用每個庫的適當命名空間。 以下是如何將它們包含在我們的 Program.cs 文件中:

using IronZip;
using IronPdf;
using IronOcr;
using IronZip;
using IronPdf;
using IronOcr;
Imports IronZip
Imports IronPdf
Imports IronOcr
VB   C#

2. 使用 IronZIP 從 Zip 中提取 HTML 文件:

首先,我們將利用 IronZIP 的直觀 API 從 zip 壓縮檔中提取 HTML 文件。通過簡單的方法調用,我們可以高效地...提取進行轉換過程所需的檔案。

// Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
// Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
' Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted")
VB   C#

若要更充分利用IronZIP函式庫,請造訪這個文檔頁面。

輸出 - 提取的 HTML 文件

輸出:使用 IronZIP 從檔案 website.zip 中提取的 HTML 文件。

3. 使用 IronPDF 將 HTML 轉換為 PDF:

其次,我們將使用 IronPDF 的強大功能,輕鬆將所有提取的 HTML 文件轉換為單個 PDF 文檔。 藉由其簡單易用的 API,我們可以輕鬆地在 C# 程式碼中直接生成高品質的 PDF。

// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
' Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
Dim renderer As New ChromePdfRenderer()

' Initialize an empty list to store the individual PDF documents
Dim pdfs As New List(Of PdfDocument)()

' Get all HTML files with the .html extension from the "extracted" folder
Dim htmlFiles = Directory.EnumerateFiles("extracted", "*.html")

' Loop through each HTML file
For Each htmlFile In htmlFiles
	' Render the current HTML file as a PDF document using the ChromePdfRenderer
	Dim pdf = renderer.RenderHtmlFileAsPdf(htmlFile)

	' Add the generated PDF document to the list
	pdfs.Add(pdf)
Next htmlFile

' Merge all the individual PDF documents in the list into a single PDF document
Dim document = PdfDocument.Merge(pdfs)

' Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf")
VB   C#

IronPDF 不僅提供從 HTML 文件、HTML 表單、HTML 字串或網址轉換為 PDF,還可從其他格式轉換為 PDF。 如需詳細資訊和可用的範例程式碼片段,請造訪這個文檔代碼範例頁面。

輸出 - PDF

PDF 生成輸出:使用 IronPDF 將提取的 HTML 文件轉換為 PDF 文件,然後將轉換後的 PDF 文件合併成單個 PDF 文件。

使用IronPDF功能強大的Chromium HTML轉換引擎,輸出PDF明確顯示每個HTML頁面的內容在單獨的PDF頁面上。

除此之外,您還可以使用IronPrint for .NET - C# 列印庫用於列印生成的 PDF 文件。IronPrint 高效地將 PDF 或影像發送至預設印表機以進行列印。

如需有關使用 IronPrint 列印文件的更多資訊,請造訪此文檔頁面。

4. 使用 IronOCR 提取文本:

最後,使用IronOCR從生成的 PDF 文件中提取可搜索的文本。 透過使用 IronOCR 的先進文字提取功能,我們可以確保提取的文字準確並準備好進一步處理。

以下程式碼片段從 IronPDF 生成的 PDF 文件中成功執行光學字符識別 (光學字符識別)進一步分析:

// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
' Create an IronTesseract object for Optical Character Recognition (OCR)
Dim ocrTesseract = New IronTesseract()

' Create an OcrInput object to specify the input for OCR processing
Dim ocrInput As New OcrInput()

' Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf")

' Perform OCR on the loaded PDF using the IronTesseract engine
Dim ocrResult = ocrTesseract.Read(ocrInput)

' Print the extracted text to the console
Console.WriteLine(ocrResult.Text)
VB   C#

如需更詳細的文字分析,請參閱此現成的程式碼範例頁面這裡.

輸出 - PDF 文字

控制台輸出:使用 IronOCR 從 PDF 文件中提取文本

輸出效果不言而喻:快速精確,且無錯誤,這都證明了IronOCR的高效能。

為什麼選擇 Iron Suite?

Iron Suite在眾多原因中突顯出來,成為市場領先的.NET辦公文件工具套件,展示其卓越性。

1. 以2個價格買9個:

使用 Iron Suite,您可以訪問所有九款Iron Software產品價格僅兩個單獨產品。 這個不可思議的價值主張確保您擁有一套完整的工具包,而不會讓您花費過多。

Iron Suite 授權資訊。

2. 跨平台相容性:

Iron Suite 被設計為能夠在多個平台上無縫運行,包括 Windows、macOS、Linux、Docker、Azure 和 AWS。 無論您是在為桌面、網路還是雲環境開發應用程式,Iron Suite 都能滿足您的需求。

3. 快速設定:

從下載 Iron Suite 到將其部署到生產環境,您只需短短五分鐘即可開始運行。 簡單的安裝過程和直觀的 API 使開發人員能夠以最少的設置時間開始利用套件的功能。

4. 詳盡文件:

告別猜測和反覆試驗。 Iron Suite 提供每個組件的詳細文檔和示例,確保開發人員隨時擁有清晰的指導和資源,從而最大化生產力。

5. 24/5 技術支援:

需要協助或有關於使用 Iron Suite 的問題嗎?專業工程師團隊提供技術支援,每週五天全天候為您解決任何可能遇到的問題。 請放心,隨時只需一則訊息即可獲得幫助。

6. 退款保證:

Iron Suite 提供30天退款保證。 如果您對購買的產品不完全滿意,請於30天內通知Iron團隊,他們將退款給您,無需任何問題。

7. 開始您的免費試用:

準備好親自體驗 Iron Suite 的強大和多功能性了嗎? 立即開始您的免費試用,瞭解這套完整的 .NET 文檔工具如何簡化您的開發工作流程,並為您的項目開啟新的可能性。

結論

總之,Iron Suite 為 .NET 開發人員提供了一套全面的工具組,以簡化法律自動化任務,例如生成pdf和將HTML文件轉換為可搜索的PDF文檔。 透過利用的力量IronZIP, IronPDF,和IronOCR,開發者可以自動化和優化他們的工作流程,最終提高法律文件處理的效率和準確性。 與Iron Suite在您的掌控之中,自動化的可能性是無限的。

在進行 HTML 到 PDF 轉換的任務中,我們使用了 Iron Suite 的三個基本庫:IronZIPIronPDFIronOCR。 如果需要打印功能,IronPrint 也可能是這項任務的潛在競爭者。 如果單獨購買,這四個函式庫的總成本為 $749 * 4 = $2,996。

然而,使用 Iron Suite,您不僅能獲得三或四個,還能以僅僅兩個單獨產品的價格獲得九個強大的函式庫。 這是一個極具吸引力的價值主張,為您提供滿足所有 .NET 開發需求的全方位工具包。 僅需 $1,498,IronSuite提供卓越的價值,節省您的時間和金錢,同時為您提供各種工具來簡化開發工作流程。

< 上一頁
Iron Suite:輕鬆打造 C# PDF 生成和醫療工作流程的 OCR