獲取邀請函

如何使用C#為法律行業將HTML轉換為PDF和OCR文件

在當今快節奏的數位化環境中,自動化在提高效率和準確性方面發揮關鍵作用。 法律自動化中的一項常見任務是將一系列 HTML 文件轉換為單一可搜尋的 PDF 文件。

在本指南中,我們將探討Iron Suite (一套專為 .NET 環境量身打造的強大開發工具)如何簡化此流程。

Iron Suite:針對.NET開發人員的綜合工具包

IronSoftware 的Iron Suite是一套全面的 .NET 軟體元件,旨在簡化開發流程,提高使用各種 .NET 框架的開發人員的生產力。 IronSoftware 是一家領先的 .NET 軟體工具供應商,提供 Iron Suite 作為一站式解決方案,為尋求高品質組件的開發人員提供服務,這些組件可用於從文件處理到條碼生成等各種任務。

Iron Suite for .NET:適用於您辦公室的 .NET 套件

Iron Suite 的核心在於其豐富的程式庫和工具,這些程式庫和工具旨在解決軟體開發專案中遇到的常見挑戰。 以下簡要介紹Iron Suite的一些關鍵組成部分:

  • IronPDF :用於建立、編輯和管理 PDF 文檔,包括將 HTML 轉換為 PDF。
  • IronWord :允許建立和編輯 DOC 和 DOCX 檔案。
  • IronXL :可直接處理 Excel 文件,允許讀取、編輯和創建,而無需 Microsoft Office 或 Excel Interop。
  • IronOCR :提供光學字元辨識功能,可從影像中擷取超過 125 種語言的文字。
  • IronBarcode :能夠讀取和寫入各種條碼格式,包括二維碼。
  • IronQR :專門用於產生、讀取和設計二維碼。
  • IronZIP :支援壓縮和解壓縮 ZIP 格式的檔案。
  • IronPrint :提供管理列印任務和直接從 .NET 程式碼與印表機互動的功能。
  • IronWebScraper :專為高效抓取網站上的結構化資料而設計。

使用 Iron Suite 進行 HTML 轉 PDF 轉換和 OCR 分析

假設您需要處理一個包含 HTML 文件的 zip 文件,而您的目標是將這些 HTML 文件轉換為 PDF 格式,以便進行後續的 OCR(光學字元辨識)分析。 為了有效率、有效地完成這項任務,充分利用 Iron Suite 的三個基本函式庫的功能是最佳解決方案。 讓我們簡要概述一下各個庫。

IronZIP - C# Zip 歸檔 .NET 函式庫

IronZIP簡化了檔案壓縮和提取,使 C# 應用程式能夠無縫處理 zip 檔案。 它直覺的 API 可以輕鬆地從我們的 zip 壓縮包中提取 HTML 檔案。

Use Csharp Convert Html To Pdf Ocr Documents For Legal Industry 2 related to IronZIP - C# Zip 歸檔 .NET 函式庫

IronZIP 的一些主要特點:

*壓縮和解壓縮:*支援各種存檔格式,如 ZIP、ZIPX、RAR、7Z 等。 加密和解密:使用傳統密碼或更強大的 AES 加密(預設 256 位元)來保護您的存檔。 串流操作:高效處理大型歸檔文件,而無需將整個文件載入到記憶體中。 自解壓縮歸檔建立:**建立無需 IronZIP 即可解壓縮的可執行歸檔。

IronPDF - C# PDF 庫

作為一個強大的 PDF 渲染和操作庫, IronPDF可以直接在 C# 程式碼中建立和操作 PDF 文件。 它具備 HTML 轉 PDF 等功能,非常適合我們將 HTML 檔案轉換為 PDF 格式的任務。

IronPDF for .NET:C# PDF 函式庫

IronPDF DLL 的一些主要功能:

  • HTML 轉 PDF 轉換:將 HTML 字串內容或 HTML 文件(包括 CSS 和 JavaScript)轉換為高品質的 PDF。
  • PDF 建立與操作:從頭開始建立新的 PDF,合併現有的 PDF,或擷取頁面。 *頁面自訂:*控制頁面佈局、邊距、頁首、頁尾和浮水印。 表單處理:**從 HTML 來源擷取表單資料並填入 PDF 表單。

IronOCR - C# OCR 庫

IronOCR 是一款非常寶貴的文字擷取工具,專門用於從各種來源(包括掃描文件和 PDF 文件)提取文字。 它的多功能性使其成為從我們生成的 PDF 文件中提取可搜尋文字的理想選擇。

IronOCR for .NET:C# OCR 函式庫

IronOCR 的一些主要特點:

*光學字元辨識:*從掃描文件、影像和 PDF 中提取文本,準確率高。 多語言支援:可辨識超過 125 種語言的文字。 佈局分析:盡可能保留提取文字的原始格式。 可自訂精度:**使用各種配置微調 OCR 精度。

建立 Visual Studio 項目

首先,為我們的法律自動化任務建立一個新的 Visual Studio 專案。 請確保您已設定好 .NET 開發所需的必要環境。 請依照下列步驟在Visual Studio中建立專案:

1.開啟 Visual Studio 並點選"建立新專案"選項。

開啟 Visual Studio IDE,然後按一下"建立新專案"選項。

2.根據您的需求選擇適當的專案範本 (例如:主控台應用程式、Windows 表單應用程式)。

對於新項目,請選擇 C# 中的"控制台應用程式"。

3.指定專案名稱和位置,然後按一下"下一步"。

透過指定項目名稱、位置和解決方案名稱來配置您的項目。

4.從附加資訊中選擇最新的 .NET Framework。

接下來,選擇 .NET 框架,然後按一下"建立"。

  1. 點選"建立"按鈕建立項目。

安裝庫

接下來,將三個必要的庫——IronZIP、IronPDF 和 IronOCR——安裝到您的專案中。 您可以透過從 IronSoftware網站下載對應的軟體包,或在 Visual Studio 中使用 NuGet 套件管理器輕鬆完成此操作。

使用 NuGet 套件管理器安裝解決方案

要將這些庫整合到您的 .NET 專案中:

  • Visual Studio C# ConsoleApp 中,以滑鼠右鍵按一下解決方案資源管理器中的項目,然後選擇"管理解決方案的 NuGet 套件"。

IronZIP

  1. 在 NuGet 套件管理器視窗中,搜尋"IronZip"。

    ! 使用 NuGet 套件管理器的"管理解決方案的 NuGet 套件"安裝 IronZIP,方法是在 NuGet 套件管理器的搜尋列中搜尋"IronZip",然後選擇項目並點擊"安裝"按鈕。

  2. 從搜尋結果中選擇"IronZip",然後點選"安裝"按鈕。

  3. NuGet 將自動下載並為您的專案添加必要的依賴項。

IronPDF。

  1. 在 NuGet 套件管理器視窗中,搜尋"IronPDF"。

    ! 使用 NuGet 套件管理器管理解決方案中的 NuGet 套件來安裝 IronPDF,方法是在 NuGet 套件管理器的搜尋列中搜尋"IronPdf",然後選擇項目並點擊"安裝"按鈕。

  2. 從搜尋結果中選擇"IronPDF",然後點選"安裝"按鈕。

IronOCR

  1. 在 NuGet 套件管理器視窗中,搜尋"IronOCR"。

    ! 使用 NuGet 套件管理器管理解決方案中的 NuGet 套件來安裝 IronOCR,方法是在 NuGet 套件管理器的搜尋列中搜尋"IronOCR",然後選擇項目並點擊"安裝"按鈕。

  2. 從搜尋結果中選擇"IronOCR",然後點選"安裝"按鈕。

將 HTML 文件轉換為 PDF 文件的步驟

為了方便地將 HTML 轉換為 PDF 並隨後執行 OCR,我們安裝了 Iron Suite 中的庫,每個庫都提供了針對我們任務量身定制的獨特功能。 以下包含多個 HTML 網頁文件的 zip 壓縮套件將用於提取 HTML 文件,然後將 HTML 文件轉換為 PDF 文件格式以進行 OCR 分析:

包含三個 HTML 檔案的 ZIP 壓縮套件"website.zip"

上圖所示的壓縮檔案包含一個簡單網站的 3 個 HTML 網頁。這些 HTML 網頁包含簡單的 HTML 程式碼,這些程式碼將傳遞給 PDF 轉換器,以將 HTML 檔案轉換為單一 PDF 文件。 然後,將套用 OCR 分析產生的 PDF 文件中的 html 元素,並將所有 HTML 內容列印到控制台視窗中。

1. 包含 Iron Suite 函式庫(.NET 命名空間)

為了在我們的 C# 專案中使用 Iron Suite 提供的功能,我們需要為每個庫引用對應的命名空間。 以下是如何將它們新增至我們的Program.cs檔案的方法:

using IronZip;
using IronPdf;
using IronOcr;
using IronZip;
using IronPdf;
using IronOcr;
Imports IronZip
Imports IronPdf
Imports IronOcr
$vbLabelText   $csharpLabel

2. 使用 IronZip 從 Zip 檔案中提取 HTML 文件

首先,我們將利用 IronZIP 直覺的 API 從 zip 壓縮包中提取 HTML 檔案。只要呼叫一個簡單的方法,我們就能有效率地提取轉換過程所需的必要檔案。

// Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
// Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
' Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted")
$vbLabelText   $csharpLabel

若要充分利用 IronZIP 庫,請造訪此文件頁面。

輸出 - 提取的 HTML 文件

! 輸出:使用 IronZIP 從歸檔檔案"website.zip"中提取的 HTML 檔案。

3. 使用 IronPDF 將 HTML 轉換為 PDF

其次,我們將利用IronPDF的強大功能,輕鬆地將所有提取的 HTML 文件轉換為單一 PDF 文件。 憑藉其簡單易用的 API,我們可以直接在 C# 程式碼中輕鬆產生高品質的 PDF。

// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
' Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
Dim renderer As New ChromePdfRenderer()

' Initialize an empty list to store the individual PDF documents
Dim pdfs As New List(Of PdfDocument)()

' Get all HTML files with the .html extension from the "extracted" folder
Dim htmlFiles = Directory.EnumerateFiles("extracted", "*.html")

' Loop through each HTML file
For Each htmlFile In htmlFiles
	' Render the current HTML file as a PDF document using the ChromePdfRenderer
	Dim pdf = renderer.RenderHtmlFileAsPdf(htmlFile)

	' Add the generated PDF document to the list
	pdfs.Add(pdf)
Next htmlFile

' Merge all the individual PDF documents in the list into a single PDF document
Dim document = PdfDocument.Merge(pdfs)

' Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf")
$vbLabelText   $csharpLabel

IronPDF 不僅提供從 HTML 檔案、HTML 表單、HTML 字串或 URL 轉換 PDF 的功能,還提供從其他格式轉換 PDF 的功能。 如需更多詳細資訊和可直接使用的範例程式碼片段,請造訪此文件程式碼範例頁面。

輸出 - PDF

! PDF 產生輸出:將提取的 HTML 文件轉換為 PDF 文件,然後使用 IronPDF 將轉換後的 PDF 文件合併為一個 PDF 文件。

使用 IronPDF 強大的 Chromium HTML 轉換引擎,輸出的 PDF 可以清楚地將每個 HTML 頁面內容顯示在單獨的 PDF 頁面上。

此外,您也可以使用IronPrint for .NET(C# 列印庫)來列印產生的 PDF 檔案。 IronPrint可以有效率地將 PDF 或影像傳送到預設印表機進行列印。

有關如何使用IronPrint列印文件的更多信息,請訪問此文件頁面。

4. 使用 IronOCR 提取文本

最後,使用IronOCR從生成的 PDF 文件中提取可搜尋文字。 利用 IronOCR 的先進文字擷取功能,我們可以確保擷取的文字準確無誤,並可用於進一步處理。

以下程式碼片段讀取由 IronPDF 產生的 PDF 文件,並成功執行OCR以進行進一步分析:

// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
' Create an IronTesseract object for Optical Character Recognition (OCR)
Dim ocrTesseract = New IronTesseract()

' Create an OcrInput object to specify the input for OCR processing
Dim ocrInput As New OcrInput()

' Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf")

' Perform OCR on the loaded PDF using the IronTesseract engine
Dim ocrResult = ocrTesseract.Read(ocrInput)

' Print the extracted text to the console
Console.WriteLine(ocrResult.Text)
$vbLabelText   $csharpLabel

如需對文字進行更詳細的分析,請造訪此處的現成程式碼範例頁面。

輸出 - PDF 文字

控制台輸出:使用 IronOCR 從 PDF 文件中提取文本

輸出結果不言自明:快速準確無誤,充分證明了 IronOCR 的高效性。

為什麼選擇 Iron Suite?

Iron Suite是一款市場領先的 .NET 辦公室文件套件,其卓越性能體現在許多方面。

1. 買二送一:

使用 Iron Suite,您只需支付兩款單獨產品的價格,即可獲得所有九款 Iron Software 產品。 這項極具價值的方案確保您擁有全面的工具包,而無需花費大量資金。

Iron Suite 許可資訊。

2. 跨平台相容性:

Iron Suite 旨在跨多個平台無縫運行,包括 Windows、macOS、Linux、Docker、Azure 和 AWS。 無論您是開發桌面、Web 還是雲端環境的應用程序,Iron Suite 都能滿足您的需求。

3. 快速安裝:

從下載 Iron Suite 到將其部署到生產環境,最快只需五分鐘即可完成啟動和運行。 簡單的安裝過程和直覺的 API 使開發人員能夠以最短的設定時間開始利用該套件的功能。

4. 完善的文檔:

告別猜測和反覆試驗。 Iron Suite 為每個組件提供了詳盡的文件和範例,確保開發人員隨時可以獲得清晰的指導和資源,從而最大限度地提高生產力。

5. 24/5 技術支援:

需要協助或對使用 Iron Suite 有任何疑問?我們專業的工程師團隊每週五天、每天 24 小時隨時待命,提供技術支援並解決您可能遇到的任何問題。 請放心,只需發送一條訊息即可獲得幫助。

6. 退款保證:

Iron Suite 提供 30 天退款保證。 如果您因任何原因對購買的產品不完全滿意,只需在 30 天內告知 Iron 團隊,他們將全額退款,無需任何理由。

7. 開始免費試用:

準備好親自體驗 Iron Suite 的強大功能和多功能性了嗎? 立即開始免費試用,探索這套全面的 .NET 文件工具如何簡化您的開發工作流程,並為您的專案開啟新的可能性。

結論

總而言之,Iron Suite 為 .NET 開發人員提供了一套全面的工具包,用於簡化法律自動化任務,例如產生 pdf 和將 HTML 檔案轉換為可搜尋的 PDF 文件。 透過利用IronZIPIronPDFIronOCR的強大功能,開發人員可以自動化和優化其工作流程,最終提高法律文件處理的效率和準確性。 有了Iron Suite ,自動化的可能性是無限的。

對於 HTML 到 PDF 的轉換任務,我們使用了 Iron Suite 的三個基本函式庫: IronZIPIronPDFIronOCR 。 如果需要印刷設備, IronPrint也可以成為這項任務的潛在競爭者。 如果單獨購買這四本書,總成本為 749 美元 * 4 = 2,996 美元。

但是,使用Iron Suite ,您只需支付兩個單獨產品的價格,即可獲得九個強大的庫,而不僅僅是三到四個。 這是一個極具價值的方案,它為您提供了一套全面的工具包,滿足您所有的 .NET 開發需求。 Iron Suite只需$1,498即可提供卓越的價值,既能節省您的時間和金錢,又能為您提供各種工具來簡化您的開發工作流程。