獲取邀請函

如何使用C#為法律行業將HTML轉換為PDF和OCR文件

在當今快節奏的數位化環境中,自動化在提高效率和準確性方面發揮關鍵作用。 法律自動化中的一項常見任務是將一系列 HTML 文件轉換為單一可搜尋的 PDF 文件。

在本指南中,我們將探討Iron Suite (一套專為.NET環境量身打造的強大開發工具)如何簡化此流程。

Iron Suite:針對.NET開發人員的綜合工具包

IronSoftware 的Iron Suite是一套全面的.NET軟體元件,旨在簡化開發流程,提高使用各種.NET框架的開發人員的生產力。 IronSoftware 是一家領先的.NET軟體工具供應商,提供Iron Suite作為一站式解決方案,為尋求高品質元件的開發人員提供服務,這些元件可用於從文件處理到條碼產生等各種任務。

Iron Suite for .NET:適用於您辦公室的.NET套件

Iron Suite的核心在於其豐富的程式庫和工具,這些程式庫和工具旨在解決軟體開發專案中遇到的常見挑戰。 以下是Iron Suite一些關鍵元件的概覽:

  • IronPDF :用於建立、編輯和管理 PDF 文檔,包括將 HTML 轉換為 PDF。
  • IronWord :允許建立和編輯 DOC 和 DOCX 檔案。
  • IronXL :可直接處理 Excel 文件,允許讀取、編輯和創建,而無需 Microsoft Office 或 Excel Interop。
  • IronOCR :提供光學字元辨識功能,可從影像中擷取超過 125 種語言的文字。
  • IronBarcode :能夠讀取和寫入各種條碼格式,包括二維碼。
  • IronQR :專門用於產生、讀取和設計二維碼。
  • IronZIP :支援壓縮和解壓縮 ZIP 格式的檔案。
  • IronPrint :提供管理列印任務和直接從.NET程式碼與印表機互動的功能。
  • IronWebScraper :專為高效抓取網站上的結構化資料而設計。

使用Iron Suite進行 HTML 轉 PDF 轉換和 OCR 分析

假設您需要處理一個包含 HTML 文件的 zip 文件,而您的目標是將這些 HTML 文件轉換為 PDF 格式,以便進行後續的 OCR(光學字元辨識)分析。 為了有效率、有效地完成這項任務,充分利用 Iron Suite 的三個基本函式庫的功能是最佳解決方案。 讓我們簡要概述一下各個庫。

IronZIP - C# Zip 歸檔.NET函式庫

IronZIP簡化了檔案壓縮和提取,使 C# 應用程式能夠無縫處理 zip 檔案。 它直覺的 API 可以輕鬆地從我們的 zip 壓縮包中提取 HTML 檔案。

Use Csharp Convert Html To Pdf Ocr Documents For Legal Industry 2 related to IronZIP - C# Zip 歸檔.NET函式庫

IronZIP的一些主要功能:

*壓縮和解壓縮:*支援各種歸檔格式,如 ZIP、ZIPX、RAR、7Z 等。 加密和解密:使用傳統密碼或更強大的 AES 加密(預設 256 位元)來保護您的存檔。 串流操作:高效處理大型歸檔文件,而無需將整個文件載入到記憶體中。 自解壓縮歸檔建立:**建立無需IronZIP即可解壓縮的可執行歸檔。

IronPDF - C# PDF 庫

作為一個強大的 PDF 渲染和操作庫, IronPDF可以直接在 C# 程式碼中建立和操作 PDF 文件。 它具備 HTML 轉 PDF 等功能,非常適合我們將 HTML 檔案轉換為 PDF 格式的任務。

 IronPDF for .NET:C# PDF 庫

IronPDF DLL 的一些主要功能:

  • HTML 轉 PDF 轉換:將 HTML 字串內容或 HTML 文件(包括 CSS 和JavaScript)轉換為高品質的 PDF。
  • PDF 建立與操作:從頭開始建立新的 PDF,合併現有的 PDF,或擷取頁面。 *頁面自訂:*控制頁面佈局、邊距、頁首、頁尾和浮水印。 表單處理:**從 HTML 來源擷取表單資料並填入 PDF 表單。

IronOCR - C# OCR 庫

IronOCR一款非常寶貴的文字擷取工具,專門用於從各種來源(包括掃描文件和 PDF 文件)提取文字。 它的多功能性使其成為從我們生成的 PDF 文件中提取可搜尋文字的理想選擇。

 IronOCR for .NET:C# OCR 庫

IronOCR的一些主要特點:

*光學字元辨識:*高精度地從掃描文件、影像和 PDF 中提取文字。 多語言支援:可辨識超過 125 種語言的文字。 佈局分析:盡可能保留提取文字的原始格式。 可自訂精度:**使用各種配置微調 OCR 精度。

建立 Visual Studio 項目

首先,為我們的法律自動化任務建立一個新的 Visual Studio 專案。 請確保您已設定好.NET開發所需的必要環境。 請依照下列步驟在Visual Studio中建立專案:

  1. 開啟 Visual Studio,然後按一下"建立新專案"選項。

    Open Visual Studio IDE and click on Create a new project option.

  2. 根據您的需求選擇合適的專案範本(例如,控制台應用程式、Windows 窗體應用程式)。

    For the new project, select a Console App in C#.

  3. 指定項目名稱和位置,然後按一下"下一步"。

    請透過指定項目名稱、位置和解決方案名稱來配置您的項目。

  4. 從"附加資訊"中選擇最新的.NET Framework。

    接下來,選擇.NET Framework ,然後按一下"建立"。

  5. 點選"建立"按鈕建立項目。

安裝庫

接下來,將三個必要的庫IronZIP、 IronPDF和IronOCR安裝到您的專案中。 您可以透過從 IronSoftware網站下載對應的軟體包,或在 Visual Studio 中使用NuGet套件管理器輕鬆完成此操作。

使用NuGet套件管理器安裝解決方案

要將這些庫整合到您的.NET專案中:

  • Visual Studio C# ConsoleApp 中,以滑鼠右鍵按一下解決方案資源管理器中的項目,然後選擇"管理解決方案的NuGet套件"。

IronZIP

  1. 在NuGet套件管理器視窗中,搜尋"IronZIP"。

    Install IronZIP using the Manage NuGet Package for Solution by searching IronZip in the search bar of NuGet Package Manager, then select the project and click on the Install button.

  2. 從搜尋結果中選擇"IronZIP",然後點選"安裝"按鈕。

  3. NuGet將自動下載並在您的專案中添加必要的依賴項。

IronPDF

  1. 在NuGet套件管理器視窗中,搜尋"IronPDF"。

    Install IronPDF using the Manage NuGet Package for Solution by searching IronPdf in the search bar of NuGet Package Manager, then select the project and click on the Install button.

  2. 從搜尋結果中選擇"IronPDF",然後點擊"安裝"按鈕。

IronOCR

  1. 在NuGet套件管理器視窗中,搜尋"IronOCR"。

    Install IronOCR using the Manage NuGet Package for Solution by searching IronOCR in the search bar of NuGet Package Manager, then select the project and click on the Install button.

  2. 從搜尋結果中選擇"IronOCR",然後點選"安裝"按鈕。

將 HTML 文件轉換為 PDF 文件的步驟

為了輕鬆地將 HTML 轉換為 PDF 並隨後執行 OCR,我們設定了Iron Suite中的庫,每個庫都提供了針對我們任務量身定制的獨特功能。 以下包含多個 HTML 網頁文件的 zip 壓縮套件將用於提取 HTML 文件,然後將 HTML 文件轉換為 PDF 文件格式以進行 OCR 分析:

ZIP archive website.zip containing three HTML files

上圖所示的壓縮檔案包含一個簡單網站的 3 個 HTML 網頁。這些 HTML 網頁包含簡單的 HTML 程式碼,這些程式碼將傳遞給 PDF 轉換器,以將 HTML 檔案轉換為單一 PDF 文件。 然後,將套用 OCR 技術分析產生的 PDF 文件中的 html 元素,並將所有 HTML 內容列印到控制台視窗中。

1. 包括Iron Suite庫(.NET命名空間)

為了在我們的 C# 專案中使用Iron Suite提供的功能,我們需要為每個庫引用對應的命名空間。 以下是如何將它們新增至我們的Program.cs檔案的方法:

using IronZip;
using IronPdf;
using IronOcr;
using IronZip;
using IronPdf;
using IronOcr;
$vbLabelText   $csharpLabel

2. 使用IronZIP從 Zip 檔案中提取 HTML 文件

首先,我們將利用 IronZIP 直覺的 API 從 zip 壓縮包中提取 HTML 檔案。只要呼叫一個簡單的方法,我們就能有效率地提取轉換過程所需的必要檔案。

// Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
// Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
$vbLabelText   $csharpLabel

若要充分利用IronZIP庫,請造訪此文件頁面。

輸出 - 提取的 HTML 文件

Output: HTML files extracted from the archive website.zip using IronZIP.

3. 使用IronPDF將 HTML 轉換為 PDF

其次,我們將利用IronPDF的強大功能,輕鬆地將所有提取的 HTML 文件轉換為單一 PDF 文件。 憑藉其簡單易用的 API,我們可以直接在 C# 程式碼中輕鬆產生高品質的 PDF。

// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
$vbLabelText   $csharpLabel

IronPDF不僅提供從 HTML 檔案、HTML 表單、HTML 字串或 URL 轉換 PDF 的功能,還提供從其他格式轉換 PDF 的功能。 如需更多詳細資訊和可直接使用的範例程式碼片段,請造訪此文件程式碼範例頁面。

輸出 - PDF

PDF 產生輸出:將提取的 HTML 文件轉換為 PDF 文件,然後使用IronPDF將轉換後的 PDF 文件合併成一個 PDF 文件。

使用 IronPDF 強大的 Chromium HTML 轉換引擎,輸出的 PDF 可以清楚地將每個 HTML 頁面內容顯示在單獨的 PDF 頁面上。

此外,您也可以使用IronPrint for .NET (C# 列印庫)來列印產生的 PDF 檔案。 IronPrintIronPrint有效率地將 PDF 或影像傳送到預設印表機進行列印。

有關如何使用IronPrint列印文件的更多信息,請訪問此文件頁面。

4. 使用IronOCR提取文本

最後,使用IronOCR從生成的 PDF 文件中提取可搜尋文字。 利用 IronOCR 的先進文字擷取功能,我們可以確保擷取的文字準確無誤,並可用於進一步處理。

以下程式碼片段讀取由IronPDF產生的 PDF 文件,並成功執行OCR以進行進一步分析:

// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
$vbLabelText   $csharpLabel

如需對文字進行更詳細的分析,請造訪此處的現成程式碼範例頁面。

輸出 - PDF 文字

控制台輸出:使用IronOCR從 PDF 檔案中提取文字

輸出結果不言自明:快速準確無誤,充分證明了IronOCR的高效率。

為什麼選擇Iron Suite?

Iron Suite是一款市場領先的.NET辦公室文件套件,其優越性體現在許多方面。

1. 買二送一:

使用Iron Suite,您只需支付兩款單獨產品的價格,即可獲得所有九款Iron Software產品。 這項極具價值的方案確保您擁有全面的工具包,而無需花費大量資金。

 Iron Suite授權資訊。

2. 跨平台相容性:

Iron Suite旨在跨多個平台無縫運行,包括 Windows、macOS、Linux、Docker、Azure 和 AWS。 無論您是開發桌面、Web 還是雲端環境的應用程序, Iron Suite都能滿足您的需求。

3. 快速安裝:

從下載Iron Suite到將其部署到生產環境,最快只需五分鐘即可完成啟動和運行。 簡單的安裝過程和直覺的 API 使開發人員能夠以最短的設定時間開始利用該套件的功能。

4. 完善的文檔:

告別猜測和反覆試驗。 Iron Suite為每個組件提供了詳盡的文件和範例,確保開發人員隨時可以獲得清晰的指導和資源,從而最大限度地提高生產力。

5. 24/5 技術支援:

需要協助或對使用Iron Suite有任何疑問?我們專業的工程師團隊每週五天、每天 24 小時隨時待命,提供技術支援並解決您可能遇到的任何問題。 請放心,只需發送一條訊息即可獲得幫助。

6. 退款保證:

Iron Suite提供 30 天退款保證。 如果您因任何原因對購買的產品不完全滿意,只需在 30 天內告知 Iron 團隊,他們將全額退款,無需任何理由。

7. 開始免費試用:

準備好親自體驗Iron Suite的強大功能和多功能性了嗎? 立即開始免費試用,探索這套全面的.NET文件工具如何簡化您的開發工作流程,並為您的專案開啟新的可能性。

結論

總而言之, Iron Suite為.NET開發人員提供了一套全面的工具包,用於簡化法律自動化任務,例如產生 pdf 和將 HTML 文件轉換為可搜尋的 PDF 文件。 透過利用IronZIPIronPDFIronOCR的強大功能,開發人員可以自動化和優化其工作流程,最終提高法律文件處理的效率和準確性。 有了Iron Suite ,自動化的可能性是無限的。

對於 HTML 到 PDF 的轉換任務,我們使用了 Iron Suite 的三個基本函式庫: IronZIPIronPDFIronOCR 。 如果需要印刷設備, IronPrint也可以成為這項任務的潛在競爭者。 如果單獨購買這四個庫,總成本為 $1,999 * 4 = $2,996。

但是,使用Iron Suite ,您只需支付兩個單獨產品的價格,即可獲得九個強大的庫,而不僅僅是三到四個。 這是一個極具價值的方案,它為您提供了一套全面的工具包,滿足您所有的.NET開發需求。 Iron Suite只售 $1,498,卻能提供卓越的價值,既能節省您的時間和金錢,又能為您提供各種工具來簡化您的開發工作流程。