IRONSUITEdata:image/s3,"s3://crabby-images/c4965/c4965b256baf550aa01117fac76589eabdc18c05" alt="Logo H 1 Percent related to 如何使用 C# 將 HTML 轉換為 PDF 和 OCR 文件以應用於法律行業"
10 .NET API 產品 針對您的辦公文件
在當今快速變化的數位環境中,自動化在提高效率和準確性方面發揮著關鍵作用。 在法律自動化中,一個常見的任務是將一系列的 HTML 文件轉換為單一的可搜尋 PDF 文件。
在本指南中,我們將探討如何Iron Suite,強大的開發工具集專為 .NET 環境量身打造,可以簡化這個過程。
IronSoftware的 Iron Suite是一個全面的.NET軟體組件集合,旨在簡化開發過程並提高從事各種.NET框架的開發者的生產力。 IronSoftware 是 .NET 軟體工具的領先提供商,提供 Iron Suite 作為開發人員的一站式解決方案,為從文件操作到條碼生成等任務提供高品質的組件。
Iron Suite的核心是一系列丰富的库和工具,专为解决软件开发项目中常见的挑战而量身打造。 以下是 Iron Suite 的部分核心組件:
*IronPDF: 用於建立、編輯和管理 PDF 文檔,包括將 HTML 轉換為 PDF。
*IronWord:允許創建和編輯DOC和DOCX文件。
*IronXL: 允許直接操作 Excel 文件,可以進行讀取、編輯和創建,而無需安裝 Microsoft Office 或 Excel Interop。
*IronOCR: 提供光學字符識別功能,以從圖像中提取超過127種語言的文本。
*IronBarcode: 提供讀寫各種條碼格式的能力,包括 QR 碼。
*IronQR專門聚焦於生成、讀取及樣式化 QR 代碼。
*IronZIP:可以壓縮和解壓ZIP格式的文件。
*IronPrint: 提供用於管理列印任務以及直接從您的 .NET 程式碼與印表機互動的功能。
*IronWebScraper: 設計用於高效地從網站擷取結構化數據。
考慮一個情境:您需要處理包含 HTML 文件的 zip 文件,並且您的目標是將這些 HTML 文件轉換為 PDF 格式以供後續 OCR 使用。(光學字符識別)分析。 為了高效且有效地完成此任務,利用Iron Suite的三個基本庫的功能是最佳解決方案。 讓我們簡要概述一下每個庫。
簡化文件壓縮和提取,IronZIP在 C# 應用程序中實現無縫處理 zip 壓縮檔案。 其直观的 API 允许运行轻松从我们的 zip 压缩档案中提取 HTML 文件。
IronZIP 的一些主要功能:
作為一個穩健的 PDF 渲染和操作庫,IronPDF促進直接在 C# 代碼中創建和操作 PDF 文件。 具備 HTML 到 PDF 的轉換功能,它非常適合我們將 HTML 文件轉換為 PDF 格式的任務。
IronPDF DLL的一些關鍵功能:
一個無價的文字提取工具,IronOCR專門從各種來源提取文本,包括掃描文件和PDF檔案。 其多功能性使其非常適合從我們生成的 PDF 文件中提取可搜索的文字。
IronOCR 的一些主要功能:
首先,為我們的法律自動化任務創建一個新的 Visual Studio 專案。 確保已設置好開發 .NET 所需的環境。 按照以下步驟在 中建立專案Visual Studio:
打開 Visual Studio,然後點擊「建立新專案」選項。
根據您的需求選擇合適的專案模板(例如,控制台應用程式,Windows Forms 應用程式).
指定專案名稱和位置,然後點擊「下一步」。
從其他資訊中選取最新的 .NET Framework。
接下來,將三個基本庫——IronZIP、IronPDF 和 IronOCR——安裝到您的專案中。 您可以通過從 Iron Software 下載相應的套件輕鬆完成此操作。網站或使用 Visual Studio 中的 NuGet 套件管理員。
要將庫整合到您的 .NET 專案中:
在 NuGet 套件管理器窗口中,搜索「IronZip」。
從搜尋結果中選擇「IronZip」,然後點擊「安裝」按鈕。
在 NuGet 套件管理器窗口中,搜尋 "IronPDF"。
從搜尋結果中選擇「IronPDF」,然後點擊「安裝」按鈕。
IronOCR
在 NuGet 套件管理器視窗中,搜尋 "IronOCR"。
現在,為了輕鬆將 HTML 轉換為 PDF 並隨後執行 OCR,我們已經設置了來自 Iron Suite 的庫,每個庫都提供了針對我們任務的獨特功能。 以下包含多個 HTML 網頁文件的 zip 壓縮文件將被用來提取 HTML 文件,然後將 HTML 文件轉換為 PDF 文件格式以進行 OCR 分析:
上面截圖中顯示的 Zip 文件包含一個簡單網站的 3 個 HTML 網頁。這些 HTML 頁面包含簡單的 HTML 代碼,將傳遞給 PDF 轉換器方法,用於將 HTML 文件轉換為單個 PDF 文檔。 然後將應用OCR來分析生成的PDF文件中的html元素,並將所有HTML內容列印在控制台視窗中。
要在我們的 C# 專案中利用 Iron Suite 提供的功能,我們需要引用每個庫的適當命名空間。 以下是如何將它們包含在我們的 Program.cs 文件中:
using IronZip;
using IronPdf;
using IronOcr;
using IronZip;
using IronPdf;
using IronOcr;
Imports IronZip
Imports IronPdf
Imports IronOcr
首先,我們將利用 IronZIP 的直觀 API 從 zip 壓縮檔中提取 HTML 文件。通過簡單的方法調用,我們可以高效地...提取進行轉換過程所需的檔案。
// Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
// Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
' Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted")
若要更充分利用IronZIP函式庫,請造訪這個文檔頁面。
其次,我們將使用 IronPDF 的強大功能,輕鬆將所有提取的 HTML 文件轉換為單個 PDF 文檔。 藉由其簡單易用的 API,我們可以輕鬆地在 C# 程式碼中直接生成高品質的 PDF。
// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();
// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();
// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");
// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
// Render the current HTML file as a PDF document using the ChromePdfRenderer
var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);
// Add the generated PDF document to the list
pdfs.Add(pdf);
}
// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);
// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();
// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();
// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");
// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
// Render the current HTML file as a PDF document using the ChromePdfRenderer
var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);
// Add the generated PDF document to the list
pdfs.Add(pdf);
}
// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);
// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
' Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
Dim renderer As New ChromePdfRenderer()
' Initialize an empty list to store the individual PDF documents
Dim pdfs As New List(Of PdfDocument)()
' Get all HTML files with the .html extension from the "extracted" folder
Dim htmlFiles = Directory.EnumerateFiles("extracted", "*.html")
' Loop through each HTML file
For Each htmlFile In htmlFiles
' Render the current HTML file as a PDF document using the ChromePdfRenderer
Dim pdf = renderer.RenderHtmlFileAsPdf(htmlFile)
' Add the generated PDF document to the list
pdfs.Add(pdf)
Next htmlFile
' Merge all the individual PDF documents in the list into a single PDF document
Dim document = PdfDocument.Merge(pdfs)
' Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf")
IronPDF 不僅提供從 HTML 文件、HTML 表單、HTML 字串或網址轉換為 PDF,還可從其他格式轉換為 PDF。 如需詳細資訊和可用的範例程式碼片段,請造訪這個文檔和代碼範例頁面。
使用IronPDF功能強大的Chromium HTML轉換引擎,輸出PDF明確顯示每個HTML頁面的內容在單獨的PDF頁面上。
除此之外,您還可以使用IronPrint for .NET - C# 列印庫用於列印生成的 PDF 文件。IronPrint 高效地將 PDF 或影像發送至預設印表機以進行列印。
如需有關使用 IronPrint 列印文件的更多資訊,請造訪此文檔頁面。
最後,使用IronOCR從生成的 PDF 文件中提取可搜索的文本。 透過使用 IronOCR 的先進文字提取功能,我們可以確保提取的文字準確並準備好進一步處理。
以下程式碼片段從 IronPDF 生成的 PDF 文件中成功執行光學字符識別 (光學字符識別)進一步分析:
// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();
// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();
// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf");
// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);
// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();
// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();
// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf");
// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);
// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
' Create an IronTesseract object for Optical Character Recognition (OCR)
Dim ocrTesseract = New IronTesseract()
' Create an OcrInput object to specify the input for OCR processing
Dim ocrInput As New OcrInput()
' Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf")
' Perform OCR on the loaded PDF using the IronTesseract engine
Dim ocrResult = ocrTesseract.Read(ocrInput)
' Print the extracted text to the console
Console.WriteLine(ocrResult.Text)
如需更詳細的文字分析,請參閱此現成的程式碼範例頁面這裡.
輸出效果不言而喻:快速、精確,且無錯誤,這都證明了IronOCR的高效能。
Iron Suite在眾多原因中突顯出來,成為市場領先的.NET辦公文件工具套件,展示其卓越性。
使用 Iron Suite,您可以訪問所有九款Iron Software產品的價格僅兩個單獨產品。 這個不可思議的價值主張確保您擁有一套完整的工具包,而不會讓您花費過多。
Iron Suite 被設計為能夠在多個平台上無縫運行,包括 Windows、macOS、Linux、Docker、Azure 和 AWS。 無論您是在為桌面、網路還是雲環境開發應用程式,Iron Suite 都能滿足您的需求。
從下載 Iron Suite 到將其部署到生產環境,您只需短短五分鐘即可開始運行。 簡單的安裝過程和直觀的 API 使開發人員能夠以最少的設置時間開始利用套件的功能。
告別猜測和反覆試驗。 Iron Suite 提供每個組件的詳細文檔和示例,確保開發人員隨時擁有清晰的指導和資源,從而最大化生產力。
需要協助或有關於使用 Iron Suite 的問題嗎?專業工程師團隊提供技術支援,每週五天全天候為您解決任何可能遇到的問題。 請放心,隨時只需一則訊息即可獲得幫助。
Iron Suite 提供30天退款保證。 如果您對購買的產品不完全滿意,請於30天內通知Iron團隊,他們將退款給您,無需任何問題。
準備好親自體驗 Iron Suite 的強大和多功能性了嗎? 立即開始您的免費試用,瞭解這套完整的 .NET 文檔工具如何簡化您的開發工作流程,並為您的項目開啟新的可能性。
總之,Iron Suite 為 .NET 開發人員提供了一套全面的工具組,以簡化法律自動化任務,例如生成pdf和將HTML文件轉換為可搜索的PDF文檔。 透過利用的力量IronZIP, IronPDF,和IronOCR,開發者可以自動化和優化他們的工作流程,最終提高法律文件處理的效率和準確性。 與Iron Suite在您的掌控之中,自動化的可能性是無限的。
在進行 HTML 到 PDF 轉換的任務中,我們使用了 Iron Suite 的三個基本庫:IronZIP、IronPDF 和 IronOCR。 如果需要打印功能,IronPrint 也可能是這項任務的潛在競爭者。 如果單獨購買,這四個函式庫的總成本為 $749 * 4 = $2,996。
然而,使用 Iron Suite,您不僅能獲得三或四個,還能以僅僅兩個單獨產品的價格獲得九個強大的函式庫。 這是一個極具吸引力的價值主張,為您提供滿足所有 .NET 開發需求的全方位工具包。 僅需 $1,498,IronSuite提供卓越的價值,節省您的時間和金錢,同時為您提供各種工具來簡化開發工作流程。