業界

C#を使用してHTMLをPDFに変換し、法務業界向けにOCRドキュメントを作成する方法

2025年1月14日
共有:

今日の急速に変化するデジタル環境では、自動化が効率と精度の向上において重要な役割を果たしています。 法務自動化において一般的な作業の一つは、HTMLファイルのコレクションを単一の検索可能なPDFドキュメントに変換することです。

このガイドでは、Iron Suite がどのように .NET 環境に特化した強力な開発者ツールセットとしてこのプロセスを効率化するかを探ります。

Iron Suite:.NET開発者向けの包括的ツールキット

IronSoftwareの Iron Suite は、さまざまな.NETフレームワークを使用している開発者のために、開発プロセスを合理化し、生産性を向上させるよう設計された、包括的な.NETソフトウェアコンポーネントのコレクションです。 IronSoftwareは、.NETソフトウェアツールのリーディングプロバイダーであり、Iron Suiteを開発者向けのワンストップソリューションとして提供しており、ドキュメント操作からバーコード生成に至るまでのタスクにおいて高品質なコンポーネントを求める開発者のニーズに応えています。

Iron Suite for .NET: オフィス向けの.NET Suite

Iron Suiteの中心には、ソフトウェア開発プロジェクトで遭遇する一般的な課題に対応するためにカスタマイズされた豊富なライブラリとツールのアソートメントがあります。 こちらは、Iron Suiteの主要コンポーネントの一部を紹介します。

  • IronPDF: PDFドキュメントの作成、編集、管理、HTMLからPDFへの変換を含む。
  • IronWord: DOCおよびDOCXファイルの作成と編集を可能にします。
  • IronXL: Microsoft Office や Excel Interop を必要とせずに、Excel ファイルを直接操作し、読み取り、編集、作成を可能にします。
  • IronOCR: 127以上の言語で画像からテキストを抽出するための光学文字認識機能を提供します。
  • IronBarcodeQRコードを含むさまざまなバーコード形式の読み取りおよび書き込み機能を提供します。
  • IronQR: 主にQRコードの生成、読み取り、およびスタイリングに特化しています。
  • IronZIP: ZIP形式でファイルを圧縮および解凍する機能を提供します。
  • IronPrint: .NETコードから直接印刷タスクを管理し、プリンターとやり取りするための機能を提供します。
  • IronWebScraperウェブサイトから構造化データを効率的にスクレイピングするために設計されています。

Iron Suiteを使用したHTMLからPDFへの変換およびOCR分析

HTMLファイルを含むZIPファイルを処理し、それらのHTMLファイルをPDF形式に変換してその後のOCR(光学文字認識)分析を行うというタスクを想定してください。 このタスクを効率的かつ効果的に達成するためには、Iron Suiteの3つの基本的なライブラリの機能を活用することが最適な解決策です。 各ライブラリの概要を簡単に見てみましょう。

IronZIP - C# Zip アーカイブ .NET ライブラリ

ファイル圧縮と抽出を簡素化するIronZIPは、C#アプリケーション内でのzipアーカイブのシームレスな処理を可能にします。 その直感的なAPIにより、私たちのZIPアーカイブからHTMLファイルを簡単に抽出できます。

Use Csharp Convert Html To Pdf Ocr Documents For Legal Industry 2 related to IronZIP - C# Zip アーカイブ .NET ラ...

IronZIPの主な機能:

  • 圧縮と解凍: ZIP、ZIPX、RAR、7Zなどのさまざまなアーカイブ形式をサポートします。
  • 暗号化と復号化: 従来のパスワードまたはより強力なAES暗号化(標準で256ビット)でアーカイブを安全に保護します。
  • ストリーミング操作: 大規模なアーカイブをメモリにファイル全体を読み込まずに効率的に処理します。
  • 自己解凍アーカイブの作成: IronZIPを必要とせずに抽出できる実行可能なアーカイブを作成します。

IronPDF - 主要C# PDFライブラリ

IronPDF は、C# コード内で直接 PDF ドキュメントの作成と操作を可能にする堅牢な PDF レンダリングおよび操作ライブラリです。 HTMLからPDFへの変換といった機能を備え、HTMLファイルをPDF形式に変換するための作業に最適です。

IronPDF for .NET: C# PDF ライブラリ

IronPDF DLLの主な機能のいくつか:

  • HTMLからPDFへの変換: CSSやJavaScriptを含むHTML文字列コンテンツやHTMLドキュメントを高品質なPDFに変換します。
  • PDFの作成と操作: 新しいPDFをゼロから作成したり、既存のPDFを結合したり、ページを抽出したりすることができます。
  • ページカスタマイズ: ページレイアウト、余白、ヘッダー、フッター、およびウォーターマークを制御します。
  • フォーム処理:HTMLソースからフォームデータをキャプチャしてPDFフォームに入力します。

IronOCR - C# OCR ライブラリ

テキスト抽出において非常に価値のあるツールであるIronOCRは、スキャンされた文書やPDFファイルを含む様々なソースからのテキスト抽出を専門としています。 その多様性により、生成されたPDFドキュメントから検索可能なテキストを抽出するのに最適です。

IronOCR for .NET: C# OCRライブラリ

IronOCRの主な機能:

  • 光学文字認識: スキャンされたドキュメント、画像、およびPDFから高精度でテキストを抽出します。
  • 多言語サポート:127以上の言語でテキストを認識します。
  • レイアウト分析:抽出されたテキストの元の書式設定を可能な限り保持します。
  • カスタマイズ可能な精度: 様々な設定を使用してOCRの精度を微調整します。

Visual Studio プロジェクトの作成

まず、法務自動化タスクのために新しいVisual Studioプロジェクトを作成します。 .NET開発に必要な環境が整っていることを確認してください。 Visual Studioでプロジェクトを作成するための手順に従ってください。

  1. Visual Studioを開き、「新しいプロジェクトの作成」オプションをクリックします。

    Visual Studio IDEを開き、「新しいプロジェクトの作成」オプションをクリックします。

  2. 要件に基づいて適切なプロジェクトテンプレートを選択します(例: コンソール アプリケーション、Windows フォーム アプリケーション)。

    新しいプロジェクトでは、C#で「コンソールアプリ」を選択します。

  3. プロジェクト名と場所を指定し、「次へ」をクリックします。

    プロジェクト名、場所、ソリューション名を指定してプロジェクトを構成します。

  4. 追加情報から、最新の .NET Framework を選択します。

    次に、.NET Framework を選択し、「作成」をクリックします。

  5. 「作成」をクリックして、プロジェクトを作成します。

ライブラリのインストール

次に、あなたのプロジェクトに3つの必須ライブラリ - IronZIP、IronPDF、そして IronOCR - をインストールします。 これは、IronSoftwareのウェブサイトからそれぞれのパッケージをダウンロードするか、Visual Studio内のNuGetパッケージマネージャーを使用することで簡単に行えます。

ソリューション用NuGetパッケージマネージャーを使用してインストールする

ライブラリを.NETプロジェクトに統合するには:

  • Visual Studio の C# ConsoleApp で、ソリューション エクスプローラーでプロジェクトを右クリックし、「ソリューションの NuGet パッケージの管理」を選択します。

IronZIP

  1. NuGet パッケージ マネージャー ウィンドウで、「IronZip」を検索します。

    NuGet パッケージマネージャーの検索バーで「IronZip」を検索し、ソリューションの NuGet パッケージを管理する方法を使用して IronZIP をインストールし、プロジェクトを選択してインストール ボタンをクリックします。

  2. 検索結果から「IronZIP」を選択し、「インストール」ボタンをクリックします。

  3. NuGetは必要な依存関係を自動的にダウンロードしてプロジェクトに追加します。

IronPDF

  1. NuGet パッケージ マネージャー ウィンドウで、「IronPDF」を検索します。

    NuGetパッケージマネージャーの検索バーで「IronPdf」を検索して、ソリューション用NuGetパッケージの管理を使用してIronPDFをインストールし、プロジェクトを選択してインストールボタンをクリックします。

  2. 検索結果から「IronPDF」を選択し、「インストール」ボタンをクリックします。

    IronOCR

  3. NuGetパッケージマネージャーウィンドウで「IronOCR」を検索します。

    NuGetパッケージマネージャーの検索バーで「IronOCR」と検索し、プロジェクトを選択してインストールボタンをクリックすることで、ソリューション用のNuGetパッケージ管理を使用してIronOCRをインストールします。

  4. 検索結果から「IronOCR」を選択し、「インストール」ボタンをクリックします。

HTMLファイルをPDFファイルに変換する手順

HTMLをPDFに簡単に変換し、その後OCRを実行するために、タスクに合わせたユニークな機能を提供するIron Suiteのライブラリを設定しました。 複数のHTMLウェブページ・ファイルを含む以下のzipアーカイブは、HTMLファイルを抽出し、その後HTMLファイルをPDFファイル形式に変換してOCR分析を行うために使用されます。

3つのHTMLファイルを含むZIPアーカイブ「website.zip」

上記のスクリーンショットに示されているZipファイルには、シンプルなウェブサイトからの3つのHTMLウェブページが含まれています。HTMLページには、HTMLファイルを単一のPDFドキュメントに変換するためにPDFコンバーターメソッドに渡される簡単なHTMLコードが含まれています。 その後、OCRが適用され、生成されたPDFドキュメント内のHTML要素を解析し、すべてのHTMLコンテンツをコンソールウィンドウに表示します。

1. Iron Suiteのライブラリを含む(.NET名前空間)

C#プロジェクトでIron Suiteが提供する機能を利用するには、各ライブラリに対する適切な名前空間を参照する必要があります。 次に、これらをProgram.csファイルに含める方法を示します。

using IronZip;
using IronPdf;
using IronOcr;
using IronZip;
using IronPdf;
using IronOcr;
Imports IronZip
Imports IronPdf
Imports IronOcr
$vbLabelText   $csharpLabel

2. IronZIP を使用して Zip から HTML ファイルを抽出する:

まず、IronZIPの直感的なAPIを利用して、zipアーカイブからHTMLファイルを抽出します。簡単なメソッドコールで、変換プロセスを進めるために必要なファイルを効率的に抽出できます。

// Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
// Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
' Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted")
$vbLabelText   $csharpLabel

IronZIPライブラリをさらに活用するには、このドキュメントページをご覧ください。

出力 - 抽出されたHTMLファイル

出力: IronZIPを使用してアーカイブ「website.zip」から抽出されたHTMLファイル。

3. IronPDF を使用して HTML を PDF に変換する:

次に、IronPDFの強力な機能を使用して、抽出されたすべてのHTMLファイルを1つのPDFドキュメントに簡単に変換します。 シンプルなAPIを使用して、C#コード内で直接高品質のPDFを簡単に生成できます。

// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
' Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
Dim renderer As New ChromePdfRenderer()

' Initialize an empty list to store the individual PDF documents
Dim pdfs As New List(Of PdfDocument)()

' Get all HTML files with the .html extension from the "extracted" folder
Dim htmlFiles = Directory.EnumerateFiles("extracted", "*.html")

' Loop through each HTML file
For Each htmlFile In htmlFiles
	' Render the current HTML file as a PDF document using the ChromePdfRenderer
	Dim pdf = renderer.RenderHtmlFileAsPdf(htmlFile)

	' Add the generated PDF document to the list
	pdfs.Add(pdf)
Next htmlFile

' Merge all the individual PDF documents in the list into a single PDF document
Dim document = PdfDocument.Merge(pdfs)

' Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf")
$vbLabelText   $csharpLabel

IronPDFは、HTMLファイル、HTMLフォーム、HTML文字列、URLからのPDF変換だけでなく、他の形式からPDFへの変換も提供します。 詳細情報とすぐに使用できるサンプルコードスニペットについては、こちらのドキュメントおよびコード例ページをご覧ください。

出力 - PDF

PDF生成出力: 抽出されたHTMLファイルをPDFファイルに変換し、IronPDFを使用して変換されたPDFファイルを1つのPDF文書に結合します。

出力PDFは、IronPDFの強力なChromium HTML変換エンジンを使用して、各HTMLページの内容を個別のPDFページに明確に表示します。

これに加えて、生成したPDFファイルを印刷するためにIronPrint for .NET - The C# Printing Libraryを使用することもできます。IronPrintは、PDFまたはイメージを効率的にデフォルトのプリンタに送信して印刷します。

ドキュメントをIronPrintを使用して印刷する方法の詳細については、このドキュメントページをご覧ください。

4. IronOCRを使用してテキストを抽出:

最後に、生成されたPDFドキュメントから検索可能なテキストを抽出するためにIronOCRを使用します。 IronOCRの高度なテキスト抽出機能を活用することで、抽出されたテキストが正確で、さらなる処理に適していることを確認できます。

次のコードスニペットは、IronPDFから生成されたPDFファイルを取り込み、さらに分析のためにOCRを正常に実行します。

// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
' Create an IronTesseract object for Optical Character Recognition (OCR)
Dim ocrTesseract = New IronTesseract()

' Create an OcrInput object to specify the input for OCR processing
Dim ocrInput As New OcrInput()

' Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf")

' Perform OCR on the loaded PDF using the IronTesseract engine
Dim ocrResult = ocrTesseract.Read(ocrInput)

' Print the extracted text to the console
Console.WriteLine(ocrResult.Text)
$vbLabelText   $csharpLabel

テキストの詳細な分析については、こちらのリンクにある準備済みのコード例ページをご覧ください。

出力 - PDFテキスト

コンソール出力:IronOCRを使用したPDFファイルからのテキスト抽出

出力は自ずと語ります:高速正確エラーフリーであり、IronOCRの効率性を裏付けています。

なぜIron Suiteなのか?

Iron Suite は、オフィス文書用の市場をリードする .NET スイートとして際立っており、優れている理由がいくつかあります。

2つの価格で9つを手に入れる:

Iron Suiteを利用すると、すべてのIronSoftware製品9種に、わずか2つの個別製品の価格でアクセスできます。 この驚異的なバリュープロポジションにより、予算を圧迫することなく、包括的なツールキットを手に入れることができます。

Iron Suiteライセンス情報。

2. クロスプラットフォーム互換性:

Iron Suiteは、Windows、macOS、Linux、Docker、Azure、AWSを含む複数のプラットフォームでシームレスに動作するように設計されています。 デスクトップ、ウェブ、またはクラウド環境向けのアプリケーションを開発している場合でも、Iron Suiteがサポートします。

3. クイックセットアップ:

Iron Suiteをダウンロードしてから、本番環境にデプロイする瞬間まで、最短5分で稼働を開始できます。 簡単なインストール手順と直感的なAPIにより、開発者は最小限の設定時間でスイートの機能を活用し始めることができます。

4. 包括的なドキュメント:

推測や試行錯誤にさようなら。 Iron Suiteには、すべてのコンポーネントに対する詳細なドキュメントと例が付属しており、開発者が生産性を最大化するための明確な指針とリソースを手元に持つことができるようになっています。

5. 24/5 テクニカルサポート:

Iron Suiteの使用に関するサポートが必要ですか?あるいは質問がありますか?専任のエンジニアチームが週5日、24時間体制で技術サポートを提供し、発生する可能性のある問題に対応します。 安心してください。サポートはいつでもメッセージ1つで受けられます。

6. 返金保証:

Iron Suiteは30日間の返金保証を提供しています。 何らかの理由で購入に完全に満足していない場合は、Ironチームに30日以内に知らせるだけで、質問なしに支払いを返金します。

7. 無料トライアルを開始する:

Iron Suite のパワーと多様性を体験する準備はできましたか? 無料トライアルを今すぐ開始し、.NETドキュメントツールの総合スイートがどのように開発ワークフローを効率化し、プロジェクトに新たな可能性を開くかを発見しましょう。

結論

結論として、Iron Suiteは、PDFの生成やHTMLファイルを検索可能なPDFドキュメントに変換するなどの法務自動化作業を効率化するために、.NET開発者に包括的なツールキットを提供します。 IronZIPIronPDF、およびIronOCRの力を活用することで、開発者はワークフローを自動化して最適化し、最終的に法律文書処理の効率と正確性を向上させることができます。 Iron Suite を活用すれば、オートメーションの可能性は無限です。

HTMLをPDFに変換するタスクのために、Iron Suiteの3つの基本ライブラリ、IronZIPIronPDFIronOCRを利用しました。 IronPrint は、印刷設備が必要な場合、このタスクの潜在的な候補にもなり得ます。 これらの4つのライブラリを個別に購入した場合、合計費用は$749 * 4 = $2,996になります。

しかし、Iron Suiteを使用すると、3つまたは4つだけでなく、2つの個別製品の価格で9つの強力なライブラリにアクセスできます。 それは驚くべき価値提案であり、すべての.NET開発ニーズに対応する包括的なツールキットを提供します。 わずか1,498ドルで、IronSuiteは、開発ワークフローを合理化するための幅広いツールを備えて、時間とコストを節約し、非常に優れた価値を提供します。

< 以前
Iron Suite: 医療ワークフローのための手間いらずのC# PDF作成とOCR