業界

法務業界向けにHTMLをPDFに変換し、OCRドキュメントを行うためにC#を使用する方法

今日の急速に変化するデジタル環境において、自動化は効率性と精度の向上に極めて重要な役割を果たします。 法務自動化における一般的なタスクの 1 つは、HTML ファイルのコレクションを単一の検索可能な PDF ドキュメントに変換することです。

このガイドでは、.NET 環境向けにカスタマイズされた強力な開発者ツール セットであるIron Suite がこのプロセスをどのように効率化できるかについて説明します。

Iron Suite: .NET 開発者向けの包括的なツールキット

Iron Software のIron Suiteは、さまざまな .NET フレームワークを扱う開発者の開発プロセスを合理化し、生産性を向上させるように設計された、包括的な .NET ソフトウェア コンポーネントのコレクションです。 .NET ソフトウェア ツールの大手プロバイダーである Iron Software は、ドキュメント操作からバーコード生成までさまざまなタスクに対応する高品質コンポーネントを求める開発者向けのワンストップ ソリューションとして Iron Suite を提供しています。

! Iron Suite for .NET: オフィスのための.NETスイート

Iron Suite の中心には、ソフトウェア開発プロジェクトで発生する一般的な課題に対処するためにカスタマイズされた豊富なライブラリとツールがあります。 ここで、Iron Suite の主要コンポーネントの一部を紹介します。

  • IronPDF : HTML から PDF への変換を含む、PDF ドキュメントの作成、編集、管理に使用します。
  • IronWord : DOC および DOCX ファイルの作成と編集が可能です。
  • IronXL : Excel ファイルを直接操作できるため、Microsoft Office や Excel Interop を必要とせずに読み取り、編集、作成が可能です。
  • IronOCR : 125 以上の言語で画像からテキストを抽出する光学文字認識機能を提供します。
  • IronBarcode : QR コードを含むさまざまなバーコード形式の読み取りと書き込みの機能を提供します。
  • IronQR : QR コードの生成、読み取り、スタイル設定に特化しています。
  • IronZIP : ZIP 形式でのファイルの圧縮と解凍を可能にします。
  • IronPrint : .NET コードから直接印刷タスクを管理し、プリンターと対話するための機能を提供します。
  • IronWebScraper : ウェブサイトから構造化データを効率的にスクレイピングするために設計されています。

Iron Suite による HTML から PDF への変換と OCR 分析

HTML ファイルを含む zip ファイルを処理するタスクがあり、その後の OCR (光学式文字認識) 分析のためにこれらの HTML ファイルを PDF 形式に変換することが目的であるというシナリオを考えてみましょう。 このタスクを効率的かつ効果的に達成するには、Iron Suite の 3 つの重要なライブラリの機能を活用するのが最適なソリューションです。 各ライブラリの概要を簡単に見てみましょう。

IronZIP - C# Zip アーカイブ .NET ライブラリ

IronZIP はファイルの圧縮と抽出を簡素化し、C# アプリケーション内で zip アーカイブをシームレスに処理できるようにします。 直感的な API により、zip アーカイブから HTML ファイルを簡単に抽出できます。

Use Csharp Convert Html To Pdf Ocr Documents For Legal Industry 2 related to IronZIP - C# Zip アーカイブ .NET ラ�...

IronZIP の主な機能:

*圧縮と解凍:* ZIP、ZIPX、RAR、7Z などのさまざまなアーカイブ形式をサポートします。 暗号化と復号化:従来のパスワードまたはより強力な AES 暗号化 (デフォルトでは 256 ビット) を使用してアーカイブを保護します。 ストリーミング操作:ファイル全体をメモリにロードせずに、大規模なアーカイブを効率的に処理します。 自己解凍アーカイブの作成:** IronZIP を必要とせずに解凍できる実行可能アーカイブを作成します。

IronPDF - C# PDF ライブラリ

強力な PDF レンダリングおよび操作ライブラリであるIronPDF は、C# コード内で直接 PDF ドキュメントを作成および操作することを容易にします。 HTML から PDF への変換などの機能を備えているため、HTML ファイルを PDF 形式に変換するタスクに最適です。

! IronPDF for .NET: C# PDF ライブラリ

IronPDF DLL の主な機能:

  • HTML から PDF への変換: CSS および JavaScript を含む HTML 文字列コンテンツまたは HTML ドキュメントを高品質の PDF に変換します。
  • PDF の作成と操作:新しい PDF を最初から作成したり、既存の PDF を結合したり、ページを抽出したりできます。 *ページのカスタマイズ:*ページレイアウト、余白、ヘッダー、フッター、透かしを制御します。 フォーム処理:** HTML ソースからフォーム データを取得し、PDF フォームに入力します。

IronOCR - C# OCR ライブラリ

テキスト抽出のための貴重なツールであるIronOCR は、スキャンされたドキュメントや PDF ファイルなど、さまざまなソースからテキストを抽出することに特化しています。 その汎用性により、生成された PDF ドキュメントから検索可能なテキストを抽出するのに最適です。

! IronOCR for .NET: C# OCR ライブラリ

IronOCR の主な機能:

*光学文字認識:*スキャンした文書、画像、PDF からテキストを高精度で抽出します。 多言語サポート: 125 以上の言語のテキストを認識します。 レイアウト分析:抽出されたテキストの元の書式を可能な限り保持します。 カスタマイズ可能な精度:**さまざまな設定を使用して OCR の精度を微調整します。

Visual Studio プロジェクトの作成

まず、法務自動化タスク用の新しい Visual Studio プロジェクトを作成します。 .NET 開発に必要な環境が設定されていることを確認します。 Visual Studioでプロジェクトを作成するには、次の手順に従います。

  1. Visual Studioを開き、"新しいプロジェクトを作成"オプションをクリックします。

! Visual Studio IDE を開き、"新しいプロジェクトの作成"オプションをクリックします。

  1. あなたの要件に合ったプロジェクトテンプレートを選択します(例:コンソールアプリケーション、Windows Formsアプリケーション)。

! 新しいプロジェクトでは、C# で"コンソール アプリ"を選択します。

  1. プロジェクト名と場所を指定し、"次へ"をクリックします。

! プロジェクト名、場所、ソリューション名を指定してプロジェクトを構成します。

  1. 追加情報から最新の.NET Frameworkを選択します。

! 次に、.NET フレームワークを選択し、"作成"をクリックします。

  1. "作成"をクリックしてプロジェクトを作成します。

ライブラリのインストール

次に、3 つの必須ライブラリ (IronZIP、IronPDF、IronOCR) をプロジェクトにインストールします。 Iron Software のWeb サイトからそれぞれのパッケージをダウンロードするか、Visual Studio 内で NuGet パッケージ マネージャーを使用すると、簡単にこれを行うことができます。

ソリューション用の NuGet パッケージ マネージャーを使用してインストールする

ライブラリを .NET プロジェクトに統合するには:

  • Visual Studio C# ConsoleApp のソリューション エクスプローラーでプロジェクトを右クリックし、[ソリューションの NuGet パッケージの管理] を選択します。

アイアンジップ

  1. NuGet パッケージ マネージャー ウィンドウで、"IronZip"を検索します。

! NuGet パッケージ マネージャーの検索バーで"IronZIP"を検索し、ソリューションの NuGet パッケージの管理を使用して IronZIP をインストールし、プロジェクトを選択して [インストール] ボタンをクリックします。

  1. 検索結果から"IronZip"を選択し、"インストール"ボタンをクリックします。

  2. NuGet は必要な依存関係を自動的にダウンロードし、プロジェクトに追加します。

IronPDF

  1. NuGet パッケージ マネージャー ウィンドウで、"IronPDF"を検索します。

! NuGet パッケージ マネージャーの検索バーで"IronPDF"を検索し、ソリューションの NuGet パッケージの管理を使用して IronPDF をインストールし、プロジェクトを選択して [インストール] ボタンをクリックします。

  1. 検索結果から"IronPDF"を選択し、"インストール"ボタンをクリックします。

IronOCR

  1. NuGet パッケージ マネージャー ウィンドウで、"IronOCR"を検索します。

! NuGet パッケージ マネージャーの検索バーで"IronOCR"を検索し、ソリューションの NuGet パッケージの管理を使用して IronOCR をインストールし、プロジェクトを選択して [インストール] ボタンをクリックします。

  1. 検索結果から"IronOCR"を選択し、"インストール"ボタンをクリックします。

HTMLファイルをPDFファイルに変換する手順

現在、HTML を PDF に簡単に変換し、その後 OCR を実行するために、タスクに合わせてカスタマイズされた独自の機能を提供する Iron Suite のライブラリを設定しました。 複数の HTML Web ページ ファイルを含む次の zip アーカイブは、HTML ファイルを抽出し、OCR 分析用に HTML ファイルを PDF ファイル形式に変換するために使用されます。

! 3つのHTMLファイルを含むZIPアーカイブ"website.zip"

上記のスクリーンショットに示されているZipファイルには、シンプルなウェブサイトから抽出した3つのHTMLウェブページが含まれています。これらのHTMLページには、PDFコンバーターメソッドに渡されるシンプルなHTMLコードが含まれており、HTMLファイルを単一のPDFドキュメントに変換します。 次に、OCR が適用され、生成された PDF ドキュメント内の HTML 要素が分析され、すべての HTML コンテンツがコンソール ウィンドウに印刷されます。

1. Iron Suite ライブラリ (.NET 名前空間) の組み込み

C# プロジェクトで Iron Suite が提供する機能を利用するには、各ライブラリの適切な名前空間を参照する必要があります。 これらをProgram.csファイルに含める方法は次のとおりです。

using IronZip;
using IronPdf;
using IronOcr;
using IronZip;
using IronPdf;
using IronOcr;
Imports IronZip
Imports IronPdf
Imports IronOcr
$vbLabelText   $csharpLabel

2. IronZIPを使用してZipからHTMLファイルを抽出する

まず、IronZIPの直感的なAPIを利用して、zipアーカイブからHTMLファイルを抽出します。シンプルなメソッド呼び出しで、変換プロセスに必要なファイルを効率的に抽出できます。

// Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
// Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
' Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted")
$vbLabelText   $csharpLabel

IronZIP ライブラリをさらに活用するには、このドキュメントページをご覧ください。

出力 - 抽出された HTML ファイル

! 出力: IronZIP を使用してアーカイブ"website.zip"から抽出された HTML ファイル。

3. IronPDFを使ってHTMLをPDFに変換する

次に、 IronPDFの強力な機能を使用して、抽出されたすべての HTML ファイルを 1 つの PDF ドキュメントに簡単に変換します。 簡単な API を使用すると、C# コード内で直接、高品質の PDF を簡単に生成できます。

// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
' Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
Dim renderer As New ChromePdfRenderer()

' Initialize an empty list to store the individual PDF documents
Dim pdfs As New List(Of PdfDocument)()

' Get all HTML files with the .html extension from the "extracted" folder
Dim htmlFiles = Directory.EnumerateFiles("extracted", "*.html")

' Loop through each HTML file
For Each htmlFile In htmlFiles
	' Render the current HTML file as a PDF document using the ChromePdfRenderer
	Dim pdf = renderer.RenderHtmlFileAsPdf(htmlFile)

	' Add the generated PDF document to the list
	pdfs.Add(pdf)
Next htmlFile

' Merge all the individual PDF documents in the list into a single PDF document
Dim document = PdfDocument.Merge(pdfs)

' Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf")
$vbLabelText   $csharpLabel

IronPDF は、HTML ファイル、HTML フォーム、HTML 文字列、または URL からの PDF 変換だけでなく、他の形式から PDF への変換も提供します。 より詳しい情報とすぐに使用できるサンプル コード スニペットについては、このドキュメントコード例のページをご覧ください。

出力 - PDF

! PDF 生成出力: 抽出された HTML ファイルを PDF ファイルに変換し、変換された PDF ファイルを IronPDF を使用して 1 つの PDF ドキュメントに結合します。

出力 PDF では、IronPDF の強力な Chromium HTML 変換エンジンを使用して、各 HTML ページのコンテンツが個別の PDF ページに明確に表示されます。

さらに、生成されたPDFファイルを印刷するには、 C#印刷ライブラリであるIronPrint for .NETを使用することもできます。IronPrint、PDFまたは画像をデフォルトのプリンターに効率的に送信し、印刷します。

IronPrintを使用してドキュメントを印刷する方法の詳細については、このドキュメントページをご覧ください。

4. IronOCRを使ってテキストを抽出する

最後に、 IronOCRを使用して、生成された PDF ドキュメントから検索可能なテキストを抽出します。 IronOCR の高度なテキスト抽出機能を利用することで、抽出されたテキストが正確であり、さらに処理できる状態であることを確認できます。

次のコード スニペットは、IronPDF から生成された PDF ファイルを取得し、 OCR を実行してさらに分析します。

// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
' Create an IronTesseract object for Optical Character Recognition (OCR)
Dim ocrTesseract = New IronTesseract()

' Create an OcrInput object to specify the input for OCR processing
Dim ocrInput As New OcrInput()

' Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf")

' Perform OCR on the loaded PDF using the IronTesseract engine
Dim ocrResult = ocrTesseract.Read(ocrInput)

' Print the extracted text to the console
Console.WriteLine(ocrResult.Text)
$vbLabelText   $csharpLabel

テキストのより詳細な分析については、ここにあるすぐに使用できるコード例のページをご覧ください。

出力 - PDFテキスト

! コンソール出力: IronOCR を使用した PDF ファイルからのテキスト抽出

出力は、高速正確エラーフリーを物語っており、 IronOCR の効率性を裏付けています。

なぜ Iron Suite なのか?

Iron Suite は、オフィス ドキュメント向けの市場をリードする .NET スイートとして際立っており、その優位性にはいくつかの説得力のある理由があります。

1. 2個分の価格で9個:

Iron Suite を使用すると、個別の製品 2 つ分の価格、Iron Software 製品 9 つすべてにアクセスできます。 この驚くべき価値提案により、多額の費用をかけずに包括的なツールキットを利用できるようになります。

! Iron Suite のライセンス情報。

2. クロスプラットフォームの互換性:

Iron Suite は、Windows、macOS、Linux、Docker、Azure、AWS などの複数のプラットフォームでシームレスに動作するように設計されています。 デスクトップ、Web、クラウド環境向けのアプリケーションを開発する場合でも、Iron Suite が対応します。

3. クイックセットアップ:

Iron Suite をダウンロードしてから本番環境に導入するまで、わずか 5 分で稼働を開始できます。 簡単なインストール プロセスと直感的な API により、開発者は最小限のセットアップ時間でスイートの機能を活用し始めることができます。

4. 包括的なドキュメント:

推測や試行錯誤はもう必要ありません。 Iron Suite には、すべてのコンポーネントに関する詳細なドキュメントと例が付属しており、開発者は明確なガイダンスとリソースをすぐに利用して生産性を最大限に高めることができます。

5. 24時間年中無休のテクニカルサポート:

Iron Suite のご利用に関してサポートやご質問がございましたら、専任のエンジニアチームが 24 時間 365 日体制で技術サポートを提供し、発生するあらゆる問題に対処いたします。 サポートはいつでもメッセージで受けられますのでご安心ください。

6. 返金保証:

Iron Suite は 30 日間の返金保証を提供します。 何らかの理由でご購入にご満足いただけない場合は、30 日以内に Iron チームにご連絡いただければ、質問なしでお支払い金額を返金いたします。

7. 無料トライアルを開始する:

Iron Suite のパワーと多様性を実際に体験してみませんか? 今すぐ無料トライアルを開始して、包括的な .NET ドキュメント ツール スイートがどのように開発ワークフローを効率化し、プロジェクトの新たな可能性を引き出すかをご確認ください。

結論

結論として、Iron Suite は、PDF の生成や HTML ファイルの検索可能な PDF ドキュメントへの変換などの法務自動化タスクを効率化するための包括的なツールキットを .NET 開発者に提供します。 IronZIPIronPDFIronOCRのパワーを活用することで、開発者はワークフローを自動化および最適化し、最終的には法的文書処理の効率と精度を向上させることができます。 Iron Suiteを活用すれば、自動化の可能性は無限に広がります。

HTML から PDF への変換タスクでは、Iron Suite の 3 つの必須ライブラリ ( IronZIPIronPDFIronOCR)を利用しました。 印刷設備が必要な場合、 IronPrintもこのタスクの候補となる可能性があります。 これら 4 つのライブラリを個別に購入した場合、合計コストは 749 * 4 = 2,996 ドルになります。

しかし、 Iron Suite を使用すると、個別の製品 2 つ分の価格で、3 つや 4 つではなく 9 つの強力なライブラリにアクセスできます。 これは信じられないほどの価値提案であり、.NET 開発のあらゆるニーズに対応する包括的なツールキットを提供します。 わずか$1,498でIron Suite は優れた価値を提供し、時間とコストを節約しながら、開発ワークフローを効率化する幅広いツールを提供します。