業界

C#を使用してHTMLをPDFに変換し、法務業界向けにOCRドキュメントを作成する方法

公開済み 2025年1月14日
共有:

今日の急速に変化するデジタル環境では、自動化が効率と精度の向上において重要な役割を果たしています。 法務自動化において一般的な作業の一つは、HTMLファイルのコレクションを単一の検索可能なPDFドキュメントに変換することです。

このガイドでは、どのようにしてIron Suite 、.NET環境向けに調整された強力な開発者ツールのセットは、このプロセスを効率化できます。

Iron Suite:.NET開発者向けの包括的ツールキット

IronSoftwareの Iron Suite は、さまざまな.NETフレームワークで作業する開発者のために、開発プロセスを合理化し、生産性を向上させるよう設計された.NETソフトウェアコンポーネントの包括的なコレクションです。 IronSoftwareは、.NETソフトウェアツールのリーディングプロバイダーであり、Iron Suiteを開発者向けのワンストップソリューションとして提供しており、ドキュメント操作からバーコード生成に至るまでのタスクにおいて高品質なコンポーネントを求める開発者のニーズに応えています。

Iron Suite for .NET: オフィス向けの.NETスイート

Iron Suiteの中心には、ソフトウェア開発プロジェクトで遭遇する一般的な課題に対応するためにカスタマイズされた豊富なライブラリとツールのアソートメントがあります。 こちらは、Iron Suiteの主要コンポーネントの一部を紹介します。

  • IronPDFPDF文書の作成、編集、管理、HTMLからPDFへの変換を含む。
  • IronWord : DOCおよびDOCXファイルの作成と編集を可能にします。
  • IronXL: Excelファイルを直接操作することができ、Microsoft OfficeやExcel Interopを必要とせずに読み取り、編集、作成を可能にします。
  • IronOCR: 127以上の言語で画像からテキストを抽出するための光学文字認識機能を提供します。
  • IronBarcodeさまざまなバーコード形式を読み書きできる機能を提供し、QRコードを含みます。
  • IronQR特にQRコードの生成、読み取り、スタイリングに重点を置いています。
  • IronZIP: ZIP形式のファイルを圧縮および解凍することを可能にします。
  • IronPrint: .NETコードから直接印刷タスクを管理し、プリンターと対話する機能を提供します。
  • IronWebScraperウェブサイトから構造化データを効率的にスクレイピングするために設計されています。

Iron Suiteを使用したHTMLからPDFへの変換およびOCR分析

HTMLファイルを含むzipファイルを処理し、これらのHTMLファイルをPDF形式に変換してその後のOCRを行うというシナリオを考えてみましょう。(光学文字認識)分析 このタスクを効率的かつ効果的に達成するためには、Iron Suiteの3つの基本的なライブラリの機能を活用することが最適な解決策です。 各ライブラリの概要を簡単に見てみましょう。

IronZIP - C# Zip アーカイブ .NET ライブラリ

ファイルの圧縮および抽出を簡素化します。IronZIPC#アプリケーション内でのZIPアーカイブのシームレスな処理を可能にします。 その直感的なAPIにより、私たちのZIPアーカイブからHTMLファイルを簡単に抽出できます。

Use Csharp Convert Html To Pdf Ocr Documents For Legal Industry 2 related to IronZIP - C# Zip アーカイブ .NET ラ...

IronZIPの主な機能:

  • 圧縮と解凍: ZIP、ZIPX、RAR、7Zなどのさまざまなアーカイブ形式をサポート。
  • 暗号化と復号化: 従来のパスワードまたはより強力なAES暗号化でアーカイブを保護します。(デフォルトで256ビット).
  • ストリーミング操作: ファイル全体をメモリにロードすることなく、大規模なアーカイブを効率的に処理します。
  • 自己解凍アーカイブの作成: IronZIPを必要とせずに解凍可能な実行可能アーカイブを作成します。

IronPDF - C# PDF ライブラリ

堅牢なPDFレンダリングおよび操作ライブラリとして、IronPDFC# コード内で PDF ドキュメントを直接作成および操作することを容易にします。 HTMLからPDFへの変換といった機能を備え、HTMLファイルをPDF形式に変換するための作業に最適です。

IronPDF for .NET: C# PDFライブラリ

IronPDF DLLの主な機能のいくつか:

  • HTMLからPDFへの変換: CSSやJavaScriptを含むHTML文字列コンテンツまたはHTMLドキュメントを高品質なPDFに変換します。
  • PDFの作成と操作: 新規PDFを一から作成し、既存のPDFを結合したり、ページを抽出します。
  • ページカスタマイズ: ページレイアウト、余白、ヘッダー、フッター、および透かしを制御します。
  • フォーム処理: HTMLソースからフォームデータを取得し、PDFフォームに入力します。

IronOCR - C# OCRライブラリ

テキスト抽出のための非常に貴重なツール、IronOCRスキャンされたドキュメントやPDFファイルを含むさまざまなソースからテキストを抽出することを専門としています。 その多様性により、生成されたPDFドキュメントから検索可能なテキストを抽出するのに最適です。

IronOCR for .NET: C# OCRライブラリ

IronOCRの主な機能:

  • 光学文字認識: スキャンされた文書、画像、PDFから高精度でテキストを抽出します。
  • 多言語サポート: 127以上の言語でテキストを認識できます。
  • レイアウト解析: 抽出されたテキストの元の書式を可能な限り保持します。
  • カスタマイズ可能な精度: さまざまな設定を使用してOCRの精度を微調整します。

Visual Studio プロジェクトの作成

まず、法務自動化タスクのために新しいVisual Studioプロジェクトを作成します。 .NET開発に必要な環境が整っていることを確認してください。 以下の手順に従ってプロジェクトを作成するVisual Studio(ビジュアル スタジオ):

  1. Visual Studioを開き、「新しいプロジェクトの作成」オプションをクリックします。

    Visual Studio IDE を開き、「新しいプロジェクトの作成」オプションをクリックします。

  2. 要件に基づいて適切なプロジェクトテンプレートを選択してください(コンソールアプリケーション, Windows フォームアプリケーション).

    新しいプロジェクトでは、C#で「コンソールアプリ」を選択してください。

  3. プロジェクト名と場所を指定し、「次へ」をクリックします。

    プロジェクト名、場所、ソリューション名を指定してプロジェクトを構成します。

  4. 追加情報から、最新の .NET Framework を選択します。

    次に、.NET Frameworkを選択して「作成」をクリックします。

  5. 「作成」をクリックして、プロジェクトを作成します。

ライブラリのインストール

次に、あなたのプロジェクトに3つの必須ライブラリ - IronZIP、IronPDF、そして IronOCR - をインストールします。 これは、Iron Softwareのそれぞれのパッケージをダウンロードすることで簡単に実行できます。ウェブサイトまたは、Visual Studio 内で NuGet パッケージ マネージャーを使用して。

ソリューション用NuGetパッケージマネージャーを使用してインストールする

ライブラリを.NETプロジェクトに統合するには:

  • ご提供いただいたコンテンツは以下のとおり日本語に翻訳しました:

あなたのVisual Studio(ビジュアル スタジオ)C# コンソールアプリケーションで、ソリューションエクスプローラー内のプロジェクトを右クリックし、「ソリューションのNuGetパッケージの管理」を選択します。

IronZIP

  1. NuGet パッケージ マネージャー ウィンドウで、「IronZip」を検索します。

    NuGet パッケージ マネージャーの検索バーで「IronZip」と検索し、ソリューション用の NuGet パッケージの管理を使用して IronZip をインストールし、プロジェクトを選択してインストール ボタンをクリックします。

  2. 検索結果から「IronZIP」を選択し、「インストール」ボタンをクリックします。

  3. NuGetは必要な依存関係を自動的にダウンロードしてプロジェクトに追加します。

IronPDF

  1. NuGet パッケージ マネージャー ウィンドウで、「IronPDF」を検索します。

    NuGet パッケージ マネージャの検索バーで「IronPdf」を検索してソリューション用の NuGet パッケージを管理し、プロジェクトを選択してインストールボタンをクリックすることで IronPDF をインストールします。

  2. 検索結果から「IronPDF」を選択し、「インストール」ボタンをクリックします。

    IronOCR

  3. NuGetパッケージマネージャーウィンドウで「IronOCR」を検索します。

    NuGet パッケージ マネージャーの検索バーで「IronOCR」を検索し、ソリューション用の NuGet パッケージを管理して IronOCR をインストールします。その後、プロジェクトを選択し、インストール ボタンをクリックします。

  4. 検索結果から「IronOCR」を選択し、「インストール」ボタンをクリックします。

HTMLファイルをPDFファイルに変換する手順

HTMLをPDFに簡単に変換し、その後OCRを実行するために、タスクに合わせたユニークな機能を提供するIron Suiteのライブラリを設定しました。 複数のHTMLウェブページ・ファイルを含む以下のzipアーカイブは、HTMLファイルを抽出し、その後HTMLファイルをPDFファイル形式に変換してOCR分析を行うために使用されます。

3つのHTMLファイルを含むZIPアーカイブ「website.zip」

上記のスクリーンショットに示されているZipファイルには、シンプルなウェブサイトからの3つのHTMLウェブページが含まれています。HTMLページには、HTMLファイルを単一のPDFドキュメントに変換するためにPDFコンバーターメソッドに渡される簡単なHTMLコードが含まれています。 その後、OCRが適用され、生成されたPDFドキュメント内のHTML要素を解析し、すべてのHTMLコンテンツをコンソールウィンドウに表示します。

1. Iron Suiteのライブラリを含む(.NET名前空間)

C#プロジェクトでIron Suiteが提供する機能を利用するには、各ライブラリに対する適切な名前空間を参照する必要があります。 以下にProgram.csファイルへの含め方を示します。

using IronZip;
using IronPdf;
using IronOcr;
using IronZip;
using IronPdf;
using IronOcr;
Imports IronZip
Imports IronPdf
Imports IronOcr
VB   C#

2. IronZIP を使用して Zip から HTML ファイルを抽出する:

まず、IronZIP の直感的な API を使用して、zip アーカイブから HTML ファイルを抽出します。シンプルなメソッドを呼び出すことで、効率的に抽出変換プロセスを進めるための必要なファイル。

// Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
// Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
' Extract ZIP
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted")
VB   C#

IronZIPライブラリをより活用するには、こちらをご覧くださいドキュメントページ

出力 - 抽出されたHTMLファイル

出力: IronZIPを使用してアーカイブ「website.zip」から抽出されたHTMLファイル。

3. IronPDF を使用して HTML を PDF に変換する:

次に、IronPDFの強力な機能を使用して、抽出されたすべてのHTMLファイルを簡単に単一のPDFドキュメントに変換します。 シンプルなAPIを使用して、C#コード内で直接高品質のPDFを簡単に生成できます。

// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
' Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
Dim renderer As New ChromePdfRenderer()

' Initialize an empty list to store the individual PDF documents
Dim pdfs As New List(Of PdfDocument)()

' Get all HTML files with the .html extension from the "extracted" folder
Dim htmlFiles = Directory.EnumerateFiles("extracted", "*.html")

' Loop through each HTML file
For Each htmlFile In htmlFiles
	' Render the current HTML file as a PDF document using the ChromePdfRenderer
	Dim pdf = renderer.RenderHtmlFileAsPdf(htmlFile)

	' Add the generated PDF document to the list
	pdfs.Add(pdf)
Next htmlFile

' Merge all the individual PDF documents in the list into a single PDF document
Dim document = PdfDocument.Merge(pdfs)

' Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf")
VB   C#

IronPDFは、HTMLファイル、HTMLフォーム、HTML文字列、URLからのPDF変換だけでなく、他の形式からPDFへの変換も提供します。 詳細な情報とすぐに使用できるサンプルコードスニペットについては、こちらをご覧ください。ドキュメント以下のコンテンツを日本語に翻訳してください:コード例ページ

出力 - PDF

PDF生成出力: 抽出されたHTMLファイルをPDFファイルに変換し、IronPDFを使用して変換されたPDFファイルを単一のPDFドキュメントに統合します。

出力PDFは、IronPDFの強力なChromium HTML変換エンジンを使用して、各HTMLページの内容を個別のPDFページに明確に表示します。

これに加えて、あなたはまた使用することができますIronPrint for .NET - C#印刷ライブラリ生成されたPDFファイルを印刷するために。IronPrintはPDFや画像を効率的にデフォルトプリンターに送信して印刷します。

IronPrintを使用してドキュメントを印刷する方法の詳細については、こちらをご覧ください。ドキュメントページ

4. IronOCRを使用してテキストを抽出:

最後に、使用しますIronOCR生成されたPDFドキュメントから検索可能なテキストを抽出するために。 IronOCRの高度なテキスト抽出機能を活用することで、抽出されたテキストが正確で、さらなる処理に適していることを確認できます。

次のコードスニペットは、IronPDFから生成されたPDFファイルを取得し、正常に実行しますOCR(光学式文字認識)さらなる分析のために:

// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
' Create an IronTesseract object for Optical Character Recognition (OCR)
Dim ocrTesseract = New IronTesseract()

' Create an OcrInput object to specify the input for OCR processing
Dim ocrInput As New OcrInput()

' Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPdf.pdf")

' Perform OCR on the loaded PDF using the IronTesseract engine
Dim ocrResult = ocrTesseract.Read(ocrInput)

' Print the extracted text to the console
Console.WriteLine(ocrResult.Text)
VB   C#

テキストのより詳細な分析については、このすぐに使えるコード例のページをご覧ください。[ここに

ご希望のイディオムや技術用語が追加されることによって、より適切な翻訳が提供できる場合もありますので、詳細なコンテキストを教えていただけると幸いです。](https://ironsoftware.com/csharp/ocr/examples/simple-csharp-ocr-tesseract/).

出力 - PDFテキスト

コンソール出力: IronOCRを使用したPDFファイルからのテキスト抽出

出力がすべてを物語ります:高速正確、そしてエラーフリー、IronOCRの効率性を支持しています。

なぜIron Suiteなのか?

Iron Suite 市場をリードする.NETスイートとして際立っており、オフィスドキュメントにおいてその優位性を示すいくつかの説得力のある理由を提供します。

2つの価格で9つを手に入れる:

Iron Suiteを使用すると、アクセスできますすべての9つのIron Software製品こちらのコンテンツを以下の通り日本語に翻訳してください:

for the価格たった2つの個別製品のみで構成。 この驚異的なバリュープロポジションにより、予算を圧迫することなく、包括的なツールキットを手に入れることができます。

Iron Suiteライセンス情報。

2. クロスプラットフォーム互換性:

Iron Suiteは、Windows、macOS、Linux、Docker、Azure、AWSを含む複数のプラットフォームでシームレスに動作するように設計されています。 デスクトップ、ウェブ、またはクラウド環境向けのアプリケーションを開発している場合でも、Iron Suiteがサポートします。

3. クイックセットアップ:

Iron Suiteをダウンロードしてから、本番環境にデプロイする瞬間まで、最短5分で稼働を開始できます。 簡単なインストール手順と直感的なAPIにより、開発者は最小限の設定時間でスイートの機能を活用し始めることができます。

4. 包括的なドキュメント:

推測や試行錯誤にさようなら。 Iron Suiteには、すべてのコンポーネントに対する詳細なドキュメントと例が付属しており、開発者が生産性を最大化するための明確な指針とリソースを手元に持つことができるようになっています。

5. 24/5 テクニカルサポート:

Iron Suiteの使用に関するサポートが必要ですか?あるいは質問がありますか?専任のエンジニアチームが週5日、24時間体制で技術サポートを提供し、発生する可能性のある問題に対応します。 安心してください。サポートはいつでもメッセージ1つで受けられます。

6. 返金保証:

Iron Suiteは30日間の返金保証を提供しています。 何らかの理由で購入に完全に満足していない場合は、Ironチームに30日以内に知らせるだけで、質問なしに支払いを返金します。

7. 無料トライアルを開始する:

Iron Suite のパワーと多様性を体験する準備はできましたか? 無料トライアルを今すぐ開始し、.NETドキュメントツールの総合スイートがどのように開発ワークフローを効率化し、プロジェクトに新たな可能性を開くかを発見しましょう。

結論

結論として、Iron Suiteは、PDFの生成やHTMLファイルを検索可能なPDFドキュメントに変換するなどの法務自動化作業を効率化するために、.NET開発者に包括的なツールキットを提供します。 力を活用してIronZIP, IronPDF、およびIronOCR、開発者はワークフローを自動化および最適化し、最終的には法的文書処理の効率性と精度を向上させることができます。 の 도움Iron Suite 自動化の可能性は無限大です。

HTMLからPDFへの変換タスクには、Iron Suiteの3つの基本ライブラリであるIronZIPIronPDF、およびIronOCRを使用しました。 IronPrintは、印刷施設が必要な場合、このタスクの潜在的な候補にもなり得ます。 これらの4つのライブラリを個別に購入した場合、合計費用は$749 * 4 = $2,996になります。

しかし、Iron Suite を利用すれば、3つや4つだけでなく、2つの個別製品の価格で9つの強力なライブラリにアクセスできます。 それは驚くべき価値提案であり、すべての.NET開発ニーズに対応する包括的なツールキットを提供します。 わずか $1,498 で、IronSuiteは、開発のワークフローを効率化するための幅広いツールを提供し、時間とお金を節約する優れた価値を提供します。

< 以前
Iron Suite: 医療ワークフローのための手間いらずのC# PDF作成とOCR