PRZEMYSł

Jak używać C# do konwersji HTML na PDF i dokumentów OCR dla branży prawniczej

W dzisiejszym dynamicznym świecie cyfrowym automatyzacja odgrywa kluczową rolę w poprawie wydajności i dokładności. Jednym z typowych zadań w automatyzacji procesów prawnych jest konwersja zbioru plików HTML do pojedynczego dokumentu PDF z możliwością wyszukiwania.

W tym przewodniku omówimy, w jaki sposób Iron Suite, potężny zestaw narzędzi programistycznych dostosowanych do środowisk .NET, może usprawnić ten proces.

Iron Suite: Kompleksowy zestaw narzędzi dla programistów .NET

Iron Suite firmy Iron Software to kompleksowy zbiór komponentów oprogramowania .NET, zaprojektowany w celu usprawnienia procesów programistycznych i zwiększenia wydajności programistów pracujących z różnymi frameworkami .NET. Iron Software, wiodący dostawca narzędzi programistycznych .NET, oferuje pakiet Iron Suite jako kompleksowe rozwiązanie dla programistów poszukujących wysokiej jakości komponentów do zadań obejmujących między innymi obróbkę dokumentów i generowanie kodów BarCode.

Iron Suite for .NET: .NET Suite dla twojego biura

Sercem pakietu Iron Suite jest bogaty zestaw bibliotek i narzędzi dostosowanych do typowych wyzwań napotykanych w projektach tworzenia oprogramowania. Oto przegląd niektórych kluczowych komponentów pakietu Iron Suite:

  • IronPDF: Do tworzenia, edycji i zarządzania dokumentami PDF, w tym konwersji HTML do PDF.
  • IronWord: Umożliwia tworzenie i edycję plików DOC i DOCX.
  • IronXL: Umożliwia bezpośrednią pracę z plikami Excel, pozwalając na odczyt, edycję i tworzenie bez konieczności korzystania z pakietu Microsoft Office lub interfejsu Excel Interop.
  • IronOCR: Zapewnia funkcję optycznego rozpoznawania znaków (OCR) do wyodrębniania tekstu z obrazów w ponad 125 językach.
  • IronBarcode: Umożliwia odczyt i zapis różnych formatów kodów kreskowych, w tym kodów QR.
  • IronQR: Skupia się konkretnie na generowaniu, odczytywaniu i stylizowaniu kodów QR.
  • IronZIP: Umożliwia kompresowanie i dekompresowanie plików w formacie ZIP.
  • IronPrint: Zapewnia funkcje do zarządzania zadaniami drukowania i interakcji z drukarkami bezpośrednio z kodu .NET.
  • IronWebscraper: Zaprojektowany do wydajnego pobierania danych strukturalnych ze stron internetowych.

Konwersja HTML do PDF i analiza OCR za pomocą pakietu Iron Suite

Rozważmy scenariusz, w którym masz za zadanie przetworzyć plik ZIP zawierający pliki HTML, a Twoim celem jest konwersja tych plików HTML do formatu PDF w celu późniejszej analizy OCR (optycznego rozpoznawania znaków). Aby wykonać to zadanie sprawnie i skutecznie, optymalnym rozwiązaniem jest wykorzystanie możliwości trzech podstawowych bibliotek pakietu Iron Suite. Przyjrzyjmy się pokrótce każdej z bibliotek.

IronZIP — biblioteka .NET do archiwizacji plików ZIP w języku C

Upraszczając kompresję i rozpakowywanie plików, IronZIP umożliwia płynną obsługę archiwów ZIP w aplikacjach napisanych w języku C#. Jego intuicyjny interfejs API pozwala na łatwe wyodrębnianie plików HTML z naszego archiwum ZIP.

Use Csharp Convert Html To Pdf Ocr Documents For Legal Industry 2 related to IronZIP — biblioteka .NET do archiwizacji...

Niektóre kluczowe funkcje IronZIP:

  • Kompresja i dekompresja: Obsługuje różne formaty archiwów, takie jak ZIP, ZIPX, RAR, 7Z i inne.
  • Szyfrowanie i deszyfrowanie: Zabezpiecz swoje archiwa tradycyjnym hasłem lub silniejszym szyfrowaniem AES (domyślnie 256-bitowym).
  • Operacje strumieniowe: wydajne przetwarzanie dużych archiwów bez ładowania całego pliku do pamięci.
  • Tworzenie archiwów samorozpakowujących się: Twórz archiwa wykonywalne, które można rozpakować bez konieczności użycia IronZIP.

IronPDF – biblioteka PDF dla języka C

Jako solidna biblioteka do renderowania i manipulacji plikami PDF, IronPDF ułatwia tworzenie i edycję dokumentów PDF bezpośrednio w kodzie C#. Dzięki funkcjom takim jak konwersja HTML do PDF idealnie nadaje się do naszego zadania polegającego na konwersji plików HTML do formatu PDF.

IronPDF for .NET: Biblioteka C# PDF

Niektóre kluczowe funkcje biblioteki IronPDF DLL:

  • Konwersja HTML do PDF: Konwertuj treść w postaci ciągu znaków HTML lub dokument HTML, w tym CSS i JavaScript, na wysokiej jakości pliki PDF.
  • Tworzenie i edycja plików PDF: Twórz nowe pliki PDF od podstaw, łącz istniejące pliki PDF lub wyodrębniaj strony.
  • Dostosowywanie strony: Kontroluj układ strony, marginesy, nagłówki, stopki i znaki wodne.
  • Obsługa formularzy: Pobieranie danych z formularzy ze źródeł HTML i wypełnianie formularzy PDF.

IronOCR – biblioteka OCR dla języka C

IronOCR to nieocenione narzędzie do ekstrakcji tekstu, specjalizujące się w pobieraniu tekstu z różnych źródeł, w tym ze skanowanych dokumentów i plików PDF. Jego wszechstronność sprawia, że idealnie nadaje się do wyodrębniania tekstu z naszego wygenerowanego dokumentu PDF, który można przeszukiwać.

IronOCR for .NET: Biblioteka C# OCR

Niektóre kluczowe funkcje IronOCR:

  • Optyczne rozpoznawanie znaków: Wyodrębnianie tekstu ze skanowanych dokumentów, obrazów i plików PDF z dużą dokładnością.
  • Obsługa wielu języków: Rozpoznaje tekst w ponad 125 językach.
  • Analiza układu: Zachowuje w jak największym stopniu oryginalne formatowanie wyodrębnionego tekstu.
  • Dostosowywana dokładność: precyzyjne dostosowanie dokładności OCR za pomocą różnych ustawień.

Tworzenie projektu Visual Studio

Na początek utwórz nowy projekt Visual Studio dla naszego zadania automatyzacji procesów prawnych. Upewnij się, że masz skonfigurowane środowisko niezbędne do programowania w .NET. Wykonaj poniższe kroki, aby utworzyć projekt w Visual Studio:

  1. Otwórz Visual Studio i kliknij opcję "Utwórz nowy projekt".

    Open Visual Studio IDE and click on Create a new project option.

  2. Wybierz odpowiedni szablon projektu w oparciu o swoje wymagania (np. aplikacja konsolowa, aplikacja Windows Forms).

    For the new project, select a Console App in C#.

  3. Podaj nazwę projektu i lokalizację, a następnie kliknij "Dalej".

    Skonfiguruj projekt, podajac nazwe projektu, lokalizacje i nazwe rozwiązania.

  4. W sekcji "Dodatkowe informacje" wybierz najnowszą wersję .NET Framework.

    Następnie wybierz framework .NET i kliknij na Utworz.

  5. Kliknij "Utwórz", aby utworzyć projekt.

Instalowanie bibliotek

Następnie zainstaluj w swoim projekcie trzy niezbędne biblioteki — IronZIP, IronPDF i IronOCR. Można to łatwo zrobić, pobierając odpowiednie pakiety ze strony internetowej IronSoftware lub korzystając z menedżera pakietów NuGet w programie Visual Studio.

Zainstaluj za pomocą menedżera pakietów NuGet dla rozwiązań

Aby zintegrować biblioteki z projektem .NET:

  • W aplikacji konsolowej Visual Studio C# kliknij prawym przyciskiem myszy na swój projekt w Eksploratorze rozwiązań i wybierz opcję "Zarządzaj pakietami NuGet dla rozwiązania"

IronZIP

  1. W oknie NuGet Package Manager wyszukaj "IronZIP".

    Install IronZIP using the Manage NuGet Package for Solution by searching IronZip in the search bar of NuGet Package Manager, then select the project and click on the Install button.

  2. Wybierz "IronZIP" z wyników wyszukiwania i kliknij przycisk "Zainstaluj".

  3. NuGet automatycznie pobierze i doda niezbędne zależności do Twojego projektu.

IronPDF

  1. W oknie NuGet Package Manager wyszukaj "IronPDF".

    Install IronPDF using the Manage NuGet Package for Solution by searching IronPdf in the search bar of NuGet Package Manager, then select the project and click on the Install button.

  2. Wybierz "IronPDF" z wyników wyszukiwania i kliknij przycisk "Zainstaluj".

IronOCR

  1. W oknie NuGet Package Manager wyszukaj "IronOCR".

    Install IronOCR using the Manage NuGet Package for Solution by searching IronOCR in the search bar of NuGet Package Manager, then select the project and click on the Install button.

  2. Wybierz "IronOCR" z wyników wyszukiwania i kliknij przycisk "Zainstaluj".

Kroki konwersji pliku HTML do formatu PDF

Aby w prosty sposób konwertować HTML na PDF, a następnie przeprowadzać OCR, skonfigurowaliśmy biblioteki z pakietu Iron Suite, z których każda oferuje unikalne funkcje dostosowane do naszego zadania. Poniższy plik ZIP zawierający wiele plików stron internetowych w formacie HTML zostanie wykorzystany do wyodrębnienia plików HTML, a następnie konwersji plików HTML do formatu PDF w celu analizy OCR:

ZIP archive website.zip containing three HTML files

Plik ZIP pokazany na powyższym zrzucie ekranu zawiera 3 strony HTML z prostej witryny internetowej. Strony HTML zawierają prosty kod HTML, który zostanie przekazany do metody konwertera PDF w celu przekształcenia plików HTML w jeden dokument PDF. Następnie zostanie zastosowana technologia OCR w celu analizy elementów HTML w wygenerowanym dokumencie PDF i wydrukowania całej zawartości HTML w oknie konsoli.

1. Uwzględnienie bibliotek Iron Suite (przestrzenie nazw .NET)

Aby wykorzystać funkcje oferowane przez Iron Suite w naszym projekcie C#, musimy odwołać się do odpowiednich przestrzeni nazw dla każdej biblioteki. Oto jak włączyć je do naszego pliku Program.cs:

using IronZip;
using IronPdf;
using IronOcr;
using IronZip;
using IronPdf;
using IronOcr;
Imports IronZip
Imports IronPdf
Imports IronOcr
$vbLabelText   $csharpLabel

2. Wyodrębnianie plików HTML z plików ZIP za pomocą IronZIP

Po pierwsze, wykorzystamy intuicyjny interfejs API IronZIP do wyodrębnienia plików HTML z archiwum ZIP. Dzięki prostemu wywołaniu metody możemy sprawnie wyodrębnić pliki niezbędne do kontynuowania procesu konwersji.

// Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
// Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
' Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted")
$vbLabelText   $csharpLabel

Aby w pełni wykorzystać możliwości biblioteki IronZIP, odwiedź tę stronę dokumentacji.

Wynik — wyodrębnione pliki HTML

Output: HTML files extracted from the archive website.zip using IronZIP.

3. Konwersja HTML do PDF za pomocą IronPDF

Następnie wykorzystamy zaawansowane możliwości IronPDF, aby w prosty sposób przekonwertować wszystkie wyodrębnione pliki HTML do jednego dokumentu PDF. Dzięki prostemu API możemy łatwo generować wysokiej jakości pliki PDF bezpośrednio w naszym kodzie C#.

// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
' Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
Dim renderer As New ChromePdfRenderer()

' Initialize an empty list to store the individual PDF documents
Dim pdfs As New List(Of PdfDocument)()

' Get all HTML files with the .html extension from the "extracted" folder
Dim htmlFiles = Directory.EnumerateFiles("extracted", "*.html")

' Loop through each HTML file
For Each htmlFile In htmlFiles
	' Render the current HTML file as a PDF document using the ChromePdfRenderer
	Dim pdf = renderer.RenderHtmlFileAsPdf(htmlFile)

	' Add the generated PDF document to the list
	pdfs.Add(pdf)
Next htmlFile

' Merge all the individual PDF documents in the list into a single PDF document
Dim document = PdfDocument.Merge(pdfs)

' Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf")
$vbLabelText   $csharpLabel

IronPDF umożliwia nie tylko konwersję plików HTML, formularzy HTML, ciągów znaków HTML lub adresów URL do formatu PDF, ale także konwersję innych formatów do formatu PDF. Aby uzyskać bardziej szczegółowe informacje oraz gotowe do użycia fragmenty kodu, odwiedź tę stronę z dokumentacją i przykładami kodu.

Wynik - PDF

PDF Generation Output: Konwersja wyodrębnionych plików HTML do plików PDF, a następnie łączenie przekonwertowanych plików PDF w jeden dokument PDF przy użyciu IronPDF.

Wygenerowany plik PDF wyraźnie wyświetla zawartość każdej strony HTML na osobnej stronie PDF dzięki wykorzystaniu potężnego silnika konwersji HTML Chromium firmy IronPDF.

Oprócz tego można również użyć IronPrint for .NET – biblioteki IronPrint w języku C# – do drukowania wygenerowanego pliku PDF. IronPrint skutecznie wysyła pliki PDF lub obrazy do domyślnej drukarki w celu wydrukowania.

Aby uzyskać więcej informacji na temat drukowania dokumentów za pomocą IronPrint, odwiedź tę stronę dokumentacji.

4. Wyodrębnianie tekstu za pomocą IronOCR

Na koniec należy użyć IronOCR do wyodrębnienia tekstu z wygenerowanego dokumentu PDF, który będzie można przeszukiwać. Wykorzystując zaawansowane funkcje ekstrakcji tekstu IronOCR, możemy zapewnić, że wyodrębniony tekst jest dokładny i gotowy do dalszego przetwarzania.

Poniższy fragment kodu pobiera plik PDF wygenerowany przez IronPDF i z powodzeniem przeprowadza OCR w celu dalszej analizy:

// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
' Create an IronTesseract object for Optical Character Recognition (OCR)
Dim ocrTesseract = New IronTesseract()

' Create an OcrInput object to specify the input for OCR processing
Dim ocrInput As New OcrInput()

' Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf")

' Perform OCR on the loaded PDF using the IronTesseract engine
Dim ocrResult = ocrTesseract.Read(ocrInput)

' Print the extracted text to the console
Console.WriteLine(ocrResult.Text)
$vbLabelText   $csharpLabel

Aby uzyskać bardziej szczegółową analizę tekstu, odwiedź tę stronę z gotowymi przykładami kodu tutaj.

Wynik – tekst w formacie PDF

Wynik konsoli: Wyodrębnianie tekstu z pliku PDF przy użyciu IronOCR

Wynik mówi sam za siebie: szybki, dokładny i bezbłędny, co potwierdza wydajność IronOCR.

Dłączego Iron Suite?

Iron Suite wyróżnia się jako wiodący na rynku pakiet .NET do obsługi dokumentów biurowych, oferując kilka przekonujących argumentów przemawiających za jego przewagą.

1. 9 w cenie 2:

Dzięki pakietowi Iron Suite otrzymujesz dostęp do wszystkich dziewięciu produktów Iron Software za cenę zaledwie dwóch pojedynczych produktów. Ta niesamowita propozycja wartości gwarantuje, że masz do dyspozycji kompleksowy zestaw narzędzi bez nadwyrężania budżetu.

Informacje licencyjne Iron Suite.

2. Zgodność międzysystemówa:

Iron Suite jest zaprojektowany tak, aby działać bezproblemowo na wielu platformach, w tym Windows, macOS, Linux, Docker, Azure i AWS. Czy tworzysz aplikacje na komputery stacjonarne, webowe czy chmurowe, Iron Suite zapewnia wsparcie.

3. Szybka konfiguracja:

Od momentu pobrania Iron Suite do jego wdrożenia w produkcji możesz być w pełni operacyjny w ciągu zaledwie pięciu minut. Prosty proces instalacji i intuicyjne API pozwalają deweloperom na korzystanie z możliwości Suite przy minimalnym czasie konfiguracji.

4. Obszerna dokumentacja:

Żegnaj zgadywaniu i próbom i błędom. Iron Suite oferuje obszerną dokumentację i przykłady dla każdego komponentu, zapewniając deweloperom wyraźne wytyczne i zasoby do maksymalizacji produktywności.

5. Wsparcie techniczne 24/5:

Potrzebujesz pomocy lub masz pytania dotyczące korzystania z Iron Suite? Dedykowany zespół inżynierów jest dostępny na okrągło, pięć dni w tygodniu, aby zapewnić wsparcie techniczne i rozwiązać wszelkie problemy, z którymi możesz się spotkać. Możesz mieć pewność, że pomoc jest zawsze tylko wiadomością.

6. Gwarancja zwrotu pieniędzy:

Iron Suite oferuje 30-dniową gwarancję zwrotu pieniędzy. Jeśli z jakiegoś powodu nie jesteś całkowicie zadowolony z zakupu, po prostu poinformuj zespół Iron w ciągu 30 dni, a oni zwrócą Twoją płatność, bez zadawania pytań.

7. Rozpocznij bezpłatną wersję próbną:

Gotowy na doświadczenie mocy i wszechstronności Iron Suite samodzielnie? Rozpocznij swoją bezpłatną wersję próbną już dziś i odkryj, jak bogaty zestaw narzędzi .NET do obsługi dokumentów może usprawnić Twoje procesy opracowywania i otworzyć nowe możliwości dla Twoich projektów.

Wnioski

Podsumowując, Iron Suite oferuje programistom .NET kompletny zestaw narzędzi do usprawnienia zadań automatyzacji prawnych, takich jak generowanie plików PDF i konwersja plików HTML do przeszukiwalnych dokumentów PDF. Korzystając z mocy IronZIP, IronPDF oraz IronOCR, deweloperzy mogą automatyzować i optymalizować swoje procesy pracy, w końcu poprawiając efektywność i dokładność w przetwarzaniu dokumentów prawnych. Z Iron Suite w zasięgu ręki, możliwości automatyzacji są nieograniczone.

Do zadania konwersji HTML na PDF wykorzystaliśmy trzy niezastąpione biblioteki Iron Suite: IronZIP, IronPDF, i IronOCR. IronPrint może również być potencjalnym kandydatem do tego zadania, jeśli wymagańe jest zaplecze drukowania. Jeżeli kupowane indywidualnie, te cztery biblioteki kosztowałyby łącznie $1,999 * 4 = 2 996 USD.

Jednakże, z Iron Suite, otrzymujesz dostęp do nie tylko trzech czy czterech, ale dziewięciu potężnych bibliotek po cenie tylko dwóch indywidualnych produktów. To niesamowita oferta wartościowa, zapewniająca ci kompletny zestaw narzędzi dla wszystkich twoich potrzeb rozwoju .NET. Za jedyne $1,498, Iron Suite oferuje wyjątkową wartość, oszczędzając czas i pieniądze, a jednocześnie wyposażając ciebie w szeroki zakres narzędzi do usprawnienia procesów twojego rozwoju.