PRZEMYSł

Jak używać C# do konwersji HTML na PDF i dokumentów OCR dla branży prawniczej

W dzisiejszym dynamicznym świecie cyfrowym automatyzacja odgrywa kluczową rolę w poprawie wydajności i dokładności. Jednym z typowych zadań w automatyzacji procesów prawnych jest konwersja zbioru plików HTML do pojedynczego dokumentu PDF z możliwością wyszukiwania.

W tym przewodniku przyjrzymy się, jak Iron Suite, potężny zestaw narzędzi dla deweloperów dostosowany do środowisk .NET, może usprawnić ten proces.

Iron Suite: Kompleksowy zestaw narzędzi dla programistów .NET

Iron Software's Iron Suite to kompleksowa kolekcja komponentów oprogramowania .NET zaprojektowana w celu usprawnienia procesów rozwoju i zwiększenia produktywności programistów pracujących z różnymi frameworkami .NET. Iron Software, wiodący dostawca narzędzi programistycznych .NET, oferuje Iron Suite jako kompleksowe rozwiązanie dla programistów poszukujących wysokiej jakości komponentów do zadań od manipulacji dokumentami po generowanie kodów kreskowych i nie tylko.

Iron Suite for .NET: Suite .NET dla twojego biura

Sercem pakietu Iron Suite jest bogaty zestaw bibliotek i narzędzi dostosowanych do typowych wyzwań napotykanych w projektach tworzenia oprogramowania. Oto przegląd niektórych kluczowych komponentów pakietu Iron Suite:

  • IronPDF: Do tworzenia, edycji i zarządzania dokumentami PDF, w tym konwersji HTML do PDF.
  • IronWord: Umożliwia tworzenie i edycję plików DOC i DOCX.
  • IronXL: Umożliwia bezpośrednią pracę z plikami Excel, pozwalając na odczyt, edycję i tworzenie bez konieczności korzystania z pakietu Microsoft Office lub interfejsu Excel Interop.
  • IronOCR: Zapewnia funkcję optycznego rozpoznawania znaków (OCR) do wyodrębniania tekstu z obrazów w ponad 125 językach.
  • IronBarcode: Umożliwia odczyt i zapis różnych formatów kodów kreskowych, w tym kodów QR.
  • IronQR: Skupia się konkretnie na generowaniu, odczytywaniu i stylizowaniu kodów QR.
  • IronZIP: Umożliwia kompresowanie i dekompresowanie plików w formacie ZIP.
  • IronPrint: Zapewnia funkcje do zarządzania zadaniami drukowania i interakcji z drukarkami bezpośrednio z kodu .NET.
  • IronWebscraper: Zaprojektowany do wydajnego pobierania danych strukturalnych ze stron internetowych.

Konwersja HTML do PDF i analiza OCR za pomocą pakietu Iron Suite

Rozważmy scenariusz, w którym masz za zadanie przetworzyć plik ZIP zawierający pliki HTML, a Twoim celem jest konwersja tych plików HTML do formatu PDF w celu późniejszej analizy OCR (optycznego rozpoznawania znaków). Aby wykonać to zadanie sprawnie i skutecznie, optymalnym rozwiązaniem jest wykorzystanie możliwości trzech podstawowych bibliotek pakietu Iron Suite. Przyjrzyjmy się pokrótce każdej z bibliotek.

IronZIP - Biblioteka archiwów ZIP dla C# w .NET

Upraszczając kompresję i rozpakowywanie plików, IronZIP umożliwia płynną obsługę archiwów ZIP w aplikacjach napisanych w języku C#. Jego intuicyjny interfejs API pozwala na łatwe wyodrębnianie plików HTML z naszego archiwum ZIP.

Use Csharp Convert Html To Pdf Ocr Documents For Legal Industry 2 related to IronZIP - Biblioteka archiwów ZIP dla C# w .NET

Niektóre kluczowe funkcje IronZIP:

  • Kompresja i dekompresja: Obsługuje różne formaty archiwów, takie jak ZIP, ZIPX, RAR, 7Z i inne.
  • Szyfrowanie i deszyfrowanie: Zabezpiecz swoje archiwa tradycyjnym hasłem lub silniejszym szyfrowaniem AES (domyślnie 256-bitowym).
  • Operacje strumieniowe: wydajne przetwarzanie dużych archiwów bez ładowania całego pliku do pamięci.
  • Tworzenie archiwów samorozpakowujących się: Twórz archiwa wykonywalne, które można rozpakować bez konieczności użycia IronZIP.

IronPDF - Biblioteka PDF dla C

Jako solidna biblioteka do renderowania i manipulacji plikami PDF, IronPDF ułatwia tworzenie i edycję dokumentów PDF bezpośrednio w kodzie C#. Dzięki funkcjom takim jak konwersja HTML do PDF idealnie nadaje się do naszego zadania polegającego na konwersji plików HTML do formatu PDF.

IronPDF for .NET: Biblioteka PDF dla C#

Niektóre kluczowe funkcje biblioteki IronPDF DLL:

  • Konwersja HTML do PDF: Konwertuj treść w postaci ciągu znaków HTML lub dokument HTML, w tym CSS i JavaScript, na wysokiej jakości pliki PDF.
  • Tworzenie i edycja plików PDF: Twórz nowe pliki PDF od podstaw, łącz istniejące pliki PDF lub wyodrębniaj strony.
  • Dostosowywanie strony: Kontroluj układ strony, marginesy, nagłówki, stopki i znaki wodne.
  • Obsługa formularzy: Pobieranie danych z formularzy ze źródeł HTML i wypełnianie formularzy PDF.

IronOCR - Biblioteka OCR dla C

IronOCR to nieocenione narzędzie do ekstrakcji tekstu, specjalizujące się w pobieraniu tekstu z różnych źródeł, w tym ze skanowanych dokumentów i plików PDF. Jego wszechstronność sprawia, że idealnie nadaje się do wyodrębniania tekstu z naszego wygenerowanego dokumentu PDF, który można przeszukiwać.

IronOCR for .NET: Biblioteka OCR dla C#

Niektóre kluczowe funkcje IronOCR:

  • Optyczne rozpoznawanie znaków: Wyodrębnianie tekstu ze skanowanych dokumentów, obrazów i plików PDF z dużą dokładnością.
  • Obsługa wielu języków: Rozpoznaje tekst w ponad 125 językach.
  • Analiza układu: Zachowuje w jak największym stopniu oryginalne formatowanie wyodrębnionego tekstu.
  • Dostosowywana dokładność: precyzyjne dostosowanie dokładności OCR za pomocą różnych ustawień.

Tworzenie projektu Visual Studio

Na początek utwórz nowy projekt Visual Studio dla naszego zadania automatyzacji procesów prawnych. Upewnij się, że masz skonfigurowane środowisko niezbędne do programowania w .NET. Wykonaj poniższe kroki, aby utworzyć projekt w Visual Studio:

  1. Otwórz Visual Studio i kliknij opcję "Utwórz nowy projekt".

    Open Visual Studio IDE and click on Create a new project option.

  2. Wybierz odpowiedni szablon projektu w oparciu o swoje wymagania (np. aplikacja konsolowa, aplikacja Windows Forms).

    For the new project, select a Console App in C#.

  3. Podaj nazwę projektu i lokalizację, a następnie kliknij "Dalej".

    Skonfiguruj projekt, podajac nazwe projektu, lokalizacje oraz nazwe rozwiazania.

  4. W sekcji "Dodatkowe informacje" wybierz najnowszą wersję .NET Framework.

    Nastepnie wybierz framework .NET i kliknij na Create.

  5. Kliknij "Utwórz", aby utworzyć projekt.

Instalowanie bibliotek

Następnie zainstaluj w swoim projekcie trzy niezbędne biblioteki — IronZIP, IronPDF i IronOCR. Można to łatwo zrobić, pobierając odpowiednie pakiety ze strony internetowej Iron Software lub za pomocą Menadżera Pakietów NuGet w Visual Studio.

Zainstaluj za pomocą menedżera pakietów NuGet dla rozwiązań

Aby zintegrować biblioteki z projektem .NET:

  • W aplikacji konsolowej Visual Studio C# kliknij prawym przyciskiem myszy na swój projekt w Eksploratorze rozwiązań i wybierz opcję "Zarządzaj pakietami NuGet dla rozwiązania"

IronZIP

  1. W oknie Menadżera Pakietów NuGet wyszukaj "IronZIP".

    Install IronZIP using the Manage NuGet Package for Solution by searching IronZIP in the search bar of NuGet Package Manager, then select the project and click on the Install button.

  2. Wybierz "IronZIP" z wyników wyszukiwania i kliknij przycisk "Zainstaluj".

  3. NuGet automatycznie pobierze i doda niezbędne zależności do Twojego projektu.

IronPDF

  1. W oknie NuGet Package Manager wyszukaj "IronPDF".

    Install IronPDF using the Manage NuGet Package for Solution by searching IronPDF in the search bar of NuGet Package Manager, then select the project and click on the Install button.

  2. Wybierz "IronPDF" z wyników wyszukiwania i kliknij przycisk "Zainstaluj".

IronOCR

  1. W oknie NuGet Package Manager wyszukaj "IronOCR".

    Install IronOCR using the Manage NuGet Package for Solution by searching IronOCR in the search bar of NuGet Package Manager, then select the project and click on the Install button.

  2. Wybierz "IronOCR" z wyników wyszukiwania i kliknij przycisk "Zainstaluj".

Kroki konwersji pliku HTML do formatu PDF

Teraz, aby łatwo zamienić HTML na PDF, a następnie przeprowadzić OCR, skonfigurowaliśmy biblioteki z Iron Suite, każda oferująca unikalne funkcje dostosowane do naszego zadania. Poniższy plik ZIP zawierający wiele plików stron internetowych w formacie HTML zostanie wykorzystany do wyodrębnienia plików HTML, a następnie konwersji plików HTML do formatu PDF w celu analizy OCR:

ZIP archive website.zip containing three HTML files

Plik ZIP pokazany na powyższym zrzucie ekranu zawiera 3 strony HTML z prostej witryny internetowej. Strony HTML zawierają prosty kod HTML, który zostanie przekazany do metody konwertera PDF w celu przekształcenia plików HTML w jeden dokument PDF. Następnie OCR zostanie zastosowane, aby przeanalizować elementy HTML w wygenerowanym dokumencie PDF i wypisać całą zawartość HTML w oknie konsoli.

1. Uwzględnienie bibliotek Iron Suite (przestrzenie nazw .NET)

Aby wykorzystać funkcje oferowane przez Iron Suite w naszym projekcie C#, musimy odwołać się do odpowiednich przestrzeni nazw dla każdej biblioteki. Oto jak włączyć je do naszego pliku Program.cs:

using IronZip;
using IronPdf;
using IronOcr;
using IronZip;
using IronPdf;
using IronOcr;
Imports IronZip
Imports IronPdf
Imports IronOcr
$vbLabelText   $csharpLabel

2. Wyodrębnianie plików HTML z plików ZIP za pomocą IronZIP

Po pierwsze, wykorzystamy intuicyjny interfejs API IronZIP do wyodrębnienia plików HTML z archiwum ZIP. Dzięki prostemu wywołaniu metody możemy sprawnie wyodrębnić pliki niezbędne do kontynuowania procesu konwersji.

// Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
// Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
' Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted")
$vbLabelText   $csharpLabel

Aby w pełni wykorzystać możliwości biblioteki IronZIP, odwiedź tę stronę dokumentacji.

Wynik — wyodrębnione pliki HTML

Output: HTML files extracted from the archive website.zip using IronZIP.

3. Konwersja HTML do PDF za pomocą IronPDF

Następnie wykorzystamy zaawansowane możliwości IronPDF, aby w prosty sposób przekonwertować wszystkie wyodrębnione pliki HTML do jednego dokumentu PDF. Dzięki prostemu API możemy łatwo generować wysokiej jakości pliki PDF bezpośrednio w naszym kodzie C#.

// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
' Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
Dim renderer As New ChromePdfRenderer()

' Initialize an empty list to store the individual PDF documents
Dim pdfs As New List(Of PdfDocument)()

' Get all HTML files with the .html extension from the "extracted" folder
Dim htmlFiles = Directory.EnumerateFiles("extracted", "*.html")

' Loop through each HTML file
For Each htmlFile In htmlFiles
	' Render the current HTML file as a PDF document using the ChromePdfRenderer
	Dim pdf = renderer.RenderHtmlFileAsPdf(htmlFile)

	' Add the generated PDF document to the list
	pdfs.Add(pdf)
Next htmlFile

' Merge all the individual PDF documents in the list into a single PDF document
Dim document = PdfDocument.Merge(pdfs)

' Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf")
$vbLabelText   $csharpLabel

IronPDF umożliwia nie tylko konwersję plików HTML, formularzy HTML, ciągów znaków HTML lub adresów URL do formatu PDF, ale także konwersję innych formatów do formatu PDF. Aby uzyskać bardziej szczegółowe informacje oraz gotowe do użycia fragmenty kodu, odwiedź tę stronę z dokumentacją i przykładami kodu.

Wynik - PDF

Wynik Generowania PDF: Konwersja wyekstrahowanych plikow HTML na pliki PDF, a nastepnie laczenie skonwertowanych plikow PDF w jeden dokument PDF za pomoca IronPDF.

Wygenerowany plik PDF wyraźnie wyświetla zawartość każdej strony HTML na osobnej stronie PDF dzięki wykorzystaniu potężnego silnika konwersji HTML Chromium firmy IronPDF.

Oprócz tego można również użyć IronPrint dla .NET – biblioteki IronPrint w języku C# – do drukowania wygenerowanego pliku PDF. IronPrint skutecznie wysyła pliki PDF lub obrazy do domyślnej drukarki w celu wydrukowania.

Aby uzyskać więcej informacji na temat drukowania dokumentów za pomocą IronPrint, odwiedź tę stronę dokumentacji.

4. Wyodrębnianie tekstu za pomocą IronOCR

Na koniec należy użyć IronOCR do wyodrębnienia tekstu z wygenerowanego dokumentu PDF, który będzie można przeszukiwać. Wykorzystując zaawansowane funkcje ekstrakcji tekstu IronOCR, możemy zapewnić, że wyodrębniony tekst jest dokładny i gotowy do dalszego przetwarzania.

Poniższy fragment kodu pobiera plik PDF wygenerowany przez IronPDF i z powodzeniem przeprowadza OCR w celu dalszej analizy:

// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
' Create an IronTesseract object for Optical Character Recognition (OCR)
Dim ocrTesseract = New IronTesseract()

' Create an OcrInput object to specify the input for OCR processing
Dim ocrInput As New OcrInput()

' Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf")

' Perform OCR on the loaded PDF using the IronTesseract engine
Dim ocrResult = ocrTesseract.Read(ocrInput)

' Print the extracted text to the console
Console.WriteLine(ocrResult.Text)
$vbLabelText   $csharpLabel

Aby uzyskać bardziej szczegółową analizę tekstu, odwiedź tę stronę z gotowymi przykładami kodu tutaj.

Wynik – tekst w formacie PDF

Wynik Konsoli: Ekstrakcja tekstu z pliku PDF za pomoca IronOCR

Wynik mówi sam za siebie: szybki, dokładny i bezbłędny, co potwierdza wydajność IronOCR.

Dłączego Iron Suite?

Iron Suite wyróżnia się jako wiodący na rynku pakiet .NET do obsługi dokumentów biurowych, oferując kilka przekonujących argumentów przemawiających za jego przewagą.

1. 9 w cenie 2:

Dzięki pakietowi Iron Suite otrzymujesz dostęp do wszystkich dziewięciu produktów Iron Software za cenę zaledwie dwóch pojedynczych produktów. Ta niesamowita propozycja wartości gwarantuje, że masz do dyspozycji kompleksowy zestaw narzędzi bez nadwyrężania budżetu.

Informacje o licencjonowaniu Iron Suite.

2. Zgodnosc międzysystemówa:

Iron Suite jest zaprojektowany tak, aby działać bezproblemowo na wielu platformach, w tym Windows, macOS, Linux, Docker, Azure i AWS. Czy tworzysz aplikacje na komputery stacjonarne, webowe czy chmurowe, Iron Suite zapewnia wsparcie.

3. Szybka konfiguracja:

Od momentu pobrania Iron Suite do jego wdrożenia w produkcji możesz być w pelni operacyjny w ciągu zaledwie pieciu minut. Prosty proces instalacji i intuicyjne API pozwalają deweloperom na korzystanie z możliwosci Suite przy minimalnym czasie konfiguracji.

4. Obszerną dokumentacja:

Zegnaj zgadywaniu i probom i błędom. Iron Suite oferuje obszerna dokumentacje i przykłady dla kazdego komponentu, zapewniając deweloperom wyrazne wytyczne i zasoby do maksymalizacji produktywnosci.

5. Wsparcie techniczne 24/5:

Potrzebujesz pomocy lub masz pytania dotyczące korzystania z Iron Suite? Dedykowany zespol inżynierow jest dostępny na okraglo, piec dni w tygodniu, aby zapewnic wsparcie techniczne i rozwiązac wszelkie problemy, z ktorymi możesz się spotkać. Możesz mieć pewnosc, ze pomoc jest zawsze tylko wiadomoscia.

6. Gwarancja zwrotu pieniędzy:

Iron Suite oferuje 30-dniowa gwarancje zwrotu pieniędzy. Jeśli z jakiegos powodu nie jestes całkowicie zadowolony z zakupu, po prostu poinformuj zespol Iron w ciągu 30 dni, a oni zwroca twoja płatność, bez zadawania pytan.

7. Rozpocznij bezpłatna wersję próbną:

Gotowy na doswiadczenie mocy i wszechstronnosci Iron Suite samodzielnie? Rozpocznij swoja bezpłatna wersję próbną juz dzis i odkryj, jak bogaty zestaw narzędzi .NET do obsługi dokumentów może usprawnic twoje procesy opracowywania i otworzyć nowe możliwosci dla twoich projektow.

Wnioski

Podsumowując, Iron Suite oferuje programistom .NET kompleksowy zestaw narzędzi do usprawnienia zadań automatyzacji prawnych, takich jak generowanie PDF-ów i konwersja plików HTML na przeszukiwalne dokumenty PDF. Korzystajac z mocy IronZIP, IronPDF oraz IronOCR, deweloperzy mogą automatyzowac i optymalizowac swoje procesy pracy, w koncu poprawiając efektywność i dokładność w przetwarzaniu dokumentów prawnych. Z Iron Suite w zasiegu reki, możliwosci automatyzacji sa nieograniczone.

Do zadania konwersji HTML na PDF wykorzystalismy trzy niezastapione biblioteki Iron Suite: IronZIP, IronPDF, i IronOCR. IronPrint może również być potencjalnym kandydatem do tego zadania, jeśli wymagane jest zaplecze drukowania. Jesli kupisz te cztery biblioteki oddzielnie, ich calkowity koszt wynosilby $2,998 * 4 = $2,996.

Jednakze, z Iron Suite, otrzymujesz dostep do nie tylko trzech czy czterech, ale dziewięciu potężnych bibliotek po cenie tylko dwoch indywidualnych produktów. To niesamowita oferta wartosciowa, zapewniająca ci kompletny zestaw narzędzi dla wszystkich twoich potrzeb rozwoju .NET. Za jedynie $1,498, Iron Suite oferuje doskonala wartość, oszczedzajac czas i pieniadze, a jednoczesnie dostarczajac szeroki zakres narzedzi do usprawnienia procesow programistycznych.