SEKTöR

Hukuk Sektörü İçin HTML'den PDF'e & OCR Belgesine C# Kullanma

Günümüzün hızlı tempolu dijital dünyasında otomasyon, verimliliği ve doğruluğu artırmada önemli bir rol oynar. Yasal otomasyonda yaygın bir görev, HTML dosyaları koleksiyonunu tek bir arama yapılabilir PDF dokümanına dönüştürmektir.

Bu kılavuzda, .NET ortamları için özel olarak hazırlanmış, güçlü bir geliştirici araç seti olan Iron Suite ile bu süreci nasıl kolaylaştırabileceğimizi inceleyeceğiz.

Iron Suite: .NET Geliştiricileri için Kapsamlı Bir Araç Seti

Iron Software'ın Iron Suite, çeşitli .NET çatısı ile çalışan geliştiriciler için geliştirme süreçlerini kolaylaştırmak ve verimliliği artırmak amacıyla tasarlanmış kapsamlı bir .NET yazılım bileşenleri koleksiyonudur. .NET yazılım araçlarının önde gelen sağlayıcısı Iron Software, belge manipülasyonundan barkod oluşturmaya kadar çeşitli görevler için yüksek kaliteli bileşenler arayan geliştiriciler için Iron Suite'i tek durak çözüm olarak sunmaktadır.

Iron Suite for .NET: Ofisiniz için .NET Paketi

Iron Suite'nin kalbinde, yazılım geliştirme projelerinde karşılaşılan yaygın zorlukları ele almak üzere özel hazırlanmış çeşitli kütüphaneler ve araçlar yatar. Iron Suite'nin bazı temel bileşenlerine bir göz atalım:

  • IronPDF: PDF belgeleri oluşturma, düzenleme ve yönetme, HTML'yi PDF'ye dönüştürme dahil.
  • IronWord: DOC ve DOCX dosyaları oluşturmaya ve düzenlemeye olanak tanır.
  • IronXL: Excel dosyaları ile doğrudan çalışma imkanı sunar, Microsoft Office veya Excel Interop gerektirmeden okuma, düzenleme ve oluşturmayı sağlar.
  • IronOCR: 125'ten fazla dilde metin çıkarmak için Optik Karakter Tanıma işlevselliği sağlar.
  • IronBarcode: QR kodları da dahil olmak üzere çeşitli barkod formatları ile okuma ve yazma yeteneği sunar.
  • IronQR: QR kodları oluşturma, okuma ve stillendirme üzerine odaklanmıştır.
  • IronZIP: ZIP formatında dosyaları sıkıştırma ve açma kapasitesi sağlar.
  • IronPrint: Yazdırma görevlerini yönetme ve yazıcılarla doğrudan .NET kodunuzdan etkileşim kurma işlevi sağlar.
  • IronWebScraper: Web sitelerinden yapısal veri kazıma işlemi için tasarlanmıştır.

Iron Suite ile HTML'den PDF'ye Dönüştürme ve OCR Analizi

Bir ZIP dosyası içeren HTML dosyalarını işlemekle görevlendirildiğiniz bir senaryo düşünün ve amacınız bu HTML dosyalarını sonrasında OCR (Optik Karakter Tanıma) analizi için PDF formatına dönüştürmektir. Bu görevi verimli ve etkili bir şekilde gerçekleştirmek için Iron Suite'in üç temel kütüphanesinin yeteneklerinden yararlanmak en uygun çözümdür. Her kütüphanenin kısa bir genel bakışını yapalım.

IronZIP - C# Zip Arşivi .NET Kütüphanesi

Dosya sıkıştırma ve çıkarmayı basitleştirerek, IronZIP C# uygulamaları içinde zip arşivlerinin sorunsuz şekilde işlenmesini sağlar. Kullanıcı dostu API'si ile zip arşivimizden HTML dosyalarının kolayca çıkarılmasını sağlar.

Use Csharp Convert Html To Pdf Ocr Documents For Legal Industry 2 related to IronZIP - C# Zip Arşivi .NET Kütüphanesi

IronZIP'in bazı önemli özellikleri:

  • Sıkıştırma ve Açma: ZIP, ZIPX, RAR, 7Z ve daha fazlası gibi çeşitli arşiv formatlarını destekler.
  • Şifreleme ve Deşifreleme: Arşivlerinizi geleneksel şifre veya varsayılan olarak daha güçlü AES şifreleme (256-bit) ile güvenli hale getirin.
  • Akış Operasyonları: Büyük arşivleri tüm dosyayı belleğe yüklemeden verimli bir şekilde işleyin.
  • Kendi Kendine Çıkaran Arşiv Oluşturma: IronZIP gerektirmeden çıkarılabilen çalıştırılabilir arşivler oluşturun.

IronPDF - C# PDF Kütüphanesi

Sağlam bir PDF oluşturma ve manipülasyon kütüphanesi olarak, IronPDF doğrudan C# kodu içerisinde PDF belgelerinin oluşturulmasını ve düzenlenmesini kolaylaştırır. HTML'den PDF'ye dönüştürme gibi özelliklerle, HTML dosyalarını PDF formatına dönüştürme görevimiz için mükemmeldir.

IronPDF for .NET: C# için PDF Kütüphanesi

IronPDF DLL'nin bazı önemli özellikleri:

  • HTML'den PDF'ye Dönüştürme: CSS ve JavaScript dahil olmak üzere HTML dizesi içeriğini veya HTML belgesini yüksek kaliteli PDF'lere dönüştürün.
  • PDF Oluşturma ve Manipülasyon: Sıfırdan yeni PDF'ler oluşturun, mevcut PDF'leri birleştirin veya sayfaları çıkarın.
  • Sayfa Özelleştirme: Sayfa düzeni, kenar boşlukları, başlıklar, altbilgiler ve filigranları kontrol edin.
  • Form İşleme: HTML kaynaklarından form verilerini yakalayın ve PDF formlarını doldurun.

IronOCR - C# OCR Kütüphanesi

Metin çıkarımı için paha biçilmez bir araç olan IronOCR, taranmış belgeler ve PDF dosyaları da dahil olmak üzere çeşitli kaynaklardan metin çıkarma konusunda uzmanlaşmıştır. Esnekliği, oluşturulan PDF belgemizden aranabilir metin çıkarmak için idealdir.

IronOCR for .NET: C# için OCR Kütüphanesi

IronOCR'nin bazı önemli özellikleri:

  • Optik Karakter Tanıma: Taranmış belgelerden, görüntülerden ve PDF'lerden yüksek doğrulukla metin çıkarın.
  • Çok Dilli Destek: 125'ten fazla dilde metin tanır.
  • Düzen Analizi: Çıkarılan metnin orijinal biçimini olabildiğince korur.
  • Özelleştirilebilir Doğruluk: Çeşitli yapılandırmalar kullanarak OCR doğruluğunu ince ayarlayın.

Visual Studio Projesi Oluşturma

Öncelikle hukuki otomasyon görevimiz için yeni bir Visual Studio projesi oluşturun. .NET geliştirme için gerekli ortamın kurulu olduğundan emin olun. Visual Studio'da proje oluşturma adımlarını izleyin:

  1. Visual Studio'yu açın ve "Yeni bir proje oluştur" seçeneğine tıklayın.

    Open Visual Studio IDE and click on Create a new project option.

  2. Gereksinimlerinize göre uygun proje şablonunu seçin (ör. Konsol Uygulaması, Windows Forms Uygulaması).

    For the new project, select a Console App in C#.

  3. Proje adını ve konumunu belirtin, ardından "İleri"ye tıklayın.

    Proje adını, konumunu ve çözüm adını belirterek projenizi yapılandırın.

  4. Ek Bilgilerden en son .NET Framework'ü seçin.

    Sonraki, .NET çerçevesini seçin ve Oluştur'a tıklayın.

  5. Projeyi oluşturmak için "Oluştur" üzerine tıklayın.

Kütüphanelerin Kurulumu

Son olarak, projenize üç temel kütüphaneyi - IronZIP, IronPDF ve IronOCR - yükleyin. Bunu, Iron Software'ın web sitesinden ilgili paketleri indirerek veya Visual Studio içindeki NuGet Paket Yöneticisi'ni kullanarak kolayca yapabilirsiniz.

Çözümler için NuGet Paket Yöneticisini Kullanarak Kurulum

.NET projenize kütüphaneleri entegre etmek için:

Visual Studio C# ConsoleApp içinde, Çözüm Gezgini'ndeki projenize sağ tıklayın ve "Çözüm için NuGet Paketlerini Yönet" seçeneğini seçin.

IronZIP

  1. NuGet Paket Yöneticisi penceresinde "IronZIP" arayın.

    Install IronZIP using the Manage NuGet Package for Solution by searching IronZIP in the search bar of NuGet Package Manager, then select the project and click on the Install button.

  2. Arama sonuçlarından "IronZIP"'i seçin ve "Yükle" butonuna tıklayın.

  3. NuGet, gerekli bağımlılıkları projenize otomatik olarak indirip ekleyecektir.

IronPDF

  1. NuGet Paket Yöneticisi penceresinde "IronPDF" arama yapın.

    Install IronPDF using the Manage NuGet Package for Solution by searching IronPDF in the search bar of NuGet Package Manager, then select the project and click on the Install button.

  2. Arama sonuçlarından "IronPDF" öğesini seçin ve "Yükle" butonuna tıklayın.

IronOCR

  1. NuGet Paket Yöneticisi penceresinde "IronOCR" arama yapın.

    Install IronOCR using the Manage NuGet Package for Solution by searching IronOCR in the search bar of NuGet Package Manager, then select the project and click on the Install button.

  2. Arama sonuçlarından "IronOCR" öğesini seçin ve "Yükle" butonuna tıklayın.

HTML Dosyasını PDF Dosyasına Dönüştürme Adımları

Şimdi, HTML'yi PDF'ye kolayca dönüştürmek ve ardından OCR uygulamak için, görevimize özel işlevler sunan Iron Suite'den kütüphaneleri kurduk. Birden çok HTML web sayfası dosyası içeren aşağıdaki zip arşivi, HTML dosyalarını çıkarmak ve ardından OCR analizi için HTML dosyalarını PDF dosya formatına dönüştürmek için kullanılacaktır:

ZIP archive website.zip containing three HTML files

Yukarıdaki ekran görüntüsünde görülen Zip dosyası, basit bir web sitesinden üç HTML web sayfası içerir. HTML sayfaları, HTML dosyalarını tek bir PDF belgesine dönüştürmek için PDF dönüştürücü yöntemine aktarılacak basit HTML kodu içerir. Daha sonra, oluşturulan PDF belgesindeki HTML öğelerini analiz etmek için OCR uygulanacak ve tüm HTML içeriği konsol penceresinde yazdırılacaktır.

1. Iron Suite Kütüphanelerinin Dahil Edilmesi (.NET Ad Alanları)

C# projemizde Iron Suite'in sunduğu işlevlerden yararlanmak için, her kütüphane için uygun ad alanlarını referans göstermemiz gerekecek. İşte bunları Program.cs dosyamıza nasıl dahil edeceğimiz:

using IronZip;
using IronPdf;
using IronOcr;
using IronZip;
using IronPdf;
using IronOcr;
Imports IronZip
Imports IronPdf
Imports IronOcr
$vbLabelText   $csharpLabel

2. IronZIP Kullanarak HTML Dosyalarını Zipperdan Çıkarma

Öncelikle, IronZIP'in kullanımı kolay API'si ile zip arşivinden HTML dosyalarını çıkaracağız. Basit bir yöntem çağrısı ile, dönüştürme sürecine devam etmek için gerekli dosyaları verimli bir şekilde çıkarabiliriz.

// Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
// Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted");
' Extract all contents of the ZIP file to a specified directory
IronZipArchive.ExtractArchiveToDirectory("assets/website.zip", "extracted")
$vbLabelText   $csharpLabel

IronZIP kütüphanesinden daha fazla faydalanmak için lütfen bu belgelendirme sayfasını ziyaret edin.

Çıktı - Çıkarılan HTML Dosyaları

Output: HTML files extracted from the archive website.zip using IronZIP.

3. IronPDF Kullanarak HTML'yi PDF'ye Dönüştürme

İkinci olarak, tüm çıkarılan HTML dosyalarını tek bir PDF belgesine kolayca dönüştürmek için IronPDF'in güçlü yeteneklerini kullanacağız. Basit API'si ile, C# kodumuz içinde doğrudan yüksek kaliteli PDF'leri kolayca oluşturabiliriz.

// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
// Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
ChromePdfRenderer renderer = new ChromePdfRenderer();

// Initialize an empty list to store the individual PDF documents
List<PdfDocument> pdfs = new List<PdfDocument>();

// Get all HTML files with the .html extension from the "extracted" folder
var htmlFiles = Directory.EnumerateFiles("extracted", "*.html");

// Loop through each HTML file
foreach (var htmlFile in htmlFiles)
{
    // Render the current HTML file as a PDF document using the ChromePdfRenderer
    var pdf = renderer.RenderHtmlFileAsPdf(htmlFile);

    // Add the generated PDF document to the list
    pdfs.Add(pdf);
}

// Merge all the individual PDF documents in the list into a single PDF document
var document = PdfDocument.Merge(pdfs);

// Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf");
' Create a ChromePdfRenderer object for rendering HTML to PDF (consider using IronHtmlRenderer for better HTML to PDF conversion)
Dim renderer As New ChromePdfRenderer()

' Initialize an empty list to store the individual PDF documents
Dim pdfs As New List(Of PdfDocument)()

' Get all HTML files with the .html extension from the "extracted" folder
Dim htmlFiles = Directory.EnumerateFiles("extracted", "*.html")

' Loop through each HTML file
For Each htmlFile In htmlFiles
	' Render the current HTML file as a PDF document using the ChromePdfRenderer
	Dim pdf = renderer.RenderHtmlFileAsPdf(htmlFile)

	' Add the generated PDF document to the list
	pdfs.Add(pdf)
Next htmlFile

' Merge all the individual PDF documents in the list into a single PDF document
Dim document = PdfDocument.Merge(pdfs)

' Save the merged PDF document as "HtmlToPDF.pdf"
document.SaveAs("HtmlToPDF.pdf")
$vbLabelText   $csharpLabel

IronPDF, yalnızca HTML dosyasından, HTML formundan, HTML dizgisinden veya URL'den değil, diğer formatlardan da PDF'ye dönüşüm sağlar. Daha fazla ayrıntılı bilgi ve kullanıma hazır örnek kod parçaları için lütfen bu belgelendirme ve kod örnekleri sayfasını ziyaret edin.

Çıktı - PDF

PDF Üretim Çıktısı: Çıkarılan HTML dosyalarını PDF dosyalarına dönüştürmek ve dönüştürülmüş PDF dosyalarını IronPDF kullanarak tek bir PDF belgesine birleştirmek.

Çıktı PDF, IronPDF'nin güçlü Chromium HTML dönüştürme motorunu kullanarak her HTML sayfası içeriğini ayrı bir PDF sayfasında açıkça gösterir.

Buna ek olarak, üretilen PDF dosyasını yazdırmak için IronPrint .NET için - C# Yazdırma Kütüphanesi'ni de kullanabilirsiniz. IronPrint, PDF'leri veya Görselleri yazdırmak üzere varsayılan yazıcıya verimli bir şekilde gönderir.

IronPrint kullanarak bir belgeyi nasıl yazdıracağınız hakkında daha fazla bilgi için lütfen bu belgelendirme sayfasını ziyaret edin.

4. IronOCR Kullanarak Metin Çıkartma

Son olarak, oluşturulan PDF belgesinden aranabilir metin çıkarmak için IronOCR'yi kullanın. IronOCR'nin gelişmiş metin çıkarma özelliklerinden yararlanarak, çıkarılan metnin doğru ve ileri işleme hazır olduğundan emin olabiliriz.

Aşağıdaki kod parçacığı, IronPDF'den oluşturulan PDF dosyasını alır ve başarılı bir şekilde OCR gerçekleştirir:

// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
// Create an IronTesseract object for Optical Character Recognition (OCR)
var ocrTesseract = new IronTesseract();

// Create an OcrInput object to specify the input for OCR processing
using var ocrInput = new OcrInput();

// Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf");

// Perform OCR on the loaded PDF using the IronTesseract engine
var ocrResult = ocrTesseract.Read(ocrInput);

// Print the extracted text to the console
Console.WriteLine(ocrResult.Text);
' Create an IronTesseract object for Optical Character Recognition (OCR)
Dim ocrTesseract = New IronTesseract()

' Create an OcrInput object to specify the input for OCR processing
Dim ocrInput As New OcrInput()

' Load the PDF document for text extraction
ocrInput.LoadPdf("HtmlToPDF.pdf")

' Perform OCR on the loaded PDF using the IronTesseract engine
Dim ocrResult = ocrTesseract.Read(ocrInput)

' Print the extracted text to the console
Console.WriteLine(ocrResult.Text)
$vbLabelText   $csharpLabel

Metin analizi için daha detaylı bir inceleme için bu kullanıma hazır kod örnekleri sayfasını burayı ziyaret edin.

Çıktı - PDF Metni

Konsol Çıkışı: IronOCR kullanarak PDF dosyasından metin çıkarımı

Çıktı kendisi için konuşur: Hızlı, Doğru ve Hatasız, IronOCR'nin etkinliğini onaylar.

Neden Iron Suite?

Iron Suite, ofis belgeleriniz için pazar lideri bir .NET suite olarak öne çıkar ve üstünlüğü için birkaç çekici sebep sunar.

1. 2 Fiyatına 9:

Iron Suite ile yalnızca iki bireysel ürünün fiyatına dokuz Iron Software ürününe erişim elde edersiniz. Bu inanılmaz değer teklifi, bütçeyi zorlamadan elinizde kapsamlı bir araç seti bulundurmanızı sağlar.

Iron Suite lisanslama bilgileri.

2. Platformlar Arası Uyumluluk:

Iron Suite, Windows, macOS, Linux, Docker, Azure ve AWS gibi birden fazla platformda sorunsuz çalışacak şekilde tasarlanmıştır. Masaüstü, web veya bulut ortamları için uygulama geliştiriyor olun, Iron Suite size çözümler sunar.

3. Hızlı Kurulum:

Iron Suite'i indirdiğiniz andan itibaren, üretime yerleştirene kadar, en geç beş dakikada çalışır hale gelebilirsiniz. Basit kurulum süreci ve kullanıcı dostu API'ler, geliştiricilerin suite'in yeteneklerinden en az kurulum süresi ile yararlanmasını sağlar.

4. Kapsamlı Dokümantasyon:

Tahmin yürütmeler ve deneme yanılma yöntemlerine veda edin. Iron Suite, her bileşen için kapsamlı dokümantasyon ve örnekler ile birlikte gelir, bu da geliştiricilere üretkenliği en üst düzeye çıkarmak için açık kılavuzlar ve kaynaklar sunar.

5. 24/5 Teknik Destek:

Iron Suite'i kullanma konusunda yardıma mı ihtiyacınız var veya sorularınız mı var? Mühendislerden oluşan özel ekip, yaşadığınız herhangi bir sorunu çözmek ve teknik destek sağlamak için haftada beş gün, gece gündüz kullanılabilir durumdadır. Yardımın her zaman bir mesaj uzağında olmadığından emin olun.

6. Para İade Garantisi:

Iron Suite, 30 günlük para iade garantisi sunmaktadır. Ne sebeple olursa olsun, satın alımınızdan tamamen memnun kalmazsanız, 30 gün içinde Iron ekibine bildirin ve hiçbir soru sormadan ödemenizi iade edeceklerdir.

7. Ücretsiz Denemenizi Başlatın:

Iron Suite'nin gücünü ve çok yönlülüğünü kendiniz deneyimlemeye hazır mısınız? Ücretsiz denemenizi bugün başlatın ve kapsamlı .NET belge araçlarının geliştirme iş akışlarınızı nasıl düzene sokabileceğini ve projeleriniz için yeni olasılıkların kilidini açabileceğini keşfedin.

Sonuç

Sonuç olarak, Iron Suite, .NET geliştiricilere hukuki otomasyon görevlerini kolaylaştırmak için PDF oluşturma ve HTML dosyalarını aranabilir PDF belgelerine dönüştürme gibi kapsamlı bir araç seti sunmaktadır. IronZIP, IronPDF ve IronOCR'nin gücünden yararlanarak, geliştiriciler iş akışlarını otomatikleştirebilir ve optimize edebilir, nihayetinde hukuki belge işleminde verimliliği ve doğruluğu artırabilirler. Kullanımınıza hazır Iron Suite ile otomasyon olanakları sınırsızdır.

HTML'den PDF'ye dönüşüm görevi için Iron Suite'in üç temel kütüphanesini kullandık: IronZIP, IronPDF ve IronOCR. IronPrint, eğer bir baskı tesisi gerekiyorsa bu görev için potansiyel bir rakip olabilir. Eğer ayrı alınmış olsaydı, bu dört kütüphanenin toplam maliyeti $2,998 * 4 = $2,996 olurdu.

Ancak Iron Suite ile, yalnızca üç veya dört değil, iki bireysel ürün fiyatına dokuz güçlü kütüphaneye erişirsiniz. Bu, tüm .NET geliştirme ihtiyaçlarınız için size kapsamlı bir araç seti sağlayan inanılmaz bir değer önerisidir. Sadece $1,498 karşılığında, Iron Suite size zaman ve para tasarrufu sağlayarak geniş bir araç yelpazesi sunarak geliştirme iş akışlarınızı hızlandırma imkanı sunar.