IronOCR Kullanarak C# İle Taratılmış Belgeleri Okuma
IronOCR, C# geliştiricilerine OCR teknolojisini kullanarak taratılmış PDF'lerden ve görüntülerden metin çıkartma imkanı sunar, arama yapılamayan görüntü tabanlı belgeleri kodun sadece birkaç satırıyla aranabilir, erişilebilir içerik haline dönüştürür.
Birçok PDF, arama yapılamayan, görüntü tabanlı metin içerir. IronOCR bunu aranabilir içeriğe dönüştürerek, belirli bilgileri bulmayı kolaylaştırır ve özellikle görme engelliler için belge erişilebilirliğini artırır.
Metni ve görüntüleri elle kopyalamak veya yeniden yaratmak yerine, otomatik çıkarım doğruluğu ve verimliliği sağlar. Bu özellikle araştırma, yasal belgeler ve PDF'lerin belirli kısımlarını tekrar kullanmanın yaygın olduğu içerik oluşturma için kullanışlıdır.
İşletmeler, analiz veya sistem entegrasyonu için PDF'lerden kritik verileri çıkararak iş akışlarını düzenleyebilir. Tasarımcılar ve pazarlamacılar da projelerinde geliştirme ve yeniden kullanmak için görüntüleri çıkarabilir.
Bu eğitimde, OcrPdfInput yöntemlerini inceleyeceğiz ve IronOCR'nin çeşitli uygulamalar için PDF metin ve görüntü ayıklamayı nasıl basitleştirdiğini göstermek üzere mevcut seçenekleri ve parametreleri ele alacağız.
Bu işlevi kullanmak için IronOcr.Extensions.AdvancedScan paketini de yüklemeniz gerekir.
Hızlı Başlangıç: Taratılmış Bir PDF veya Görüntüden Metin Çıkarın
Saniyeler içinde başlayın — tek bir kod satırı ile IronOCR'nin OcrInput.LoadPdf veya LoadImage komutlarını kullanarak taranmış PDF veya görüntünüzü yükleyin ve ReadDocument komutuyla metni anında çıkarın. OCR'yi hızla çalışır hale getirmek isteyen geliştiriciler için mükemmel.
-
IronOCR aşağıdaki NuGet Paket Yöneticisi ile yükleyin
PM > Install-Package IronOcr -
Bu kod parçacığını kopyalayın ve çalıştırın.
var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text; -
Canlı ortamınızda test için dağıtım yapın
Ücretsiz deneme ile bugün projenizde IronOCR kullanmaya başlayın
Asgari İş Akışı (5 adım)
- Taratılmış belgeleri okumak için C# kütüphanesini indirin
- Öğütme için taratılmış belgeyi import edin
- Resimler için
LoadImagemetodunu veya taratılmış PDF'ler içinLoadPdfmetodunu kullanın ReadDocumentmetodunu kullanarak metni çıkarın- Gerekli olduğunda çıkarılan metni daha fazla kullanım için kaydedin veya dışa aktarın
Taratılmış Belgelerden Metin Nasıl Çıkarırım?
Bir belgedeki tüm resimlerden metin çıkarmak için ReadDocument yöntemini kullanın. Bu yöntem, belgeyi işler ve çıkarılan metni içeren bir nesne döndürür; bu nesneye Text özelliği aracılığıyla erişilebilir. Aşağıdaki örnek, bu yöntemin bir dosyası ile nasıl kullanılacağını gösterir.
IronOCR, tarama için geniş bir belge formatı çeşidini destekler. Görüntüler için JPG, PNG, GIF, TIFF ve BMP formatları ile çalışabilirken, PDF desteği hem tek ve çok sayfalı belgeleri içerir. Kütüphane, tüm desteklenen formatlarda yüksek doğruluk sağlamak için ileri Tesseract 5 teknolojisini kullanır.
- Metod şu anda yalnızca İngilizce, Çince, Japonca, Korece ve Latin Alfabeti için çalışıyor. Gelişmiş tarama işleminin .NET Framework üzerinde kullanımı için projenin x64 mimarisinde çalıştırılması gerekmektedir. )}]
Giriş Belgesi Nasıl Görünür?

OCR Kodunu Nasıl Uygularım?
:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;
// Instantiate OCR engine
var ocr = new IronTesseract();
// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");
// Perform OCR
OcrResult result = ocr.ReadDocument(input);
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate OCR engine
Private ocr = New IronTesseract()
' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")
' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)
Console.WriteLine(result.Text)
OCR İşlemesinden Ne Tür Sonuçlar Bekleyebilirim?

Bunun yerine bir PDF dosyasında OCR işlemi yapmanız gerekiyorsa, LoadImage yöntemini LoadPdf ile değiştirmeniz yeterlidir. Bu, IronOCR'un taranmış PDF'lerden metin işleme ve çıkarma işlemini aynı şekilde yapmasını sağlar.
Gelişmiş Belge İşleme Seçenekleri
Taratılmış belgelerle çalışırken, OCR süreci üzerinde daha fazla kontrol sahibi olmanız gerekir. IronOCR, metin çıkarım sonuçlarınızı artırmak için birkaç gelişmiş özellik sunar.
Çok Sayfalı Belgeleri İşleme
Birden fazla sayfaya sahip belgeler için, IronOCR parti işleme işlemini verimli şekilde yapar:
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");
// Process all pages
OcrResult result = ocr.ReadDocument(input);
// Access individual page results
foreach (var page in result.Pages)
{
Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");
// Process all pages
OcrResult result = ocr.ReadDocument(input);
// Access individual page results
foreach (var page in result.Pages)
{
Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}
Imports IronOcr
Dim ocr As New IronTesseract()
Using input As New OcrInput()
' Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf")
' Process all pages
Dim result As OcrResult = ocr.ReadDocument(input)
' Access individual page results
For Each page In result.Pages
Console.WriteLine($"Page {page.PageNumber}: {page.Text}")
Next
End Using
OCR Performansını Optimize Etmek
Taratılmış belgelerinizin kalitesi, OCR doğruluğunu doğrudan etkiler. IronOCR, metin tanıma işlemini geliştirmek için yerleşik görüntü optimizasyon filtreleri içerir:
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew(); // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white
OcrResult result = ocr.ReadDocument(input);
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew(); // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white
OcrResult result = ocr.ReadDocument(input);
Imports IronOcr
Dim ocr As New IronTesseract()
Using input As New OcrInput()
' Load and enhance image quality
input.LoadImage("low-quality-scan.jpg")
input.Deskew() ' Correct image skew
input.DeNoise() ' Remove background noise
input.Binarize() ' Convert to black and white
Dim result As OcrResult = ocr.ReadDocument(input)
End Using
Aranabilir PDF'ler Oluşturma
Taratılmış belgeleri işlerken en değerli özelliklerden biri olarak, aranabilir PDF'ler oluşturmaktır. Bu, orijinal belge görünümünü korurken bir metin katmanı ekler:
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");
// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");
// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
Imports IronOcr
Dim ocr As New IronTesseract()
Using input As New OcrInput()
input.LoadPdf("scanned-document.pdf")
' Process and save as searchable PDF
Dim result As OcrResult = ocr.ReadDocument(input)
result.SaveAsSearchablePdf("searchable-output.pdf")
End Using
Farklı Belge Türleriyle Çalışmak
IronOCR, iş ortamlarında yaygın olarak karşılaşılan çeşitli belge türlerini işlemekte ustadır. Faturalarla, sözleşmelerle veya tarihi belgelerle uğraşıyor olun, kütüphane farklı kaynaklardan veri çıkarmak için özel özellikler sunar.
Miras Belgelerin İşlenmesi
Birçok kuruluşun eski formatlarda taranmış belgelerden oluşan arşivleri vardır. IronOCR, doküman yönetim sistemlerinde yaygın olarak kullanılan çok sayfalı TIFF dosyaları dahil olmak üzere bunları verimli bir şekilde işler.
Dil Desteği
Bu örnek İngilizce metne odaklanırken, IronOCR 125'ten fazla uluslararası dili destekler. Bu, çok dilli belgeleri veya İngilizce olmayan dillerdeki belgeleri işlemek için idealdir.
Belge Tarama İçin En İyi Uygulamalar
Taranmış belgeleri işlerken en iyi sonuçları elde etmek için:
- Taramayı Kalitesi: En iyi sonuçlar için minimum 300 DPI çözünürlük kullanın
- Dosya Formatı: TIFF ve PNG formatları, metin belgeleri için JPEG'e göre daha iyi kaliteyi korur
- Ön İşleme: Belgenizin durumuna göre uygun filtreler uygulayın
- Performans: Büyük yüklerin işlenmesi için çoklu iş parçacığı yeteneklerini kullanmayı düşünün
Yaygın Sorunları Giderme
Taranmış belgelerle çalışırken çeşitli zorluklarla karşılaşabilirsiniz. İşte yaygın sorunlara çözümler:
- Düşük kalite taramalar: OCR işleminden önce geliştirme filtreleri uygulayın
- Eğri belgeler: Yönü düzeltmek için
Deskew()yöntemini kullanın - Karma içerik: Belgeler hem metin hem de metin olmayan öğeler içeriyorsa belirli bölgeleri işleyin
Daha ayrıntılı rehberlik için kapsamlı C# OCR öğreticimizi keşfedin veya hızlı başlamanızı sağlamak için basit OCR örneklerine göz atın.
Sonraki Adımlar
Artık taranmış belgelerden nasıl metin çıkaracağınızı anladığınıza göre, herhangi bir PDF'yi aranabilir hale getirme veya web uygulamaları için PDF akışlarını işleme gibi daha ileri özellikleri keşfedebilirsiniz. IronOCR'un esnekliği, basit belge dijitalleştirmeden karmaşık kurumsal belge işleme iş akışlarına kadar her şey için uygundur.
Sıkça Sorulan Sorular
C#'ta taranmış bir PDF'den nasıl metin çıkartabilirim?
IronOCR, C#'ta taranmış PDF'lerden metin çıkartmayı basit hale getirir. Taradığınız PDF'i içe aktarmak için LoadPdf metodunu kullanın, ardından metni çıkarmak için ReadDocument'i çağırın. Örneğin: var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text; Bu tek satır kod, PDF'inizi yükler ve tüm metin içeriğini çıkartır.
Metin çıkartmak için OCR kütüphanesi hangi dosya formatlarını destekliyor?
IronOCR, OCR taraması için kapsamlı bir belge formatları yelpazesini destekler. Görüntüler için JPG, PNG, GIF, TIFF ve BMP formatlarında çalışır. PDF'ler için hem tek hem de çok sayfalı belgeleri işleyebilir. Kütüphane, tüm desteklenen formatlarda yüksek doğruluk sağlamak için gelişmiş Tesseract 5 teknolojisini kullanır.
OCR işlevselliği için ek paketler yüklemem gerekiyor mu?
Evet, IronOCR ile tam OCR işlevselliğini kullanmak için, ana IronOCR kütüphanesine ek olarak IronOcr.Extensions.AdvancedScan paketini yüklemeniz gereklidir. Bu ek paket, taranmış belgeleri işlemek için gelişmiş tarama yetenekleri sağlar.
Taranmış görüntülerden ve PDF'lerden metin çıkarabilir miyim?
Evet, IronOCR taranmış görüntüler ve PDF'leri eşit düzeyde iyi işler. Görüntü dosyaları (JPG, PNG, GIF, TIFF, BMP) için LoadImage veya PDF belgeleri için LoadPdf kullanın. ReadDocument metodu her iki giriş türüyle de metin içeriği çıkartmak için çalışır.
OCR, aranabilir olmayan PDF belgeleriyle nasıl yardımcı olur?
IronOCR aranabilir olmayan, görüntü tabanlı PDF'leri metni çıkararak aranabilir içeriğe dönüştürür. Bu dönüşüm, belgeler içinde belirli bilgilerin bulunmasını kolaylaştırır ve belgelerin erişilebilirliğini, özellikle görme engelli bireyler için, önemli ölçüde artırır.
OCR metin çıkarımının başlıca iş uygulamaları nelerdir?
IronOCR, PDF'lerden analiz ve sistem entegrasyonu için kritik veri çıkarmada işletmelere olanak tanır, iş akışlarını hızlandırır. Yasal belgelerin işlenmesi, araştırma makaleleri ve veri girişinin otomatikleştirilmesi de dahil olmak üzere özellikle faydalıdır. Tasarımcılar ve pazarlamacılar da, çeşitli projelerde geliştirme ve yeniden kullanım için görüntüleri çıkarabilir.
IronOCR mevcut uygulamalara entegre edilebilir mi?
IronOCR, C# kullanarak mevcut uygulamalara kolayca entegre edecek şekilde tasarlanmıştır, bu sayede geliştiriciler, yazılımlarına minimal çabayla OCR işlevselliği ekleyebilir.
IronOCR'yi belge yönetimi için kullanmanın faydaları nelerdir?
IronOCR'yi belge yönetimi için kullanmak, taranmış belgeleri aranabilir ve düzenlenebilir metne dönüştürerek iş akışını hızlandırır, manuel veri giriş ihtiyacını azaltır ve belge erişilebilirliğini artırır.
IronOCR veri doğruluğunu nasıl artırabilir?
IronOCR, gelişmiş tanıma algoritmaları ve görüntü düzeltme özellikleriyle veri doğruluğunu artırır, böylece metin çıkarım sürecinin hem güvenilir hem de kesin olmasını sağlar.
IronOCR için ücretsiz bir deneme mevcut mu?
Evet, Iron Software, IronOCR'nin özelliklerini ve yeteneklerini, bir satın alma kararı vermeden önce test edebilmek için ücretsiz bir deneme sunar.

