C# ile IronOCR Kullanarak Taranmış Belgeleri Okuyun
IronOCR, C# geliştiricilerinin taranmış PDF'lerden ve görüntülerden OCR teknolojisini kullanarak metin çıkarmasını sağlar, arama yapılamayan görüntü tabanlı belgeleri birkaç satır kodla aranabilir, erişilebilir içeriğe dönüştürür.
Birçok PDF, arama yapılamayan, görüntü tabanlı metin içerir. IronOCR, bunu aranabilir içeriğe dönüştürerek belirli bilgilerin bulunmasını kolaylaştırır ve belge erişilebilirliğini, özellikle görme bozukluğu olan bireyler için artırır.
Metin ve resimleri elle kopyalamak veya yeniden oluşturmak yerine, otomatik çıkarım doğruluk ve verimlilik sağlar. Bu, özellikle araştırma, yasal belgeler ve PDF'lerin belirli bölümlerinin yaygın olarak yeniden kullanıldığı içerik oluşturma için kullanışlıdır.
İşletmeler, iş akışlarını hızlandırarak analiz veya sistem entegrasyonu için PDF'lerden kritik verileri çıkarabilir. Tasarımcılar ve pazarlamacılar da çeşitli projelerde geliştirme ve yeniden kullanım için görüntüleri çıkarabilir.
Bu öğreticide, OcrPdfInput yöntemlerini inceleyeceğiz, mevcut seçenekleri ve parametreleri ele alarak IronOCR'nin farklı uygulamalar için PDF metin ve görüntü ayıklamasını nasıl basitleştirdiğini göstereceğiz.
Bu fonksiyonu kullanmak için, IronOcr.Extensions.AdvancedScan paketini de yüklemelisiniz.
Hızlı Başlangıç: Taranmış PDF ve Görüntüden Metin Çıkarımı
Dakikalar içinde başlayın—tek satırlık bir kodla, taranmış PDF veya görüntünüzü IronOCR'nin OcrInput.LoadPdf veya LoadImage kullanarak yükleyin ve ReadDocument ile anında metni çıkarın. OCR'yi hızlıca çalıştırmak isteyen geliştiriciler için mükemmel.
-
NuGet Paket Yöneticisi ile https://www.nuget.org/packages/IronOcr yükleyin
PM > Install-Package IronOcr -
Bu kod parçasını kopyalayıp çalıştırın.
var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text; -
Canlı ortamınızda test etmek için dağıtın
Bugün projenizde IronOCR kullanmaya başlayın ücretsiz deneme ile
Minimal Is Akisi (5 adimda)
- Taranmış belgeleri okuma için C# kütüphanesini indirin
- İşleme için taranmış belgeyi içe aktar
- Görüntüler için
LoadImageyöntemini veya taranmış PDF'ler içinLoadPdfkullanın ReadDocumentyöntemiyle metin çıkarın- Çıkarılan metni daha fazla kullanım için gerektiği gibi kaydedin veya dışa aktarın
Taranmış Belgelerden Nasıl Metin Çıkarırım?
Belge içindeki tüm görüntülerden metin çıkarmak için ReadDocument yöntemini kullanın. Bu yöntem belgeyi işler ve çıkarılan metni içeren bir nesne döndürür, bu nesneye Text özelliği üzerinden erişilebilir. Aşağıdaki örnek, bu yöntemi bir dosyası ile nasıl kullanacağınızı gösterir.
IronOCR, tarama için geniş bir belge formatı desteği sunar. Görüntüler için JPG, PNG, GIF, TIFF ve BMP formatları ile çalışabilirsiniz, PDF desteği ise tek ve çok sayfalı belgeleri içerir. Kütüphane, desteklenen tüm formatlarda yüksek doğruluğu sağlamak için ileri Tesseract 5 teknolojisini kullanır.
- Yöntem şu anda yalnızca İngilizce, Çince, Japonca, Korece ve LatinAlfabesi için çalışır.
- .NET Framework üzerinde gelişmiş tarama yapmak, projenin x64 mimarisi üzerinde çalışmasını gerektirir.
)}]
Giriş Belgesi Nasıl Görünür?

OCR Kodunu Nasıl Uygularım?
:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;
// Instantiate OCR engine
var ocr = new IronTesseract();
// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");
// Perform OCR
OcrResult result = ocr.ReadDocument(input);
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate OCR engine
Private ocr = New IronTesseract()
' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")
' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)
Console.WriteLine(result.Text)
OCR İşleme Sonuçlarından Ne Bekleyebilirim?

Bunun yerine bir PDF dosyasında OCR yapmak istiyorsanız, sadece LoadImage yöntemini LoadPdf ile değiştirin. Bu, IronOCR'nin taranmış PDF'leri aynı şekilde işlemeye ve metin çıkarmasına olanak tanır.
Gelişmiş Belge İşleme Seçenekleri
Taranmış belgelerle çalışırken, OCR süreci üzerinde daha fazla kontrole ihtiyaç duyabilirsiniz. IronOCR, metin çıkarımı sonuçlarınızı geliştirmek için çeşitli ileri düzey özellikler sunar.
Çok Sayfalı Belgeleri İşlemek
Birden fazla sayfaya sahip belgeler için, IronOCR toplu işlemleri verimli bir şekilde yönetir:
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");
// Process all pages
OcrResult result = ocr.ReadDocument(input);
// Access individual page results
foreach (var page in result.Pages)
{
Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");
// Process all pages
OcrResult result = ocr.ReadDocument(input);
// Access individual page results
foreach (var page in result.Pages)
{
Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}
Imports IronOcr
Dim ocr As New IronTesseract()
Using input As New OcrInput()
' Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf")
' Process all pages
Dim result As OcrResult = ocr.ReadDocument(input)
' Access individual page results
For Each page In result.Pages
Console.WriteLine($"Page {page.PageNumber}: {page.Text}")
Next
End Using
OCR Performansını Optimize Etme
Taranmış belgelerinizin kalitesi, OCR doğruluğunu doğrudan etkiler. IronOCR, metin tanımayı iyileştirmek için görüntü optimizasyon filtreleri içerir:
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew(); // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white
OcrResult result = ocr.ReadDocument(input);
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew(); // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white
OcrResult result = ocr.ReadDocument(input);
Imports IronOcr
Dim ocr As New IronTesseract()
Using input As New OcrInput()
' Load and enhance image quality
input.LoadImage("low-quality-scan.jpg")
input.Deskew() ' Correct image skew
input.DeNoise() ' Remove background noise
input.Binarize() ' Convert to black and white
Dim result As OcrResult = ocr.ReadDocument(input)
End Using
Aranabilir PDF'ler Oluşturmak
Taranmış belgeleri işlerken en değerli özelliklerden biri aranabilir PDF'ler oluşturma yeteneğidir. Bu, orijinal belge görünümünü korurken bir metin katmanı ekler:
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");
// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
using IronOcr;
var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");
// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
Imports IronOcr
Dim ocr As New IronTesseract()
Using input As New OcrInput()
input.LoadPdf("scanned-document.pdf")
' Process and save as searchable PDF
Dim result As OcrResult = ocr.ReadDocument(input)
result.SaveAsSearchablePdf("searchable-output.pdf")
End Using
Farklı Belge Türleriyle Çalışmak
IronOCR, iş ortamlarında sıkça karşılaşılan çeşitli belge türlerini işlerken uzmanlaşmıştır. Faturalar, sözleşmeler veya tarihi belgelerle ilgilenip ilgilenmediğiniz ne olursa olsun, kütüphane, farklı kaynaklardan veri çıkarmak için uzmanlaşmış özellikler sağlar.
Eski Belgeleri İşleme
Birçok kuruluşun, eski formatlarda taranmış belge arşivleri bulunmaktadır. IronOCR, belge yönetim sistemlerinde yaygın olarak kullanılan çok sayfalı TIFF dosyaları dahil olmak üzere bu belgeleri verimli bir şekilde işler.
Dil Desteği
Bu örnek İngilizce metne odaklanırken, IronOCR 125'ten fazla uluslararası dili destekler. Bu, çok dilli belgeleri veya İngilizce olmayan belgeleri işlemek için idealdir.
Belge Tarama İçin En İyi Uygulamalar
Taranmış belgelerden en iyi sonuçları elde etmek için:
- Tarama Kalitesi: En iyi sonuçlar için en az 300 DPI çözünürlük kullanın
- Dosya Formatı: Metin belgeleri için JPEG'den daha fazla kaliteyi koruyan TIFF ve PNG formatları kullanın
- Ön İşleme: Belgenizin durumuna göre uygun filtreler uygulayın
- Performans: Büyük toplu işlemler için çok iş parçacıklı işlemler kullanmayı düşünün
Yaygın Sorun Giderme
Taranmış belgelerle çalışırken çeşitli zorluklarla karşılaşabilirsiniz. İşte yaygın sorunlar için çözümler:
- Kötü Kaliteli Taramalar: OCR işleminden önce iyileştirme filtreleri uygulayın
- Eğik belgeler: Yönlendirmeyi düzeltmek için
Deskew()yöntemini kullanın - Karışık İçerik: Belgeler metin ve metin olmayan öğeler içeriyorsa belirli bölgeleri işleyin
Daha ayrıntılı rehberlik için, kapsamlı C# OCR eğitimimize göz atın veya basit OCR örneklerini inceleyerek hızlıca başlayın.
Sonraki Adımlar
Şimdi, taranmış belgelerden nasıl metin çıkaracağınızı anladığınıza göre, herhangi bir PDF'i aranabilir hale getirme veya web uygulamaları için PDF akışlarını işleme gibi daha ileri düzey özellikleri keşfedebilirsiniz. IronOCR'nin esnekliği, basit belge dijitalleştirmeden karmaşık kurumsal belge işleme iş akışlarına kadar her şey için uygun hale getirir.
Sıkça Sorulan Sorular
C#'ta taranmış bir PDF'den metin nasıl çıkarılır?
IronOCR, C#'ta taranmış PDF'lerden metin çıkarmayı kolaylaştırır. Taranmış PDF'nizi içeri aktarmak için LoadPdf metodunu kullanın, ardından metni çıkarmak için ReadDocument'i çağırın. Örneğin: var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text; Bu tek satırlık kod, PDF'nizi yükler ve tüm metin içeriğini çıkarır.
OCR kitaplığı, metin çıkarma için hangi dosya biçimlerini destekler?
IronOCR, OCR taraması için kapsamlı bir belge formatları yelpazesini destekler. Görüntüler için JPG, PNG, GIF, TIFF ve BMP formatlarıyla çalışır. PDF'ler için hem tek hem de çok sayfalı belgeleri işleyebilir. Kütüphane, desteklenen tüm formatlarda yüksek doğruluğu sağlamak için gelişmiş Tesseract 5 teknolojisini kullanır.
OCR işlevselliği için ek paketler kurmam gerekiyor mu?
Evet, IronOCR ile tam OCR işlevselliğini kullanmak için, ana IronOCR kütüphanesine ek olarak IronOcr.Extensions.AdvancedScan paketini kurmanız gerekiyor. Bu uzantı paketi, taranan belgeleri işlemek için geliştirilmiş tarama yetenekleri sağlar.
Taranmış görüntülerden ve PDF'lerden de metin çıkartabilir miyim?
Evet, IronOCR, taranmış görüntüler ve PDF'leri eşit derecede iyi işler. Görüntü dosyaları (JPG, PNG, GIF, TIFF, BMP) için LoadImage metodunu veya PDF belgeleri için LoadPdf kullanın. ReadDocument metodu, her iki giriş türüyle de metin içeriğini çıkarmak için çalışır.
OCR, aranabilir olmayan PDF belgelerine nasıl yardımcı olur?
IronOCR, OCR teknolojisini kullanarak metni çıkararak aranabilir olmayan, görüntü tabanlı PDF'leri aranabilir içeriğe dönüştürür. Bu dönüşüm, belgeler içinde belirli bilgileri bulmayı kolaylaştırır ve özellikle görme engelli kişiler için belge erişilebilirliğini önemli ölçüde artırır.
OCR metin çıkartmanın temel iş uygulamaları nelerdir?
IronOCR, iş süreçlerini hızlandırarak sistem entegrasyonu ve analiz için PDF'lerden kritik veriler çıkartır. Özellikle yasal belgeleri, araştırma raporlarını işlemek ve veri girişini otomatikleştirmek için kullanışlıdır. Tasarımcılar ve pazarlamacılar ayrıca resimleri iyileştirme ve çeşitli projelerde yeniden kullanma için çıkarabilirler.

