PDF'ye OCR Nasıl Yapılır Eğitimi (Ücretsiz Çevrimiçi Araçlar)
OCR veya Optical Character Recognition, metinsel bilgileri dijital formata dönüştürme sürecidir. PDF OCR, iş süreçlerini iyileştirmek için kullanılabilecek popüler bir uygulamadır. PDF OCR'un faydalarından biri, bilginin erişilebilirliğini iyileştirmek için kullanılabilmesidir. Bu, herkesin kullanabileceği veya okuyabileceği bir formatta mevcut olmayan belgeler için özellikle önemlidir. PDF OCR, herkesin kullanabileceği bir formatta mevcut olan belgenin bir kopyasını üretmek için kullanılabilir.
PDF OCR'un bir diğer kullanımı, belgelerin izlenmesindedir. Bir belge dosyalandığında, tarandığında veya transkribe edildiğinde, belgenin hangi sürümünün hangi dosya ile ilişkili olduğu takibini yapmak zor olabilir. PDF OCR ile belgedeki yapılan değişiklikleri izlemek ve hangi sürümlerin hangi dosya ile ilişkili olduğunu belirlemek mümkündür. Bu, belge arşivlerini yönetmek ve önemli bilgilerin kaybolmasını önlemek için kullanışlı olabilir.
Bu makalede, Adobe Acrobat Pro yazılımını kullanarak herhangi bir PDF dosyası için OCR'yi nasıl kullanabileceğinizi öğreneceksiniz. Bu makale ayrıca, mevcut olan en verimli ve zengin özelliklere sahip kütüphanelerden biri olan .NET OCR kütüphanesi IronOCR'u tanıtacaktır. Adobe Acrobat Pro ile başlayalım.
Adobe Acrobat Pro DC kullanarak bir PDF'ye OCR
Adobe Acrobat Pro DC, Adobe Acrobat Reader DC'nin Pro sürümüdür. PDF düzenleme için en popüler ve en güçlü araçtır. Bu yazılımla, herhangi bir PDF belgesini oluşturabilir, düzenleyebilir, imzalayabilir ve inceleyebilirsiniz. Ayrıca, PDF'leri PowerPoint sunumlarına, Word belgelerine veya Excel dosyalarına dönüştürmenizi sağlar. Ayrıca taranmış belgeleri de düzenleyebilir.
Yeni Acrobat DC sürümü, taranmış belgeleri hızla dijital dosyalara dönüştüren bir belge tarayıcısıdır. Optik Karakter Tanıma (OCR) teknolojisinin yanı sıra, kartlardan kişi bilgilerini otomatik olarak algılayıp saniyeler içinde kaydeden akıllı iş kartı taraması da bulunur.
PDF dosyalarından metin çıkarabilmenin yanı sıra, Acrobat Pro DC, PDF transkripsiyonu için değerli bir araç yapan birçok özelliğe sahiptir.
Adobe Acrobat Pro kullanarak taranmış bir belgenin OCR'sini nasıl kullanabileceğimizi görelim.
- İstenilen PDF belgesini, örneğimizde taranmış bir PDF dosyasını, Adobe Acrobat'ta açın.
- Belgede sağ panelden 'PDF'yi Düzenle' seçeneğini seçin.
- Bu, Adobe Reader OCR PDF aracının arayüzünü açacaktır.
- Üst şeritteki 'Düzenle' düğmesine tıklayın.
- Bu, taranmış PDF belgelerini tamamen düzenlenebilir PDF belgelere dönüştürecektir. PDF dosyasının kendisinde metin ve görüntü dosyalarını düzenleyebileceksiniz.
- Metin blokunun konumunu, metin yazı tipini vb. de değiştirebilirsiniz.
Herhangi bir değişiklik yaptıktan sonra dosyayı kaydedin ve bu değişikliklerin belgede yansıdığını göreceksiniz.
IronOCR: Bir .NET OCR Kütüphanesi
IronOCR, metin belgelerini ve görüntüleri makine tarafından okunabilir bir formata dönüştürerek okuyabilen bir .NET OCR kütüphanesi ve OCR aracıdır.
Bu Optik Karakter Tanıma kütüphanesi aşağıdaki hususlar göz önünde bulundurularak geliştirilmiştir:
- Farklı dillerle kullanılabilecek, herhangi bir harici yazılım gerektirmeyecek sağlam ve doğru bir OCR motoruna duyulan ihtiyaç.
- Windows, Linux ve macOS gibi farklı platformlarda çalışan kullanımı kolay bir API ihtiyaçı.
- Çeşitli .NET uygulamalarına kolayca entegre edilebilen ve hem WPF hem de konsol uygulamalarını destekleyen bir OCR motoru ihtiyaçı.
IronOCR, geliştiricilerin belgeleri tarayan, metin ve meta verileri çıkaran, taranmış görüntü dosyalarını indeksleyen, görüntüleri aranabilir PDF'lere dönüştüren ve taranmış belgeleri okunabilir metne dönüştüren yazılımlar oluşturmasını kolaylaştırır. IronOCR, kodlama, görüntü formatı dönüştürme ve metin tanıma ve çıkarmada birçok seçenek sunar. IronOCR 125 dili destekler.
IronOCR, taranmış belgeler, fotoğraflar ve ekran görüntülerinden metin tanımak için sezgisel, sağlam ve doğru bir OCR süreci sunar ve sayfa segmentasyonu ve düzen analizi gibi zaman alıcı görevleri azaltır. Kütüphane C# ile geliştirilmiştir ve API tasarımı okunabilirliği iyi olan basit bir yapıya sahiptir.
IronOCR kullanarak bazı kod örneklerini inceleyelim:
Kod Örnekleri
using IronOcr;
var Ocr = new IronTesseract();
// Initialize OCR input
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
// Alternatively, OCR selected page numbers
Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");
// Read the PDF and output the recognized text
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
// Initialize OCR input
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
// Alternatively, OCR selected page numbers
Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");
// Read the PDF and output the recognized text
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
' Initialize OCR input
Using Input = New OcrInput()
' OCR entire document
Input.AddPdf("example.pdf", "password")
' Alternatively, OCR selected page numbers
Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")
' Read the PDF and output the recognized text
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Bu örnek, IronOCR kullanarak bir PDF belgesinin tamamını veya belgedeki belirli sayfaları nasıl işleyeceğinizi gösterir.
PDF Dosyası (giriş)
Konsoldaki Çıktı
IronOCR kullanarak bir PDF'yi seçilebilir bir PDF'ye dönüştürebilirsiniz. Çok basit ve doğrudan bir işlem. Aşağıdaki PDF dönüştürme kod parçasına bakın:
using IronOcr;
var Ocr = new IronTesseract();
// Initialize OCR input
using (var Input = new OcrInput())
{
// Add PDF for processing
Input.AddPdf("scan.pdf", "password");
// Clean up twisted pages to improve OCR results
Input.Deskew();
// Run OCR and save as a searchable PDF
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
// Initialize OCR input
using (var Input = new OcrInput())
{
// Add PDF for processing
Input.AddPdf("scan.pdf", "password");
// Clean up twisted pages to improve OCR results
Input.Deskew();
// Run OCR and save as a searchable PDF
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
' Initialize OCR input
Using Input = New OcrInput()
' Add PDF for processing
Input.AddPdf("scan.pdf", "password")
' Clean up twisted pages to improve OCR results
Input.Deskew()
' Run OCR and save as a searchable PDF
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
IronOCR, birçok başka araç ve özellik sunar. IronOCR özelliklerini keşfetmek için şu bağlantıyı ziyaret edebilirsiniz.
Sonuç
IronOCR kütüphanesi, piyasada mevcut diğer kütüphanelere göre çeşitli avantajlara sahiptir. Yalnızca birkaç satır kodla kendi modüllerinizi ekleyerek işlevselliğini değiştirebilir ve genişletebilirsiniz. IronOCR şu anda 125'ten fazla dilde metin okuyabilir. Diğer kütüphanelerle karşılaştırıldığında daha yüksek kaliteli, daha güvenilir sonuçlar üretmek üzere geliştirilmiştir ve çok daha az zaman ve bellek kaynağı tüketir.
IronOCR geliştirme için ücretsizdir. IronOCR ayrıca üretimde test etmek için ücretsiz bir deneme sunar. IronOCR'ın fiyatlandırması ve ücretsiz denemesi hakkında daha fazla detay için şu bağlantıyı takip edin.




