PDF'den OCR (Ücretsiz Çevrimiçi Araçlar)
Optik Karakter Tanıma veya OCR, resimlerdeki metni tanımak için kullanılan bir teknolojidir. Bu teknoloji, basılı metni veya bir resim dosyasını taramak ve onları bilgisayarlarda tanımak amacıyla oluşturulmuştur. Çünkü bugün pek çok şey dijitaldir, e-postalar veya kitaplar gibi. Ancak, OCR teknolojisi, çok sayıda farklı fonttaki metni tanıyabilen özel algoritmalarla birlikte daha sofistike bir hale gelmiştir. JPEG sıkıştırması gibi gürültü veya diğer yaygın bozulmalarla bozulmuş olsalar bile. OCR ayrıca kağıt üzerindeki el yazısını %98 doğrulukla okuyabilir.
OCR kullanılarak taranan metin daha sonra düzenlenebilir, dizine eklenebilir, aranabilir, basılabilir ve arşivlenebilir. OCR yazılımı, sağlık, ilaç, sigorta ve hukuk sektörlerinde yaygın olarak kullanılmaktadır. Kağıt belgeleri dijital belgelere dönüştürmeye ve böylece daha kolay yeniden kullanılmalarına ve başkalarıyla paylaşılmalarına yardımcı olur.
Farklı araçlar kullanarak PDF dosyalarının OCR'sini nasıl yapabileceğinizi görelim.
Adobe Acrobat Pro
Adobe, başlangıçta PDF'i geliştiren şirkettir. Herhangi bir PDF belgesini düzenleyebilen hızlı ve etkili bir OCR motoru sunarlar. Piyasadaki en güçlü OCR motorlarından biridir ve düzenlenecek birçok PDF'iniz varsa, Adobe Acrobat DC satın almanız gereken şeydir. Bu yazılım, herhangi bir metin tabanlı belgeyi yüksek doğrulukla PDF formatına dönüştürebilecek şekilde tasarlanmıştır. Ayrıca, Özel Font oluşturucusunu kullanarak orijinal belgenin fontunu da korur.
Adobe Acrobat kullanarak nasıl PDF OCR yapabileceğimizi görelim:
- Dosyayı Adobe Acrobat Pro DC içinde açın.
-
Sağ paneldeki "PDF'yi Düzenle" seçeneğine tıklayın.
- OCR yeteneklerini kullanarak bir PDF dosyasını düzenlenebilir PDF'ye dönüştürecektir.
-
Artık, belgelerdeki metni düzenleyebilir ve görüntü dosyalarını kolayca değiştirebilirsiniz.
- Dosyayı 'Dosya > Farklı Kaydet' seçerek ve yeni PDF belgesine uygun bir isim vererek kaydedebilirsiniz.
Birden fazla taranmış PDF belgesi üzerinde aynı anda kolayca OCR gerçekleştirebilirsiniz.
Sejda
Sejda, bulutta barındırılabilen veya macOS, Windows veya Linux'a masaüstü uygulaması olarak indirilebilen OCR özellikli bir PDF düzenleme yazılımıdır. Sejda, kullanıcılara PDF dosyalarını sıkıştırma, düzenleme, dijital imzalama, birleştirme ve doldurma imkanı tanır. JPEG ve Excel dahil olmak üzere çeşitli formatlardaki dosyalar PDF dosyalarına dönüştürülebilir. Benzer şekilde, PDF'ler, Word ve PowerPoint belgeleri gibi diğer formatlara dönüştürülebilir. Sejda OCR kullanarak PDF belgelerinde nasıl OCR yapabileceğiniz görelim.
- Open Sejda OCR website.
- Dosyaları yüklemek için 'PDF dosyası yükle' düğmesine tıklayın veya bilgisayarınızdan dosyaları sürükleyip bırakın.
-
Yükleme işlemi tamamlandıktan sonra yüklenen dosya adını göreceksiniz. Belgenin dilini seçin.
-
Dili seçtikten sonra, çıktı formatını seçmeniz gerekiyor. "PDF" veya "Metin" seçebilirsiniz. Çıktı formatı ayarlandıktan sonra, 'Tüm sayfalarda metni tanı' düğmesine tıklayın. Metin çıkarmaya başlayacaktır.
-
İşlem tamamlandığında, çıkarılan metni indirebilirsiniz.
SodaPDF
SodaPDF OCR, görüntülerden metin çıkartabilen ücretsiz bir çevrimiçi OCR yazılımıdır. Taranmış belgeleri, faksları ve diğer çıktıları düzenlenebilir metin, PDF'ler ve aranabilir PDF'lere dönüştüren bir PDF OCR dönüşüm aracıdır. SodaPDF OCR'nin en yaygın kullanım durumu, taranmış belgeleri veya faksları düzenlenebilir dosyalara dönüştürmektir. Çevrimiçi ücretsiz bir OCR yazılımıdır. Tüm yüklenen belgeler belirli bir süre sonra sunucudan otomatik olarak silinir. Microsoft Word kullanılarak açılabilecek Word'e dönüştürme gibi çeşitli özellikleri vardır.
SodaPDF kullanarak bir PDF üzerinde nasıl OCR yapabileceğimizi görelim:
- Open the SodaPDF website.
- 'Dosya Seç' düğmesine tıklayın ve yüklemek istediğiniz PDF belgelerini seçin.
-
Yüklemeden sonra, size PDF metnini ve görüntülerini düzenlemek için bir kullanıcı arayüzü sunacaktır. İndir butonunu kullanarak dosyayı indirebilirsiniz.
IronOCR: .NET OCR Kütüphanesi
IronOCR, .NET Framework'te OCR için sağlam bir kütüphanedir. Metin ve görüntülerle çalışma için güçlü bir API sunar, gerçek zamanlı tanıma, alan tespiti ve taranmış PDF dosyaları için optik karakter tanıma gibi özellikler sunar. IronPDF, taranmış belgeleri de düzenleyebilir.
IronOCR, geliştiricilere uygulamalarında metin tanıma gücü verir. Taralı belgeleri dijital formatlara dönüştürme veya görüntülerdeki başlıkları tanıma gibi çeşitli amaçlar için kullanılabilir. IronOCR .NET Kütüphanesi, IronOCR SDK'sına kolayca kullanılabilecek, düşük seviyeli bir arayüz sunar. Buna ek olarak, düşük çözünürlüklü görüntüleri otomatik olarak işleyen ve PDF belgelerinden metin çıkaran bir görüntü işleme hattı içerir.
OCR aracını kullanarak bir PDF dosyasında nasıl OCR yapabileceğimizi görelim:
Tüm Bir PDF Dosyasının OCR İşlemi
Aşağıdaki kod, bir PDF belgesinin tamamında OCR yapabilir.
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Add the entire PDF document for OCR processing
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
// Print the extracted text to the console
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Add the entire PDF document for OCR processing
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
// Print the extracted text to the console
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' Add the entire PDF document for OCR processing
Input.AddPdf("example.pdf", "password")
Dim Result = Ocr.Read(Input)
' Print the extracted text to the console
Console.WriteLine(Result.Text)
End Using
PDF'nin Seçili Sayfalarının OCR İşlemi
AddPdfPages fonksiyonunu kullanarak seçilen PDF sayfalarında OCR işlemi yapabilirsiniz.
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Add specific pages of the PDF document for OCR processing
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
// Print the extracted text to the console
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Add specific pages of the PDF document for OCR processing
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
// Print the extracted text to the console
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' Add specific pages of the PDF document for OCR processing
Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")
Dim Result = Ocr.Read(Input)
' Print the extracted text to the console
Console.WriteLine(Result.Text)
End Using
PDF'yi Aranabilir PDF'ye Dönüştürme
IronOCR kullanarak bir PDF dosyasını arama yapılabilir bir PDF dosyasına dönüştürmek için SaveAsSearchablePdf fonksiyonunu kullanabilirsiniz.
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Add the PDF for processing and specify the password if any
Input.AddPdf("scan.pdf", "password");
// Correct twisted or skewed pages
Input.Deskew();
var Result = Ocr.Read(Input);
// Save the processed result as a searchable PDF
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Add the PDF for processing and specify the password if any
Input.AddPdf("scan.pdf", "password");
// Correct twisted or skewed pages
Input.Deskew();
var Result = Ocr.Read(Input);
// Save the processed result as a searchable PDF
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' Add the PDF for processing and specify the password if any
Input.AddPdf("scan.pdf", "password")
' Correct twisted or skewed pages
Input.Deskew()
Dim Result = Ocr.Read(Input)
' Save the processed result as a searchable PDF
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
Sonuç
Optik karakter tanıma yapmak için birkaç harika yazılım aracını inceledik. Bu araçlar, programlı olarak metin tanımanızı ve aranabilir ve düzenlenebilir PDF'ler oluşturmanızı sağlar.
.NET Framework'te yazarken IronOCR önerimizdir. IronOCR, .NET Framework'te kolayca OCR yapmanızı sağlar; güçlüdür ve bu nedenle orijinal belge su hasarı gibi zarar görmüş veya bozulmuş olsa bile kolayca kullanılabilir.
Başka bir kullanım durumu, el ile doldurulan eski kağıt formlarını, fatura ve satış makbuzları gibi, dijital sürümlere dönüştürmektir. Bu, bu belgelerin muhasebe yazılımı tarafından otomatik olarak işlenmesine olanak tanır ve böylece doğruluk ve verimliliği artırır.




