Tesseract Kurulumu (Adım Adım Resimli Eğitim)
Tesseract OCR Nedir?
Tesseract, Apache lisans sözleşmesi altında yayımlanan bir açık kaynak yazılım kütüphanesidir. İlk olarak 1980'lerde Hewlett Packard tarafından geliştirildi. Bu, esas olarak görüntülerden metinleri tanımlamak ve çıkarmak için kullanılan bir metin tanıma aracıdır. Tesseract OCR, bu işlevselliği gerçekleştirmek için bir komut istemi arabirimi sağlar.
IronOCR'nin özellikleri hakkında daha fazla bilgi edinin veya bugün bir deneme için kaydolun!
Windows İçin Tesseract OCR Nasıl İndirilir?
- Windows için Tesseract Yükleyicisini İndirin
- Tesseract OCR'yi Kurun
- Kurulum yolunu Ortam Değişkenlerine Ekleyin
- Tesseract OCR'yi Çalıştırın
1. Windows için Tesseract Yükleyicisini İndirin
Windows'ta Tesseract komutunu kullanmak için ilk olarak Tesseract OCR ikili dosyalarını .exe Windows Yükleyicisini indirmemiz gerekir.
Tesseract OCR'nin en son sürümünü indirebileceğiniz birçok yer var. One such place is from UB Mannheim, which is forked from tesseract-ocr/tesseract (Main Repository).
Tesseract Viki
Download the tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 bit) Windows Installer.
macOS kullanıcıları için, Tesseract aşağıdaki komutlardan biri kullanılarak terminalde kurulabilir:
brew install tesseract
brew install tesseract
sudo port install tesseract
sudo port install tesseract
2. Tesseract OCR'yi Kurun
Sonraki adımda, önceki adımda indirdiğimiz .exe dosyasını kullanarak Tesseract'ı kuracağız. Tesseract yüklemesine başlamak için .exe yükleyicisini başlatın.
Yükleyici Dili
Kurulum paketinin açılması tamamlandıktan sonra yükleyicinin dil verisi iletişim kutusu görünecek. Birden fazla dili kullanmak için Tesseract'a ek dil paketlerini seçerek kurabilirsiniz, ancak burada sadece İngilizce için dil verilerini kuracağız.
Tesseract Yükleyici
Tamam'a tıklayın ve Tesseract OCR için Yükleyici dili ayarlanmıştır.
Tesseract OCR Kurulumu
Sonraki adımda, kurulum sihirbazı görünecek. Bu Kurulum Sihirbazı, Windows için Tesseract yüklemesini yönlendirecektir.
Tesseract OCR Kurulum Sihirbazı
Kuruluma devam etmek için İleri'ye tıklayın.
Lisans Sözleşmesini Kabul Et
Tesseract OCR, Apache License Version 2.0 altında lisanslanmıştır. Açık kaynak ve kullanımı ücretsiz olduğundan, Tesseract'ın sürümlerini telif hakkı sorunları olmaksızın yeniden dağıtabilir ve değiştirebilirsiniz.
Tesseract OCR, Apache License v2.0 altında lisanslanmıştır. Kuruluma devam etmek için bu lisansı kabul edin.
Kuruluma devam etmek için Kabul Ediyorum'a tıklayın.
Kullanıcıları Seçin
Tesseract'ı birden fazla kullanıcı için veya tek bir kullanıcı için kurmayı seçebilirsiniz.
Tesseract OCR'yi Geçerli Kullanıcı (siz) veya tüm kullanıcı hesapları için kurmayı seçin
Tesseract ile kurulum yapılacak bileşenleri seçmek için İleri'ye tıklayın.
Bileşenleri Seç
Kurulacak bileşenler listesinden, ScrollView, Eğitim Araçları, Kısayol oluşturma ve Dil verileri varsayılan olarak seçilmiştir. Tüm varsayılan seçilmiş seçenekleri koruyacağız. İhtiyaçlara göre herhangi bir bileşeni seçebilir veya atlayabilirsiniz. Genellikle hepsini kurmak gerekir.
Burada, Tesseract OCR bileşenlerini dahil etmeyi veya hariç tutmayı seçebilirsiniz. En iyi sonuçlar için varsayılan bileşenlerle kuruluma devam edin.
Kurulum konumunu seçmek için İleri'ye tıklayın.
Kurulum Konumunu Seç
Sonraki adımda, Tesseract'ı kuracağımız konumu seçeceğiz. Hedef klasör yolunu kopyaladığınızdan emin olun. Bu, daha sonra kurulum konumunu makinenin yol Ortam Değişkenine eklemek için kullanılacaktır.
Tesseract OCR kütüphanesi için bir kurulum konumu seçin ve bu konumu daha sonra hatırlayın.
Tesseract yüklemesini daha ileri düzeyde yapılandırmak için İleri'ye tıklayın.
Başlat Menü Klasörünü Seç
Bu, Başlat menüsünde kısayollar oluşturacağımız son adımdır. Klasöre istediğiniz ismi verebilirsiniz, ama ben varsayılan olarak bıraktım.
Tesseract OCR'nin Başlat Menüsü Klasörünün ismini seçin
Şimdi, Yükle'ye tıklayın ve kurulumun tamamlanmasını bekleyin. Kurulum tamamlandıktan sonra aşağıdaki ekran görünecektir. Tamam'a tıklayın ve Windows'ta Tesseract OCR'nin kurulumunu başarıyla tamamladık.
Tesseract OCR kurulumu artık tamamlandı.
3. Kurulum Yolunu Sistem Ortam Değişkenlerine Ekle
Şimdi, Tesseract kurulum yolunu Windows'un Ortam Değişkenlerine ekleyeceğiz.
Başlat menüsünde "ortam değişkenleri" veya "gelişmiş sistem ayarları" yazın
Windows Sistem Özellikleri İletişim Kutusu
Sistem Özellikleri
Sistem Özellikleri iletişim kutusu açıldığında, Gelişmiş sekmesine tıklayın ve ardından ekranın sağ alt köşesinde bulunan Ortam Değişkenleri butonuna tıklayın.
Ortam Değişkenleri iletişim kutusu karşınızda olacak.
Ortam Değişkenleri
Sistem değişkenleri altında, Yol değişkenine tıklayın.
Windows'un Sistem Ortam Değişkenlerine erişin
Şimdi, Düzenle'ye tıklayın.
Tesseract OCR için Windows Kurulum Dizini'ni Ortam Değişkenlerine Ekleyin
Ortam değişkenini düzenleyin iletişim kutusundan, Yeni butona tıklayın. İkinci adımda kopyalanan kurulum yolu adresini yapıştırın ve Tamam'a tıklayın.
Windows'un Yol Sistemi Ortam Değişkenini, Tesseract OCR kurulumunun Mutlak yolunu içeren bir giriş ekleyerek düzenleyin
İşte bu kadar! Tesseract OCR'yi Windows makinesine başarıyla indirip yükleyip ortam değişkenini ayarladık.
4. Tesseract OCR'yi Çalıştırın
Windows için Tesseract OCR'nin başarılı bir şekilde yüklendiğini ve Ortam Değişkenlerine eklendiğini kontrol etmek için Windows makinenizde Komut istemcisi (cmd) açın ve "tesseract" komutunu çalıştırın. Her şey yolunda gittiyse, hızlı bir kullanım kılavuzu ve Tesseract sürümü gibi tek seçeneklerle bir görüntülenmelidir.
Windows Komut İsteminde (veya Windows Powershell'de) tesseract komutunu çalıştırarak yukarıdaki kurulum adımlarının doğru yapıldığından emin olun. Konsol çıktısı, başarılı bir Windows kurulumunun beklenen sonucudur.
Tebrikler! Tesseract OCR'yi Windows için başarıyla yükledik.
IronOCR Kütüphanesi
IronOCR, .NET yazılım geliştiricilerinin görüntülerden ve PDF belgelerinden metinleri tanımlamalarını ve çıkarmalarını sağlayan Tesseract tabanlı bir C# kütüphanesidir. Tamamen .NET içinde, herhangi bir yerde bilinen en gelişmiş Tesseract motorunu kullanarak geliştirilmiştir.
NuGet Paket Yöneticisi ile Kurulum
Visual Studio'da veya NuGet Paket Yöneticisi ile Komut satırını kullanarak IronOCR kurulumu basittir. Visual Studio'da, Menu seçeneklerine gidin:
Araçlar > NuGet Paket Yöneticisi > Paket Yöneticisi Konsolu
Ardından Komut satırında, aşağıdaki komutu yazın:
Install-Package IronOcr
Bu, IronOCR'yi kolaylıkla yükleyecek ve şimdi onun tüm potansiyelini kullanabilirsiniz.
Farklı platformlar için diğer IronOCR NuGet Paketlerini de indirebilirsiniz:
Tesseract 5 ile IronOCR
Aşağıdaki örnek kod, IronOCR Tesseract'in bir görüntüden metin okumak ve C# kullanarak OCR gerçekleştirmek için ne kadar kolay olduğunu göstermektedir.
// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;
// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;
// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
' Import the IronOCR library
Imports IronOcr
' Create an instance of IronTesseract
Private Ocr = New IronTesseract()
Private Text As String = Ocr.Read("test-files/redacted-employmentapp.png").Text
' Output the extracted text to the console
Console.WriteLine(Text) ' Printed text
Daha sağlam bir kod istiyorsanız, aşağıdakilar aynı görevi başarmanızda size yardımcı olacaktır:
// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
// Add an image to the input collection
Input.AddImage("test-files/redacted-employmentapp.png");
// You can add any number of images
// Read the OCR text from the input
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
}
// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
// Add an image to the input collection
Input.AddImage("test-files/redacted-employmentapp.png");
// You can add any number of images
// Read the OCR text from the input
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
}
' Import the IronOCR library
Imports IronOcr
' Create an instance of IronTesseract
Private Ocr = New IronTesseract()
' Using the OcrInput class to handle multiple images
Using Input = New OcrInput()
' Add an image to the input collection
Input.AddImage("test-files/redacted-employmentapp.png")
' You can add any number of images
' Read the OCR text from the input
Dim Result = Ocr.Read(Input)
' Output the extracted text to the console
Console.WriteLine(Result.Text)
End Using
Giriş Görüntüsü
IronOCR işleme için örnek giriş görüntüsü
Çıkış Görüntüsü
Çıktı Konsolda şu şekilde yazdırılır:
IronOCR'un örnek görüntü üzerindeki çalıştırılmasından dönen konsol.
Neden IronOCR'u Tercih Etmelisiniz?
IronOCR kurulumu çok kolaydır. Tam ve iyi belgelenmiş bir .NET yazılım kütüphanesi sağlar.
IronOCR, diğer üçüncü taraf kütüphanelere veya web hizmetlerine ihtiyaç duymadan %99,8 metin algılama doğruluk oranı elde eder.
Ayrıca çoklu iş parçacığı desteği sağlar. En önemlisi, IronOCR 125'ten fazla uluslararası dili destekleyebilir.
Sonuç
Bu eğitimde, bir Windows makinası için Tesseract OCR'u indirip yüklemeyi öğrendik. Tesseract OCR, C++ geliştiricileri için mükemmel bir yazılım, ancak bazı sınırlamaları var. .NET için tam olarak geliştirilmemiştir. Taranan görüntü dosyaları veya fotoğraflı görüntüler, yüksek çözünürlükte işlenmeli ve standart hale getirilmelidir, böylece dijital gürültüden arındırılmalıdırlar. Ancak o zaman Tesseract doğru bir şekilde çalışabilir.
Buna karşılık, IronOCR, taranmış veya fotoğraflı bir görüntü sağlandığında, sadece tek bir satır kod ile çalışabilir. IronOCR, kendi iç OCR motoru olarak Tesseract'i de kullanır, ancak C# için özel olarak geliştirilmiş, yüksek performanslı ve iyileştirilmiş özelliklerle en iyi sonucun alınabilmesi için ince ayarları yapılmıştır.
IronOCR yazılım ürününü bu linkten indirebilirsiniz.




