Altbilgi içeriğine atla
OCR ARAçLARı
Windows'ta Tesseract OCR Nasıl Kurulur C#'ta

Tesseract Kurulumu (Adım Adım Resimli Eğitim)

Tesseract OCR Nedir?

Tesseract, Apache lisans sözleşmesi altında yayımlanan bir açık kaynak yazılım kütüphanesidir. İlk olarak 1980'lerde Hewlett Packard tarafından geliştirildi. Bu, esas olarak görüntülerden metinleri tanımlamak ve çıkarmak için kullanılan bir metin tanıma aracıdır. Tesseract OCR, bu işlevselliği gerçekleştirmek için bir komut istemi arabirimi sağlar.

Windows İçin Tesseract OCR Nasıl İndirilir?

  1. Windows için Tesseract Yükleyicisini İndirin
  2. Tesseract OCR'yi Kurun
  3. Kurulum yolunu Ortam Değişkenlerine Ekleyin
  4. Tesseract OCR'yi Çalıştırın

1. Windows için Tesseract Yükleyicisini İndirin

Windows'ta Tesseract komutunu kullanmak için ilk olarak Tesseract OCR ikili dosyalarını .exe Windows Yükleyicisini indirmemiz gerekir.

Tesseract OCR'nin en son sürümünü indirebileceğiniz birçok yer var. One such place is from UB Mannheim, which is forked from tesseract-ocr/tesseract (Main Repository).

Install Tesseract, Figure 1: Tesseract Viki

Tesseract Viki

Download the tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 bit) Windows Installer.

macOS kullanıcıları için, Tesseract aşağıdaki komutlardan biri kullanılarak terminalde kurulabilir:

brew install tesseract
brew install tesseract
SHELL
sudo port install tesseract
sudo port install tesseract
SHELL

2. Tesseract OCR'yi Kurun

Sonraki adımda, önceki adımda indirdiğimiz .exe dosyasını kullanarak Tesseract'ı kuracağız. Tesseract yüklemesine başlamak için .exe yükleyicisini başlatın.

Yükleyici Dili

Kurulum paketinin açılması tamamlandıktan sonra yükleyicinin dil verisi iletişim kutusu görünecek. Birden fazla dili kullanmak için Tesseract'a ek dil paketlerini seçerek kurabilirsiniz, ancak burada sadece İngilizce için dil verilerini kuracağız.

Install Tesseract, Figure 2: Tesseract Yükleyici

Tesseract Yükleyici

Tamam'a tıklayın ve Tesseract OCR için Yükleyici dili ayarlanmıştır.

Tesseract OCR Kurulumu

Sonraki adımda, kurulum sihirbazı görünecek. Bu Kurulum Sihirbazı, Windows için Tesseract yüklemesini yönlendirecektir.

Install Tesseract, Figure 3: Tesseract OCR

Tesseract OCR Kurulum Sihirbazı

Kuruluma devam etmek için İleri'ye tıklayın.

Lisans Sözleşmesini Kabul Et

Tesseract OCR, Apache License Version 2.0 altında lisanslanmıştır. Açık kaynak ve kullanımı ücretsiz olduğundan, Tesseract'ın sürümlerini telif hakkı sorunları olmaksızın yeniden dağıtabilir ve değiştirebilirsiniz.

Install Tesseract, Figure 4: Tesseract License

Tesseract OCR, Apache License v2.0 altında lisanslanmıştır. Kuruluma devam etmek için bu lisansı kabul edin.

Kuruluma devam etmek için Kabul Ediyorum'a tıklayın.

Kullanıcıları Seçin

Tesseract'ı birden fazla kullanıcı için veya tek bir kullanıcı için kurmayı seçebilirsiniz.

Install Tesseract, Figure 5: Tesseract Choose Users

Tesseract OCR'yi Geçerli Kullanıcı (siz) veya tüm kullanıcı hesapları için kurmayı seçin

Tesseract ile kurulum yapılacak bileşenleri seçmek için İleri'ye tıklayın.

Bileşenleri Seç

Kurulacak bileşenler listesinden, ScrollView, Eğitim Araçları, Kısayol oluşturma ve Dil verileri varsayılan olarak seçilmiştir. Tüm varsayılan seçilmiş seçenekleri koruyacağız. İhtiyaçlara göre herhangi bir bileşeni seçebilir veya atlayabilirsiniz. Genellikle hepsini kurmak gerekir.

Install Tesseract, Figure 6: Tesseract Components

Burada, Tesseract OCR bileşenlerini dahil etmeyi veya hariç tutmayı seçebilirsiniz. En iyi sonuçlar için varsayılan bileşenlerle kuruluma devam edin.

Kurulum konumunu seçmek için İleri'ye tıklayın.

Kurulum Konumunu Seç

Sonraki adımda, Tesseract'ı kuracağımız konumu seçeceğiz. Hedef klasör yolunu kopyaladığınızdan emin olun. Bu, daha sonra kurulum konumunu makinenin yol Ortam Değişkenine eklemek için kullanılacaktır.

Install Tesseract, Figure 7: Tesseract Install Location

Tesseract OCR kütüphanesi için bir kurulum konumu seçin ve bu konumu daha sonra hatırlayın.

Tesseract yüklemesini daha ileri düzeyde yapılandırmak için İleri'ye tıklayın.

Başlat Menü Klasörünü Seç

Bu, Başlat menüsünde kısayollar oluşturacağımız son adımdır. Klasöre istediğiniz ismi verebilirsiniz, ama ben varsayılan olarak bıraktım.

Install Tesseract, Figure 8: Tesseract Start Menu

Tesseract OCR'nin Başlat Menüsü Klasörünün ismini seçin

Şimdi, Yükle'ye tıklayın ve kurulumun tamamlanmasını bekleyin. Kurulum tamamlandıktan sonra aşağıdaki ekran görünecektir. Tamam'a tıklayın ve Windows'ta Tesseract OCR'nin kurulumunu başarıyla tamamladık.

Install Tesseract, Figure 9: Tesseract Yükleyici

Tesseract OCR kurulumu artık tamamlandı.

3. Kurulum Yolunu Sistem Ortam Değişkenlerine Ekle

Şimdi, Tesseract kurulum yolunu Windows'un Ortam Değişkenlerine ekleyeceğiz.

Başlat menüsünde "ortam değişkenleri" veya "gelişmiş sistem ayarları" yazın

Install Tesseract, Figure 10: System Path Variables

Windows Sistem Özellikleri İletişim Kutusu

Sistem Özellikleri

Sistem Özellikleri iletişim kutusu açıldığında, Gelişmiş sekmesine tıklayın ve ardından ekranın sağ alt köşesinde bulunan Ortam Değişkenleri butonuna tıklayın.

Ortam Değişkenleri iletişim kutusu karşınızda olacak.

Ortam Değişkenleri

Sistem değişkenleri altında, Yol değişkenine tıklayın.

Install Tesseract, Figure 11: Environment Variables

Windows'un Sistem Ortam Değişkenlerine erişin

Şimdi, Düzenle'ye tıklayın.

Tesseract OCR için Windows Kurulum Dizini'ni Ortam Değişkenlerine Ekleyin

Ortam değişkenini düzenleyin iletişim kutusundan, Yeni butona tıklayın. İkinci adımda kopyalanan kurulum yolu adresini yapıştırın ve Tamam'a tıklayın.

Install Tesseract, Figure 12: Edit Environment Variable

Windows'un Yol Sistemi Ortam Değişkenini, Tesseract OCR kurulumunun Mutlak yolunu içeren bir giriş ekleyerek düzenleyin

İşte bu kadar! Tesseract OCR'yi Windows makinesine başarıyla indirip yükleyip ortam değişkenini ayarladık.

4. Tesseract OCR'yi Çalıştırın

Windows için Tesseract OCR'nin başarılı bir şekilde yüklendiğini ve Ortam Değişkenlerine eklendiğini kontrol etmek için Windows makinenizde Komut istemcisi (cmd) açın ve "tesseract" komutunu çalıştırın. Her şey yolunda gittiyse, hızlı bir kullanım kılavuzu ve Tesseract sürümü gibi tek seçeneklerle bir görüntülenmelidir.

Install Tesseract, Figure 13: Edit Environment Variable

Windows Komut İsteminde (veya Windows Powershell'de) tesseract komutunu çalıştırarak yukarıdaki kurulum adımlarının doğru yapıldığından emin olun. Konsol çıktısı, başarılı bir Windows kurulumunun beklenen sonucudur.

Tebrikler! Tesseract OCR'yi Windows için başarıyla yükledik.

IronOCR Kütüphanesi

IronOCR, .NET yazılım geliştiricilerinin görüntülerden ve PDF belgelerinden metinleri tanımlamalarını ve çıkarmalarını sağlayan Tesseract tabanlı bir C# kütüphanesidir. Tamamen .NET içinde, herhangi bir yerde bilinen en gelişmiş Tesseract motorunu kullanarak geliştirilmiştir.

NuGet Paket Yöneticisi ile Kurulum

Visual Studio'da veya NuGet Paket Yöneticisi ile Komut satırını kullanarak IronOCR kurulumu basittir. Visual Studio'da, Menu seçeneklerine gidin:

Araçlar > NuGet Paket Yöneticisi > Paket Yöneticisi Konsolu

Ardından Komut satırında, aşağıdaki komutu yazın:

Install-Package IronOcr

Bu, IronOCR'yi kolaylıkla yükleyecek ve şimdi onun tüm potansiyelini kullanabilirsiniz.

Farklı platformlar için diğer IronOCR NuGet Paketlerini de indirebilirsiniz:

Tesseract 5 ile IronOCR

Aşağıdaki örnek kod, IronOCR Tesseract'in bir görüntüden metin okumak ve C# kullanarak OCR gerçekleştirmek için ne kadar kolay olduğunu göstermektedir.

// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;

// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;

// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
' Import the IronOCR library
Imports IronOcr

' Create an instance of IronTesseract
Private Ocr = New IronTesseract()

Private Text As String = Ocr.Read("test-files/redacted-employmentapp.png").Text

' Output the extracted text to the console
Console.WriteLine(Text) ' Printed text
$vbLabelText   $csharpLabel

Daha sağlam bir kod istiyorsanız, aşağıdakilar aynı görevi başarmanızda size yardımcı olacaktır:

// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
    // Add an image to the input collection
    Input.AddImage("test-files/redacted-employmentapp.png");
    // You can add any number of images

    // Read the OCR text from the input
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
    // Add an image to the input collection
    Input.AddImage("test-files/redacted-employmentapp.png");
    // You can add any number of images

    // Read the OCR text from the input
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
' Import the IronOCR library
Imports IronOcr

' Create an instance of IronTesseract
Private Ocr = New IronTesseract()

' Using the OcrInput class to handle multiple images
Using Input = New OcrInput()
	' Add an image to the input collection
	Input.AddImage("test-files/redacted-employmentapp.png")
	' You can add any number of images

	' Read the OCR text from the input
	Dim Result = Ocr.Read(Input)

	' Output the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

Giriş Görüntüsü

Install Tesseract, Figure 14: Input Image

IronOCR işleme için örnek giriş görüntüsü

Çıkış Görüntüsü

Çıktı Konsolda şu şekilde yazdırılır:

Install Tesseract, Figure 15: Output Image

IronOCR'un örnek görüntü üzerindeki çalıştırılmasından dönen konsol.

Neden IronOCR'u Tercih Etmelisiniz?

IronOCR kurulumu çok kolaydır. Tam ve iyi belgelenmiş bir .NET yazılım kütüphanesi sağlar.

IronOCR, diğer üçüncü taraf kütüphanelere veya web hizmetlerine ihtiyaç duymadan %99,8 metin algılama doğruluk oranı elde eder.

Ayrıca çoklu iş parçacığı desteği sağlar. En önemlisi, IronOCR 125'ten fazla uluslararası dili destekleyebilir.

Sonuç

Bu eğitimde, bir Windows makinası için Tesseract OCR'u indirip yüklemeyi öğrendik. Tesseract OCR, C++ geliştiricileri için mükemmel bir yazılım, ancak bazı sınırlamaları var. .NET için tam olarak geliştirilmemiştir. Taranan görüntü dosyaları veya fotoğraflı görüntüler, yüksek çözünürlükte işlenmeli ve standart hale getirilmelidir, böylece dijital gürültüden arındırılmalıdırlar. Ancak o zaman Tesseract doğru bir şekilde çalışabilir.

Buna karşılık, IronOCR, taranmış veya fotoğraflı bir görüntü sağlandığında, sadece tek bir satır kod ile çalışabilir. IronOCR, kendi iç OCR motoru olarak Tesseract'i de kullanır, ancak C# için özel olarak geliştirilmiş, yüksek performanslı ve iyileştirilmiş özelliklerle en iyi sonucun alınabilmesi için ince ayarları yapılmıştır.

IronOCR yazılım ürününü bu linkten indirebilirsiniz.

Kannaopat Udonpant
Yazılım Mühendisi
Yazılım Mühendisi olmadan önce, Kannapat Japonya'daki Hokkaido Üniversitesi'nden Çevresel Kaynaklar alanında doktora yaptı. Derecesini tamamlarken, Biyoprodüksiyon Mühendisliği Bölümü'nün bir parçası olan Taşıt Robotik Laboratuvarı'na da üye oldu. 2022'de, Iron Software mühendislik ekibine katılmak iç...
Daha Fazlasını Oku

Iron Destek Ekibi

Haftanın 5 günü, 24 saat çevrimiçiyiz.
Sohbet
E-posta
Beni Ara