Altbilgi içeriğine atla
OCR ARAçLARı
.NET üzerinde Tesseract OCR'yi Windows'ta nasıl kullanırsınız

Windows'ta Tesseract Ocr (Kod Örneği Eğitimi)

Tesseract OCR Nedir?

Tesseract, çeşitli işletim sistemlerinde kullanılabilecek bir optik karakter tanıma motorudur. Bu, Apache Lisansı altında yayımlanan ücretsiz bir yazılımdır. Bu kılavuzda, Windows 10 makinemde Tesseract'ı yüklemek için takip ettiğim adımları size anlatacağım. Büyük sürüm 5, mevcut kararlı sürümdür ve 30 Kasım 2021'de yayınlanan 5.0.0 sürümü ile başlamıştır.


Adım 1: Windows 10'da .exe Dosyası ile Tesseract OCR Yükleyin:

Dil verilerini yüklemek için: sudo port install tesseract -<langcode> Langcode'lar listesi MacPorts Tesseract sayfasında Homebrew'de bulunur. Windows için Tesseract OCR yüklemenin ilk adımı, makinenizin işletim sistemine uygun olan .exe yükleyicisini indirmektir.

Adım 2: Kurulumu Yapılandırın

Bir sonraki adım, Tesseract kurulumunu yapılandırmamız gerekecek. Eğer kendinize güveniyor ve yalnızca Windows için Tesseract OCR'ı varsayılan dil olarak İngilizce ayarlamak istiyorsanız, tüm varsayılan seçeneklerin seçili olduğu kurulum ekranlarından geçmek işe yarayabilir.

Yükleyici Dili

Bu sadece diyalog kutuları ve yardım bilgileri için olan dildir. Eğer istersek, Windows için Tesseract OCR'ı birden fazla dilde çalıştırabiliriz:

Tesseract Ocr Windows 1 related to Yükleyici Dili

Windows için Tesseract OCR kurulum dili

Tesseract OCR Kurulumu

Kurulum ekranı, kurulum devam etmeden önce tüm diğer uygulamaların kapatılmasını önerir.

Tesseract Ocr Windows 2 related to Tesseract OCR Kurulumu

Windows için Tesseract OCR kurulum ekranı.

Yükleme Konumunu Seçin

Bir sonraki adımda yükleme yerini seçeceğiz. Bir sonraki adıma geçmeden önce, kurulum yerini bir .txt dosyasına kopyaladığınızdan emin olun. Kurulum tamamlandıktan sonra kurulum yerini makinemizin ortam değişkenlerine eklememiz gerekecek.

Tesseract Ocr Windows 3 related to Yükleme Konumunu Seçin

Kurulum yerini seçin.

Bileşenleri Seç

Varsayılan olarak, ScrollView, Eğitim Araçları, Kısayol oluşturma ve Dil verileri seçilidir. Bunları yüklememe gibi özel bir nedeniniz yoksa, hepsinin seçili kalmasını isteriz.

Tesseract Ocr Windows 4 related to Bileşenleri Seç

Varsayılan Windows için Tesseract OCR kurulum bileşenleri.

Ek 'Script veri'yi aşağı kaydırıp genişletirsek, ek script verilerini indirip yükleme seçeneğimiz olduğunu göreceğiz. Bu, belirli script dillerinden metin çıkarmanın doğruluğunu artırmada yararlı olabilir. Bunları yüklemek isteyip istemediğiniz size kalmıştır.

Tesseract Ocr Windows 5 related to Bileşenleri Seç

Opsiyonel script yükleme bileşenleri.

Başlat Menü Klasörünü Seç

Kurulumun son adımında, bize Tesseract OCR for Windows kısayolları için başlat menüsü klasörünü seçmemiz istenecektir. Ben bunu varsayılan ad olarak bıraktım: 'Tesseract-OCR'.

Tesseract Ocr Windows 6 related to Başlat Menü Klasörünü Seç

Windows için Tesseract OCR kısayolları için başlat menüsü klasörünü seçin.

Yükleye tıkladıktan sonra, Windows için Tesseract OCR yüklemeye başlayacak. Bir sonraki adımımız, kurulum yolunu makinemizin ortam değişkenlerine eklemektir.

Adım 3: Kurulum Yolunu Ortam Değişkenlerine Ekleyin

Kontrol Paneli

Kurulum konumunu ortam değişkenlerimize eklemek için Başlat menüsüne gidin ve 'ortam değişkenleri'ni arayın. Sistem ortam değişkenlerini düzenleme sonucunu görmelisiniz. Eğer görmezseniz, her zaman şu adımları kullanabilirsiniz: Başlat menüsü > Kontrol Paneli > Sistem ortam değişkenlerini düzenle.

Tesseract Ocr Windows 7 related to Kontrol Paneli

'Ortam değişkenleri' aranıyor

Sistem Özellikleri

'Sistem Özellikleri' iletişim kutusuyla karşılaştığınızda, Gelişmiş sekmesinin tıklandığından emin olmak istiyoruz, ardından ekranın sağ altına doğru Ortam Değişkenleri düğmesini tıklayın.

Tesseract Ocr Windows 8 related to Sistem Özellikleri

Ortam Değişkenleri

Sistem değişkenleri altında, Düzenle düğmesine tıklayacağız.

Tesseract Ocr Windows 9 related to Ortam Değişkenleri

"Ortam değişkenini düzenle" ekranı sunulduğunda, Yeni düğmesine tıklayın ve Step 2'de daha önce kopyaladığımız Tesseract OCR kurulum yolunu yapıştırın. Bunu yaptıktan sonra, 'Tamam' düğmesine tıklayın.

Tesseract OCR için Windows Kurulum Dizini'ni Ortam Değişkenlerine Ekleyin

Tesseract Ocr Windows 10 related to Tesseract OCR için Windows Kurulum Dizini'ni Ortam Değişkenlerine Ekleyin

Bu kadar! .exe yükleyicisini çalıştırıp Tesseract OCR for Windows yükleme yerini ortam değişkenlerimize eklediğimize göre, Tesseract'ı bir test görüntüsünde çalıştırarak yüklemenin çalıştığını test edebiliriz.

Adım 4: Windows için Tesseract OCR'ı Test Görüntüsünde Çalıştırın

Windows için Tesseract OCR'ın başarıyla kurulduğunu test etmek için makinenizde komut istemini açın, ardından Tesseract komutunu çalıştırın. Tesseract'ın kullanım seçeneklerinin hızlı bir açıklamasını içeren bir çıktı görmelisiniz.

Tesseract Ocr Windows 11 related to Adım 4: Windows için Tesseract OCR'ı Test Görüntüsünde Çalıştırın

Windows için Tesseract OCR'ın başarılı yüklemesini kontrol etme

Tebrikler! Windows için Tesseract OCR'ı başarıyla makinenize yüklediniz.


IronOCR'yi Kullanarak OCR Çalışmaları Yapmanın Avantajları:

IronOCR provides Tesseract OCR on Mac, Windows, Linux, Azure and Docker for:

  • .NET Framework 4.0 +
  • .NET Standard 2.0 +
  • .NET Core 2.0 +
  • .NET 5
  • macOS ve Linux için Mono
  • macOS için Xamarin

IronOCR, metinleri, barkodları ve QR kodlarını en yaygın resim ve PDF formatlarından son Tesseract 5 motorunu kullanarak okur. Bu kütüphane, masaüstü, konsol ve web uygulamalarına dakika içinde OCR işlevselliği ekler. 125'ten fazla uluslararası dili destekler. Licenses start from $799.

Adım 1: IronOCR'nin En Son Sürümünü Kurun

DLL Yükleyin

Download the IronOcr DLL directly to your machine.

NuGet Kurun

Alternatif olarak, NuGet üzerinden aşağıdaki komutla kurabilirsiniz:

Install-Package IronOcr

Adım 2: Lisans Anahtarınızı Uygulayın

IronOCR lisans anahtarınızı kod kullanarak ayarlayın

IronOCR kullanılmadan önce bu kodu uygulamanızın başlangıcına ekleyin.

IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01"
$vbLabelText   $csharpLabel

Adım 3: Anahtarınızı Test Edin

Anahtarinizin dogru kuruldugunu test edin.

bool isValidLicense = IronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF01");
bool isValidLicense = IronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF01");
Dim isValidLicense As Boolean = IronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF01")
$vbLabelText   $csharpLabel

Projeyle Başlayın

// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Set the recognition language to English
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
    // Add an example image to the OCR input
    Input.Add(@"img\example.tiff");

    // Optional: Clean the image before processing
    // Input.DeNoise();
    // Input.Deskew();

    // Read the text from the image
    IronOcr.OcrResult result = Ocr.Read(Input);

    // Output the recognized text
    Console.WriteLine(result.Text);

    // Explore the OcrResult using IntelliSense
}
// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Set the recognition language to English
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
    // Add an example image to the OCR input
    Input.Add(@"img\example.tiff");

    // Optional: Clean the image before processing
    // Input.DeNoise();
    // Input.Deskew();

    // Read the text from the image
    IronOcr.OcrResult result = Ocr.Read(Input);

    // Output the recognized text
    Console.WriteLine(result.Text);

    // Explore the OcrResult using IntelliSense
}
' PM > Install-Package IronOcr
' using IronOcr;

Dim Ocr = New IronTesseract()

' Set the recognition language to English
Ocr.Language = OcrLanguage.English

Using Input = New OcrInput()
	' Add an example image to the OCR input
	Input.Add("img\example.tiff")

	' Optional: Clean the image before processing
	' Input.DeNoise();
	' Input.Deskew();

	' Read the text from the image
	Dim result As IronOcr.OcrResult = Ocr.Read(Input)

	' Output the recognized text
	Console.WriteLine(result.Text)

	' Explore the OcrResult using IntelliSense
End Using
$vbLabelText   $csharpLabel

C# for .NET ile Tesseract OCR Nasıl Kullanılır?

  • Google Tesseract ve IronOCR for .NET'i Visual Studio'ya kurun
  • C#'daki en son yapıları kontrol edin
  • Doğruluğu ve resim uyumluluğunu gözden geçirin
  • Performansı ve API fonksiyonunu test edin
  • Çoklu Dil Desteğini düşünün

Code Example for .NET OCR Usage — Extract Text from Images in C

Visual Studio çözümünüze IronOCR NuGet Paketini yüklemek için NuGet Paket Yöneticisini kullanın.

// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Set the recognition language to English
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
    // Add an example image to the OCR input
    Input.Add(@"img\example.tiff");

    // Optional: Clean the image before processing
    // Input.DeNoise();
    // Input.Deskew();

    // Read the text from the image
    IronOcr.OcrResult result = Ocr.Read(Input);

    // Output the recognized text
    Console.WriteLine(result.Text);

    // Explore the OcrResult using IntelliSense
}
// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Set the recognition language to English
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
    // Add an example image to the OCR input
    Input.Add(@"img\example.tiff");

    // Optional: Clean the image before processing
    // Input.DeNoise();
    // Input.Deskew();

    // Read the text from the image
    IronOcr.OcrResult result = Ocr.Read(Input);

    // Output the recognized text
    Console.WriteLine(result.Text);

    // Explore the OcrResult using IntelliSense
}
' PM > Install-Package IronOcr
' using IronOcr;

Dim Ocr = New IronTesseract()

' Set the recognition language to English
Ocr.Language = OcrLanguage.English

Using Input = New OcrInput()
	' Add an example image to the OCR input
	Input.Add("img\example.tiff")

	' Optional: Clean the image before processing
	' Input.DeNoise();
	' Input.Deskew();

	' Read the text from the image
	Dim result As IronOcr.OcrResult = Ocr.Read(Input)

	' Output the recognized text
	Console.WriteLine(result.Text)

	' Explore the OcrResult using IntelliSense
End Using
$vbLabelText   $csharpLabel

IronOCR Tesseract for C

IronOCR ile tüm Tesseract kurulumu tamamen NuGet Paket Yöneticisi kullanılarak gerçekleşir.

Install-Package IronOcr

IronOCR Tesseract'ta Tesseract 5 API

Bugüne kadar, IronTesseract, .NET Framework veya Core için bilinen tek Tesseract 5 uygulamasıdır.

// using IronOcr;

var Ocr = new IronTesseract(); // nothing to configure

using (var Input = new OcrInput(@"images\image.png"))
{
    var result = Ocr.Read(Input);

    // Output the recognized text
    Console.WriteLine(result.Text);
}
// using IronOcr;

var Ocr = new IronTesseract(); // nothing to configure

using (var Input = new OcrInput(@"images\image.png"))
{
    var result = Ocr.Read(Input);

    // Output the recognized text
    Console.WriteLine(result.Text);
}
' using IronOcr;

Dim Ocr = New IronTesseract() ' nothing to configure

Using Input = New OcrInput("images\image.png")
	Dim result = Ocr.Read(Input)

	' Output the recognized text
	Console.WriteLine(result.Text)
End Using
$vbLabelText   $csharpLabel

IronOCR Tesseract'ta Tesseract 4 API

// using IronOcr;

var Ocr = new IronTesseract();

// Specify the version of Tesseract
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;

using (var Input = new OcrInput(@"images\image.png"))
{
    var result = Ocr.Read(Input);

    // Output the recognized text
    Console.WriteLine(result.Text);
}
// using IronOcr;

var Ocr = new IronTesseract();

// Specify the version of Tesseract
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;

using (var Input = new OcrInput(@"images\image.png"))
{
    var result = Ocr.Read(Input);

    // Output the recognized text
    Console.WriteLine(result.Text);
}
' using IronOcr;

Dim Ocr = New IronTesseract()

' Specify the version of Tesseract
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4

Using Input = New OcrInput("images\image.png")
	Dim result = Ocr.Read(Input)

	' Output the recognized text
	Console.WriteLine(result.Text)
End Using
$vbLabelText   $csharpLabel

Neden IronOCR Tesseract'tan Daha İyi:

DOĞRULUK

TESSERACT:

Tesseract, döndürülmüş, eğilmiş, düşük DPI'li, taranmış veya arka plan gürültüsü olan bir görüntüyle karşılaştığında, o görüntüden veri elde etmesi neredeyse imkansız hale gelir. Ayrıca, Tesseract, anlamsız bilgiler sağlamadan önce bu belgeyi işlemede çok uzun zaman alır.

IRONOCR:

IronOCR bu baş ağrısını ortadan kaldırır. Kullanıcılar genellikle minimal yapılandırma ile %99,8-100 doğruluk elde ederler.

GÖRÜNTÜ UYUMLULUĞU

TESSERACT:

Sadece C# içindeki bir IntPtr C++ nesnesi olan Leptonica PIX görüntü formatını kabul eder. PIX nesneleri yönetilen bellek değildir — ve C# içinde dikkatle ele alınmazsa bellek sızıntılarına neden olur.

IRONOCR:

Görüntüler bellekle yönetilir. PDF ve Tiff desteklenir. Her dosya formatı için System.Drawing, Stream ve Byte Array dahildir.

Geniş görüntü desteği:

  • PDF Belgeleri
  • PDF Sayfaları
  • Çok Çerçeveli TIFF dosyaları
  • JPEG ve JPEG2000
  • GIF
  • PNG
  • System.Drawing.Image
  • İkili görüntü Verisi (byte [])
  • Ve çok daha fazlası...

PERFORMANS

TESSERACT:

Google Tesseract, uygun şekilde ayarlandığında ve Photoshop veya ImageMagick kullanılarak ön işleme tabi tutulmuş giriş görüntüleri ile hızlı ve doğru sonuçlar verebilir.

IRONOCR:

IronOcr .NET Tesseract DLL çoğu görüntüde kutusundan çıktığı haliyle doğru ve hızlı çalışır. Artık çoğu makinenin kullandığı çok çekirdekli işlemcilerden faydalanmak için çoklu iş parçacığını uyguladık. Düşük çözünürlüklü görüntüler bile genellikle programınızda yüksek bir doğrulukla çalışır. Photoshop gerekmez.

API

TESSERACT:

İki ücretsiz seçeneğimiz var:

  • Interop katmanları ile çalışın — GitHub'da bulunanların birçoğu güncel değildir, çözülmemiş biletleri, bellek sızıntılarını ve Konsol uyarılarını içerir. .NET Core veya Standard'ı desteklemeyebilir.
  • Komut satırı EXE ile çalışın — dağıtımı zordur ve sürekli virüs tarayıcılar ve güvenlik politikaları tarafından bölünür.

IRONOCR:

IronTesseract adında yönetilen ve test edilen bir .NET Kütüphanesi.

IntelliSense desteği ile tamamen belgelenmiştir.

DİL

TESSERACT:

Sadece 100 dili destekler.

IRONOCR:

125+ dili destekler.


Sonuç

Tesseract, C++ geliştiricileri için mükemmel bir kaynaktır, ancak .NET için tam bir OCR kütüphanesi değildir. Tarama veya fotoğraf çekilmiş görüntülerin Tesseract ile doğru bir şekilde çalışabilmesi için dik, standart hale getirilmiş, yüksek çözünürlüklü ve dijital parazitten arındırılmış hale getirilmesi gerekir.

Buna karşılık, IronOCR bunu ve daha fazlasını sadece tek bir satır kodla yapabilir. It is true that IronOCR uses Tesseract for its internal OCR engine, a very finely-tuned Tesseract, built for C#, with a lot of performance improvements and features added as standard.

Kannaopat Udonpant
Yazılım Mühendisi
Yazılım Mühendisi olmadan önce, Kannapat Japonya'daki Hokkaido Üniversitesi'nden Çevresel Kaynaklar alanında doktora yaptı. Derecesini tamamlarken, Biyoprodüksiyon Mühendisliği Bölümü'nün bir parçası olan Taşıt Robotik Laboratuvarı'na da üye oldu. 2022'de, Iron Software mühendislik ekibine katılmak iç...
Daha Fazlasını Oku

Iron Destek Ekibi

Haftanın 5 günü, 24 saat çevrimiçiyiz.
Sohbet
E-posta
Beni Ara