Windows'ta Tesseract Ocr (Kod Örneği Eğitimi)
Tesseract OCR Nedir?
Tesseract, çeşitli işletim sistemlerinde kullanılabilecek bir optik karakter tanıma motorudur. Bu, Apache Lisansı altında yayımlanan ücretsiz bir yazılımdır. Bu kılavuzda, Windows 10 makinemde Tesseract'ı yüklemek için takip ettiğim adımları size anlatacağım. Büyük sürüm 5, mevcut kararlı sürümdür ve 30 Kasım 2021'de yayınlanan 5.0.0 sürümü ile başlamıştır.
Windows'ta Tesseract OCR nasıl kullanılır
- Windows 10'da .exe dosyası kullanarak Tesseract OCR'ı yükleyin
- Tesseract kurulumunu yapılandırın
- Kurulum yolunu ortam değişkenlerine ekleyin
- Windows için Tesseract OCR'ı bir test görüntüsünde çalıştırın
- Windows'ta daha sezgisel API'ler ve gelişmiş yöntemler için C# kütüphanesini kullanın
Adım 1: Windows 10'da .exe Dosyası ile Tesseract OCR Yükleyin:
Dil verilerini yüklemek için: sudo port install tesseract -<langcode>
Langcode'lar listesi MacPorts Tesseract sayfasında Homebrew'de bulunur. Windows için Tesseract OCR yüklemenin ilk adımı, makinenizin işletim sistemine uygun olan .exe yükleyicisini indirmektir.
Adım 2: Kurulumu Yapılandırın
Bir sonraki adım, Tesseract kurulumunu yapılandırmamız gerekecek. Eğer kendinize güveniyor ve yalnızca Windows için Tesseract OCR'ı varsayılan dil olarak İngilizce ayarlamak istiyorsanız, tüm varsayılan seçeneklerin seçili olduğu kurulum ekranlarından geçmek işe yarayabilir.
Yükleyici Dili
Bu sadece diyalog kutuları ve yardım bilgileri için olan dildir. Eğer istersek, Windows için Tesseract OCR'ı birden fazla dilde çalıştırabiliriz:
Windows için Tesseract OCR kurulum dili
Tesseract OCR Kurulumu
Kurulum ekranı, kurulum devam etmeden önce tüm diğer uygulamaların kapatılmasını önerir.
Windows için Tesseract OCR kurulum ekranı.
Yükleme Konumunu Seçin
Bir sonraki adımda yükleme yerini seçeceğiz. Bir sonraki adıma geçmeden önce, kurulum yerini bir .txt dosyasına kopyaladığınızdan emin olun. Kurulum tamamlandıktan sonra kurulum yerini makinemizin ortam değişkenlerine eklememiz gerekecek.
Kurulum yerini seçin.
Bileşenleri Seç
Varsayılan olarak, ScrollView, Eğitim Araçları, Kısayol oluşturma ve Dil verileri seçilidir. Bunları yüklememe gibi özel bir nedeniniz yoksa, hepsinin seçili kalmasını isteriz.
Varsayılan Windows için Tesseract OCR kurulum bileşenleri.
Ek 'Script veri'yi aşağı kaydırıp genişletirsek, ek script verilerini indirip yükleme seçeneğimiz olduğunu göreceğiz. Bu, belirli script dillerinden metin çıkarmanın doğruluğunu artırmada yararlı olabilir. Bunları yüklemek isteyip istemediğiniz size kalmıştır.
Opsiyonel script yükleme bileşenleri.
Başlat Menü Klasörünü Seç
Kurulumun son adımında, bize Tesseract OCR for Windows kısayolları için başlat menüsü klasörünü seçmemiz istenecektir. Ben bunu varsayılan ad olarak bıraktım: 'Tesseract-OCR'.
Windows için Tesseract OCR kısayolları için başlat menüsü klasörünü seçin.
Yükleye tıkladıktan sonra, Windows için Tesseract OCR yüklemeye başlayacak. Bir sonraki adımımız, kurulum yolunu makinemizin ortam değişkenlerine eklemektir.
Adım 3: Kurulum Yolunu Ortam Değişkenlerine Ekleyin
Kontrol Paneli
Kurulum konumunu ortam değişkenlerimize eklemek için Başlat menüsüne gidin ve 'ortam değişkenleri'ni arayın. Sistem ortam değişkenlerini düzenleme sonucunu görmelisiniz. Eğer görmezseniz, her zaman şu adımları kullanabilirsiniz: Başlat menüsü > Kontrol Paneli > Sistem ortam değişkenlerini düzenle.
'Ortam değişkenleri' aranıyor
Sistem Özellikleri
'Sistem Özellikleri' iletişim kutusuyla karşılaştığınızda, Gelişmiş sekmesinin tıklandığından emin olmak istiyoruz, ardından ekranın sağ altına doğru Ortam Değişkenleri düğmesini tıklayın.
Ortam Değişkenleri
Sistem değişkenleri altında, Düzenle düğmesine tıklayacağız.
"Ortam değişkenini düzenle" ekranı sunulduğunda, Yeni düğmesine tıklayın ve Step 2'de daha önce kopyaladığımız Tesseract OCR kurulum yolunu yapıştırın. Bunu yaptıktan sonra, 'Tamam' düğmesine tıklayın.
Tesseract OCR için Windows Kurulum Dizini'ni Ortam Değişkenlerine Ekleyin
Bu kadar! .exe yükleyicisini çalıştırıp Tesseract OCR for Windows yükleme yerini ortam değişkenlerimize eklediğimize göre, Tesseract'ı bir test görüntüsünde çalıştırarak yüklemenin çalıştığını test edebiliriz.
Adım 4: Windows için Tesseract OCR'ı Test Görüntüsünde Çalıştırın
Windows için Tesseract OCR'ın başarıyla kurulduğunu test etmek için makinenizde komut istemini açın, ardından Tesseract komutunu çalıştırın. Tesseract'ın kullanım seçeneklerinin hızlı bir açıklamasını içeren bir çıktı görmelisiniz.
Windows için Tesseract OCR'ın başarılı yüklemesini kontrol etme
Tebrikler! Windows için Tesseract OCR'ı başarıyla makinenize yüklediniz.
IronOCR'yi Kullanarak OCR Çalışmaları Yapmanın Avantajları:
IronOCR provides Tesseract OCR on Mac, Windows, Linux, Azure and Docker for:
- .NET Framework 4.0 +
- .NET Standard 2.0 +
- .NET Core 2.0 +
- .NET 5
- macOS ve Linux için Mono
- macOS için Xamarin
IronOCR, metinleri, barkodları ve QR kodlarını en yaygın resim ve PDF formatlarından son Tesseract 5 motorunu kullanarak okur. Bu kütüphane, masaüstü, konsol ve web uygulamalarına dakika içinde OCR işlevselliği ekler. 125'ten fazla uluslararası dili destekler. Licenses start from $799.
Adım 1: IronOCR'nin En Son Sürümünü Kurun
DLL Yükleyin
Download the IronOcr DLL directly to your machine.
NuGet Kurun
Alternatif olarak, NuGet üzerinden aşağıdaki komutla kurabilirsiniz:
Install-Package IronOcr
Adım 2: Lisans Anahtarınızı Uygulayın
IronOCR lisans anahtarınızı kod kullanarak ayarlayın
IronOCR kullanılmadan önce bu kodu uygulamanızın başlangıcına ekleyin.
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01"
Adım 3: Anahtarınızı Test Edin
Anahtarinizin dogru kuruldugunu test edin.
bool isValidLicense = IronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF01");
bool isValidLicense = IronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF01");
Dim isValidLicense As Boolean = IronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF01")
Projeyle Başlayın
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Set the recognition language to English
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
// Add an example image to the OCR input
Input.Add(@"img\example.tiff");
// Optional: Clean the image before processing
// Input.DeNoise();
// Input.Deskew();
// Read the text from the image
IronOcr.OcrResult result = Ocr.Read(Input);
// Output the recognized text
Console.WriteLine(result.Text);
// Explore the OcrResult using IntelliSense
}
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Set the recognition language to English
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
// Add an example image to the OCR input
Input.Add(@"img\example.tiff");
// Optional: Clean the image before processing
// Input.DeNoise();
// Input.Deskew();
// Read the text from the image
IronOcr.OcrResult result = Ocr.Read(Input);
// Output the recognized text
Console.WriteLine(result.Text);
// Explore the OcrResult using IntelliSense
}
' PM > Install-Package IronOcr
' using IronOcr;
Dim Ocr = New IronTesseract()
' Set the recognition language to English
Ocr.Language = OcrLanguage.English
Using Input = New OcrInput()
' Add an example image to the OCR input
Input.Add("img\example.tiff")
' Optional: Clean the image before processing
' Input.DeNoise();
' Input.Deskew();
' Read the text from the image
Dim result As IronOcr.OcrResult = Ocr.Read(Input)
' Output the recognized text
Console.WriteLine(result.Text)
' Explore the OcrResult using IntelliSense
End Using
C# for .NET ile Tesseract OCR Nasıl Kullanılır?
- Google Tesseract ve IronOCR for .NET'i Visual Studio'ya kurun
- C#'daki en son yapıları kontrol edin
- Doğruluğu ve resim uyumluluğunu gözden geçirin
- Performansı ve API fonksiyonunu test edin
- Çoklu Dil Desteğini düşünün
Code Example for .NET OCR Usage — Extract Text from Images in C
Visual Studio çözümünüze IronOCR NuGet Paketini yüklemek için NuGet Paket Yöneticisini kullanın.
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Set the recognition language to English
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
// Add an example image to the OCR input
Input.Add(@"img\example.tiff");
// Optional: Clean the image before processing
// Input.DeNoise();
// Input.Deskew();
// Read the text from the image
IronOcr.OcrResult result = Ocr.Read(Input);
// Output the recognized text
Console.WriteLine(result.Text);
// Explore the OcrResult using IntelliSense
}
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Set the recognition language to English
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
// Add an example image to the OCR input
Input.Add(@"img\example.tiff");
// Optional: Clean the image before processing
// Input.DeNoise();
// Input.Deskew();
// Read the text from the image
IronOcr.OcrResult result = Ocr.Read(Input);
// Output the recognized text
Console.WriteLine(result.Text);
// Explore the OcrResult using IntelliSense
}
' PM > Install-Package IronOcr
' using IronOcr;
Dim Ocr = New IronTesseract()
' Set the recognition language to English
Ocr.Language = OcrLanguage.English
Using Input = New OcrInput()
' Add an example image to the OCR input
Input.Add("img\example.tiff")
' Optional: Clean the image before processing
' Input.DeNoise();
' Input.Deskew();
' Read the text from the image
Dim result As IronOcr.OcrResult = Ocr.Read(Input)
' Output the recognized text
Console.WriteLine(result.Text)
' Explore the OcrResult using IntelliSense
End Using
IronOCR Tesseract for C
IronOCR ile tüm Tesseract kurulumu tamamen NuGet Paket Yöneticisi kullanılarak gerçekleşir.
Install-Package IronOcr
IronOCR Tesseract'ta Tesseract 5 API
Bugüne kadar, IronTesseract, .NET Framework veya Core için bilinen tek Tesseract 5 uygulamasıdır.
// using IronOcr;
var Ocr = new IronTesseract(); // nothing to configure
using (var Input = new OcrInput(@"images\image.png"))
{
var result = Ocr.Read(Input);
// Output the recognized text
Console.WriteLine(result.Text);
}
// using IronOcr;
var Ocr = new IronTesseract(); // nothing to configure
using (var Input = new OcrInput(@"images\image.png"))
{
var result = Ocr.Read(Input);
// Output the recognized text
Console.WriteLine(result.Text);
}
' using IronOcr;
Dim Ocr = New IronTesseract() ' nothing to configure
Using Input = New OcrInput("images\image.png")
Dim result = Ocr.Read(Input)
' Output the recognized text
Console.WriteLine(result.Text)
End Using
IronOCR Tesseract'ta Tesseract 4 API
// using IronOcr;
var Ocr = new IronTesseract();
// Specify the version of Tesseract
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;
using (var Input = new OcrInput(@"images\image.png"))
{
var result = Ocr.Read(Input);
// Output the recognized text
Console.WriteLine(result.Text);
}
// using IronOcr;
var Ocr = new IronTesseract();
// Specify the version of Tesseract
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;
using (var Input = new OcrInput(@"images\image.png"))
{
var result = Ocr.Read(Input);
// Output the recognized text
Console.WriteLine(result.Text);
}
' using IronOcr;
Dim Ocr = New IronTesseract()
' Specify the version of Tesseract
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4
Using Input = New OcrInput("images\image.png")
Dim result = Ocr.Read(Input)
' Output the recognized text
Console.WriteLine(result.Text)
End Using
Neden IronOCR Tesseract'tan Daha İyi:
DOĞRULUK
TESSERACT:
Tesseract, döndürülmüş, eğilmiş, düşük DPI'li, taranmış veya arka plan gürültüsü olan bir görüntüyle karşılaştığında, o görüntüden veri elde etmesi neredeyse imkansız hale gelir. Ayrıca, Tesseract, anlamsız bilgiler sağlamadan önce bu belgeyi işlemede çok uzun zaman alır.
IRONOCR:
IronOCR bu baş ağrısını ortadan kaldırır. Kullanıcılar genellikle minimal yapılandırma ile %99,8-100 doğruluk elde ederler.
GÖRÜNTÜ UYUMLULUĞU
TESSERACT:
Sadece C# içindeki bir IntPtr C++ nesnesi olan Leptonica PIX görüntü formatını kabul eder. PIX nesneleri yönetilen bellek değildir — ve C# içinde dikkatle ele alınmazsa bellek sızıntılarına neden olur.
IRONOCR:
Görüntüler bellekle yönetilir. PDF ve Tiff desteklenir. Her dosya formatı için System.Drawing, Stream ve Byte Array dahildir.
Geniş görüntü desteği:
- PDF Belgeleri
- PDF Sayfaları
- Çok Çerçeveli TIFF dosyaları
- JPEG ve JPEG2000
- GIF
- PNG
- System.Drawing.Image
- İkili görüntü Verisi (byte [])
- Ve çok daha fazlası...
PERFORMANS
TESSERACT:
Google Tesseract, uygun şekilde ayarlandığında ve Photoshop veya ImageMagick kullanılarak ön işleme tabi tutulmuş giriş görüntüleri ile hızlı ve doğru sonuçlar verebilir.
IRONOCR:
IronOcr .NET Tesseract DLL çoğu görüntüde kutusundan çıktığı haliyle doğru ve hızlı çalışır. Artık çoğu makinenin kullandığı çok çekirdekli işlemcilerden faydalanmak için çoklu iş parçacığını uyguladık. Düşük çözünürlüklü görüntüler bile genellikle programınızda yüksek bir doğrulukla çalışır. Photoshop gerekmez.
API
TESSERACT:
İki ücretsiz seçeneğimiz var:
- Interop katmanları ile çalışın — GitHub'da bulunanların birçoğu güncel değildir, çözülmemiş biletleri, bellek sızıntılarını ve Konsol uyarılarını içerir. .NET Core veya Standard'ı desteklemeyebilir.
- Komut satırı EXE ile çalışın — dağıtımı zordur ve sürekli virüs tarayıcılar ve güvenlik politikaları tarafından bölünür.
IRONOCR:
IronTesseract adında yönetilen ve test edilen bir .NET Kütüphanesi.
IntelliSense desteği ile tamamen belgelenmiştir.
DİL
TESSERACT:
Sadece 100 dili destekler.
IRONOCR:
125+ dili destekler.
Sonuç
Tesseract, C++ geliştiricileri için mükemmel bir kaynaktır, ancak .NET için tam bir OCR kütüphanesi değildir. Tarama veya fotoğraf çekilmiş görüntülerin Tesseract ile doğru bir şekilde çalışabilmesi için dik, standart hale getirilmiş, yüksek çözünürlüklü ve dijital parazitten arındırılmış hale getirilmesi gerekir.
Buna karşılık, IronOCR bunu ve daha fazlasını sadece tek bir satır kodla yapabilir. It is true that IronOCR uses Tesseract for its internal OCR engine, a very finely-tuned Tesseract, built for C#, with a lot of performance improvements and features added as standard.




