Tesseract Ayrıntılı Konfigürasyonu

OCR ile ilgili olduğunda, belgeden metin çekme ve çıkarma yaklaşımında seçenekler ve esneklik olması esastır. OCR uygulamak maliyetli olduğundan, belirli belgelerde hangi yöntemlerin ve performansın kontrol edilebilmesi, OCR kullanan bir uygulamanın ölçeklenebilir ve verimli olmasını sağlamak için gereklidir.

IronTesseract, geliştiricilere deneme yapabilecekleri farklı özellikler ve seçenekler sunar. Örneğin, belirli karakterleri kara listeye almak, belgelerdeki BARCODE'ları okumak veya hatta OCR motorunun sayfayı nasıl okuyacağını belirleyerek potansiyel metin bloklarını taramak istiyorsanız, tüm bunları ve daha fazlasını IronTesseract sınıfı ile yapabilirsiniz.

IronTesseract sınıfını başlattıktan sonra, hemen değiştirmek isteyeceğimiz birkaç önemli seçenek mevcuttur. Yapılandırılması gereken ilk özellik Language'dir. Varsayılan olarak dil İngilizce; Ancak, IronTesseract 125 dile kadar destekler ve UseMultipleLanguages yöntemi ile birden fazla dil kullanımına bile izin verir. Daha fazla ayrıntı için buraya bakın.

Yapılandırmak istediğimiz ikinci özellik TesseractConfiguration sınıfıdır. Bu sınıf ile Tesseract motorunun olası metin blokları için belgeyi nasıl tarayacağını modifiye edebiliyoruz.

  • Öncelikle, dili OcrLanguage.EnglishBest'ye atayarak Tesseract Engine'in dilini değiştiriyoruz. Bu varyasyon, OCR kullanan şekil tanıma stratejileri olan LSTM ve OEM'yi birleştirir; bu iki stratejinin birleşimi, OCR'ın daha doğru sonuçlar üretmesini sağlar.
  • Ardından, OCR işlemi sırasında BarCode'ların okunmasını önlemek için ReadBarCodes değerini false olarak ayarladık.

Ayrıca belirli karakterlerin belge üzerinde kara listeye alınarak çıkartılmasını isteyebiliriz; bu örnekte, tırnak işaretleri, aksanlar veya şapkalar ile metin çıkartılmasını önlemek için karakterleri kara listeye alırız. Son olarak, şimdilik paralel işlemeyi devre dışı bırakmak için TesseractVariables["tessedit_parallelize"] değerini false olarak ayarladık. Bu sonuncusu, Tesseract Engine ile doğrudan iletişim kurduğu için gerçekten güçlü bir özelliktir. İşte, geliştiricilerin OCR gerçekleştirirken Tesseract Engine'in davranışını daha da özelleştirmelerine olanak tanıyan TesseractVariables'nin tam listesi.

Daha Fazla IronTesseract Konfigürasyon Seçeneklerini Keşfedin

Başlamaya Hazır mısınız?
Nuget İndirmeler 5,896,332 | Sürüm: 2026.5 just released
Still Scrolling Icon

Hâlâ Kaydırıyor Musunuz?

Hızlıca kanıt ister misiniz? PM > Install-Package IronOcr
örnek çalıştır görüntünüzün aranabilir metin haline gelmesini izleyin.