Tesseract Ayrıntılı Konfigürasyonu
OCR ile ilgili olduğunda, belgeden metin çekme ve çıkarma yaklaşımında seçenekler ve esneklik olması esastır. OCR uygulamak maliyetli olduğundan, belirli belgelerde hangi yöntemlerin ve performansın kontrol edilebilmesi, OCR kullanan bir uygulamanın ölçeklenebilir ve verimli olmasını sağlamak için gereklidir.
IronTesseract, geliştiricilere deneme yapabilecekleri farklı özellikler ve seçenekler sunar. Örneğin, belirli karakterleri kara listeye almak, belgelerdeki BARCODE'ları okumak veya hatta OCR motorunun sayfayı nasıl okuyacağını belirleyerek potansiyel metin bloklarını taramak istiyorsanız, tüm bunları ve daha fazlasını IronTesseract sınıfı ile yapabilirsiniz.
Tesseract 5 ile IronOCR kullanma için 5 Adım Kılavuzu
var ocrTesseract = new IronTesseract();ocrTesseract.Language = OcrLanguage.EnglishBest;ocrTesseract.Configuration.ReadBarCodes = false;ocrTesseract.Configuration.BlackListCharacters = "`ë|^";ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"] = false;
IronTesseract sınıfını başlattıktan sonra, hemen değiştirmek isteyeceğimiz birkaç önemli seçenek mevcuttur. Yapılandırılması gereken ilk özellik Language'dir. Varsayılan olarak dil İngilizce; Ancak, IronTesseract 125 dile kadar destekler ve UseMultipleLanguages yöntemi ile birden fazla dil kullanımına bile izin verir. Daha fazla ayrıntı için buraya bakın.
Yapılandırmak istediğimiz ikinci özellik TesseractConfiguration sınıfıdır. Bu sınıf ile Tesseract motorunun olası metin blokları için belgeyi nasıl tarayacağını modifiye edebiliyoruz.
- Öncelikle, dili
OcrLanguage.EnglishBest'ye atayarak Tesseract Engine'in dilini değiştiriyoruz. Bu varyasyon, OCR kullanan şekil tanıma stratejileri olanLSTMveOEM'yi birleştirir; bu iki stratejinin birleşimi, OCR'ın daha doğru sonuçlar üretmesini sağlar. - Ardından, OCR işlemi sırasında BarCode'ların okunmasını önlemek için
ReadBarCodesdeğerini false olarak ayarladık.
Ayrıca belirli karakterlerin belge üzerinde kara listeye alınarak çıkartılmasını isteyebiliriz; bu örnekte, tırnak işaretleri, aksanlar veya şapkalar ile metin çıkartılmasını önlemek için karakterleri kara listeye alırız. Son olarak, şimdilik paralel işlemeyi devre dışı bırakmak için TesseractVariables["tessedit_parallelize"] değerini false olarak ayarladık. Bu sonuncusu, Tesseract Engine ile doğrudan iletişim kurduğu için gerçekten güçlü bir özelliktir. İşte, geliştiricilerin OCR gerçekleştirirken Tesseract Engine'in davranışını daha da özelleştirmelerine olanak tanıyan TesseractVariables'nin tam listesi.
Daha Fazla IronTesseract Konfigürasyon Seçeneklerini Keşfedin

