Neden Tesseract Yerine IronOCR'yi Seçmelisiniz
Doğruluk
Tesseract
- Tesseract döndürülen, eğilen, düşük DPI'lı, taranan veya arka plan gürültüsü olan görüntüleri işleyemez.
- Photoshop veya ImageMagick kullanarak görüntü ön işleme gerektirir.
- İşlemesi uzun sürebilir ve genellikle anlamsız bilgiler sağlar.
IronOCR
- IronOCR ön işlemi yönetir ve süreci kolaylaştırmak için görüntü filtreleri uygular.
- Kullanıcılar genellikle minimum yapılandırma ile %99,8 ila %100 doğruluk elde eder.
Görüntü Uyumluluğu
Tesseract
- Yalnızca C# dilinde,
IntPtrC++ nesnesi olan Leptonica PIX görüntü formatını kabul eder. - PIX nesneleri yönetilmeyen hafızadır. C#'ta dikkatlice ele alınmadığında hafıza sızıntıları meydana gelir.
IronOCR
- Görüntüler hafıza yönetimlidir.
- Geniş bir görüntü formatı yelpazesini destekler:
- Çoklu Çerçeve TIFF
- JPEG & JPEG2000
- GIF
- PNG
- System.Drawing Bitmaps, Stream ve Byte Array/Binary Görüntü Verisi (
byte[]) - IronSoftware.System.Drawing, System.Drawing'a olan bağımlılığı azaltarak evrensel bir Bitmap formatı sağlanması bekleniyor.
Performans
Tesseract
- Doğruluk sağlamak için ince ayar yapılması gereken yetersiz belgelendirilmiş ayarlar.
- Temiz belgeler ve ön işlenmiş görüntülere bağlıdır.
IronOCR
- Çoğu görüntü için sıfır yapılandırma ile doğru çalışır.
- Çok çekirdekli işlemcileri tam anlamıyla kullanmak için çoklu iş parçacığı kullanır.
- Düşük çözünürlüklü görüntüler bile genellikle yüksek doğruluk sağlar.
- Photoshop gerektirmez.
API
Tesseract
- Az veya hiç destek yok ve yeni başlayanlar için kullanıcı dostu değil:
- Interop katmanları ile çalışmayı gerektirir. Birçoğu GitHub'da eski durumdadır ve çözülmemiş sorunlar, hafıza sızıntıları ve konsol uyarıları vardır.
- .NET Core veya Standard'ı desteklemeyebilir.
- Komut satırı EXE ile çalışmak zor dağıtılabilir ve virüs tarayıcıları ve güvenlik politikaları tarafından kesilebilir.
- Interop katmanları ile çalışmayı gerektirir. Birçoğu GitHub'da eski durumdadır ve çözülmemiş sorunlar, hafıza sızıntıları ve konsol uyarıları vardır.
IronOCR
- IronTesseract adı verilen .NET için yönetilen ve test edilmiş bir Tesseract Kütüphanesi.
- IntelliSense desteği ile tamamen belgelenmiş.
- Destek mühendislerinden oluşan bir ekip yardım etmeye hazır.
Diller
Tesseract
- Yalnızca 100 dili destekler.
IronOCR
- 125'den fazla yerleşik dili destekler ve özel dil paketi desteğine izin verir.
Sonuç
Tesseract, C++ geliştiricileri için mükemmel bir kaynaktır, ancak .NET için tam bir OCR kütüphanesi değildir. Tarama veya fotoğraflanmış görüntüler, Tesseract'ın onlarla doğru bir şekilde çalışabilmesi için ortogonal, standart, yüksek çözünürlükte ve dijital gürültüden arınmış olarak ön işlenmelidir.
Buna karşılık, IronOCR bunu ve daha fazlasını sadece tek bir satır kodla yapabilir. IronOCR, iç OCR motoru için Tesseract'ın çok ince ayarlı bir sürümünü kullanır, C# için oluşturulmuş, birçok performans iyileştirmesi ve standart özellik eklenmiş.

