Birden Çok Dil için Tesseract OCR (Geliştirici Eğitimi)
OCR, farklı yapıdaki belgeleri düzenlenebilir ve aranabilir verilere dönüştüren bir teknolojidir. Taranmış görüntüleri, PDF dosyalarını ve dijital kamera fotoğraflarını düzenlenebilir ve aranabilir verilere dönüştürür. Bu teknoloji, belgelerin düzenlenmesi, aranması ve saklanması için basılı belgeleri dijital forma dönüştürmede yaygın olarak kullanılır, belgelerin kapladığı fiziksel alanı azaltır. OCR, veri giriş otomasyonunda büyük bir role sahiptir, böylece insan kaynakları tarafından kullanılan emeği azaltarak şirketlere ve kuruluşlara çok zaman kazandırır.
Bu, metni görüntülerden doğru bir şekilde çıkarmak için gelişmiş makine öğrenimi tekniklerini ve desen tanımayı kullanan bir süreçtir. OCR ile ilgili son gelişmeler, doğruluğunu artırmış, böylece daha fazla dili ve Arapça gibi karmaşık yazıları desteklemiştir. Finans, sağlık, mevzuat ve eğitimde çok gerekli olan OCR, birkaç basılı belgeyi hızlı bir şekilde işlemek bir ön koşul haline gelirken vazgeçilmez bir araç haline gelmiştir. Bu makale, Tesseract'ı birçok dilde veri içeren görüntüleri OCR yapmak için kullanacaktır.
Tesseract OCR'u Birden Fazla Dille Kullanma
- Öncelikle, .NET projenizin içine IronOCR/Tesseract NuGet paketini kurun.
- OCR motorunu başlatacak olan
IronTesseractsınıfının bir örneğini oluşturun. - Dil özelliği birden fazla dili destekler.
- İşlemek istediğiniz görüntü dosyasının yolunu belirtin, ardından bir
OcrInputnesnesi oluşturun. - Şimdi, giriş görüntüsü üzerinde
IronTesseractörneğininReadfonksiyonunu kullanarak OCR gerçekleştirin. - Sonucu alın ve tanınan metni görüntüleyin.
Tesseract nedir?
Tesseract, Hewlett-Packard tarafından geliştirilen ve daha sonra Google tarafından sürdürülen açık kaynaklı Optik Karakter Tanıma motorudur. Yüksek doğruluğu ve uyarlanabilirliği ile ünlüdür ve onu en belirgin OCR'lerden biri yapar. Tesseract, yazı algılamayı destekler, birçok dilde metni tanır ve birden fazla dili yönetebilir; bu nedenle, genellikle çok dilli belgeleri ve desteği gerektiren projeler için kullanılır.
Tesseract OCR motoru, görüntü icindeki her bir pikselde bulunan bilgileri ince noktalar kullanarak karakterler, kelimeler ve cumleleri tanimlar ve sonunda makine tarafindan okunabilir metne dönüştürur. Destekledigi bircok görüntü dosya turu, TIFF, JPEG ve PNG gibi, Tesseract'in duz metin, HTML ve aranabilir PDF formatlarinda metin uretmesine olanak saglar.
Tesseract'in en onemli avantajlarindan biri, belirli yazim tiplerine veya yeni eklenen dillere karsi hassas hale getirilme yetenegine sahip olmasidir. Ayrica çeşitli uygulamalarda, basit metin cikarma islerinden tarihi belgelerin dijitallestirilmesine, faturalarin islenmesine veya gorme engellilere okuma saglayan erişim yazilimlarina kadar gecen genis bir yelpazede kullanilir.
Visual Studio'da Yeni Proje Oluşturma
Programi Visual Studio'yu acin. Programi actiktan sonra, "dosya menusu"ne gidin. "Yeni proje" icin, "Konsol Uygulamasi"ni secin. Bu yazi icermde, PDF belgeleri bir konsol programi kullanarak oluşturacagiz.

Projenizin adini ve dosyanin konumunu belirtilen metin kutularina girin. Ardindan, asagidaki resimde gösterildigi gibi Oluştur dugmesine tiklayin ve ihtiyaçiniz olan .NET Framework'u secin.

Simdi uygulama surumu secildigine gore, Visual Studio projesi yapisini oluşturacaktir. Eğer konsol, Windows veya web sürümlerini seçtiyseniz, uygulamayı kod eklemek ve derleyip çalıştırmak için program.cs dosyasını açacaktır.
NET Icin Tesseract OCR Kurulum
Ilk adim, bilgisayariniza Tesseract OCR yazilimini indirip yuklemektir. Iste Tesseract yükleyicisinin resmi Tesseract GitHub deposu: https://github.com/tesseract-ocr/tesseract.
Tesseract OCR'yi bilgisayariniza dagru isletim sistemine ozgu kurulum talimatlarini takip ederek alip kullanmalisiniz—whether that be Windows, macOS veya Linux. Yuklendikten sonra, Visual Studio'nun NuGet Paket Yonetimi'ni kullanarak Tesseract.NET paketini C# projenize ekleyin.
Visual Studio projenizde, Araçlar -> NuGet Paket Yonetici -> Çözüne NuGet Paketleri Yonettàktië Paket Yonetimi'ni acın. Sonra, NuGet Paket Yonetimi'nde "Tesseract"i arayarak ya "Tesseract" ya da "Tesseract.NET" paketini edinin. Bu paketi secin ve projeye yuklemek icin Yukle dugmesine tiklayin.

Tesseract OCR using C
Ekipmancwrinizi kurduktan sonra, Tesseract.NET sarici yuklendikten sonra Tesseract OCR calistirmasinin ve dil dugum dosyalarinin yerini belirtmek icin C# projenizi ayarlamaniz gerekiyor. İşte bir örnek:
using System;
using System.Drawing;
using Tesseract;
class Program
{
static void Main()
{
// Set the path to the Tesseract data files (traineddata files)
string tessDataPath = @"./tessdata"; // Ensure this directory contains the language data files
// Load the image
string imagePath = @"path_to_your_image.png";
using (var img = Pix.LoadFromFile(imagePath))
{
// Add languages to the Tesseract engine
using (var engine = new TesseractEngine(tessDataPath, "eng+spa+fra", EngineMode.Default))
{
using (var page = engine.Process(img))
{
// Extract the text
string text = page.GetText();
Console.WriteLine("Recognized Text:");
Console.WriteLine(text);
}
}
}
}
}
using System;
using System.Drawing;
using Tesseract;
class Program
{
static void Main()
{
// Set the path to the Tesseract data files (traineddata files)
string tessDataPath = @"./tessdata"; // Ensure this directory contains the language data files
// Load the image
string imagePath = @"path_to_your_image.png";
using (var img = Pix.LoadFromFile(imagePath))
{
// Add languages to the Tesseract engine
using (var engine = new TesseractEngine(tessDataPath, "eng+spa+fra", EngineMode.Default))
{
using (var page = engine.Process(img))
{
// Extract the text
string text = page.GetText();
Console.WriteLine("Recognized Text:");
Console.WriteLine(text);
}
}
}
}
}
Imports System
Imports System.Drawing
Imports Tesseract
Friend Class Program
Shared Sub Main()
' Set the path to the Tesseract data files (traineddata files)
Dim tessDataPath As String = "./tessdata" ' Ensure this directory contains the language data files
' Load the image
Dim imagePath As String = "path_to_your_image.png"
Using img = Pix.LoadFromFile(imagePath)
' Add languages to the Tesseract engine
Using engine = New TesseractEngine(tessDataPath, "eng+spa+fra", EngineMode.Default)
Using page = engine.Process(img)
' Extract the text
Dim text As String = page.GetText()
Console.WriteLine("Recognized Text:")
Console.WriteLine(text)
End Using
End Using
End Using
End Sub
End Class
Yukardaki kod, Tesseract OCR kullanarak çok dilli görüntülere metin tespit etmesinin ve cikarmasinin nasıl yapilacagini aciklar. Tesseract'in dil dosyaları icin yol ilk başlarda ayarlaniyor. İngilizce, İspanyolca ve Fransızca gibi her bir dil için gerekli .traineddata dosyaları yol içinde bulunmalıdır.

Görüntü, Pix.LoadFromFile yöntemi kullanılarak imagePath tarafından belirtilen şekilde yüklenir. Daha dogrusu, ingilizce, ispanyolca ve fransizca metinleri bulunan bir görüntü bekleniyor. Daha sonra, metni tanımak için ilgi duyulan dil verileri dosyalarına ve "eng+spa+fra" dillerine yollar ile bir TesseractEngine örneği başlatılacaktır. Motor varsıyılan modda calisacak.

Ardından görüntü, motor sınıfının Process yöntemi kullanılarak işlenecek, analiz edilecek, metin içeriği çıkarılarak text değişkenine kaydedilecektir. Çikarilan metin daha fazla görsellestirme için konsola yazilir, OCR'in nasıl calistigini gösterir.
IronOCR nedir?****
IronOCR, .NET odakli tescilli bir OCR kutuphanesidir. .NET uygulamalarina OCR'i ekler ve görüntü, taranan belgeler, PDF'ler ve diğer tüm gorunur medyadan metin kazanmasini olanakli kilmasinir. Başarili Tesseract motoru ile kesintisiz metin tanınması sağlarken, IronOCR aynı zamanda kurumsal uygulamalar icin uygun hale getiren bir dizi ek özellik dahil etti.
IronOCR, 120'nin uzerinde dil desteği ile birlikte otomatik dil tespiti ve çok dilli belgeleri ayni anda işleme desteği sunar. Bu, IronOCR'nin çok çeşitli olmasını ve çok dillı belge işlemenin çok kritik oldugu yerlerde globalde uygulanabilir hale getirir.

Öte yandan, IronOCR kullanımı ve entegrasyon güzelliği vurgular. Oldukça kolay kullanımlı API'si, kapsamlı dokümantasyon ve her geliştiricinin kolayca başlayabileceği birkaç örnek proje ile desteklenmektedir. Çeşitli görüntü formatlarini ve PDF belgelerini destekler. Ice yerleşik ileri görüntü onisleme, gurultu azaltma ve hata düzeltme özelliklari, OCR dogruluk ve performansını artırır.
IronOCR'yi Kur
Paketleri Visual Studio'nun NuGet Paket yönetim aracını kullanarak doğrudan cozümunuze yukleyebilirsiniz. Asagidaki göruntu NuGet Paket Yöneticisi nasıl acilecegini göstermektedir.

Kutu sitesi listesini gösterir bir yerlesik arama kutusu vardir. Asagidaki ekran görüntüsunden de gorulduğu gibi, Paket Yonetici'sinde IronOCR ifadesini arayacagiz:

Arama sonucu muhtemel cozumlerin bir listesini sunabilir. Gerekli cozum paketini yuklemek icin secmeniz gerekecek.
Ayrica, bu örnek icin asagidaki gibi tek tek gerekli Tesseract dil paketlerini yukleyin.
Bu örnekte, Ispanyolca, Fransizca ve Ingilizce dil kodlarini kullanacagiz. Ingilizce varsıyılan dil paketidir ve yukleme gerektirmez.

NuGet paketinden Ispanyolca yukleyin.

IronOCR'la Tesseract motoru ile Çok Dilli Okuma
Asagidaki örnek, C# ve IronOCR ile Tesseract motorunu kullanarak bir görüntüdeki çok dilli metnin nasıl taniculacagini göstermektedir.
using IronOcr;
class Program
{
static void Main(string[] args)
{
// Initialize IronTesseract engine
var Ocr = new IronTesseract();
// Add multiple languages
Ocr.Language = OcrLanguage.English + OcrLanguage.Spanish + OcrLanguage.French;
// Path to the image
var inputFile = @"path\to\your\image.png";
// Read the image and perform OCR
using (var input = new OcrInput(inputFile))
{
// Perform OCR
var result = Ocr.Read(input);
// Display the result
Console.WriteLine("Recognized Text:");
Console.WriteLine(result.Text);
}
}
}
using IronOcr;
class Program
{
static void Main(string[] args)
{
// Initialize IronTesseract engine
var Ocr = new IronTesseract();
// Add multiple languages
Ocr.Language = OcrLanguage.English + OcrLanguage.Spanish + OcrLanguage.French;
// Path to the image
var inputFile = @"path\to\your\image.png";
// Read the image and perform OCR
using (var input = new OcrInput(inputFile))
{
// Perform OCR
var result = Ocr.Read(input);
// Display the result
Console.WriteLine("Recognized Text:");
Console.WriteLine(result.Text);
}
}
}
Imports IronOcr
Friend Class Program
Shared Sub Main(ByVal args() As String)
' Initialize IronTesseract engine
Dim Ocr = New IronTesseract()
' Add multiple languages
Ocr.Language = OcrLanguage.English + OcrLanguage.Spanish + OcrLanguage.French
' Path to the image
Dim inputFile = "path\to\your\image.png"
' Read the image and perform OCR
Using input = New OcrInput(inputFile)
' Perform OCR
Dim result = Ocr.Read(input)
' Display the result
Console.WriteLine("Recognized Text:")
Console.WriteLine(result.Text)
End Using
End Sub
End Class
Yukardaki C# programi, Ingilizce, Ispanyolca ve Fransizca karakterler iceren bir görüntüde Optik Karakter Tanima yapmak icin IronOCR kutuphanesini kullanir. Program, IronOCR için gerekli ad alanını içe aktararak ve Main yöntemi ile Program adlı bir sınıf tanımlayarak başlar, bu yöntem uygulamanın giriş noktasıdır.
Main yönteminde, IronTesseract sınıfının bir örneği oluşturulacak ve Ocr değişkenine atanacaktır. Language özelliği, OcrLanguage.English, OcrLanguage.Spanish ve OcrLanguage.French birleştirerek İngilizce, İspanyolca ve Fransızca içerecek şekilde ayarlanır. Bu, OCR motorunun bu uc dildeki metni tanıyabilmesini ve isleyebilmesini saglar.
Giriş görüntü dosyasının yolu inputFile değişkeni kullanılarak ayarlanır. Görüntü, doğru kaynak yönetimi ve bertaraf için OcrInput sınıfının bir örneği ile bir using ifadesinin içinde yüklenir. Son olarak, IronTesseract örneğinin Read yöntemi, görüntü üzerinde OCR gerçekleştirmek için giriş nesnesi ile çağrılır.
Tanımlanan metin daha sonra Console.WriteLine yöntemi kullanılarak konsola yazdırılır. Bu program, IronOCR'nin çok dilli yeteneğini kullanarak farklı dillerde kelimeler içeren görüntülerden metin çikartmak için etkili bir yöntem sunmaktadir.

Neden IronOCR Tesseract'ten daha iyidir?
IronOCR, Tesseract'a kıyasla kullanıcı dostu olup geliştiricilere bazı avantajlar sunar. Ilk olarak, IronOCR, kutudan ciktiği anda 125 dili destegli kusursuz dil destegi sunar, Tesseract ise bazilarının optimal performansı için karmaşik konfigürasyon ve ek eğitim gerektirebilir Ek olarak, IronOCR, .NET uygulamalarına entegre edilebilmekte ve kapsamlı dokümantasyon ilk gelir.
IronOCR, bir teknik kurulum gereksinimi olmayan daha az sert bir ogrenme eğrisi arz eder ve daha az teknik ayar gerektirir Tesseract'a nazaran. Ayrica kutuphanede, daha iyi doğruluk ve güvenilirlik için gelişmiş görüntü ön işleme ve karlı güncellemeler yer alır. IronOCR güçlü, esnek ve kolayca uygulanabilir bir OCR cozumunu arayan geliştiriciler için harika bir seçenektir.
Sonuç

Hem Tesseract hem de IronOCR oldukça güçlü OCR teknolojileri olmasına rağmen, her biri eşsiz yetenek ve güçlü yönlere sahiptir. Açık kaynak olan Tesseract, ücretsiz çözüm arayanlar için güvenilirdir ve aktif topluluklara ve sürekli geliştirmeye sahiptir.
Buna karşılık, IronOCR, .NET Framework'e yönelik tescilli bir kütüphane olup daha kolay entegrasyonu ve destekleyen çoğun gorsel dosya türler için geliştirilmiş bir kullanıcı deneyimi sunar. Özellikle düşük kaliteli görsell görsellerde metin tanıma performansı IronOCR, bircok dili pesler ve daha kullanıcı dostu hale getirecek ekstr özelliklere sahiptir.
IronOCR bir maliyet etkin geliştirme sürümü sunar ve satin alindiginda bir ömür boyu lisans sağlar. IronOCR paketi birden fazla sistem için bir defaya mahsus maliyet olarak $Lite lisans ile başlar, ve satın alınmış kullanıcılar için 24/7 çevrim içi mühendis desteği sunarak paranız için mükemmel bir değer sunar. Daha fazla bilgi için IronOCR web sitesine bakın.
Sıkça Sorulan Sorular
Bir .NET projesinde birden fazla dili kullanarak Tesseract OCR'yi nasıl kullanabilirim?
Birden fazla dilde metin içeren görüntüleri işlemek için Tesseract OCR entegrasyonunu basitleyen IronOCR kütüphanesini kullanabilirsiniz. .NET projenize IronOCR/Tesseract NuGet paketini ekleyin ve IronTesseract sınıfının Language özelliğini kullanarak dilleri yapılandırın.
IronOCR'nin standart Tesseract'a göre avantajları nelerdir?
IronOCR, .NET uygulamaları için daha kullanıcı dostu bir API sağlar, kutudan çıktığı anda 120'den fazla dili destekler ve doğruluğu artırmak için gelişmiş görüntü ön işleme sunar. Geliştiriciler için kapsamlı dokümantasyon ve destek sunarak .NET projeleriyle sorunsuz bir şekilde entegre olur.
IronOCR birden fazla dili aynı anda işleyebilir mi?
Evet, IronOCR, Language özelliğinde birden fazla dil ayarlayarak çok dilli belgeleri işleyebilir. Bu özellik, dokümanların farklı dillerde metin içerebileceği küresel uygulamalar için özellikle faydalıdır.
Bir C# projesinde IronOCR'yi kurma süreci nedir?
C# projesinde IronOCR kurmak için önce Visual Studio'nun NuGet Paket Yöneticisi aracılığıyla IronOCR/Tesseract NuGet paketini yükleyin. Ardından, kodunuzda IronTesseract sınıfının bir örneğini oluşturun ve metin içeren görüntüleri işlemek için yöntemlerini kullanın.
IronOCR, OCR sonuçlarının doğruluğunu nasıl artırır?
IronOCR, görüntü kalitesini metin çıkarımından önce iyileştiren gelişmiş görüntü ön işleme teknikleriyle doğruluğu artırır. Bu özellik, farklı kalitelerdeki görüntülerden metni doğru bir şekilde tanımlamada yardımcı olur.
IronOCR hangi tür belgeleri işleyebilir?
IronOCR, taranmış görüntüler, PDF'ler ve dijital kameralarla çekilmiş fotoğraflar dahil olmak üzere çeşitli belge türlerini işleyebilir. Bu belgeleri düzenlenebilir ve aranabilir veri formatlarına dönüştürür.
IronOCR veri girişi görevlerini otomatikleştirmek için uygun mu?
Evet, IronOCR, basılı belgeleri dijital metne dönüştürerek, manuel çalışmayı azaltan ve zaman tasarrufu sağlayan veri girişi otomasyonu için oldukça etkilidir. Finans, sağlık ve eğitim gibi sektörlerde yaygın olarak kullanılmaktadır.
IronOCR, geliştiricilere OCR teknolojisini uygulama konusunda nasıl destek sağlar?
IronOCR, kapsamlı dokümantasyon, kullanıcı dostu bir API ve 7/24 çevrimiçi mühendis desteği sunarak geliştiricilerin .NET uygulamalarında OCR teknolojisini uygulamalarını kolaylaştırır.
IronOCR'nin başlıca kullanım alanları nelerdir?
IronOCR, basılı belgeleri dijitalleştirmek, veri girişi otomasyonu, faturaları işleme ve görme engelli kullanıcılar için erişilebilir yazılım geliştirme için kullanılır. Finans, sağlık ve eğitim gibi çeşitli sektörlerde uygulanabilir.



