Altbilgi içeriğine atla
IRONOCR KULLANıMı

Birden Çok Dil için Tesseract OCR (Geliştirici Eğitimi)

OCR, farklı yapıdaki belgeleri düzenlenebilir ve aranabilir verilere dönüştüren bir teknolojidir. Taranmış görüntüleri, PDF dosyalarını ve dijital kamera fotoğraflarını düzenlenebilir ve aranabilir verilere dönüştürür. Bu teknoloji, belgelerin düzenlenmesi, aranması ve saklanması için basılı belgeleri dijital forma dönüştürmede yaygın olarak kullanılır, belgelerin kapladığı fiziksel alanı azaltır. OCR, veri giriş otomasyonunda büyük bir role sahiptir, böylece insan kaynakları tarafından kullanılan emeği azaltarak şirketlere ve kuruluşlara çok zaman kazandırır.

Bu, metni görüntülerden doğru bir şekilde çıkarmak için gelişmiş makine öğrenimi tekniklerini ve desen tanımayı kullanan bir süreçtir. OCR ile ilgili son gelişmeler, doğruluğunu artırmış, böylece daha fazla dili ve Arapça gibi karmaşık yazıları desteklemiştir. Finans, sağlık, mevzuat ve eğitimde çok gerekli olan OCR, birkaç basılı belgeyi hızlı bir şekilde işlemek bir ön koşul haline gelirken vazgeçilmez bir araç haline gelmiştir. Bu makale, Tesseract'ı birçok dilde veri içeren görüntüleri OCR yapmak için kullanacaktır.

Tesseract OCR'u Birden Fazla Dille Kullanma

  1. Öncelikle, .NET projenizin içine IronOCR/Tesseract NuGet paketini kurun.
  2. OCR motorunu başlatacak olan IronTesseract sınıfının bir örneğini oluşturun.
  3. Dil özelliği birden fazla dili destekler.
  4. İşlemek istediğiniz görüntü dosyasının yolunu belirtin, ardından bir OcrInput nesnesi oluşturun.
  5. Şimdi, giriş görüntüsü üzerinde IronTesseract örneğinin Read fonksiyonunu kullanarak OCR gerçekleştirin.
  6. Sonucu alın ve tanınan metni görüntüleyin.

Tesseract nedir?

Tesseract, Hewlett-Packard tarafından geliştirilen ve daha sonra Google tarafından sürdürülen açık kaynaklı Optik Karakter Tanıma motorudur. Yüksek doğruluğu ve uyarlanabilirliği ile ünlüdür ve onu en belirgin OCR'lerden biri yapar. Tesseract, yazı algılamayı destekler, birçok dilde metni tanır ve birden fazla dili yönetebilir; bu nedenle, genellikle çok dilli belgeleri ve desteği gerektiren projeler için kullanılır.

Tesseract OCR motoru, görüntü icindeki her bir pikselde bulunan bilgileri ince noktalar kullanarak karakterler, kelimeler ve cumleleri tanimlar ve sonunda makine tarafindan okunabilir metne dönüştürur. Destekledigi bircok görüntü dosya turu, TIFF, JPEG ve PNG gibi, Tesseract'in duz metin, HTML ve aranabilir PDF formatlarinda metin uretmesine olanak saglar.

Tesseract'in en onemli avantajlarindan biri, belirli yazim tiplerine veya yeni eklenen dillere karsi hassas hale getirilme yetenegine sahip olmasidir. Ayrica çeşitli uygulamalarda, basit metin cikarma islerinden tarihi belgelerin dijitallestirilmesine, faturalarin islenmesine veya gorme engellilere okuma saglayan erişim yazilimlarina kadar gecen genis bir yelpazede kullanilir.

Visual Studio'da Yeni Proje Oluşturma

Programi Visual Studio'yu acin. Programi actiktan sonra, "dosya menusu"ne gidin. "Yeni proje" icin, "Konsol Uygulamasi"ni secin. Bu yazi icermde, PDF belgeleri bir konsol programi kullanarak oluşturacagiz.

Birden Fazla Dil için Tesseract OCR (Geliştirici Eğitimi): Şekil 1 - Yeni bir proje oluşturun

Projenizin adini ve dosyanin konumunu belirtilen metin kutularina girin. Ardindan, asagidaki resimde gösterildigi gibi Oluştur dugmesine tiklayin ve ihtiyaçiniz olan .NET Framework'u secin.

Birden Fazla Dil için Tesseract OCR (Geliştirici Eğitimi): Şekil 2 - .NET Framework'ü seçin ve bir proje ve kaydetme konumu sağlayın.

Simdi uygulama surumu secildigine gore, Visual Studio projesi yapisini oluşturacaktir. Eğer konsol, Windows veya web sürümlerini seçtiyseniz, uygulamayı kod eklemek ve derleyip çalıştırmak için program.cs dosyasını açacaktır.

NET Icin Tesseract OCR Kurulum

Ilk adim, bilgisayariniza Tesseract OCR yazilimini indirip yuklemektir. Iste Tesseract yükleyicisinin resmi Tesseract GitHub deposu: https://github.com/tesseract-ocr/tesseract.

Tesseract OCR'yi bilgisayariniza dagru isletim sistemine ozgu kurulum talimatlarini takip ederek alip kullanmalisiniz—whether that be Windows, macOS veya Linux. Yuklendikten sonra, Visual Studio'nun NuGet Paket Yonetimi'ni kullanarak Tesseract.NET paketini C# projenize ekleyin.

Visual Studio projenizde, Araçlar -> NuGet Paket Yonetici -> Çözüne NuGet Paketleri Yonettàktië Paket Yonetimi'ni acın. Sonra, NuGet Paket Yonetimi'nde "Tesseract"i arayarak ya "Tesseract" ya da "Tesseract.NET" paketini edinin. Bu paketi secin ve projeye yuklemek icin Yukle dugmesine tiklayin.

Birden Fazla Dil için Tesseract OCR (Geliştirici Eğitimi): Şekil 3 - Gezinme sekmesinde Tesseract arayın

Tesseract OCR using C

Ekipmancwrinizi kurduktan sonra, Tesseract.NET sarici yuklendikten sonra Tesseract OCR calistirmasinin ve dil dugum dosyalarinin yerini belirtmek icin C# projenizi ayarlamaniz gerekiyor. İşte bir örnek:

using System;
using System.Drawing;
using Tesseract;

class Program
{
    static void Main()
    {
        // Set the path to the Tesseract data files (traineddata files)
        string tessDataPath = @"./tessdata"; // Ensure this directory contains the language data files

        // Load the image
        string imagePath = @"path_to_your_image.png";
        using (var img = Pix.LoadFromFile(imagePath))
        {
            // Add languages to the Tesseract engine
            using (var engine = new TesseractEngine(tessDataPath, "eng+spa+fra", EngineMode.Default))
            {
                using (var page = engine.Process(img))
                {
                    // Extract the text
                    string text = page.GetText();
                    Console.WriteLine("Recognized Text:");
                    Console.WriteLine(text);
                }
            }
        }
    }
}
using System;
using System.Drawing;
using Tesseract;

class Program
{
    static void Main()
    {
        // Set the path to the Tesseract data files (traineddata files)
        string tessDataPath = @"./tessdata"; // Ensure this directory contains the language data files

        // Load the image
        string imagePath = @"path_to_your_image.png";
        using (var img = Pix.LoadFromFile(imagePath))
        {
            // Add languages to the Tesseract engine
            using (var engine = new TesseractEngine(tessDataPath, "eng+spa+fra", EngineMode.Default))
            {
                using (var page = engine.Process(img))
                {
                    // Extract the text
                    string text = page.GetText();
                    Console.WriteLine("Recognized Text:");
                    Console.WriteLine(text);
                }
            }
        }
    }
}
Imports System
Imports System.Drawing
Imports Tesseract

Friend Class Program
	Shared Sub Main()
		' Set the path to the Tesseract data files (traineddata files)
		Dim tessDataPath As String = "./tessdata" ' Ensure this directory contains the language data files

		' Load the image
		Dim imagePath As String = "path_to_your_image.png"
		Using img = Pix.LoadFromFile(imagePath)
			' Add languages to the Tesseract engine
			Using engine = New TesseractEngine(tessDataPath, "eng+spa+fra", EngineMode.Default)
				Using page = engine.Process(img)
					' Extract the text
					Dim text As String = page.GetText()
					Console.WriteLine("Recognized Text:")
					Console.WriteLine(text)
				End Using
			End Using
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

Yukardaki kod, Tesseract OCR kullanarak çok dilli görüntülere metin tespit etmesinin ve cikarmasinin nasıl yapilacagini aciklar. Tesseract'in dil dosyaları icin yol ilk başlarda ayarlaniyor. İngilizce, İspanyolca ve Fransızca gibi her bir dil için gerekli .traineddata dosyaları yol içinde bulunmalıdır.

Birden Fazla Dil için Tesseract OCR (Geliştirici Eğitimi): Şekil 4 - Örnek giriş

Görüntü, Pix.LoadFromFile yöntemi kullanılarak imagePath tarafından belirtilen şekilde yüklenir. Daha dogrusu, ingilizce, ispanyolca ve fransizca metinleri bulunan bir görüntü bekleniyor. Daha sonra, metni tanımak için ilgi duyulan dil verileri dosyalarına ve "eng+spa+fra" dillerine yollar ile bir TesseractEngine örneği başlatılacaktır. Motor varsıyılan modda calisacak.

Birden Fazla Dil için Tesseract OCR (Geliştirici Eğitimi): Şekil 5 - Örnek konsol çıktısı

Ardından görüntü, motor sınıfının Process yöntemi kullanılarak işlenecek, analiz edilecek, metin içeriği çıkarılarak text değişkenine kaydedilecektir. Çikarilan metin daha fazla görsellestirme için konsola yazilir, OCR'in nasıl calistigini gösterir.

IronOCR nedir?****

IronOCR, .NET odakli tescilli bir OCR kutuphanesidir. .NET uygulamalarina OCR'i ekler ve görüntü, taranan belgeler, PDF'ler ve diğer tüm gorunur medyadan metin kazanmasini olanakli kilmasinir. Başarili Tesseract motoru ile kesintisiz metin tanınması sağlarken, IronOCR aynı zamanda kurumsal uygulamalar icin uygun hale getiren bir dizi ek özellik dahil etti.

IronOCR, 120'nin uzerinde dil desteği ile birlikte otomatik dil tespiti ve çok dilli belgeleri ayni anda işleme desteği sunar. Bu, IronOCR'nin çok çeşitli olmasını ve çok dillı belge işlemenin çok kritik oldugu yerlerde globalde uygulanabilir hale getirir.

Birden Fazla Dil için Tesseract OCR (Geliştirici Eğitimi): Şekil 6 - IronOCR: C# OCR Kütüphanesi

Öte yandan, IronOCR kullanımı ve entegrasyon güzelliği vurgular. Oldukça kolay kullanımlı API'si, kapsamlı dokümantasyon ve her geliştiricinin kolayca başlayabileceği birkaç örnek proje ile desteklenmektedir. Çeşitli görüntü formatlarini ve PDF belgelerini destekler. Ice yerleşik ileri görüntü onisleme, gurultu azaltma ve hata düzeltme özelliklari, OCR dogruluk ve performansını artırır.

IronOCR'yi Kur

Paketleri Visual Studio'nun NuGet Paket yönetim aracını kullanarak doğrudan cozümunuze yukleyebilirsiniz. Asagidaki göruntu NuGet Paket Yöneticisi nasıl acilecegini göstermektedir.

Birden Fazla Dil için Tesseract OCR (Geliştirici Eğitimi): Şekil 7 - Visual Studio ile NuGet paket yöneticisine nasıl ulaşılır

Kutu sitesi listesini gösterir bir yerlesik arama kutusu vardir. Asagidaki ekran görüntüsunden de gorulduğu gibi, Paket Yonetici'sinde IronOCR ifadesini arayacagiz:

Birden Fazla Dil için Tesseract OCR (Geliştirici Eğitimi): Şekil 8 - Çözüm gezgininde IronOCR'ı arayın

Arama sonucu muhtemel cozumlerin bir listesini sunabilir. Gerekli cozum paketini yuklemek icin secmeniz gerekecek.

Ayrica, bu örnek icin asagidaki gibi tek tek gerekli Tesseract dil paketlerini yukleyin.

Bu örnekte, Ispanyolca, Fransizca ve Ingilizce dil kodlarini kullanacagiz. Ingilizce varsıyılan dil paketidir ve yukleme gerektirmez.

Birden Fazla Dil için Tesseract OCR (Geliştirici Eğitimi): Şekil 9 - Fransızca dil paketini yükleyin

NuGet paketinden Ispanyolca yukleyin.

Birden Fazla Dil için Tesseract OCR (Geliştirici Eğitimi): Şekil 10 - İspanyolca dil paketini yükleyin

IronOCR'la Tesseract motoru ile Çok Dilli Okuma

Asagidaki örnek, C# ve IronOCR ile Tesseract motorunu kullanarak bir görüntüdeki çok dilli metnin nasıl taniculacagini göstermektedir.

using IronOcr;

class Program
{
    static void Main(string[] args)
    {
        // Initialize IronTesseract engine
        var Ocr = new IronTesseract();

        // Add multiple languages
        Ocr.Language = OcrLanguage.English + OcrLanguage.Spanish + OcrLanguage.French;

        // Path to the image
        var inputFile = @"path\to\your\image.png";

        // Read the image and perform OCR
        using (var input = new OcrInput(inputFile))
        {
            // Perform OCR
            var result = Ocr.Read(input);

            // Display the result
            Console.WriteLine("Recognized Text:");
            Console.WriteLine(result.Text);
        }
    }
}
using IronOcr;

class Program
{
    static void Main(string[] args)
    {
        // Initialize IronTesseract engine
        var Ocr = new IronTesseract();

        // Add multiple languages
        Ocr.Language = OcrLanguage.English + OcrLanguage.Spanish + OcrLanguage.French;

        // Path to the image
        var inputFile = @"path\to\your\image.png";

        // Read the image and perform OCR
        using (var input = new OcrInput(inputFile))
        {
            // Perform OCR
            var result = Ocr.Read(input);

            // Display the result
            Console.WriteLine("Recognized Text:");
            Console.WriteLine(result.Text);
        }
    }
}
Imports IronOcr

Friend Class Program
	Shared Sub Main(ByVal args() As String)
		' Initialize IronTesseract engine
		Dim Ocr = New IronTesseract()

		' Add multiple languages
		Ocr.Language = OcrLanguage.English + OcrLanguage.Spanish + OcrLanguage.French

		' Path to the image
		Dim inputFile = "path\to\your\image.png"

		' Read the image and perform OCR
		Using input = New OcrInput(inputFile)
			' Perform OCR
			Dim result = Ocr.Read(input)

			' Display the result
			Console.WriteLine("Recognized Text:")
			Console.WriteLine(result.Text)
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

Yukardaki C# programi, Ingilizce, Ispanyolca ve Fransizca karakterler iceren bir görüntüde Optik Karakter Tanima yapmak icin IronOCR kutuphanesini kullanir. Program, IronOCR için gerekli ad alanını içe aktararak ve Main yöntemi ile Program adlı bir sınıf tanımlayarak başlar, bu yöntem uygulamanın giriş noktasıdır.

Main yönteminde, IronTesseract sınıfının bir örneği oluşturulacak ve Ocr değişkenine atanacaktır. Language özelliği, OcrLanguage.English, OcrLanguage.Spanish ve OcrLanguage.French birleştirerek İngilizce, İspanyolca ve Fransızca içerecek şekilde ayarlanır. Bu, OCR motorunun bu uc dildeki metni tanıyabilmesini ve isleyebilmesini saglar.

Giriş görüntü dosyasının yolu inputFile değişkeni kullanılarak ayarlanır. Görüntü, doğru kaynak yönetimi ve bertaraf için OcrInput sınıfının bir örneği ile bir using ifadesinin içinde yüklenir. Son olarak, IronTesseract örneğinin Read yöntemi, görüntü üzerinde OCR gerçekleştirmek için giriş nesnesi ile çağrılır.

Tanımlanan metin daha sonra Console.WriteLine yöntemi kullanılarak konsola yazdırılır. Bu program, IronOCR'nin çok dilli yeteneğini kullanarak farklı dillerde kelimeler içeren görüntülerden metin çikartmak için etkili bir yöntem sunmaktadir.

Birden Fazla Dil için Tesseract OCR (Geliştirici Eğitimi): Şekil 11 - Tanınan metin çıkışı

Neden IronOCR Tesseract'ten daha iyidir?

IronOCR, Tesseract'a kıyasla kullanıcı dostu olup geliştiricilere bazı avantajlar sunar. Ilk olarak, IronOCR, kutudan ciktiği anda 125 dili destegli kusursuz dil destegi sunar, Tesseract ise bazilarının optimal performansı için karmaşik konfigürasyon ve ek eğitim gerektirebilir Ek olarak, IronOCR, .NET uygulamalarına entegre edilebilmekte ve kapsamlı dokümantasyon ilk gelir.

IronOCR, bir teknik kurulum gereksinimi olmayan daha az sert bir ogrenme eğrisi arz eder ve daha az teknik ayar gerektirir Tesseract'a nazaran. Ayrica kutuphanede, daha iyi doğruluk ve güvenilirlik için gelişmiş görüntü ön işleme ve karlı güncellemeler yer alır. IronOCR güçlü, esnek ve kolayca uygulanabilir bir OCR cozumunu arayan geliştiriciler için harika bir seçenektir.

Sonuç

Birden Fazla Dil için Tesseract OCR (Geliştirici Eğitimi): Şekil 12 - IronOCR lisanslama sayfası

Hem Tesseract hem de IronOCR oldukça güçlü OCR teknolojileri olmasına rağmen, her biri eşsiz yetenek ve güçlü yönlere sahiptir. Açık kaynak olan Tesseract, ücretsiz çözüm arayanlar için güvenilirdir ve aktif topluluklara ve sürekli geliştirmeye sahiptir.

Buna karşılık, IronOCR, .NET Framework'e yönelik tescilli bir kütüphane olup daha kolay entegrasyonu ve destekleyen çoğun gorsel dosya türler için geliştirilmiş bir kullanıcı deneyimi sunar. Özellikle düşük kaliteli görsell görsellerde metin tanıma performansı IronOCR, bircok dili pesler ve daha kullanıcı dostu hale getirecek ekstr özelliklere sahiptir.

IronOCR bir maliyet etkin geliştirme sürümü sunar ve satin alindiginda bir ömür boyu lisans sağlar. IronOCR paketi birden fazla sistem için bir defaya mahsus maliyet olarak $Lite lisans ile başlar, ve satın alınmış kullanıcılar için 24/7 çevrim içi mühendis desteği sunarak paranız için mükemmel bir değer sunar. Daha fazla bilgi için IronOCR web sitesine bakın.

Sıkça Sorulan Sorular

Bir .NET projesinde birden fazla dili kullanarak Tesseract OCR'yi nasıl kullanabilirim?

Birden fazla dilde metin içeren görüntüleri işlemek için Tesseract OCR entegrasyonunu basitleyen IronOCR kütüphanesini kullanabilirsiniz. .NET projenize IronOCR/Tesseract NuGet paketini ekleyin ve IronTesseract sınıfının Language özelliğini kullanarak dilleri yapılandırın.

IronOCR'nin standart Tesseract'a göre avantajları nelerdir?

IronOCR, .NET uygulamaları için daha kullanıcı dostu bir API sağlar, kutudan çıktığı anda 120'den fazla dili destekler ve doğruluğu artırmak için gelişmiş görüntü ön işleme sunar. Geliştiriciler için kapsamlı dokümantasyon ve destek sunarak .NET projeleriyle sorunsuz bir şekilde entegre olur.

IronOCR birden fazla dili aynı anda işleyebilir mi?

Evet, IronOCR, Language özelliğinde birden fazla dil ayarlayarak çok dilli belgeleri işleyebilir. Bu özellik, dokümanların farklı dillerde metin içerebileceği küresel uygulamalar için özellikle faydalıdır.

Bir C# projesinde IronOCR'yi kurma süreci nedir?

C# projesinde IronOCR kurmak için önce Visual Studio'nun NuGet Paket Yöneticisi aracılığıyla IronOCR/Tesseract NuGet paketini yükleyin. Ardından, kodunuzda IronTesseract sınıfının bir örneğini oluşturun ve metin içeren görüntüleri işlemek için yöntemlerini kullanın.

IronOCR, OCR sonuçlarının doğruluğunu nasıl artırır?

IronOCR, görüntü kalitesini metin çıkarımından önce iyileştiren gelişmiş görüntü ön işleme teknikleriyle doğruluğu artırır. Bu özellik, farklı kalitelerdeki görüntülerden metni doğru bir şekilde tanımlamada yardımcı olur.

IronOCR hangi tür belgeleri işleyebilir?

IronOCR, taranmış görüntüler, PDF'ler ve dijital kameralarla çekilmiş fotoğraflar dahil olmak üzere çeşitli belge türlerini işleyebilir. Bu belgeleri düzenlenebilir ve aranabilir veri formatlarına dönüştürür.

IronOCR veri girişi görevlerini otomatikleştirmek için uygun mu?

Evet, IronOCR, basılı belgeleri dijital metne dönüştürerek, manuel çalışmayı azaltan ve zaman tasarrufu sağlayan veri girişi otomasyonu için oldukça etkilidir. Finans, sağlık ve eğitim gibi sektörlerde yaygın olarak kullanılmaktadır.

IronOCR, geliştiricilere OCR teknolojisini uygulama konusunda nasıl destek sağlar?

IronOCR, kapsamlı dokümantasyon, kullanıcı dostu bir API ve 7/24 çevrimiçi mühendis desteği sunarak geliştiricilerin .NET uygulamalarında OCR teknolojisini uygulamalarını kolaylaştırır.

IronOCR'nin başlıca kullanım alanları nelerdir?

IronOCR, basılı belgeleri dijitalleştirmek, veri girişi otomasyonu, faturaları işleme ve görme engelli kullanıcılar için erişilebilir yazılım geliştirme için kullanılır. Finans, sağlık ve eğitim gibi çeşitli sektörlerde uygulanabilir.

Kannaopat Udonpant
Yazılım Mühendisi
Yazılım Mühendisi olmadan önce, Kannapat Japonya'daki Hokkaido Üniversitesi'nden Çevresel Kaynaklar alanında doktora yaptı. Derecesini tamamlarken, Biyoprodüksiyon Mühendisliği Bölümü'nün bir parçası olan Taşıt Robotik Laboratuvarı'na da üye oldu. 2022'de, Iron Software mühendislik ekibine katılmak iç...
Daha Fazlasını Oku

Iron Destek Ekibi

Haftanın 5 günü, 24 saat çevrimiçiyiz.
Sohbet
E-posta
Beni Ara