Chinese OCR in C# and .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English

Bu belgenin diğer sürümleri:

IronOCR, .NET kodlayıcılarının görüntülerden ve PDF belgelerinden 126 dilde, Çince dahil, metin okumasına olanak tanıyan bir C# yazılım bileşenidir. Çince Dil Paketi hem Çince Basitleştirilmiş hem de Çince Geleneksel karakterleri içerir.

Tesseract'ın, yalnızca .NET geliştiricileri için özel olarak oluşturulmuş gelişmiş bir dalıdır ve hız ve doğruluk açısından diğer Tesseract motorlarını düzenli olarak geride bırakır. Kütüphane, Çince dahil, farklı dillerdeki farklı formatlardaki görüntüleri ve belgeleri tanıyarak destekler. 125'ten fazla dili destekler ve rekabete kıyasla yüksek bir tanıma doğruluğu sunar. IronOCR'un API'si genişletilebilirlik ve özelleştirme düşünülerek tasarlanmıştır. IronOCR'un yüksek verim ve doğruluğa ulaşmasına yardımcı olmak için ayarlama verilerinizi veya özelliklerinizi izleyiciye ekleyebilirsiniz. IronOCR birçok Optik Karakter Tanıma Tekniği kullanır. Bunu Windows PC, Linux, macOS ve diğer ünlü platformlarda kullanabiliriz.

IronOcr.Languages.Chinese İçeriği

Bu paket, .NET için 352 OCR dili içerir:

  • Basitleştirilmiş Çince
  • BasitÇinceEnİyi
  • ÇinceBasitHızlı
  • Basitleştirilmiş Çince Dikey
  • Basitleştirilmiş Çince Dikey En İyi
  • BasitÇinçeDikeyHızlı
  • Geleneksel Çince
  • Geleneksel ÇinceBest
  • Geleneksel ÇinceFast
  • Çince Geleneksel Dikey
  • Çince Geleneksel DikeyBest
  • Çince Geleneksel DikeyFast

İndir

Çince Dil Paketi [中文 (Zhōngwén)] aşağıdaki bağlantılardan indirilebilir:

Çince Dili için IronOCR Kullanımı

C# Projesi Oluşturma veya Açma

IronOCR'a başlamak için bir C# .NET projesi oluşturmamız gerekir. Bu amaçla Visual Studio 2022 kullanıyoruz. İhtiyaçlarınıza uygun bir sürüm seçebilirsiniz. Sorunsuz bir deneyim için Visual Studio'nun en son sürümü önerilir. Görsel bir arayüz oluşturacağız ve resmi seçeceğiz. Ayrıca resmi doğrudan yolunu vererek IronOCR'u bir konsol uygulamasında kullanabiliriz. Visual Studio 2022'de C# projesi oluşturmak için aşağıdaki adımları uygulayın:

  • Visual Studio 2022'yi açın.
  • 'Yeni bir proje oluştur' butonuna tıklayın.
Chinese Ocr 1 related to C# Projesi Oluşturma veya Açma
  • Arama çubuğuna 'Windows' yazın, arama sonuçlarından 'Windows Form' uygulamasını seçin ve 'İleri' butonuna tıklayın.
Chinese Ocr 2 related to C# Projesi Oluşturma veya Açma
  • Projeye bir isim verin. 'ChineseOCR' adını projeye atıyorum. İsimden sonra 'İleri' butonuna tıklayın.
Chinese Ocr 3 related to C# Projesi Oluşturma veya Açma
  • Bir sonraki ekranda .NET çerçevesini seçin. Projenizin ihtiyaçlarına göre .NET çerçevesini seçin. Bu eğitim için .NET 5.0 sürümünü seçiyoruz.
Chinese Ocr 4 related to C# Projesi Oluşturma veya Açma
  • Seçimden sonra 'Oluştur' düğmesine tıklayın. Visual Studio'da kolayca C# Windows Form projesi oluşturulacaktır.

Proje oluşturuldu ve artık IronOCR kütüphanesinde kullanılmaya hazır. Ayrıca zaten mevcut olan C# projesini de kullanabiliriz. Projeyi açın ve IronOCR kütüphanesinin kurulumuna başlayın. Aşağıdaki bölümde C# projelerinde IronOCR kütüphanesini yükleme yöntemlerini keşfedeceğiz.

Kurulum

NuGet Paket Yöneticisi Kullanarak

IronOCR kütüphanesini NuGet Paket Yöneticisi ile kurmak için NuGet Paket Yöneticisi arayüzünü açmalıyız. IronOCR kütüphanesini yüklemek için aşağıdaki adımları izleyin:

  • Ana menüden 'Araçlar'a tıklayın, açılır menüden 'NuGet Paket Yöneticisi'nin üzerine gelin ve 'Çözüm için NuGet Paket Yöneticisini Yönet'i seçin.
Chinese Ocr 5 related to NuGet Paket Yöneticisi Kullanarak
  • Bu, NuGet Paket Yöneticisi arayüzünü açacaktır. Göz at sekmesine gidin ve IronOCR Chinese'i arayın. Arama sonuçlarından doğru paketi seçin ve yüklemek için 'Yükle' düğmesine tıklayın.
Chinese Ocr 6 related to NuGet Paket Yöneticisi Kullanarak
  • Kütüphaneyi yüklemeye başlayacaktır. Yüklemeden sonra projenizde IronOCR kütüphanesini kullanabileceksiniz.

Paket Yöneticisi Konsolunu Kullanarak

Bir konsol kullanmak her zaman kolay bir seçenektir. IronOCR kütüphanesini Paket Yöneticisi Konsolunu kullanarak da yükleyebiliriz. IronOCR kütüphanesini yüklemek için verilen adımları izleyin:

  • Visual Studio'da Paket Yöneticisi Konsolunu açın. Genellikle Visual Studio'nun alt kısmında bulunur.
  • Konsolda aşağıdaki komutu yazın:

    Install-Package IronOcr.Languages.Chinese
  • Kütüphanenin yükleme ilerlemesini konsolda göreceksiniz. Kütüphaneyi otomatik olarak yükleyecektir. Yükleme tamamlandıktan sonra, projemiz IronOCR kütüphanesi için hazır olacak.

Kod Örneği: Çince Dili için OCR

Şimdi, Çince dili için IronOCR kütüphanesini uygulamak için kod yazma zamanı. Önce, resim dosyasını seçmek için ön yüzü geliştirmemiz gerekiyor. Bunu nasıl yapabileceğimize bir göz atalım.

Ön Yüzü Geliştirme

'Araç Kutusu' öğelerini ön yüzü tasarlamak için kullanacağız. Bir Düğme, bir Resim Kutusu, bir Zengin Metin Kutusu ve iki etiket oluşturacağız. Bu öğeleri Araç Kutusu'ndan sürükleyip bırakacağız ve pencere formuna yerleştireceğiz. Bu öğeleri tarzda yöneteceğiz.

Düğme, PC'den resim dosyasını seçmek için kullanılacak. Resim Kutusu seçilen resim dosyasını yükleyecek ve Zengin Metin Kutusu çıktı metnini gösterecek. Her öğenin boyutunu ihtiyaçlarınıza göre ayarlayabilirsiniz. Son ön yüz tasarımı şöyle görünecek:

Chinese Ocr 7 related to Ön Yüzü Geliştirme

Projeyi çalıştırdığınızda bu pencere açılacaktır. Pencereleri ekranın ortasına hizalamak için ayarladık. Bu yüzden, bu ekran ortada görünecektir.

Ön yüzümüz hazır. Sıradaki, düğmenin arka plan işlevselliğini ekleme zamanı.

IronOCR için Arka Uç Kodu

Kodumuzda kullanmak için önce IronOCR ad alanını içe aktarmalıyız. Dosyanın en üstüne aşağıdaki satırı yazın:

using IronOCR;
using IronOCR;
Imports IronOCR
$vbLabelText   $csharpLabel

'Resim Seç' butonunu resmi seçmek ve resmi Resim Kutusuna yüklemek için kullanacağız. IronOCR, Çince basitleştirilmiş metin görüntüsünü işleyecek ve çıktı metnini Zengin Metin Kutusuna gösterecektir. Butonun işlevselliğini eklemek için butona çift tıklayarak başlayalım. Belirtilen işlevselliği eklemek için aşağıdaki kod satırlarını yazın:

private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);

        var Ocr = new IronTesseract();

OCR.Language = OcrLanguage.ChineseTraditional;

using (var Input = new OcrInput(open.FileName))
        {
            var Result = OCR.Read(Input);

            txt_output.Text = Result.Text;
        }
    }
}
private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);

        var Ocr = new IronTesseract();

OCR.Language = OcrLanguage.ChineseTraditional;

using (var Input = new OcrInput(open.FileName))
        {
            var Result = OCR.Read(Input);

            txt_output.Text = Result.Text;
        }
    }
}
Private Sub btn_image_Click(sender As Object, e As EventArgs)
    Dim open As New OpenFileDialog()
    If open.ShowDialog() = DialogResult.OK Then
        ' display image in picture box  
        img_image.Image = New Bitmap(open.FileName)

        Dim Ocr = New IronTesseract()

        Ocr.Language = OcrLanguage.ChineseTraditional

        Using Input = New OcrInput(open.FileName)
            Dim Result = Ocr.Read(Input)

            txt_output.Text = Result.Text
        End Using
    End If
End Sub
$vbLabelText   $csharpLabel

Kullanıcı butona tıkladığında, bir diyalog resmi seçmek için görünecektir. Kullanıcı resmi seçtiğinde, resim kutusuna otomatik olarak yüklenecektir. Resim kutusunda görüntüleri yazdırmak için Bitmap() kullanıyoruz. Bundan sonra, IronOCR görüntüleri Çin metnine dönüştürecek. Ocr ayarlıyoruz. Geleneksel Çincede metni tanımak için Dil'i ChineseTraditional olarak ayarlıyoruz. OCR. Okuma işlevi işlemi okuyacak ve OCR sonucunu Sonuç değişkeninde depolayacaktır. Metni PDF, metin veya HTML formatında kaydetmeniz gerekirse, dosyayı istediğiniz çıktı formatında kaydetmek için SaveAs işlevini kullanabilirsiniz — IronOCR birden çok çıktı formatını destekler.

Projeyi Çalıştırın

Şimdi projeyi çalıştırma zamanı. Visual Studio'da Çalıştır düğmesine tıklayın. Bu ekranı ekranımızda göreceğiz.

Chinese Ocr 8 related to Projeyi Çalıştırın

'Resim Seç' butonuna tıklayın. Dosyaları Seç diyalog kutusunu açacaktır. Resim dosyasını seçin ve enter'a basın.

Chinese Ocr 9 related to Projeyi Çalıştırın

Resim kutusuna yükleyecek, resmi otomatik olarak tarayacak ve metin kutusunda çıktı gösterecektir.

Chinese Ocr 10 related to Projeyi Çalıştırın

Seçtiğimiz resimden çıkan çıktı budur. IronOCR, PDF dosyalarını okuma ve taramayı da destekler. IronOCR kullanarak metni taramak ve tanımak için PDF dosyalarının düzenlenebilir formatını kullanabiliriz. Bu, farklı dillerde de yapılabilir. IronOCR mevcut PDF belgesini arama yapılabilir PDF haline getirebilir. IronOCR, görüntüleri görmek ve anlamak için net hale getiren birçok görüntü filtresine sahiptir. İşte filtreler:

  • Input.Binarize()
  • Input.Contrast()
  • Input.Deskew()
  • Input.DeNoise()
  • Input.Dilate()
  • Input.EnhanceResolution(300)

Tüm bu işlevler karakterlerin görünürlüğünü artırır. IronOCR, bu işlevleri kullanarak temiz ve aranabilir bir PDF oluşturur. Bunun nasıl yapılabileceğine bir bakalım:

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf")
    // clean up twisted pages
    Input.Deskew();
    var Result = OCR.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf")
    // clean up twisted pages
    Input.Deskew();
    var Result = OCR.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Dim Ocr = New IronTesseract()
Using Input = New OcrInput()
    Input.AddPdf("scan.pdf")
    ' clean up twisted pages
    Input.Deskew()
    Dim Result = Ocr.Read(Input)
    Result.SaveAsSearchablePdf("searchable.pdf")
End Using
$vbLabelText   $csharpLabel

Lisanslama

IronOCR geliştirme için ücretsizdir. Tüm özelliklerini ücretsiz olarak aktif şekilde kullanabilirsiniz. IronOCR ayrıca bir ücretsiz deneme sunar, üretim için herhangi bir ödeme gerektirmez. Iron Software ayrıca şu anda popüler bir teklif sunuyor — sadece iki yazılım ürününün fiyatına beş yazılım ürününden oluşan bir set. Sadece iki yazılım ürünü için bir defaya mahsus ödeme yapın ve IronPDF ve IronXL dahil beş ürüne sahip olun. Lisanslama hakkında daha fazla bilgiyi bu bağlantıdan bulabilirsiniz.