Tesseract ile birden fazla dil nasıl kullanılır

Tesseract ile Çok Dilli Kullanımı C#'ta Nasıl Kullanılır?

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR, sadece bir satır kodla birincil ve ikincil dilleri yapılandırarak Tesseract motorunu kullanarak çok dilli metin belgelerinden metin çıkarımını etkinleştirir, 125'ten fazla dil paketi için sorunsuz çok dilli OCR işlem desteği sağlar.

Giriş

IronOCR, güvenilir bir OCR aracı olarak Tesseract Motoru kullanarak çeşitli diller ve yazı sistemlerinden metin çıkarımı sağlar.

Bu makale, IronOCR'un Tesseract aracılığıyla metni birden çok dilde nasıl ele aldığını incelemektedir. Çok dilli OCR çözümlerini nasıl uygulayacağınızı öğrenip IronOCR ve Tesseract motoru entegrasyonunun yeteneklerini anlayacaksınız.

Çok dilli belgelerin işlenmesi, modern uygulamalar için gereklidir. Uluslararası iş belgeleri, çok dilli web siteleri ve küresel iletişim platformları, dil engelleri üzerinde doğru metin çıkarımı gerektirir. IronOCR, Tesseract'in geniş dil desteği ile entegre olarak, birden çok yazı ve karakter seti içeren belgelerden aynı anda metin çıkarmayı sağlar.

Başlangıç: IronOCR'u Kullanarak Birden Çok Dilde Metin Tanıma

IronOCR'u bir birincil dil ile yapılandırın ve çok dilli belgeler veya görüntülerden metin çıkarmak için bir satırda ikincil diller ekleyin.

  1. IronOCR aşağıdaki NuGet Paket Yöneticisi ile yükleyin

    PM > Install-Package IronOcr
  2. Bu kod parçacığını kopyalayın ve çalıştırın.

    string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;
  3. Canlı ortamınızda test için dağıtım yapın

    Ücretsiz deneme ile bugün projenizde IronOCR kullanmaya başlayın

    arrow pointer


IronOCR ile Çok Dilli PDF'leri Nasıl Okurum?

IronOCR yaklaşık 125 dil paketi sunar; sadece İngilizce varsayılan olarak yüklüdür. NuGet'ten ek diller indirin. Mevcut tüm dil paketlerini burada görün.

Birden çok dil içeren PDF'ler, belirli OCR motor yapılandırması gerektirir. IronOCR, belgeleri işlemden önce birincil ve ikincil dilleri belirlemenize izin verir, bu da farklı yazı ve karakter setleri arasında optimal tanıma doğruluğu sağlar.

PDF Çıkarma İçin Hangi Diller Mevcut?

Aşağıdaki örnek, IronOCR'da bir PDF dosyasından metin çıkarmak için birden çok dilin nasıl kullanılacağını gösteriyor.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Karmaşık PDF işleme senaryoları için, PDF OCR Metin Çıkarma kılavuzumuzun çeşitli PDF formatları ve yapıları için gelişmiş tekniklerini inceleyin.

Dil Önceliği OCR Sonuçlarını Nasıl Etkiler?

AddSecondaryLanguage yöntemini kullanarak istediğiniz sayıda ikincil dil ekleyin. Ek dillerin hız ve performansı etkileyebileceğini unutmayın. Dil önceliği eklenme sırasına bağlıdır, ilk eklenen daha yüksek önceliğe sahiptir.

Dil önceliğini anlamak, çok dilli belgeleri işlerken önemlidir. Metin çıkarma sırasında birincil dile en yüksek öncelik verilir—OCR motoru, ilk olarak karakterleri birincil dilin karakter setine karşı eşleştirmeye çalışır. Birincil dil kalıplarıyla uyuşmayan karakterlerle karşılaşıldığında ikincil dillere başvurulur.

En iyi performans için:

  • Belgenizdeki en yaygın dili birincil olarak ayarlayın
  • Belgedeki sıklıklarına göre sıralanmış yardımcı diller ekleyin
  • Kullanım durumunuza göre gerekli olan ikincil dillerle sınırlayın

Birden çok dilli yüksek performanslı uygulamalar için, işleme hızını optimize etmek için Hızlı OCR Yapılandırması kılavuzumuza bakın.

Tesseract ile Çok Dilli Görüntüler Nasıl İşlenir?

İngilizce varsayılan birincil dildir. Değiştirmek için, Language özelliğini istediğiniz dile ayarlayın, ardından gerektiğinde ikincil dilleri ekleyin.

Birden çok dil içeren görüntüler dikkatli yapılandırma gerektirir. PDF'lerden farklı olarak, görüntüler çeşitli metin yönleri, farklı yazı tipleri ve karışık yazılar içerebilir. IronOCR'nin Tesseract entegrasyonu, bu senaryolar için kapsamlı dil yapılandırma seçenekleri sunar.

Varsayılan Dil Ayarını Ne Zaman Değiştirmeliyim?

Varsayılan dili şu durumlarda değiştirin:

  • Belgenin büyük çoğunluğu İngilizce olmayan bir dildeyse
  • Belirli bir bölge veya ülkeden gelen belgeleri işlerken
  • Uygulamanız, İngilizce olmayan içerikle çalışan kullanıcıları hedefliyorsa
  • Belirli karakter setlerine yönelik tanıma doğruluğunu optimize ederken

İşte tam bir çok dilli görüntü işleme örneği:

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
' Example code for reading multi-language image with IronOCR
Imports IronOcr

' Initialize IronTesseract OCR engine
Private Ocr = New IronTesseract()

Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)

' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Özel diller veya uzmanlaşmış yazı tipleri için, Özel Dil Dosyalarını Kullanma başlıklı öğreticimize bakın.

Çok Dilli OCR'den Ne Tür Sonuçlar Bekleyebilirim?

Uygun yapılandırma aşağıdaki gibi sonuçlar üretir:

Karakter işlemeyi gösteren konsol çıktısı ile Rusça ve Japonca içeriği gösteren çok dilli metin işleme uygulaması

Çok dilli OCR sonuç kalitesi çeşitli faktörlere bağlıdır:

  1. Görüntü Kalitesi: Daha yüksek çözünürlük (300+ DPI), daha iyi sonuçlar üretir. DPI Ayarları kılavuzumuzu inceleyin.
  2. Metin Netliği: Artifaksız, net ve iyi tanımlanmış metinler daha doğru tanıma sağlar
  3. Dil Yapılandırması: Doğru birincil ve ikincil dil ayarı doğru karakter tanıma kalıplarını garanti eder
  4. Ön işleme: Uygun filtreler, sonuçları önemli ölçüde artırır. Geliştirme teknikleri için Görüntü Düzeltme Filtreleri kılavuzumuzu inceleyin.

Çok Dilli OCR İçin Temel Çıkarsamalar Nelerdir?

IronOCR, Tesseract motorunu kullanarak, çok dilli belgelerden metin çıkarmayı etkili bir şekilde sağlar. Birçok dildeki metni okuma karmaşıklıklarını ele alır, çok yönlü bir çözüm sunar. Çeşitli diller içeren PDF'leri işlerken veya çok dilli görüntü içeriğiyle çalışırken, IronOCR, metni diller arasında tanımayı ve çıkarmayı kolaylaştırır.

IronOCR'un çok dilli metin çıkarımı için temel avantajları:

  • Kapsamlı Dil Desteği: NuGet paketleri aracılığıyla 125'den fazla uluslararası OCR dili
  • Esnek Yapılandırma: Birincil ve ikincil dil ayarları için basit bir API
  • Yüksek Doğruluk: Tesseract 5'in gelişmiş tanıma algoritmalarını kullanır
  • Performans Optimizasyonu: çoklu iş parçacığı desteği ile yerleşiktir
  • Platformlar Arası Uyumluluk: Windows, Linux ve MacOS'ta çalışır

IronOCR, çok dilli OCR uygulamaları için güçlü özelliklerle kullanım kolaylığını birleştiren kapsamlı bir çözüm sağlar. Belge yönetim sistemleri, çeviri araçları veya çok dilli metin çıkarımı gerektiren uygulamalar için gereken esneklik ve güvenilirliği ile başarıya ulaşmanızı sağlar.

Çok dilli OCR projenize NuGet'ten IronOCR'u indirerek ve belgelerimizi ve örneklerimizi keşfederek başlayın. Özel kullanım durumları veya gelişmiş senaryolar için, optimal sonuçlar için sorun giderme kılavuzlarımız iç görü sağlar.

Sıkça Sorulan Sorular

Birden fazla dili içeren belgelerde OCR nasıl yapabilirim?

IronOCR, çok dilli OCR'yi sadece tek satır kodla yapılandırmanıza olanak tanır. Birincil dili Dil özelliğini kullanarak belirleyin ve ikincil dilleri AddSecondaryLanguage metodu ile ekleyin. Bu, IronOCR'nin birden fazla yazı ve karakter seti içeren belgelerde metni doğru şekilde çıkartmasını sağlar.

Metin çıkarımı için hangi diller destekleniyor?

IronOCR, Tesseract motoru entegrasyonu aracılığıyla 125'ten fazla dil paketi destekler. İngilizce varsayılan olarak yüklüdür, ancak İspanyolca ve Fransızca'dan Arapça, Çince, Japonca ve daha birçok dillere kadar OCR özelliklerini etkinleştirmek için ek dil paketlerini NuGet'ten indirebilirsiniz.

OCR işlemine ikincil dilleri nasıl eklerim?

IronOCR'de ek dilleri etkinleştirmek için AddSecondaryLanguage metodunu kullanın. Örneğin: yeni IronTesseract { Dil = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French). Bu yapılandırma, IronOCR'nin aynı belgede hem İspanyolca hem de Fransızca metni tanımasını sağlar.

Çok dilli PDF'lerden metin çıkarabilir miyim?

Evet, IronOCR birden fazla dil içeren PDF'leri işleyebilir. İşlemden önce OCR motorunu birincil ve ikincil dillerle yapılandırın. IronOCR, PDF içindeki farklı yazı tipleri ve karakter setlerini otomatik olarak ele alacak ve belgede bulunan tüm dillerde doğru metin çıkarımı sağlayacaktır.

Dil paketlerini ayrı ayrı yüklemem gerekiyor mu?

Evet, İngilizce IronOCR'ye varsayılan olarak dahil edilmiştir, ancak ek dil paketleri NuGet üzerinden yüklenmelidir. Her dil paketi, IronOCR'nin Tesseract motorunun o özel dilde metni tanıması için gerekli verileri içerir. IronOCR diller sayfasından tüm mevcut dil paketlerini görüntüleyip indirebilirsiniz.

Çok dilli OCR için minimum iş akışı nedir?

Minimum iş akışı 5 adımdan oluşur: 1) IronOCR kütüphanesini indirin, 2) PDF veya görüntü belgenizi hazırlayın, 3) NuGet üzerinden gerekli dil paketlerini yükleyin, 4) AddSecondaryLanguage metodunu kullanarak ek dilleri etkinleştirin ve 5) Birincil dil için Dil özelliğini ayarlayın. Bu kurulum, doğru çok dilli metin çıkarımını sağlar.

IronOCR mevcut uygulamalara entegre edilebilir mi?

IronOCR, C# kullanarak mevcut uygulamalara kolayca entegre edecek şekilde tasarlanmıştır, bu sayede geliştiriciler, yazılımlarına minimal çabayla OCR işlevselliği ekleyebilir.

IronOCR'yi belge yönetimi için kullanmanın faydaları nelerdir?

IronOCR'yi belge yönetimi için kullanmak, taranmış belgeleri aranabilir ve düzenlenebilir metne dönüştürerek iş akışını hızlandırır, manuel veri giriş ihtiyacını azaltır ve belge erişilebilirliğini artırır.

IronOCR veri doğruluğunu nasıl artırabilir?

IronOCR, gelişmiş tanıma algoritmaları ve görüntü düzeltme özellikleriyle veri doğruluğunu artırır, böylece metin çıkarım sürecinin hem güvenilir hem de kesin olmasını sağlar.

IronOCR için ücretsiz bir deneme mevcut mu?

Evet, Iron Software, IronOCR'nin özelliklerini ve yeteneklerini, bir satın alma kararı vermeden önce test edebilmek için ücretsiz bir deneme sunar.

Kannaopat Udonpant
Yazılım Mühendisi
Yazılım Mühendisi olmadan önce, Kannapat, Japonya'daki Hokkaido Üniversitesi'nde Çevresel Kaynaklar alanında bir doktora tamamladı. Derecesini takip ederken, Biyoproduksiyon Mühendisliği Bölümünün bir parçası olan Araç Robotik Laboratuvarı'nın bir üyesi oldu. 2022'de C# becerilerini kullanarak Iron Software'in mühendislik ...
Daha Fazla Oku
Gözden Geçiren
Jeff Fritz
Jeffrey T. Fritz
Baş Program Yöneticisi - .NET Topluluğu Ekibi
Jeff, .NET ve Visual Studio ekipleri için bir Baş Program Yöneticisidir. .NET Conf sanal konferans serisinin baş yapımcısıdır ve haftada iki kez canlı yayınlanan 'Fritz and Friends' adlı bir akış programı sunar; burada izleyicilerle birlikte teknoloji konuşur ve kod yazar. Jeff, en büyük Microsoft geliştirici etkinlikleri için atölyeler, sunumlar ve içerik planları yazar, Microsoft Build, Microsoft Ignite, .NET Conf ve Microsoft MVP Summit gibi etkinliklerde yer alır.
Başlamaya Hazır mısınız?
Nuget İndirmeler 5,896,332 | Sürüm: 2026.5 just released
Still Scrolling Icon

Hâlâ Kaydırıyor Musunuz?

Hızlıca kanıt ister misiniz? PM > Install-Package IronOcr
örnek çalıştır görüntünüzün aranabilir metin haline gelmesini izleyin.