Tesseract'ta C# ile Özel Dili Nasıl Kullanırım
IronOCR, UseCustomTesseractLanguageFile yöntemi aracılığıyla Tesseract .traineddata dosyalarını yükleyerek özel diller, özel yazı sistemleri veya şifreler için OCR'yi etkinleştirir ve böylece özel olarak eğitilmiş herhangi bir dil modelinden metin çıkarmanıza olanak tanır.
Hızlı Başlangıç: OCR İçin Özel Dili Yükle
-
IronOCR aşağıdaki NuGet Paket Yöneticisi ile yükleyin
PM > Install-Package IronOcr -
Bu kod parçacığını kopyalayın ve çalıştırın.
using IronOcr; // Initialize OCR engine var ocr = new IronTesseract(); // Load custom language file ocr.UseCustomTesseractLanguageFile("custom.traineddata"); // Process document using var input = new OcrInput(); input.LoadImage("document.png"); // Extract text var result = ocr.Read(input); Console.WriteLine(result.Text); -
Canlı ortamınızda test için dağıtım yapın
Ücretsiz deneme ile bugün projenizde IronOCR kullanmaya başlayın
- NuGet Paket Yöneticisi aracılığıyla
IronOcr'yi yükleyin .traineddatadosyanızıUseCustomTesseractLanguageFileile yükleyin- Bir
OcrInputoluşturun ve belgenizi yükleyin - Özel dilinizde metin çıkarmak için
Read()'yi çağırın - Çıkardığınız metni kaydedin veya işleyin
Optik karakter tanıma (OCR) bazen özel diller, özel yazılar veya şifrelerle çalışma gerektirebilir. Girdi görüntüsünde özel bir dil okumak için, Tesseract motoruna o özel dil için eğitim verileri sağlanmalıdır. Bu veriler özel bir .traineddata dosyasında saklanır.
Bu dosyanın (eğitim) karmaşık süreci Tesseract'ın kendi araçlarıyla yapılırken, IronOCR bu özel dil dosyalarını kullanmayı tam olarak destekler. Bu, eğitilmiş modelinizi herhangi bir girdiden metin çözmek ve okumak için uygulamanıza olanak tanır. Bu kılavuz, IronOCR ile özel bir .traineddata dosyasının nasıl yükleneceğini ve kullanılacağını gösterir.
Tesseract ile Özel Dilleri Nasıl Kullanırım
- Özel bir dil okumak için bir C# kütüphanesini indirin
- OCR motorunu başlatın
UseCustomTesseractLanguageFileile özel dil eğitim verilerini yükleyinLoadImageile girdi görüntüsünü yükleyinReadile özel dil girdisi görüntüsünü okuyup çıkarın
Tesseract ile Özel Dil OCR'i Nasıl Uygularım?
Tesseract ile özel bir dil kullanmak için, önce .traineddata yöntemini çağırarak UseCustomTesseractLanguageFile dosyanızı yükleyin. Bu, bu dosyanın Tesseract'a özel dilin benzersiz karakterlerini tanımasını sağlayan tüm eğitim verilerini içerdiğinden dolayı önemli bir adımdır.
IronOCR'deki özel dil desteği, standart dillerin ötesine geçer. Tarihsel yazılar, icat edilen diller ya da özel notasyon sistemleri ile çalışıyor olsanız da, aynı süreç uygulanır. Birden çok dili gerektiren projeler için, birden fazla dili okuma kılavuzumuza göz atın veya kutudan çıkar çıkmaz desteklenen 125 uluslararası OCR dili hakkında bilgi edinin.
Bir sonraki adımda, giriş belgenizi, normal bir OCR işlemi için olduğu gibi yükleyin. LoadPdf kullanarak özel dil paragrafları içeren bir PDF dosyasını yüklüyoruz. IronOCR, resimler (jpg, png, gif, tiff, bmp) ve PDF'ler dahil çeşitli giriş formatlarını destekler.
Son olarak, girdiden metni çıkarmak için Read yöntemini kullanın. Sonuç daha sonra konsola yazdırılabilir veya referans için bir metin dosyasına kaydedilebilir.
Özel Diller İçin Hangi Eğitim Verileri Gereklidir?
Girdi olarak özel dilde metin içeren bu örnek PDF'yi kullanacağız.
Örneğimizde .traindata adlı bu özel dili kullanacağız.
Eğitim verilerinizin kalitesi ve kapsamı doğrudan OCR doğruluğunu etkiler. Özel dil eğitim verilerini hazırlarken:
- Karakter Kapsamı: Eğitim verilerinizin tüm karakter ve sembolleri içerdiğinden emin olun
- Yazı Tipi Varyasyonları: Belgeleriniz tipografide değişiklik gösteriyorsa birden fazla yazı tipi stilini ekleyin
- Görüntü Kalitesi: Üretimde işleyeceğiniz görüntülerle benzer resimlerle eğitim yapın
- Bağlam Kalıpları: Sık kullanılan kelime kombinasyonlarını ve ifadeleri ekleyin
Gelişmiş yapılandırma seçenekleri için, Tesseract detaylı yapılandırma kılavuzumuza bakın.
Özel Dil Belgelerini Nasıl Yükler ve İşlerim?
:path=/static-assets/ocr/content-code-examples/how-to/ocr-custom-language.cs
using IronOcr;
using System;
using System.IO;
var ocrTesseract = new IronTesseract();
// Load the traineddata file for the custom language
ocrTesseract.UseCustomTesseractLanguageFile("AMGDT.traineddata");
using var ocrInput = new OcrInput();
// Load the PDF containing text in the custom language
ocrInput.LoadPdf("custom.pdf");
var ocrResult = ocrTesseract.Read(ocrInput);
// Print text to the console
Console.WriteLine("--- OCR Result ---");
Console.WriteLine(ocrResult.Text);
Console.WriteLine("------------------");
// Pipe text to a .txt file
string outputFilePath = "ocr_output.txt";
File.WriteAllText(outputFilePath, ocrResult.Text);
Console.WriteLine($"\nSuccessfully saved text to {outputFilePath}");
Imports IronOcr
Imports System
Imports System.IO
Dim ocrTesseract As New IronTesseract()
' Load the traineddata file for the custom language
ocrTesseract.UseCustomTesseractLanguageFile("AMGDT.traineddata")
Using ocrInput As New OcrInput()
' Load the PDF containing text in the custom language
ocrInput.LoadPdf("custom.pdf")
Dim ocrResult = ocrTesseract.Read(ocrInput)
' Print text to the console
Console.WriteLine("--- OCR Result ---")
Console.WriteLine(ocrResult.Text)
Console.WriteLine("------------------")
' Pipe text to a .txt file
Dim outputFilePath As String = "ocr_output.txt"
File.WriteAllText(outputFilePath, ocrResult.Text)
Console.WriteLine(vbCrLf & "Successfully saved text to " & outputFilePath)
End Using
Yukarıdaki kod, özel dil OCR için temel iş akışını gösterir. Daha karmaşık senaryolar için şu iyileştirmeleri düşünün:
Performansı Optimize Et: Büyük belgeler veya toplu işlem için, performansı artırmak amacıyla çoklu iş parçacığı ve asenkron destek uygulayın.
Görüntü Ön İşleme: Kaynak belgelerinizde kalite sorunları varsa, OCR işleminden önce görüntü düzeltme filtreleri uygulayın. Filtre Sihirbazı, en iyi ön işleme ayarlarını bulmanıza yardımcı olabilir.
Bölgeye Özgü OCR: Karışık içerikli belgeler için, özel dilinizi içeren alanlara odaklanmak için bir resmin OCR bölgesi tekniğini kullanın.
Özel Dil OCR'den Ne Tür Sonuçlar Bekleyebilirim?
Bu çıktı, özel dil modelimizin sonucunu gösterir. Doğru eğitim verilerini sağlayarak, IronOCR metni başarılı bir şekilde çözdü ve sonuç düz İngilizce. Ek olarak, bu kod tarafından üretilen txt çıktısıdır.
Özel dil OCR'nin doğruluğu birkaç faktöre bağlıdır:
- Eğitim Verileri Kalitesi: Daha iyi eğitim verileri daha iyi sonuçlar verir
- Belge Tutarlılığı: Eğitim verileriyle örtüşen belgeler en iyi performansı gösterir
- Görüntü Çözünürlüğü: Daha yüksek DPI görüntüler daha doğru sonuçlar üretir - DPI ayarları rehberimize göz atın
Özel Dil Uygulaması İçin En İyi Uygulamalar
Üretim ortamlarında özel dil OCR uygularken, şu en iyi uygulamaları düşünün:
Hata İşleme ve Doğrulama: .traineddata dosyanızı yüklemeye çalışmadan önce, dosyanın mevcut ve erişilebilir olduğunu her zaman doğrulayın. Özel dil dosyasının eksik veya bozuk olabileceği durumlar için uygun hata işleme uygulayın.
Performans Optimizasyonu: Özel dil modelleri, standart dil paketlerinden daha büyük olabilir. En iyi performans için:
- Birden fazla belge işlerken yüklenen dil modelini önbelleğe alın
- Uzun çalışan OCR operasyonlarını izlemek için ilerleme takibini kullanın
- Büyük belgeleri işlerken zaman aşımıları uygulamayı değerlendirin
Standart Dillerle Birleştirme: Belgeleriniz hem özel hem de standart dilleri içeriyorsa, aynı anda birden fazla dil yükleyebilirsiniz. Bu, karışık içeriğe sahip belgeler için özellikle yararlıdır.
Test Etme ve Doğrulama: OCR doğruluğunu doğrulamak için bir test çerçevesi oluşturun:
- Bilinen çıktılarla bir test veri seti oluşturun
- Tanıma kalitesini değerlendirmek için sonuç güveni ölçümlerini kullanın
- Görsel hata ayıklama için metinleri resim olarak vurgulama uygulayın
Gelişmiş Kullanım Durumları
Özel dil OCR birçok olasılık açar:
Tarihsel Belge Koruma: Antik el yazmalarını veya eski yazılarda yazılmış metinleri dijitalleştirin Özel Notasyon Sistemleri: Matematiksel denklemleri, müzik notalarını veya teknik diyagramları işleyin - denklemler sorun giderme kılavuzumuza bakın Güvenlik Uygulamaları: Özel kodlama sistemlerini veya şifreleri çözmek Erişilebilirlik: Uzmanlaşmış braille veya dokunma yazı sistemlerini standart metne dönüştürmek
IronOCR'un Tesseract 5 ile çeşitli yeteneklerini sergileyen kapsamlı kod örneklerimizi keşfedin.
Sıkça Sorulan Sorular
Özel diller veya yazıtlar içeren belgelerde OCR nasıl yapabilirim?
IronOCR, Tesseract .traineddata dosyalarını UseCustomTesseractLanguageFile metodu ile yükleyerek özel dil OCR'yi mümkün kılar. Bu sayede özelleşmiş yazıtlar, tarihi metinler veya şifreler de dahil olmak üzere, özel eğitimli dil modellerinden metin çıkarabilirsiniz.
Özel dil tanıma için hangi dosya formatı gereklidir?
IronOCR, özel diliniz için eğitim verilerini içeren bir .traineddata dosyasını gerektirir. Bu dosya UseCustomTesseractLanguageFile metodu kullanılarak yüklenir ve Tesseract'ın özel dilinizin benzersiz karakterlerini tanıması için gereken tüm bilgileri içerir.
Tek bir OCR işleminde birden fazla özel dil kullanabilir miyim?
Evet, IronOCR birden fazla dil tanımayı destekler. Birden fazla özel dil dosyasını yükleyebilir veya IronOCR'nin kutusundan çıkan 125 uluslararası dilden herhangi biriyle özel dilleri birleştirebilirsiniz.
Ne tür özelleşmiş yazıtlar tanınabilir?
IronOCR, .traineddata dosyasına uygun şekilde eğitilmiş herhangi bir özel yazıtı tanıyabilir, bu tarihi yazıtlar, icat edilmiş diller, özelleşmiş notasyon sistemleri ve şifreleri içerir. Esneklik, Tesseract'ın araçlarını kullanarak eğitilebilen herhangi bir yazı sistemine kadar uzanır.
Özel dil OCR'yi C# uygulamamda nasıl uygularım?
IronOCR ile özel dil OCR'yi uygulamak için: 1) Bir IronTesseract örneği başlatın, 2) Özel .traineddata dosyanızı UseCustomTesseractLanguageFile ile yükleyin, 3) Bir OcrInput nesnesi oluşturup belgenizi yükleyin, 4) Metin çıkarmak için Read() metodunu çağırın ve 5) Gerekli şekilde çıkarılan metni işleyin.
IronOCR birden fazla dili destekliyor mu?
IronOCR, birden çok dili destekler ve farklı dillerde metin tanımaya ihtiyaç duyan global uygulamalar için çok yönlü bir araçtır.
IronOCR mevcut uygulamalara entegre edilebilir mi?
IronOCR, C# kullanarak mevcut uygulamalara kolayca entegre edecek şekilde tasarlanmıştır, bu sayede geliştiriciler, yazılımlarına minimal çabayla OCR işlevselliği ekleyebilir.
IronOCR'yi belge yönetimi için kullanmanın faydaları nelerdir?
IronOCR'yi belge yönetimi için kullanmak, taranmış belgeleri aranabilir ve düzenlenebilir metne dönüştürerek iş akışını hızlandırır, manuel veri giriş ihtiyacını azaltır ve belge erişilebilirliğini artırır.
IronOCR veri doğruluğunu nasıl artırabilir?
IronOCR, gelişmiş tanıma algoritmaları ve görüntü düzeltme özellikleriyle veri doğruluğunu artırır, böylece metin çıkarım sürecinin hem güvenilir hem de kesin olmasını sağlar.
IronOCR için ücretsiz bir deneme mevcut mu?
Evet, Iron Software, IronOCR'nin özelliklerini ve yeteneklerini, bir satın alma kararı vermeden önce test edebilmek için ücretsiz bir deneme sunar.

