BEYAZ KAğıTLAR

Makine Öğrenme Yazılımı Kullanarak Görüntüden Metin Çıkarma

TEKNOLOJI

Makine öğrenmesi kullanarak yakalanan veya taranan belgelerden metin çıkarma, bilgisayarla görme ve doğal dil işleme kesişiminde yükselen bir alandır. Bu teknoloji, ileri düzey makine öğrenimi, nesne tanıma algoritmaları, gelişmiş grafik yazılımı, karanlık ve derin web, ve sinir ağı yapıları kullanarak, metinsel bilgileri görüntülerden ve taranmış kağıt belgelerden doğru bir şekilde tanımlamak ve çıkarmak için kullanılır. Optik karakter tanıma (OCR) ve derin öğrenme gibi çeşitli makine öğrenimi teknolojilerini kullanarak, görsel sahne metni tanıma işlemini, düzenlenebilir ve aranabilir yapılandırılmış verilere otomatik ve etkili bir şekilde dönüştürmeye olanak tanır ve nesne algılama ile ilgili işlemler gerçekleştirir.

Bu gelişen alanda, araştırmacılar ve uygulayıcılar metin tanımlama ve görüntülerden, makine tarafından okunabilir veri ve taranmış belgelerden çıkarma işlemlerini geliştirmeye çalışır, bu da basılı belge dijitalleştirme, içerik indeksleme, çeviri ve erişilebilirlik artırma gibi uygulamaların önemli bir bileşeni haline gelir.

Bu makalede, güçlü Makine Öğrenimi algoritmaları ve metinle ilgili özellikler tarafından desteklenen bir OCR Kütüphanesi olan IronOCR kullanarak görüntülerden metin nasıl çıkartabileceğinizi tartışacağız. Anahtar kelime çıkarımı olarak da bilinen metin çıkarımı, yapılandırılmamış verilerden veya şirketin merkezi veri tabanından otomatik olarak taranabilir ve ilgili veya temel kelimeleri ve ifadeleri çıkarmak için makine öğrenimine dayanır.

Makine öğrenimi kullanarak bir görüntüden metin nasıl çıkarılır?

  1. Görüntülerden metin çıkarmak için C# kütüphanesini indirin.
  2. Sahne metni tanıma için OcrInput nesnesini instansiyendirerek belirli bir görüntüyü yükleyin.
  3. Görüntüden verileri ocrTesseract.Read yöntemi ile çıkartın.
  4. Çıkarılan metni Console.WriteLine yöntemi ile konsolda yazdırın.
  5. Bir görüntünün bölgesinde OCR gerçekleştirin ve CropRectangle nesnesini kullanın.

IronOCR - Bir OCR (Optik Karakter Tanıma) Kütüphanesi

IronOCR, görüntüler ve belgelerden metin çıkarma teknolojisinin ön saflarında yer alan önde gelen ve sofistike bir optik karakter tanıma (OCR) yazılımıdır. Iron Software tarafından geliştirilen bu güçlü OCR motoru, taranan görüntüleri, PDF'leri veya hatta metnin fotoğraflarını düzenlenebilir ve aranabilir dijital içeriklere doğru ve verimli bir şekilde dönüştürecek şekilde tasarlanmıştır. Makine öğrenimi algoritmaları ve sinir ağlarını ustaca kullanarak, IronOCR, hassas metin tanıması gerektiren çeşitli uygulamalar için veri çıkarma, içerik indeksleme ve otomasyon süreçleri gibi sağlam bir çözüm sunar.

Çoklu dilleri ve farklı yazı tiplerini işleme yeteneği, yazılım ve uygulamaları içinde metin tanıma algoritması çıkarma yeteneklerini geliştirmek isteyen hem geliştiriciler hem de işletmeler için çok yönlü bir araç haline getirir. IronOCR'yi kullanarak, metin çıkarım algoritmaları kullanarak yapılandırılmamış verileri kusursuz bir şekilde taranmış sayfalara dönüştüren yaygın bir metin tanıma tekniği kullanarak otomatik olarak metin tarayabilirsiniz.

IronOCR'un Kurulumu

IronOCR, NuGet Paket Yöneticisi kullanılarak yüklenebilir. IronOCR'yi yüklemek için gereken adımlar şunlardır:

  1. İlk olarak, yeni bir C# Visual Studio projesi oluşturun veya mevcut birini açın.

Visual Studio

  1. Proje oluşturulduktan sonra, üst menüdeki Araçlar bölümüne gidin ve NuGet Paket Yöneticisi'ni seçin, ardından Çözüm için NuGet Paket Yöneticisi'ni seçin.

Araçlar Menüsü

  1. Ekranda yeni bir pencere görünecek. Git sekmesine gidin ve arama çubuğuna IronOCR yazın.
  2. Bir IronOCR paket listesi görünecektir. En son olanı seçin ve yükle'ye tıklayın.

IronOCR

  1. İnternet hızınıza bağlı olarak birkaç saniye sürecektir; bundan sonra IronOCR, C# projenizde kullanıma hazırdır.

Metinlerin Görüntülerden Düzenlenebilir ve Aranabilir Verilere Dönüştürülmesi

IronOCR kullanarak, görüntü işleme teknikleri ve makine öğrenimi kullanarak metinleri kolayca çıkarabilirsiniz. Bu bölümde, IronOCR kullanarak görüntülerden metin çıkarmayı nasıl gerçekleştireceğimizi tartışacağız.

using IronOcr;
using System;

// Create a new instance of the IronTesseract class
var ocrTesseract = new IronTesseract();

// Specify the image path and perform OCR on the image
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);

    // Print the extracted text to the console
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

// Create a new instance of the IronTesseract class
var ocrTesseract = new IronTesseract();

// Specify the image path and perform OCR on the image
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);

    // Print the extracted text to the console
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System

' Create a new instance of the IronTesseract class
Private ocrTesseract = New IronTesseract()

' Specify the image path and perform OCR on the image
Using ocrInput As New OcrInput("images\image.png")
	Dim ocrResult = ocrTesseract.Read(ocrInput)

	' Print the extracted text to the console
	Console.WriteLine(ocrResult.Text)
End Using
$vbLabelText   $csharpLabel

Bu C# kodu, optik karakter tanıma (OCR) için bir kütüphane olan IronOCR'un kullanımını göstermektedir. İşte adım adım açıklama:

  1. Kütüphanelerin İçe Aktarılması:

    using IronOcr;
    using System;
    using IronOcr;
    using System;
    Imports IronOcr
    Imports System
    $vbLabelText   $csharpLabel

    Kod, gerekli kütüphaneleri içeri aktarma ile başlar, bunlar arasında IronOCR OCR işlevselliği sağlar ve System ad alanı genel işlevler için kullanılır.

  2. IronTesseract ve Görüntüyü Başlatma:

    var ocrTesseract = new IronTesseract();
    var ocrTesseract = new IronTesseract();
    Dim ocrTesseract As New IronTesseract()
    $vbLabelText   $csharpLabel

    Bu satır, IronOCR tarafından sağlanan OCR motoru olan IronTesseract örneğini oluşturur.

    using (var ocrInput = new OcrInput(@"images\image.png"))
    using (var ocrInput = new OcrInput(@"images\image.png"))
    Using ocrInput As New OcrInput("images\image.png")
    $vbLabelText   $csharpLabel

    İşlenecek görüntünün yolu ile bir OcrInput nesnesi oluşturulur. Bu durumda, görüntü dosyası "images" dizininde "image.png" dir.

  3. OCR Uygulama ve Metin Çıkarma:

    var ocrResult = ocrTesseract.Read(ocrInput);
    var ocrResult = ocrTesseract.Read(ocrInput);
    Dim ocrResult = ocrTesseract.Read(ocrInput)
    $vbLabelText   $csharpLabel

    Bu satır, OcrInput nesnesini geçirerek, IronTesseract örneğinin Read yöntemini çağırır. Bu yöntem, verilen görüntü üzerinde OCR işlemi yapar ve metni çıkarır.

  4. Çıkarılan Metnin Gösterilmesi:

    Console.WriteLine(ocrResult.Text);
    Console.WriteLine(ocrResult.Text);
    Console.WriteLine(ocrResult.Text)
    $vbLabelText   $csharpLabel

    Son olarak, çıkarılan metin, görüntüden elde edilen OCR sonucunu gösteren Console.WriteLine kullanılarak konsola yazdırılır.

Bu kod parçası, belirli bir görüntünün metin tanıma işlemi için IronOCR'u kullanarak OCR işlemi yapar ve çıkarılan metni konsola yazar.

Giriş Görselleği

Fatura

Çıktı

Müşteri Faturası Çıktısı

Görüntüde Belirtilen Bölgede OCR Uygulama

IronOCR kullanarak görüntü üzerinde belirli bölgelere de OCR uygulayabilirsiniz. İşte bir kod örneği:

using IronOcr;
using IronSoftware.Drawing;
using System;

// Create a new instance of the IronTesseract class
var ocrTesseract = new IronTesseract();

// Specify the region on the image to be processed
using (var ocrInput = new OcrInput())
{
    var ContentArea = new CropRectangle(x: 20, y: 20, width: 400, height: 50);

    // Add the image with the defined content area
    ocrInput.AddImage("r3.png", ContentArea);

    // Perform OCR on the specified region and extract text
    var ocrResult = ocrTesseract.Read(ocrInput);

    // Print the extracted text to the console
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using IronSoftware.Drawing;
using System;

// Create a new instance of the IronTesseract class
var ocrTesseract = new IronTesseract();

// Specify the region on the image to be processed
using (var ocrInput = new OcrInput())
{
    var ContentArea = new CropRectangle(x: 20, y: 20, width: 400, height: 50);

    // Add the image with the defined content area
    ocrInput.AddImage("r3.png", ContentArea);

    // Perform OCR on the specified region and extract text
    var ocrResult = ocrTesseract.Read(ocrInput);

    // Print the extracted text to the console
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports IronSoftware.Drawing
Imports System

' Create a new instance of the IronTesseract class
Private ocrTesseract = New IronTesseract()

' Specify the region on the image to be processed
Using ocrInput As New OcrInput()
	Dim ContentArea = New CropRectangle(x:= 20, y:= 20, width:= 400, height:= 50)

	' Add the image with the defined content area
	ocrInput.AddImage("r3.png", ContentArea)

	' Perform OCR on the specified region and extract text
	Dim ocrResult = ocrTesseract.Read(ocrInput)

	' Print the extracted text to the console
	Console.WriteLine(ocrResult.Text)
End Using
$vbLabelText   $csharpLabel

Bu C# kodu, optik karakter tanıma (OCR) için IronOCR kütüphanesini kullanır. Öncelikle gerekli kütüphaneleri içe aktarır, IronOCR ve System dahil. Bir IronTesseract örneği, OCR motoru oluşturulur. Kod, işlenecek görüntüde belirli bir İçerik Alanı belirlemek için bir CropRectangle kullanır, tanımlanmış bir bölgeye odaklanır. Bu belirlenen alan içinde bulunan görüntü ("r3.png") daha sonra OCR işlemi için eklenir. OCR motoru, belirtilen içerik alanını okur, metni çıkarır ve sonuç metni Console.WriteLine kullanılarak konsola yazdırılır.

Çıktı

Çıktı

Sonuç

Optik karakter tanıma (OCR) kütüphaneleri gibi, özellikle IronOCR kullanan makine öğrenimi aracılığıyla görüntülerden metin çıkarılması, bilgisayarla görme ve doğal dil işleme kesişiminde dönüştürücü bir adımı temsil eder. Hem OCR teknolojisi hem de derin öğrenme teknikleri, görsel metni düzenlenebilir ve aranabilir veriye dönüştürmede verimli bir şekilde görev yapar, belge dijitalleştirme, içerik indeksleme ve erişilebilirlik artırımı gibi hayati amaçlara hizmet eder.

Önde gelen bir OCR kütüphanesi olarak IronOCR, bu birleşimin potansiyelini örnekler, taranmış görüntüleri ve PDF'leri çoklu dil ve yazı tipleri üzerinden dijital, düzenlenebilir içeriğe dönüştürmede mükemmeldir. C# gibi programlama dillerine sorunsuz entegrasyonu, birçok uygulama ve alanda görüntülerden metin çıkarımının dönüştürücü etkisini daha da artırarak, kolay bir uygulama sunar.

IronOCR ve ilgili tüm özellikler hakkında daha fazla bilgi edinmek için bu bağlantıyı buradan ziyaret edin. Görüntülerden metin çıkarma konusunda tam eğitim için aşağıdaki bağlantıya bakabilirsiniz. IronOCR lisansını bu bağlantıdan satın alabilirsiniz.