Gelişmiş Okuma için OCR Yapılandırması

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR, standart OCR'nin ötesine geçen ReadPassport, ReadLicensePlate ve ReadPhoto gibi gelişmiş tarama okuma yöntemleri sunar. Bu yöntemler IronOcr.Extensions.AdvancedScan paketi tarafından desteklenmektedir. Bu yöntemlerin metni işleme şeklini ince ayarlamak için IronOCR, TesseractConfiguration sınıfını kullanıma sunar ve geliştiricilere karakter beyaz listesi, kara liste, BarCode algılama, veri tablosu okuma ve daha fazlası üzerinde tam kontrol sağlar.

Bu makale, ileri düzey okuma için kullanılabilen TesseractConfiguration özelliklerini ve gerçek dünya senaryolarında OCR'yi yapılandırmaya yönelik pratik örnekleri ele almaktadır.

Hızlı Başlangıç: OCR Çıktısını Karakter Beyaz Listesi ile Sınırlandırma

Read'yi çağırmadan önce TesseractConfiguration'de WhiteListCharacters'yi ayarlayın. Beyaz listede bulunmayan karakterler, sonuçtan sessizce çıkarılır ve böylece herhangi bir son işlem yapılmasına gerek kalmadan gürültü ortadan kaldırılır.

  1. IronOCR aşağıdaki NuGet Paket Yöneticisi ile yükleyin

    PM > Install-Package IronOcr
  2. Bu kod parçacığını kopyalayın ve çalıştırın.

    var result = new IronTesseract() { Configuration = new TesseractConfiguration { WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789- " } }.Read(new OcrInput("image.png")); Console.WriteLine(result.Text);
  3. Canlı ortamınızda test için dağıtım yapın

    Ücretsiz deneme ile bugün projenizde IronOCR kullanmaya başlayın

    arrow pointer


TesseractConfiguration Özellikleri

TesseractConfiguration sınıfı, OCR davranışını özelleştirmek için aşağıdaki özellikleri sağlar. Bunlar IronTesseract.Co/nfiguration ile belirlenir.

Özellik Tür Açıklama
Beyaz Liste Karakterleri string OCR çıktısında yalnızca bu dizede bulunan karakterler tanınacaktır. Diğer tüm karakterler hariç tutulur.
Yasaklı Karakterler string Bu dizgedeki karakterler aktif olarak yok sayılır ve OCR çıktısından kaldırılır.
ReadBarCodes bool OCR işleme sırasında belge içindeki BarCode algılamayı etkinleştirir veya devre dışı bırakır.
ReadDataTables bool Tesseract kullanarak belge içindeki tablo yapısı algılamasını etkinleştirir veya devre dışı bırakır.
PageSegmentationMode TesseractPageSegmentationMode Tesseract'ın giriş görüntüsünü nasıl bölümlere ayıracağını belirler. Seçenekler arasında AutoOsd, Auto, SingleBlock, SingleLine, SingleWordve daha fazlası.
RenderSearchablePdf bool Etkinleştirildiğinde, OCR çıktısı görünmez bir metin katmanı içeren, içinde arama yapılabilir bir PDF olarak kaydedilebilir.
RenderHocr bool Etkinleştirildiğinde, OCR çıktısı daha ileri işleme veya dışa aktarma için hOCR verilerini içerir.
TesseractVariables Dictionary<string, object> İnce ayarlı kontrol için düşük seviyeli Tesseract yapılandırma değişkenlerine doğrudan erişim sağlar.

TesseractVariables sözlüğü daha da ileri giderek, üst düzey özelliklerin yeterli olmadığı durumlar için yüzlerce temel Tesseract motor parametresini ortaya koyar.

Aşağıdaki örnekler, karakter beyaz listesinden başlayarak her bir özellik grubunu göstermektedir.

Plaka Numaraları için Karakter Beyaz Listesi Oluşturma

WhiteListCharacters için yaygın bir kullanım örneği, OCR çıktısını yalnızca plaka üzerinde görünebilecek karakterlerle sınırlamaktır: büyük harfler, rakamlar, tireler ve boşluklar. Bu, motorun beklenen karakter kümesinin dışındaki her şeyi yok saymasını sağlayarak gürültüyü ortadan kaldırır ve doğruluğu artırır.

Giriş

Aşağıdaki araç tescil kaydı büyük harfli metin, küçük harfli metin ve özel sembollerin bir karışımını içerir (@, $, #, |, *), ve noktalama işaretleri.

OCR beyaz liste gösterimi için karışık karakterler içeren araç tescil kaydı

BlackListCharacters, ,~@@- gibi bilinen gürültü sembollerini aktif olarak hariç tutarak beyaz listeyi tamamlar-CODE-372--@@@, and*` gibi bilinen gürültü sembollerini aktif olarak hariç tutarak beyaz listeyi tamamlar.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-configurations-for-advanced-reading.cs
using IronOcr;

// Initialize the Tesseract OCR engine
IronTesseract ocr = new IronTesseract();

ocr.Configuration = new TesseractConfiguration
{
    // Whitelist only characters that appear on license plates
    WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789- ",

    // Blacklist common noise characters
    BlackListCharacters = "`~@#$%&*",
};

var ocrInput = new OcrInput();
// Load the input image
ocrInput.LoadImage("advanced-input.png");
// Perform OCR on the input image with ReadPhoto method
var results = ocr.ReadPhoto(ocrInput);

// Print the filtered text result to the console
Console.WriteLine(results.Text);
Imports IronOcr

' Initialize the Tesseract OCR engine
Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    ' Whitelist only characters that appear on license plates
    .WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789- ",
    
    ' Blacklist common noise characters
    .BlackListCharacters = "`~@#$%&*"
}

Dim ocrInput As New OcrInput()
' Load the input image
ocrInput.LoadImage("advanced-input.png")
' Perform OCR on the input image with ReadPhoto method
Dim results = ocr.ReadPhoto(ocrInput)

' Print the filtered text result to the console
Console.WriteLine(results.Text)
$vbLabelText   $csharpLabel

Çıktı

Yalnızca beyaz listeye alınmış plaka karakterlerini gösteren OCR çıktısı

Beyaz liste filtrelemesi sonuçlarda açıkça görülebilir:

  • "Plate: ABC-1234" ifadesi "P ABC-1234" olarak çevrilir. Küçük harfli "late:" kelimesi çıkarılırken, plaka numarası aynen korunur.
  • "VIN: 1HGBH41JXMN109186" ifadesi "VIN 1HGBH41JXMN109186" şeklinde çevrilmelidir. İki nokta üst üste işareti kaldırılır, ancak büyük harfli VIN ve tam sayı korunur.
  • "Owner: john.doe@email.com" ifadesi "O" olarak değiştirilmelidir. E-postadaki tüm küçük harfler ve noktalama işaretleri kaldırılmıştır.
  • "Bölge: CA-90210 | "Zone #5" ifadesi "R CA-90210 Z 5" olarak **çevrilir**. Pipe (|) and hash (#) kaldırılırken, büyük harfler ve sayılar korunur.
  • "Ücret: 125,00 $ + vergi*" ifadesi "F 12500" olarak çevrilir. Dolar işareti, ondalık nokta, Plus işareti ve küçük harfli "tax" kelimesi kaldırılmıştır.
  • "Ref: ~record_v2^final" ifadesi "R 2" olarak çevrilir. Tilde (~), alt çizgi, caret (^) ve tüm küçük harfler kaldırılır.

Aynı WhiteListCharacters ve BlackListCharacters yaklaşımı, sadece plaka numaraları için değil, her türlü belge türü için geçerlidir. Bir sonraki bölümde, aynı geçişte BARCODE'ları ve tablo yapılarını algılamak için bir okuyucunun nasıl genişletileceği gösterilmektedir.

BarCode ve Veri Tablosu Okuma Ayarları

IronOCR, metinlerin yanı sıra belgelerdeki BARCODE'ları ve yapılandırılmış tabloları da algılayabilir. Bu özellikler TesseractConfiguration aracılığıyla kontrol edilir:

IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    // Enable barcode detection within documents
    ReadBarCodes = true,

    // Enable table structure detection
    ReadDataTables = true,
};
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    // Enable barcode detection within documents
    ReadBarCodes = true,

    // Enable table structure detection
    ReadDataTables = true,
};
Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .ReadBarCodes = True,
    .ReadDataTables = True
}
$vbLabelText   $csharpLabel
  • ReadBarCodes: true olarak ayarlandığında, IronOCR metnin yanı sıra belgede bulunan BarCODE'ları da tarar. BarCode algılamayı atlamak ve BarCode beklenmediğinde işlemeyi hızlandırmak için false olarak ayarlayın.
  • ReadDataTables: true olarak ayarlandığında, Tesseract belgedeki tablo yapılarını algılamaya ve korumaya çalışır. Bu, faturalar, raporlar ve diğer tablo biçimindeki belgeler için kullanışlıdır.

Bu seçenekler, karmaşık belgelerden neyin çıkarılacağını hassas bir şekilde kontrol etmek için WhiteListCharacters ve BlackListCharacters ile birleştirilebilir.

Filtreleme ve algılama, neyin çıkarılacağını kontrol ederken, düzen yorumlaması ayrı bir konudur. Bir sonraki bölümde, belge türü için doğru PageSegmentationMode'nin nasıl seçileceği ele alınmaktadır.

Sayfa Bölünme Modunu Kontrol Etme

PageSegmentationMode, Tesseract'a tanıma işleminden önce giriş görüntüsünü nasıl bölümlere ayıracağını bildirir. Belirli bir düzen için yanlış modun seçilmesi, motorun metni yanlış okumasına veya tamamen atlamasına neden olur.

Mod Kullanım Örneği
AutoOsd Yön ve yazı tipi algılama ile otomatik mizanpaj analizi
Auto OSD olmadan otomatik düzen analizi (varsayılan)
SingleColumn Görselin tek sütunlu bir metin olduğu varsayılır
SingleBlock Görselin tek bir düz metin bloğu olduğu varsayılır
SingleLine Görselin tek satırlık bir metin olduğu varsayılır
SparseText Herhangi bir sırayla mümkün olduğunca fazla metin bulur

Tek satırlık bir etiket veya başlık için SingleLine, çok bloklu analizi ortadan kaldırır ve hem hızı hem de doğruluğu artırır.

Giriş

single-line-label.png, tam olarak bir satır kalın Courier metni içeren dar bir nakliye etiketidir: SHIPPING LABEL: TRK-2024-XR9-001.

OCR SingleLine segmentasyon modu için tek satırlı nakliye etiketi
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    PageSegmentationMode = TesseractPageSegmentationMode.SingleLine,
};

using OcrInput input = new OcrInput();
input.LoadImage("single-line-label.png");

OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    PageSegmentationMode = TesseractPageSegmentationMode.SingleLine,
};

using OcrInput input = new OcrInput();
input.LoadImage("single-line-label.png");

OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
Imports IronOcr

Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .PageSegmentationMode = TesseractPageSegmentationMode.SingleLine
}

Using input As New OcrInput()
    input.LoadImage("single-line-label.png")

    Dim result As OcrResult = ocr.Read(input)
    Console.WriteLine(result.Text)
End Using
$vbLabelText   $csharpLabel

Metin yerleşiminin düzensiz olduğu taranmış bir sayfada, SparseText, Auto'den daha fazla içeriği kurtarır.

Giriş

receipt-scan.png, dört satırlık (kahve, muffin, meyve suyu, granola bar), kesikli ayırıcı, ara toplam, vergi ve toplam içeren bir Corner Market termal fişidir. Bu, sabit blok segmentasyonunun farklı yatay konumlardaki girdileri kaçırdığı türden bir düzenidir.

OCR için termal makbuz SparseText segmentasyon modu
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    PageSegmentationMode = TesseractPageSegmentationMode.SparseText,
};

using OcrInput input = new OcrInput();
input.LoadImage("receipt-scan.png");

OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    PageSegmentationMode = TesseractPageSegmentationMode.SparseText,
};

using OcrInput input = new OcrInput();
input.LoadImage("receipt-scan.png");

OcrResult result = ocr.Read(input);
Console.WriteLine(result.Text);
Imports IronOcr

Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .PageSegmentationMode = TesseractPageSegmentationMode.SparseText
}

Using input As New OcrInput()
    input.LoadImage("receipt-scan.png")

    Dim result As OcrResult = ocr.Read(input)
    Console.WriteLine(result.Text)
End Using
$vbLabelText   $csharpLabel

Belge türüne göre düzen segmentasyonu ayarlandıktan sonra, bir sonraki adım, sonraki işlemler için çıktı formatını kontrol etmektir.

Aranabilir PDF'ler ve hOCR Çıktıları Oluşturma

RenderSearchablePdf ve RenderHocr, IronOCR'nin düz metin sonucunun yanı sıra ürettiği çıktı biçimlerini kontrol eder.

RenderSearchablePdf, orijinal görüntünün üzerine görünmez bir metin katmanı yerleştirerek, taranan görüntü görünür kalırken kullanıcıların metni arayabileceği ve kopyalayabileceği bir PDF oluşturur. Bu, belge arşivleme iş akışları için standart çıktı formatıdır.

Giriş

scanned-document.pdf, IronOCR Solutions Ltd. tarafından gönderilen tek sayfalık bir iş mektubudur (tarih: 15 Mart 2024, referans: DOC-2024-OCR-0315). Sonuç searchable-output.pdf olarak kaydedilir.

IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    RenderSearchablePdf = true,
};

using OcrInput input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

OcrResult result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    RenderSearchablePdf = true,
};

using OcrInput input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

OcrResult result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
Imports IronTesseract

Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .RenderSearchablePdf = True
}

Using input As New OcrInput()
    input.LoadPdf("scanned-document.pdf")

    Dim result As OcrResult = ocr.Read(input)
    result.SaveAsSearchablePdf("searchable-output.pdf")
End Using
$vbLabelText   $csharpLabel

Çıktı

Çıktı, girdiyle aynı görünen ancak gizli bir metin katmanı içeren bir PDF dosyasıdır. searchable-output.pdf dosyasını açın ve Ctrl+F tuşlarını kullanarak gömülü metnin aranabilir ve kopyalanabilir olduğunu doğrulayın.

RenderHocr, metin içeriğini her WORD kelimenin sınır kutusu koordinatlarıyla birlikte kodlayan bir HTML dosyası olan hOCR belgesi üretir. Bu, redaksiyon motorları veya belge düzeni analizi gibi, aşağı akış araçlarının WORD kelimelerin konumunun kesin olarak belirlenmesini gerektirdiği durumlarda yararlıdır.

Giriş

document-page.png, "2024 1. Çeyrek Özet" başlığını taşıyan ve gelir, işletme maliyetleri ve büyüme faktörlerini kapsayan iki paragraflık finansal veriler içeren bir belge sayfasıdır. Sonuç output.html olarak kaydedilir.

hOCR sınır kutusu çıktısı için belge sayfası girişi
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    RenderHocr = true,
};

using OcrInput input = new OcrInput();
input.LoadImage("document-page.png");

OcrResult result = ocr.Read(input);
result.SaveAsHocrFile("output.html");
IronTesseract ocr = new IronTesseract();

ocr.Co/nfiguration = new TesseractConfiguration
{
    RenderHocr = true,
};

using OcrInput input = new OcrInput();
input.LoadImage("document-page.png");

OcrResult result = ocr.Read(input);
result.SaveAsHocrFile("output.html");
Imports IronTesseract

Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .RenderHocr = True
}

Using input As New OcrInput()
    input.LoadImage("document-page.png")

    Dim result As OcrResult = ocr.Read(input)
    result.SaveAsHocrFile("output.html")
End Using
$vbLabelText   $csharpLabel

Çıktı

output.html, tanınan her WORD'u sınırlayıcı kutu koordinatlarıyla kodlar. hOCR yapısını incelemek için dosyayı bir tarayıcıda açın veya düzen analizi veya düzenleme için dosyayı bir alt araçta işleyin.

Tek bir okuma çağrısından üç çıktı formatının tümüne (düz metin, aranabilir PDF ve hOCR) ihtiyacınız varsa, her iki bayrak da aynı anda etkinleştirilebilir.

Bu çıktı bayrakları, Latin alfabesi dışındaki yazılar da dahil olmak üzere, okunan dilden bağımsız olarak çalışır. Bir sonraki bölümde, Japonca metne karakter filtrelemesinin nasıl uygulanacağı gösterilmektedir.

Uluslararası Belgeler için Unicode Karakter Filtreleme

Çince, Japonca veya Korece dillerindeki uluslararası belgeler için, WhiteListCharacters ve BlackListCharacters özellikleri Unicode karakterleriyle çalışır. Bu, çıktıyı belirli yazı sistemleriyle sınırlamanıza olanak tanır; örneğin, Japonca için yalnızca Hiragana ve Katakana.

Lütfen dikkate alın Devam etmeden önce ilgili dil paketinin (ör. IronOcr.Languages.Japanese) yüklü olduğundan emin olun.

Giriş

Belge, bir başlık (テスト), Hiragana ve Katakana ile sesli işaret varyantlarının (プ, で) karıştığı bir Japonca cümle, yasaklanmış gürültü sembollerinin (★, ■) ve Kanji (価格) içeren bir fiyat satırı ile başka bir kara listeye alınmış sembol (§), daha fazla Kanji (購入), ek sesli işaret varyantları (プ, デ) ve temel Katakana (メモ, ール) içeren bir not satırı içerir. Beyaz liste yalnızca temel Hiragana, temel Katakana, rakamlar ve yaygın Japonca noktalama işaretlerini geçirir; Üç gürültü sembolü açıkça yasaklanmıştır.

OCR gelişmiş yapılandırma Japonca giriş

Hiragana ve Katakana için Unicode karakter aralıkları WhiteListCharacters içinde dize sabitleri olarak aktarılır; gürültü sembolleri ise BlackListCharacters içinde listelenmiştir.

Uyarı Konsol, Unicode karakterlerin görüntülenmesini desteklemeyebilir. Çıktıyı bir .txt dosyasına yönlendirmek, bu tür karakterlerle çalışırken sonuçları doğrulamanın güvenilir bir yoludur.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-configurations-for-advanced-reading-jp.cs
using IronOcr;
using System.IO;

IronTesseract ocr = new IronTesseract();

ocr.Configuration = new TesseractConfiguration
{
    // Whitelist only Hiragana, Katakana, numbers, and common Japanese punctuation
    WhiteListCharacters = "あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわをん" +
                            "アイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワヲン" +
                            "0123456789、。?!()¥ー",

    // Blacklist common noise/symbols you want to ignore
    BlackListCharacters = "★■§",
};

var ocrInput = new OcrInput();

// Load Japanese input image
ocrInput.LoadImage("jp.png");

// Perform OCR on the input image with ReadPhoto method
var results = ocr.ReadPhoto(ocrInput);

// Write the text result directly to a file named "output.txt"
File.WriteAllText("output.txt", results.Text);

// You can add this line to confirm the file was saved:
Console.WriteLine("OCR results saved to output.txt");
Imports IronOcr
Imports System.IO

Dim ocr As New IronTesseract()

ocr.Configuration = New TesseractConfiguration With {
    .WhiteListCharacters = "あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわをん" &
                           "アイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワヲン" &
                           "0123456789、。?!()¥ー",
    .BlackListCharacters = "★■§"
}

Dim ocrInput As New OcrInput()

' Load Japanese input image
ocrInput.LoadImage("jp.png")

' Perform OCR on the input image with ReadPhoto method
Dim results = ocr.ReadPhoto(ocrInput)

' Write the text result directly to a file named "output.txt"
File.WriteAllText("output.txt", results.Text)

' You can add this line to confirm the file was saved:
Console.WriteLine("OCR results saved to output.txt")
$vbLabelText   $csharpLabel

Çıktı

OCR gelişmiş yapılandırması Japonca çıktı

Filtrelenmiş çıktının tamamı jp-output.txt adlı metin dosyasında mevcuttur.

Beyaz liste yalnızca temel Hiragana ve Katakana karakterlerini içerdiğinden, プ (pu) ve デ (de) gibi türetilmiş sesli işaret varyantları çıkarılmıştır. 価格 (fiyat) ve 購入 (satın alma) gibi Kanji karakterleri de beyaz listeye alınmış karakter kümesinin dışında kaldıkları için hariç tutulmuştur. , ve § gibi kara listeye alınmış semboller, beyaz listeye bakılmaksızın aktif olarak kaldırılır.

Sırada ne yapmalıyım?

Gelişmiş okuma senaryoları için IronOCR'yi nasıl yapılandıracağınızı anladığınıza göre, şunları keşfedin:

Üretim amaçlı kullanım için, filigranları kaldırmak ve tüm işlevlere erişmek üzere lisans almayı unutmayın.

Sıkça Sorulan Sorular

IronOCR içinde TesseractConfiguration nedir?

IronOCR'da TesseractConfiguration, karakter beyaz listeleri, barkod okuma ve çok dilli destek gibi gelişmiş okuma yeteneklerini etkinleştirmenizi sağlayan OCR ayarlarını özelleştirmenize olanak tanır.

IronOCR'da karakter beyaz listesini nasıl ayarlayabilirim?

IronOCR'da, TesseractConfiguration'ı kullanarak bir karakter beyaz listesi ayarlayabilirsiniz, bu da OCR motorunun hangi karakterleri tanıması gerektiğini belirtmenize izin verir. Bu, plaka okuma gibi görevler için faydalıdır.

IronOCR barkodları ve veri tablolarını okuyabilir mi?

Evet, IronOCR, TesseractConfiguration özelliklerinde belirli ayarları değiştirerek barkodlar ve veri tabloları okuyacak şekilde yapılandırılabilir, bu da doğru OCR veri çıkarımı sağlar.

IronOCR, Çince, Japonca ve Korece gibi uluslararası dilleri destekliyor mu?

IronOCR, çok dilli TesseractConfiguration seçenekleri aracılığıyla Çince, Japonca ve Korece gibi uluslararası dilleri destekler.

IronOCR'da ileri düzey OCR yapılandırmalarını kullanmanın faydaları nelerdir?

IronOCR'da ileri düzey OCR yapılandırmalarından yararlanmak, dil odaklı metin tanıma ve yapılandırılmış veri çıkarımı gibi özel görevlerin desteklenmesiyle daha hassas ve verimli metin tanıma sağlar.

IronOCR'u belirli OCR görevleri için optimize etmek mümkün mü?

Evet, IronOCR, karakter beyaz listeleri gibi ayarları yapılandırarak ve barkod veya tablo tanımayı etkinleştirerek belirli OCR görevleri için optimize edilebilir, hedeflenen uygulamalar için performansı artırır.

IronOCR'da çok dilli desteği nasıl etkinleştiririm?

IronOCR'da çok dilli desteği etkinleştirmek için, TesseractConfiguration'daki dil ayarlarını değiştirerek, OCR motorunun birden fazla dildeki metni tanıyabilmesine olanak tanıyabilirsiniz.

Karakter beyaz listeleri nedir ve IronOCR'de nasıl kullanılır?

IronOCR'deki karakter beyaz listeleri, OCR motorunun tanıması için yapılandırılmış belirli karakterlerin bir listesidir, sayısal veya belirli metin desenlerini okuma gibi odaklanmış görevler için idealdir.

IronOCR, yapılandırılmış veri formatlarını okumak için kullanılabilir mi?

Evet, IronOCR, barkodlar ve tablolar gibi yapılandırılmış veri formatlarını okumak ve işlemek için yapılandırılabilir ve çeşitli veri çıkarım ihtiyaçları için çok yönlü OCR yetenekleri sağlar.

IronOCR'da ileri düzey metin tanıma için hangi yapılandırmalar mevcuttur?

IronOCR, belirli gereksinimlere göre ileri düzey metin tanıma yeteneklerini artırmak için karakter beyaz listeleri, çok dilli destek ve barkod tanıma gibi yapılandırmalar sunar.

Curtis Chau
Teknik Yazar

Curtis Chau, Bilgisayar Bilimleri alanında Lisans Derecesine (Carleton Üniversitesi) sahip ve Node.js, TypeScript, JavaScript ve React konularında uzmanlaşmış ön uç geliştirmeyle ilgileniyor. Sezgisel ve estetik açıdan hoş kullanıcı arayüzleri oluşturma tutkunu, Curtis modern çerçevelerle çalışmayı ve iyi yapı...

Daha Fazla Oku
Başlamaya Hazır mısınız?
Nuget İndirmeler 5,896,332 | Sürüm: 2026.5 just released
Still Scrolling Icon

Hâlâ Kaydırıyor Musunuz?

Hızlıca kanıt ister misiniz? PM > Install-Package IronOcr
örnek çalıştır görüntünüzün aranabilir metin haline gelmesini izleyin.