C#və .NET-də Azərbaycan OCR

Bu sənədin digər versiyaları:

IronOCR .NET kodlayıcılarına şəkillərdən və PDF sənədlərindən mətni Azərbaycan dili daxil olmaqla 126 dildə oxumağa imkan verən C#proqram komponentidir.

Yalnızca .NET inkişaf etdiriciləri üçün qurulmuş və sürət və dəqiqlik baxımından digər Tesseract mühərriklərini üstələyən inkişaf etmiş bir Tesseract çəngəlidir.

IronOcr.Languages.Azerbaijani

Bu paketdə .NET üçün 138 OCR dili var:

  • Azərbaycan dili
  • Azərbaycan Ən Yaxşısı
  • Azerbaycan tez
  • Azərbaycan dili
  • Azərbaycan dili Kiril Ən Yaxşısı
  • Azərbaycan dili KirilTez

Yükləyin

Azərbaycan Dili Paketi [azərbaycan dili]
* Download as Zip
* Install with
https://www.nuget.org/packages/IronOcr.Languages.Azerbaijani/'> NuGet

Quraşdırma

Etməli olduğumuz ilk şey Azərbaycan OCR paketimizi .NET layihənizə yükləməkdir.

PM> Install-Package IronOCR.Languages.Azerbaijani

Kod nümunəsi

Bu C#kod nümunəsi bir Image və ya PDF sənədindəki Azərbaycan mətnini oxuyur.

//PM> Install-Package IronOcr.Languages.Azerbaijani
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Azerbaijani;
using (var Input = new OcrInput(@"images\Azerbaijani.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Azerbaijani
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Azerbaijani;
using (var Input = new OcrInput(@"images\Azerbaijani.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Azerbaijani
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Azerbaijani
Using Input = New OcrInput("images\Azerbaijani.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

Niyə IronOCR seçməlisiniz?

IronOCR, qurulması asan, tam və sənədləşdirilmiş .NET proqram kitabxanasıdır.

Heç bir xarici veb xidmətindən istifadə etmədən, davam edən ödənişlərdən və ya internet üzərindən məxfi sənədlər göndərmədən % 99.8 + OCR dəqiqliyinə nail olmaq üçün IronOCR seçin.

Nə üçün C#inkişaf etdiriciləri Vanilla Tesseract əvəzinə IronOCR seçirlər:

  • Tək bir DLL və ya NuGet kimi quraşdırın
  • Qutudan çıxan Tesseract 5, 4 və 3 mühərrikləri üçün daxildir.
  • Dəqiqlik % 99,8 normal Tesseract-dan əhəmiyyətli dərəcədə üstündür.
  • Parlaq Sürət və MultiThreading
  • MVC, WebApp, Masaüstü, Konsol və Server Tətbiqinə uyğundur
  • İşləmək üçün Exes və ya C ++ kodu yoxdur
  • Tam PDF OCR dəstəyi
  • OCR-i demək olar ki, hər hansı bir Şəkil faylı və ya PDF şəklində yerinə yetirmək üçün
  • Tam .NET Core, Standard və FrameWork dəstəyi
  • Windows, Mac, Linux, Azure, Docker, Lambda, AWS-də yerləşdirin
  • Barkodları və QR kodlarını oxuyun
  • OCR'yi XHTML olaraq ixrac edin
  • Axtarış sənədlərini PDF sənədlərinə göndərin
  • Çox işləmə dəstəyi
  • 126 beynəlxalq dil, hamısı NuGet və ya OcrData faylları vasitəsi ilə idarə olunur
  • Şəkillər, Koordinatlar, Statistika və Yazı tiplərini çıxarın. Yalnız mətn deyil.
  • Ticarət və mülkiyyət tətbiqetmələrində Tesseract OCR-nin yenidən paylanması üçün istifadə edilə bilər.

IronOCR, real dünya şəkilləri və fotoşəkil kimi qüsurlu sənədlərlə və ya rəqəmsal səs-küy və ya qüsurlu ola biləcək aşağı çözünürlüklü taramalarla işləyərkən parlayır.

.NET platforması üçün digər pulsuz OCR kitabxanaları, digər .net tesseract API və veb xidmətləri bu real dünya istifadəsi hallarında o qədər də yaxşı nəticə vermir.

Tesseract 5 ilə OCR - C#ilə kodlamaya başlayın

Aşağıdakı kod nümunəsi C#və ya VB .NET istifadə edərək bir görüntüdən mətn oxumağın nə qədər asan olduğunu göstərir.

OneLiner

string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
VB   C#

Yapılandırılabilir Salam Dünya

// PM> Install-Package IronOCR.Languages.Azerbaijani
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Azerbaijani;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... istənilən sayda şəkil əlavə edə bilərsiniz
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Azerbaijani
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Azerbaijani;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... istənilən sayda şəkil əlavə edə bilərsiniz
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Azerbaijani
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Azerbaijani
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

C#PDF OCR

Eyni yanaşma hər hansı bir PDF sənədindən mətn çıxarmaq üçün də istifadə edilə bilər.

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Azerbaijani;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// OCR-ə xüsusi PDF səhifə nömrələrini də seçə bilərik

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// PDF-nin hər səhifəsi üçün 1 səhifə
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Azerbaijani;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// OCR-ə xüsusi PDF səhifə nömrələrini də seçə bilərik

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// PDF-nin hər səhifəsi üçün 1 səhifə
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Azerbaijani
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' OCR-ə xüsusi PDF səhifə nömrələrini də seçə bilərik

Dim Result = Ocr.Read(input)

Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' PDF-nin hər səhifəsi üçün 1 səhifə
End Using
VB   C#

MultiPage TIFF-lər üçün OCR

Çox səhifə sənədləri daxil olmaqla OCR TIFF fayl formatını oxumaq. TIFF də axtarış mətni ilə birbaşa PDF sənədinə çevrilə bilər.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Azerbaijani;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Azerbaijani;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Azerbaijani

Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Barkodlar və QR

Dəmir OCR-nin bənzərsiz bir xüsusiyyəti mətni axtararkən sənədlərdən barkodları və QR kodlarını oxuya bilər. OcrResult.OcrBarcode Sınıfının OcrResult.OcrBarcode , inkişaf etdiriciyə hər skan edilmiş barkod haqqında ətraflı məlumat verir.

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// növ və yer xüsusiyyətləri də ifşa edildi
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// növ və yer xüsusiyyətləri də ifşa edildi
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True

Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' növ və yer xüsusiyyətləri də ifşa edildi
Next Barcode
End Using
VB   C#

Xüsusi Şəkillər Sahələrində OCR

Bütün IronOCR-nin tarama və oxu metodları bir səhifənin və ya səhifələrin hansı hissəsindən mətn oxumaq istədiyimizi dəqiq müəyyənləşdirmək imkanı verir. Bu standartlaşdırılmış formaları nəzərdən keçirdiyimiz zaman çox faydalıdır və çox vaxta qənaət edə və səmərəliliyi artıra bilər.

Məhsul bölgələrini istifadə etmək üçün System.Drawing ə bir sistem System.Drawing əlavə etməliyik ki, System.Drawing.Rectangle obyektini istifadə edə bilək.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Azerbaijani;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Ölçülər px şəklindədir

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Azerbaijani;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Ölçülər px şəklindədir

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Azerbaijani

Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
	.X = 215,
	.Y = 1250,
	.Height = 280,
	.Width = 1335
}
' Ölçülər px şəklindədir

Input.Add("document.png", ContentArea)

Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Aşağı keyfiyyətli taramalar üçün OCR

IronOCR OcrInput sinfi normal Tesseract'in oxuya bilmədiyi taramaları düzəldə bilər.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Azerbaijani;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // rəqəmsal səs-küy və zəif tarama düzəldir
Input.Deskew(); // fırlanma və perspektivi düzəldir
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Azerbaijani;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // rəqəmsal səs-küy və zəif tarama düzəldir
Input.Deskew(); // fırlanma və perspektivi düzəldir
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Azerbaijani

Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' rəqəmsal səs-küy və zəif tarama düzəldir
Input.Deskew() ' fırlanma və perspektivi düzəldir
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR nəticələrini Aranabilir PDF olaraq ixrac edin

Kopyalanan mətn simləri ilə PDF şəkli. Axtarış motorları və verilənlər bazaları tərəfindən indeksləşdirilə bilər.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Azerbaijani;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Azerbaijani;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Azerbaijani

Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")

Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

TIFF-dən axtarılan PDF Konversiyasına

TIFF sənədini (və ya hər hansı bir şəkil sənəd qrupunu) birbaşa intranet, veb sayt və google axtarış motorları ilə indeksləşdirilə bilən axtarışa verilən bir PDF-yə köçürün.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Azerbaijani;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Azerbaijani;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Azerbaijani

Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

OCR nəticələrini HTML olaraq ixrac edin

OCR görüntüsünü XHTML-ə çevirmək.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Azerbaijani;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Azerbaijani;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Azerbaijani
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
VB   C#

OCR görüntü genişləndirmə filtrləri

IronOCR, OCR performansını yaxşılaşdırmaq üçün OcrInput obyektləri üçün unikal filtrlər təqdim edir.

Şəkil genişləndirmə kodu nümunəsi

Daha yaxşı, daha sürətli OCR nəticələri əldə etmək üçün OCR giriş şəkillərini daha keyfiyyətli edir.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Azerbaijani;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // rəqəmsal səs-küy və zəif tarama düzəldir
Input.Deskew(); // fırlanma və perspektivi düzəldir
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Azerbaijani;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // rəqəmsal səs-küy və zəif tarama düzəldir
Input.Deskew(); // fırlanma və perspektivi düzəldir
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Azerbaijani

Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' rəqəmsal səs-küy və zəif tarama düzəldir
Input.Deskew() ' fırlanma və perspektivi düzəldir
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR şəkil filtrlərinin siyahısı

IronOCR-da quraşdırılmış OCR performansını artırmaq üçün giriş filtrlərinə aşağıdakılar daxildir:

  • OcrInput.Rotate (ikiqat dərəcə) - Şəkilləri saat istiqamətində bir neçə dərəcə ilə çevirir . Saat yönünün əksinə mənfi rəqəmlərdən istifadə edin.
  • OcrInput.Binarize () - Bu şəkil süzgəci hər pikselin ortası olmayan qara və ya ağ rəngə çevrilir. Mətnin fonla çox aşağı kontrastlı OCR performans hallarını inkişaf etdirə bilər.
  • OcrInput.ToGrayScale () - Bu şəkil filtri hər pikselin rəngini kölgəyə çevirir. OCR dəqiqliyini yaxşılaşdırmaq ehtimalı yoxdur, lakin sürəti artıra bilər
  • OcrInput.Contrast () - Kontrastı avtomatik olaraq artırır. Bu filtr tez-tez aşağı kontrastlı taramalarda OCR sürətini və dəqiqliyini artırır.
  • OcrInput.DeNoise () - Rəqəmsal səsləri aradan qaldırır . Bu filtr yalnız səs-küy gözlənilən yerdə istifadə olunmalıdır.
  • OcrInput.Invert () - Hər rəngi tərs çevirir. Məsələn Ağ qara olur: qara ağ olur.
  • OcrInput.Dilate () - Ətraflı Morfologiya. Dilatasiya bir görüntüdəki obyektlərin sərhədlərinə piksel əlavə edir. Erode ilə üzbəüz
  • OcrInput.Erode () - Ətraflı Morfologiya. Eroziya , obyekt sərhədlərindəki pikselləri silər, əksinə Dilate
  • OcrInput.Deskew () - Görünüşü doğru yola və ortogonal olduğu üçün döndürür . Bu, OCR üçün çox faydalıdır, çünki əyilmiş taramalar üçün Tesseract toleransı 5 dərəcə qədər ola bilər.
  • OcrInput.DeepCleanBackgroundNoise () - Ağır fon səs-küyünün çıxarılması. Bu filtri yalnız həddindən artıq sənəd fon səs-küyünün bilinməsi halında istifadə edin, çünki bu filtr təmiz sənədlərin OCR dəqiqliyini azaltmaq riski daşıyacaq və CPU çox bahalıdır.
  • OcrInput.EnhanceResolution - Aşağı keyfiyyətli şəkillərin qətnaməsini artırır . OcrInput.MinimumDPIOcrInput.TargetDPI avtomatik olaraq aşağı çözünürlüklü girişləri tutub həll edəcəyi üçün bu filtrə tez-tez ehtiyac yoxdur.

CleanBackgroundNoise. Bu bir qədər vaxt aparan bir ayardır; bununla birlikdə kitabxanaya rəqəmsal səs içərisindəki rəqəmsal səs-küyləri, kağız qırışlarını və digər qüsurları avtomatik olaraq digər OCR kitabxanaları tərəfindən oxunma qabiliyyətinə səbəb ola biləcək şəkildə təmizləməyə imkan verir.

EnhanceContrast , Dəmir OCR-nin bir şəkil fonunda mətnin kontrastını avtomatik olaraq artırmasına, OCR-nin dəqiqliyini artırmasına və ümumiyyətlə OCR-nin performansını və sürətini artırmasına səbəb olan bir ayardır.

EnhanceResolution , aşağı çözünürlüklü şəkilləri (275 dpi-dən aşağı) avtomatik olaraq aşkar edəcək və görüntüyü avtomatik olaraq yüksək səviyyəyə qaldıracaq və sonra OCR kitabxanası tərəfindən mükəmməl oxunması üçün bütün mətni kəskinləşdirən bir ayardır. Bu əməliyyat özlüyündə çox vaxt aparsa da, ümumiyyətlə bir görüntü üzərində bir OCR əməliyyatı üçün ümumi vaxtı azaldır.

Dil Dəmir OCR, 22 beynəlxalq dil paketini dəstəkləyir və dil ayarı, bir OCR əməliyyatı üçün tətbiq ediləcək bir və ya daha çox dil seçmək üçün istifadə edilə bilər.

Strategy IronOCR iki strategiyanı dəstəkləyir. Ya bir sənədin sürətli və daha az dəqiq bir taramasına gedə bilərik, ya da bir cümlə içərisində sözlərin bir-birinə olan statistik əlaqəsinə baxaraq OCR mətninin dəqiqliyini avtomatik olaraq artırmaq üçün bəzi süni zəka modellərindən istifadə edən inkişaf etmiş bir strategiyadan istifadə edə bilərik. .

ColorSpace , boz tonda və ya rəngdə OCR seçə biləcəyimiz bir ayardır. Ümumiyyətlə, gri tonlama ən yaxşı seçimdir. Lakin bəzən oxşar rəngli, lakin çox fərqli rəngli mətnlər və ya arxa planlar olduqda tam rəngli rəng sahəsi daha yaxşı nəticələr verəcəkdir.

WhiteTextOnDarkBackgrounds aşkarlayın. Ümumiyyətlə, bütün OCR kitabxanaları ağ fonlarda qara mətn görməsini gözləyirlər. Bu parametr Dəmir OCR-yə neqativləri və ya ağ mətnli qaranlıq səhifələri avtomatik olaraq aşkar edib oxumağa imkan verir.

InputImageType. Bu parametr, geliştiricinin OCR kitabxanasına tam bir sənəd və ya ekran görüntüsü kimi bir parçaya baxıb-baxmadığına dair rəhbərlik etməsinə imkan verir.

RotateAndStraighten , Dəmir OCR-yə təkrar fırlanan deyil, mətn sənədlərinin fotoşəkilləri kimi perspektivi ehtiva edən bənzərsiz oxuma qabiliyyətini verən inkişaf etmiş bir ayardır.

ReadBarcodes , IronOCR-yə mətn oxuduğu üçün böyük bir əlavə vaxt yükləmədən avtomatik olaraq səhifələrdə barkodları və QR kodlarını oxumağa imkan verən faydalı bir xüsusiyyətdir.

RəngDərinlik. Bu parametr, bir rəngin dərinliyini təyin etmək üçün OCR kitabxanasının piksel başına neçə bit istifadə edəcəyini təyin edir. Daha yüksək rəng dərinliyi OCR keyfiyyətini artıra bilər, eyni zamanda OCR əməliyyatının başa çatması üçün lazım olan vaxtı da artıracaqdır.

126 Dil Paketi

IronOCR , bu veb saytdan və ya NuGet Paket Menecerindən yüklənə bilən DLL olaraq paylanan dil paketləri vasitəsilə 126 beynəlxalq dili dəstəkləyir.

Dillər Alman, Fransız, İngilis, Çin, Yapon və daha çoxunu əhatə edir. MRZ pasportu, MICR çekləri, Maliyyə məlumatları, nömrələr və daha çoxu üçün mütəxəssis dil paketləri mövcuddur. Özünüz yaratdıqlarınız da daxil olmaqla hər hansı bir tesseract ".traineddata" sənədindən də istifadə edə bilərsiniz.

Dil nümunəsi

Digər OCR dillərindən istifadə.

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Lazım gələrsə şəkil filtrləri əlavə edin
// Bu vəziyyətdə düşünülmüş giriş belə çox keyfiyyətsizdir
// IronTesseract ənənəvi Tesseract-ın edə bilmədiklərini oxuya bilər.

var Result = Ocr.Read(input);

// Konsol ərəb dilini Windows-da asanlıqla çap edə bilmir.
// Bunun əvəzinə diskdə saxlayaq.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Lazım gələrsə şəkil filtrləri əlavə edin
// Bu vəziyyətdə düşünülmüş giriş belə çox keyfiyyətsizdir
// IronTesseract ənənəvi Tesseract-ın edə bilmədiklərini oxuya bilər.

var Result = Ocr.Read(input);

// Konsol ərəb dilini Windows-da asanlıqla çap edə bilmir.
// Bunun əvəzinə diskdə saxlayaq.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' Lazım gələrsə şəkil filtrləri əlavə edin
' Bu vəziyyətdə düşünülmüş giriş belə çox keyfiyyətsizdir
' IronTesseract ənənəvi Tesseract-ın edə bilmədiklərini oxuya bilər.

Dim Result = Ocr.Read(input)

' Konsol ərəb dilini Windows-da asanlıqla çap edə bilmir.
' Bunun əvəzinə diskdə saxlayaq.
Result.SaveAsTextFile("arabic.txt")
End Using
VB   C#

Çox dil nümunəsi

Eyni zamanda birdən çox dildən istifadə edərək OCR etmək mümkündür. Bu, həqiqətən Unicode sənədlərində ingilis dilində metadata və url əldə etməyə kömək edə bilər.

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Azerbaijani);

// İstənilən sayda dil əlavə edə bilərik

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Azerbaijani);

// İstənilən sayda dil əlavə edə bilərik

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Azerbaijani)

' İstənilən sayda dil əlavə edə bilərik

Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
VB   C#

Ətraflı OCR nəticələri obyektləri

Dəmir OCR hər OCR əməliyyatı üçün bir OCR nəticə obyektini qaytarır. Ümumiyyətlə, inkişaf etdiricilər yalnız bu obyektin mətn xüsusiyyətini görüntüdən skan edilmiş mətn almaq üçün istifadə edirlər. Bununla birlikdə, OCR nəticələri DOM bundan daha inkişaf etmişdir.

using IronOcr;
using System.Drawing; //Məclis İstinadını əlavə edin

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Azerbaijani;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! Vacibdir

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// Kütləvi, ətraflı bir API tapmaq üçün buranı araşdırın:
// - Səhifələr, bloklar, parafaflar, sətirlər, sözlər, işarələr
// - Görüntü İxracı, Şriftlər Koordinatları, Statistik Məlumat
}
using IronOcr;
using System.Drawing; //Məclis İstinadını əlavə edin

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Azerbaijani;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! Vacibdir

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// Kütləvi, ətraflı bir API tapmaq üçün buranı araşdırın:
// - Səhifələr, bloklar, parafaflar, sətirlər, sözlər, işarələr
// - Görüntü İxracı, Şriftlər Koordinatları, Statistik Məlumat
}
Imports IronOcr
Imports System.Drawing 'Məclis İstinadını əlavə edin

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Azerbaijani
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '! Vacibdir

Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages(0).Words
Dim Barcodes = Result.Barcodes
' Kütləvi, ətraflı bir API tapmaq üçün buranı araşdırın:
' - Səhifələr, bloklar, parafaflar, sətirlər, sözlər, işarələr
' - Görüntü İxracı, Şriftlər Koordinatları, Statistik Məlumat
End Using
VB   C#

Performans

IronOCR performans tənzimləməsinə və ya giriş şəkillərini ağır şəkildə dəyişdirməyə ehtiyac olmadan qutudan kənarda işləyir.

Sürət parıldayır: IronOcr.2020 + 10 qat daha sürətli və əvvəlki istehsallardan 250% daha az səhv edir.

Daha ətraflı

C #, VB, F # və ya digər hər hansı bir .NET dilində OCR haqqında daha çox məlumat əldə etmək üçün zəhmət olmasa Dəmir OCR-nin necə istifadə olunacağına dair real nümunələr verən icma dərsliklərimizi oxuyun və ən yaxşısını necə əldə edə biləcəyinizi izah edin. bu kitabxana.

.NET inkişaf etdiriciləri üçün tam bir obyekt referansı da mövcuddur.