Српски ОЦР у Ц # и .Нет

Остале верзије овог документа:

ИронОЦР је програмска компонента Ц # која омогућава .НЕТ кодерима да читају текст са слика и ПДФ докумената на 126 језика, укључујући српски.

То је напредна вилица Тессерацт, направљена искључиво за .НЕТ програмере и редовно надмашује остале Тессерацт моторе и брзином и тачношћу.

Садржај ИронОцр.Лангуагес.Сербиан

Овај пакет садржи 105 ОЦР језика за .НЕТ:

  • Српски
  • СербианБест
  • СербианФаст
  • СербианЛатин
  • СербианЛатинБест
  • СербианЛатинФаст

Преузимање

Српски језички пакет [српски језик]
* Download as Зип
* Install with
https://www.nuget.org/packages/IronOcr.Languages.Serbian/'> НуГет

Инсталација

Прво што морамо да урадимо је да инсталирамо наш српски ОЦР пакет на ваш .НЕТ пројекат.

PM> Install-Package IronOCR.Languages.Serbian

Пример кода

Овај пример Ц # кода чита српски текст из Имаге или ПДФ документа.

//PM> Install-Package IronOcr.Languages.Serbian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Serbian;
using (var Input = new OcrInput(@"images\Serbian.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Serbian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Serbian;
using (var Input = new OcrInput(@"images\Serbian.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Serbian
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Serbian
Using Input = New OcrInput("images\Serbian.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

Зашто одабрати ИронОЦР?

Ирон ОЦР је једноставна за инсталацију, комплетна и добро документована .НЕТ софтверска библиотека.

Изаберите ИронОЦР да бисте постигли тачност 99,8% + ОЦР без коришћења било каквих спољних веб услуга, текућих накнада или слања поверљивих докумената путем Интернета.

Зашто програмери Ц # бирају ИронОЦР уместо Ванилла Тессерацт:

  • Инсталирајте као један ДЛЛ или Нугет
  • Укључује моторе Тессерацт 5, 4 и 3 из кутије.
  • Прецизност 99,8% значајно надмашује редовни Тессерацт.
  • Блазинг Спеед и МултиТхреадинг
  • Компатибилан са МВЦ, ВебАпп, Десктоп, Цонсоле и Сервер Апплицатион
  • Не постоји Екес или Ц ++ код за рад
  • Пуна ПДФ ОЦР подршка
  • Да бисте извршили ОЦР на готово било којој сликовној датотеци или ПДФ-у
  • Пуна подршка за .Нет Цоре, Стандард и ФрамеВорк
  • Примените на Виндовс, Мац, Линук, Азуре, Доцкер, Ламбда, АВС
  • Читајте бар кодове и КР кодове
  • Извезите ОЦР у КСХТМЛ
  • Извезите ОЦР у ПДФ документе који се могу претраживати
  • Мултитхреадинг подршка
  • 126 међународних језика којима се управља преко датотека Нугет или ОцрДата
  • Издвој слике, координате, статистику и фонтове. Не само текст.
  • Може се користити за дистрибуцију Тессерацт ОЦР-а унутар комерцијалних и власничких апликација.

ОЦР у гвожђу сјаји када радите са сликама из стварног света и несавршеним документима попут фотографија или скенирања мале резолуције који могу имати дигитални шум или недостатке.

Друге бесплатне ОЦР библиотеке за .НЕТ платформу, попут осталих .нет тессерацт АПИ-ја и веб услуга, немају толико добру изведбу у овим стварним случајевима употребе.

ОЦР са Тессерацт 5 - започните кодирање на Ц #

Узорак кода у наставку показује колико је лако читати текст са слике помоћу Ц # или ВБ .НЕТ.

ОнеЛинер

string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
VB   C#

Подесиви Хелло Ворлд

// PM> Install-Package IronOCR.Languages.Serbian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Serbian;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... можете додати било који број слика
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Serbian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Serbian;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... можете додати било који број слика
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Serbian
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Serbian
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Ц # ПДФ ОЦР

Исти приступ се на сличан начин може користити за издвајање текста из било ког ПДФ документа.

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Serbian;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Такође можемо одабрати одређене бројеве ПДФ страница за ОЦР

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 страница за сваку страницу ПДФ-а
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Serbian;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Такође можемо одабрати одређене бројеве ПДФ страница за ОЦР

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 страница за сваку страницу ПДФ-а
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Serbian
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' Такође можемо одабрати одређене бројеве ПДФ страница за ОЦР

Dim Result = Ocr.Read(input)

Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' 1 страница за сваку страницу ПДФ-а
End Using
VB   C#

ОЦР за МултиПаге ТИФФ

ОЦР читање ТИФФ формата датотеке, укључујући документе са више страница. ТИФФ се такође може претворити директно у ПДФ датотеку са текстом који се може претраживати.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Serbian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Serbian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Serbian

Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Бар кодови и КР

Јединствена карактеристика Ирон ОЦР је да може читати бар кодове и КР кодове из докумената док скенира текст. Примери класе OcrResult.OcrBarcode пружају програмеру детаљне информације о сваком скенираном баркоду.

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// врста и локација својства такође изложени
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// врста и локација својства такође изложени
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True

Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' врста и локација својства такође изложени
Next Barcode
End Using
VB   C#

ОЦР о одређеним областима слика

Све методе скенирања и читања Ирон ОЦР пружају могућност прецизног одређивања са ког дела странице или страница желимо да читамо текст. Ово је врло корисно када гледамо стандардизоване обрасце и можемо уштедети много времена и побољшати ефикасност.

Да бисмо користили обрезане регионе, мораћемо да додамо системску референцу на System.Drawing како бисмо могли да користимо System.Drawing.Rectangle објекат.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Serbian;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Димензије су у пк

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Serbian;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Димензије су у пк

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Serbian

Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
	.X = 215,
	.Y = 1250,
	.Height = 280,
	.Width = 1335
}
' Димензије су у пк

Input.Add("document.png", ContentArea)

Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

ОЦР за скенирање ниског квалитета

Класа Ирон ОЦР OcrInput може поправити скенирања која нормални Тессерацт не може прочитати.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Serbian;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // поправља дигитални шум и лоше скенирање
Input.Deskew(); // поправља ротацију и перспективу
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Serbian;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // поправља дигитални шум и лоше скенирање
Input.Deskew(); // поправља ротацију и перспективу
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Serbian

Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' поправља дигитални шум и лоше скенирање
Input.Deskew() ' поправља ротацију и перспективу
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Извези резултате ОЦР-а као ПДФ који се може претраживати

Слика у ПДФ са текстуалним низовима који се могу копирати. Може се индексирати помоћу претраживача и база података.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Serbian;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Serbian;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Serbian

Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")

Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

ТИФФ у ПДФ конверзију за претраживање

Претворите ТИФФ документ (или било коју групу датотека са сликама) директно у ПДФ који се може претраживати и који се може индексирати помоћу интранета, веб страница и Гоогле претраживача.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Serbian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Serbian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Serbian

Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

Извези резултате ОЦР-а као ХТМЛ

ОЦР претворба слике у КСХТМЛ.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Serbian;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Serbian;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Serbian
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
VB   C#

ОЦР филтери за побољшање слике

ИронОЦР нуди јединствене филтере за OcrInput објекте за побољшање перформанси ОЦР-а.

Пример кода за побољшање слике

Чини улазне слике ОЦР-ом квалитетнијим и даје боље, брже резултате ОЦР-а.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Serbian;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // поправља дигитални шум и лоше скенирање
Input.Deskew(); // поправља ротацију и перспективу
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Serbian;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // поправља дигитални шум и лоше скенирање
Input.Deskew(); // поправља ротацију и перспективу
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Serbian

Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' поправља дигитални шум и лоше скенирање
Input.Deskew() ' поправља ротацију и перспективу
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Списак ОЦР филтера слика

Улазни филтери за побољшање перформанси ОЦР-а који су уграђени у ИронОЦР укључују:

  • ОцрИнпут.Ротате (дупли степени) - Ротира слике за одређени број степени у смеру казаљке на сату. За смер у смеру казаљке на сату користите негативне бројеве.
  • ОцрИнпут.Бинаризе () - Овај филтер за слике сваки пиксел претвара у црно-бели без средине. Може побољшати случајеве перформанси ОЦР-а са врло малим контрастом текста у позадину.
  • ОцрИнпут.ТоГраиСцале () - Овај филтер слике претвара сваки пиксел у нијансу сивих тонова. Мало је вероватно да ће побољшати тачност ОЦР-а, али може побољшати брзину
  • ОцрИнпут.Цонтраст () - Аутоматски повећава контраст. Овај филтер често побољшава брзину и тачност ОЦР у скенирањима са малим контрастом.
  • ОцрИнпут.ДеНоисе () - Уклања дигитални шум. Овај филтер треба користити само тамо где се очекује бука.
  • ОцрИнпут.Инверт () - Инвертује сваку боју. Нпр. Бело постаје црно: црно постаје бело.
  • ОцрИнпут.Дилате () - Напредна морфологија. Дилатација додаје пикселе границама објеката на слици. Насупрот Ероде
  • ОцрИнпут.Ероде () - Напредна морфологија. Ерозија уклања пикселе на границама предмета Супротно од ширења
  • ОцрИнпут.Дескев () - Ротира слику тако да је прави пут према горе и правокутна. Ово је врло корисно за ОЦР јер толеранција Тессерацт-а на искривљена скенирања може бити и до 5 степени.
  • ОцрИнпут.ДеепЦлеанБацкгроундНоисе () - Уклањање јаке позадинске буке. Користите овај филтер само у случају да је позната екстремна позадинска бука докумената, јер ће овај филтер такође ризиковати да смањи тачност ОЦР-а чистих докумената и веома је скуп ЦПУ.
  • ОцрИнпут.ЕнханцеРесолутион - Побољшава резолуцију слика ниског квалитета. Овај филтер није често потребан, јер ОцрИнпут.МинимумДПИ и ОцрИнпут.ТаргетДПИ ће аутоматски ухватити и разрешити улазе ниске резолуције.

ЦлеанБацкгроундНоисе. Ово је поставка која донекле одузима време; међутим, омогућава библиотеци да аутоматски очисти дигитални шум, згужвање папира и друге недостатке унутар дигиталне слике, што би је иначе учинило неспособном за читање у другим ОЦР библиотекама.

ЕнханцеЦонтраст је поставка која доводи до тога да Ирон ОЦР аутоматски повећава контраст текста на позадини слике, повећавајући тачност ОЦР-а и генерално повећавајући перформансе и брзину ОЦР-а.

ЕнханцеРесолутион је поставка која ће аутоматски открити слике ниске резолуције (мање од 275 дпи) и аутоматски повећати слику, а затим изоштрити сав текст како би га ОЦР библиотека могла савршено прочитати. Иако је ова операција сама по себи дуготрајна, обично смањује укупно време за ОЦР операцију на слици.

ОЦР за језик Ирон Ирон подржава 22 међународна језичка пакета, а поставка језика може се користити за одабир једног или више језика који ће се применити за операцију ОЦР.

Стратегија Ирон ОЦР подржава две стратегије. Можемо се одлучити или за брзо и мање тачно скенирање документа или за напредну стратегију која користи неке моделе вештачке интелигенције за аутоматско побољшање тачности ОЦР текста гледајући статистички однос речи једна према другој у реченици .

ЦолорСпаце је поставка при којој можемо одабрати оптичко препознавање знакова у сивим тоновима или у боји. Генерално, сива скала је најбоља опција. Међутим, понекад када постоје текстови или позадине сличне нијансе, али врло различите боје, простор у боји у боји ће пружити боље резултате.

ДетецтВхитеТектОнДаркБацкгроундс. Генерално, све ОЦР библиотеке очекују да виде црни текст на белој позадини. Ова поставка омогућава Ирон ОЦР да аутоматски препозна негативе или тамне странице са белим текстом и прочита их.

ИнпутИмагеТипе. Ова поставка омогућава програмеру да води ОЦР библиотеку да ли гледа цео документ или исечак, као што је снимак екрана.

РотатеАндСтраигхтен је напредна поставка која омогућава Ирон ОЦР јединствену способност читања докумената који се не само ротирају, већ можда садрже и перспективу, попут фотографија текстуалних докумената.

РеадБарцоде је корисна функција која омогућава Ирон ОЦР-у да аутоматски чита бар кодове и КР кодове на страницама, јер такође чита текст, без додавања великог додатног временског оптерећења.

Дубина боје. Ова поставка одређује колико битова по пикселу ће ОЦР библиотека користити за одређивање дубине боје. Већа дубина боје може повећати квалитет ОЦР-а, али ће такође повећати време потребно за завршетак ОЦР операције.

126 Језички пакети

Ирон ОЦР подржава 126 међународних језика путем језичких пакета који се дистрибуирају као ДЛЛ-ови и који се могу преузети са ове веб странице или такође из НуГет Пацкаге Манагер-а .

Језици укључују немачки, француски, енглески, кинески, јапански и још много тога. Постоје специјални језички пакети за МРЗ пасоше, МИЦР чекове, финансијске податке, регистарске таблице и још много тога. Такође можете да користите било коју датотеку тессерацт „.траинеддата“ - укључујући оне које сами направите.

Пример језика

Коришћење других ОЦР језика.

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// По потреби додајте филтере за слике
// У овом случају, чак и мисаони унос је врло низак
// ИронТессерацт може прочитати оно што конвенционални Тессерацт не може.

var Result = Ocr.Read(input);

// Конзола не може лако да штампа арапски на Виндовс-у.
// Уместо тога, сачувајмо на диску.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// По потреби додајте филтере за слике
// У овом случају, чак и мисаони унос је врло низак
// ИронТессерацт може прочитати оно што конвенционални Тессерацт не може.

var Result = Ocr.Read(input);

// Конзола не може лако да штампа арапски на Виндовс-у.
// Уместо тога, сачувајмо на диску.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' По потреби додајте филтере за слике
' У овом случају, чак и мисаони унос је врло низак
' ИронТессерацт може прочитати оно што конвенционални Тессерацт не може.

Dim Result = Ocr.Read(input)

' Конзола не може лако да штампа арапски на Виндовс-у.
' Уместо тога, сачувајмо на диску.
Result.SaveAsTextFile("arabic.txt")
End Using
VB   C#

Пример више језика

Такође је могуће ОЦР помоћу више језика истовремено. Ово заиста може помоћи у добијању метаподатака и УРЛ-ова на енглеском језику у Уницоде документима.

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Serbian);

// Можемо додати било који број језика

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Serbian);

// Можемо додати било који број језика

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Serbian)

' Можемо додати било који број језика

Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
VB   C#

Детаљни објекти резултата ОЦР-а

Ирон ОЦР враћа објект резултата ОЦР за сваку ОЦР операцију. Генерално, програмери користе само својство текста овог објекта да би скенирали текст са слике. Међутим, ООМ резултати ДОМ-а су много напреднији од овог.

using IronOcr;
using System.Drawing; //Додајте референцу о скупштини

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Serbian;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! Важно

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Истражите овде да бисте пронашли масиван, детаљан АПИ:
// - Странице, блокови, парафафи, линије, речи, знакови
// - Извоз слика, Координате фонтова, Статистички подаци
}
using IronOcr;
using System.Drawing; //Додајте референцу о скупштини

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Serbian;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! Важно

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Истражите овде да бисте пронашли масиван, детаљан АПИ:
// - Странице, блокови, парафафи, линије, речи, знакови
// - Извоз слика, Координате фонтова, Статистички подаци
}
Imports IronOcr
Imports System.Drawing 'Додајте референцу о скупштини

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Serbian
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '! Важно

Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages (0).Words
Dim Barcodes = Result.Barcodes
' Истражите овде да бисте пронашли масиван, детаљан АПИ:
' - Странице, блокови, парафафи, линије, речи, знакови
' - Извоз слика, Координате фонтова, Статистички подаци
End Using
VB   C#

Перформансе

ИронОЦР ради изван оквира, без потребе за подешавањем перформанси или великом модификацијом улазних слика.

Брзина је запањујућа: ИронОцр.2020 + је до 10 пута бржи и чини преко 250% мање грешака него претходне верзије.

Сазнајте више

Да бисте сазнали више о ОЦР-у на Ц #, ВБ, Ф # или било ком другом .НЕТ језику, прочитајте наше водиче за заједницу , који дају примере из стварног света о томе како се Ирон ОЦР може користити и могу показати нијансе како извући најбоље из њега ову библиотеку.

Доступна је и пуна референца објекта за .НЕТ програмере .