Հայերեն OCR C#և .Net- ում

Այս փաստաթղթի այլ տարբերակներ.

IronOCR- ը C#ծրագրաշարի բաղադրիչ է, որը թույլ է տալիս .NET կոդավորողներին կարդալ տեքստեր պատկերներից և PDF փաստաթղթերից 126 լեզվով, ներառյալ հայերեն:

Այն Tesseract- ի առաջադեմ պատառաքաղ է, որը կառուցված է բացառապես .NET մշակողների համար և պարբերաբար գերազանցում է Tesseract- ի մյուս շարժիչներին `թե արագության, թե ճշգրտության համար:

IronOcr- ի լեզուների պարունակությունը: հայերեն

Այս փաթեթը պարունակում է 120 OCR լեզուներ .NET- ի համար.

  • ArmenianAlphabet
  • ArmenianAlphabetBest
  • ArmenianAlphabetFast
  • հայերեն
  • ArmenianBest
  • ArmenianFast

Ներբեռնում

Հայոց լեզվի փաթեթ [Հայերեն]
* Download as Zip
* Install with as
https://www.nuget.org/packages/IronOcr.Languages.Armenian/'> NuGet- ը

Տեղադրում

Առաջին բանը, որ մենք պետք է անենք, տեղադրել մեր հայերեն OCR փաթեթը ձեր .NET նախագծում:

PM> Install-Package IronOCR.Languages.Armenian

Կոդի օրինակ

C#կոդի այս օրինակը կարդում է հայերեն տեքստ Image կամ PDF փաստաթղթից:

//PM> Install-Package IronOcr.Languages.Armenian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Armenian;
using (var Input = new OcrInput(@"images\Armenian.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Armenian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Armenian;
using (var Input = new OcrInput(@"images\Armenian.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Armenian
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Armenian
Using Input = New OcrInput("images\Armenian.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

Ինչու ընտրել IronOCR- ը:

Iron OCR- ը տեղադրվող, ամբողջական և լավ փաստաթղթավորված .NET ծրագրաշարերի գրադարան է:

Ընտրեք IronOCR- ը ` 99.8% + OCR ճշգրտության հասնելու համար` առանց որևէ արտաքին վեբ ծառայությունների, ընթացիկ վճարների կամ ինտերնետով գաղտնի փաստաթղթեր ուղարկելու:

Ինչու C#մշակողները ընտրում են IronOCR- ը Vanilla Tesseract- ի փոխարեն.

  • Տեղադրեք որպես մեկ DLL կամ Nuget
  • Ներառում է տուփից դուրս Tesseract 5, 4 և 3 շարժիչները:
  • Acc շգրտությունը 99.8% -ը զգալիորեն գերազանցում է սովորական Tesseract- ին:
  • Բոցավառվող արագություն և բազմալեզու թեմա
  • Համատեղելի MVC, WebApp, Desktop, Console & Server Application
  • Exes կամ C ++ կոդ չկա, որի հետ աշխատելու համար
  • Ամբողջական PDF OCR աջակցություն
  • OCR կատարելու համար գրեթե ցանկացած Image ֆայլ կամ PDF
  • Լրիվ. Net Core, Standard և FrameWork աջակցություն
  • Տեղադրեք Windows, Mac, Linux, Azure, Docker, Lambda, AWS համակարգերում
  • Կարդացեք շտրիխ ծածկագրերը և QR կոդերը
  • Արտահանեք OCR- ը XHTML- ին
  • Արտահանեք OCR որոնվող PDF փաստաթղթեր
  • Բազմալեզու աջակցություն
  • 126 միջազգային լեզուներ, որոնք բոլորը կառավարվում են Nuget կամ OcrData ֆայլերի միջոցով
  • Պատկերներ, կոորդինատներ, վիճակագրություն և տառատեսակներ հանեք: Ոչ միայն տեքստ:
  • Կարող է օգտագործվել Tesseract OCR- ի վերաբաշխման համար առևտրային և գույքային ծրագրերի ներսում:

Iron OCR- ը փայլում է, երբ աշխատում է իրական աշխարհի պատկերների և անկատար փաստաթղթերի հետ, ինչպիսիք են լուսանկարները կամ ցածր թույլատրելիության սկանները, որոնք կարող են ունենալ թվային աղմուկ կամ թերություններ:

Այլ NCR գրադարաններ .NET պլատֆորմի համար, ինչպիսիք են .net tesseract API- ները և վեբ ծառայությունները, այնքան էլ լավ չեն գործում իրական օգտագործման դեպքերի համար:

OCR- ը Tesseract 5-ով - սկսեք կոդավորումը C#- ով

Ստորև բերված ծածկագրի նմուշը ցույց է տալիս, թե որքան հեշտ է կարդալ տեքստը պատկերից ՝ օգտագործելով C#կամ VB. NET:

OneLiner- ը

string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
VB   C#

Կարգավորելի Բարև աշխարհ

// PM> Install-Package IronOCR.Languages.Armenian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Armenian;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... Դուք կարող եք ավելացնել ցանկացած թվով պատկերներ
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Armenian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Armenian;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... Դուք կարող եք ավելացնել ցանկացած թվով պատկերներ
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Armenian
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Armenian
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

C#PDF OCR

Նույն մոտեցումը նույն կերպ կարող է օգտագործվել ցանկացած PDF փաստաթղթից տեքստ քաղելու համար:

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Armenian;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Կարող ենք նաև ընտրել OCR- ի հատուկ PDF էջերի համարներ

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 էջ PDF- ի յուրաքանչյուր էջի համար
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Armenian;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Կարող ենք նաև ընտրել OCR- ի հատուկ PDF էջերի համարներ

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 էջ PDF- ի յուրաքանչյուր էջի համար
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Armenian
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' Կարող ենք նաև ընտրել OCR- ի հատուկ PDF էջերի համարներ

Dim Result = Ocr.Read(input)

Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' 1 էջ PDF- ի յուրաքանչյուր էջի համար
End Using
VB   C#

OCR MultiPage TIFF- ների համար

OCR ընթերցող TIFF ֆայլի ձևաչափը, ներառյալ բազմաթիվ էջային փաստաթղթեր: TIFF- ը կարող է նաև ուղղակիորեն վերափոխվել PDF ֆայլի ՝ որոնելի տեքստով:

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Armenian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Armenian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Armenian

Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Շտրիխ կոդեր և QR

Iron OCR- ի եզակի առանձնահատկությունն այն է, որ այն կարող է կարդալ շտրիխ ծածկագրեր և QR կոդեր փաստաթղթերից, երբ այն ստուգում է տեքստը: OcrResult.OcrBarcode դասի OcrResult.OcrBarcode տալիս են մանրամասն տեղեկություններ յուրաքանչյուր սկանավորված շտրիխ կոդի մասին:

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// տիպի և գտնվելու վայրի հատկությունները նույնպես ենթարկվում են ազդեցության
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// տիպի և գտնվելու վայրի հատկությունները նույնպես ենթարկվում են ազդեցության
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True

Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' տիպի և գտնվելու վայրի հատկությունները նույնպես ենթարկվում են ազդեցության
Next Barcode
End Using
VB   C#

Պատկերների հատուկ տարածքների վերաբերյալ OCR

Iron OCR- ի սկանավորման և ընթերցման բոլոր եղանակները հնարավորություն են տալիս ճշգրտորեն հստակեցնել, թե էջի կամ էջերի որ մասից ենք ցանկանում կարդալ տեքստ: Սա շատ օգտակար է, երբ մենք նայում ենք ստանդարտացված ձևերին և կարող է շատ ժամանակ խնայել և բարելավել արդյունավետությունը:

Բուսաբուծության շրջաններ օգտագործելու համար հարկավոր է համակարգի հղում ավելացնել System.Drawing որպեսզի կարողանանք օգտագործել System.Drawing.Rectangle օբյեկտը:

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Armenian;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Չափերը px- ով են

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Armenian;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Չափերը px- ով են

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Armenian

Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
	.X = 215,
	.Y = 1250,
	.Height = 280,
	.Width = 1335
}
' Չափերը px- ով են

Input.Add("document.png", ContentArea)

Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR ցածր որակի սկանավորման համար

Iron OCR OcrInput դասը կարող է ամրագրել OcrInput որոնք նորմալ Tesseract- ը չի կարող կարդալ:

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Armenian;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // ամրագրում է թվային աղմուկը և վատ սկանավորումը
Input.Deskew(); // ամրագրում է ռոտացիան և հեռանկարը
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Armenian;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // ամրագրում է թվային աղմուկը և վատ սկանավորումը
Input.Deskew(); // ամրագրում է ռոտացիան և հեռանկարը
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Armenian

Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' ամրագրում է թվային աղմուկը և վատ սկանավորումը
Input.Deskew() ' ամրագրում է ռոտացիան և հեռանկարը
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Արտահանեք OCR արդյունքները ՝ որպես որոնելի PDF

Պատկեր PDF- ին ՝ պատճենվող տեքստային տողերով: Կարող է ինդեքսավորվել որոնիչների և տվյալների բազաների կողմից:

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Armenian;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Armenian;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Armenian

Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")

Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

TIFF ՝ որոնելի PDF փոխարկում

Փոխակերպեք TIFF փաստաթուղթը (կամ պատկերային ֆայլերի որևէ խումբ) ուղղակիորեն որոնվող PDF- ի, որը կարող է ինդեքսավորվել ներբանկային, կայքի և google որոնիչների կողմից:

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Armenian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Armenian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Armenian

Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

Արտահանեք OCR արդյունքները որպես HTML

OCR պատկեր XHTML փոխակերպում:

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Armenian;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Armenian;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Armenian
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
VB   C#

OCR պատկերի բարելավման ֆիլտրեր

IronOCR- ն ապահովում է եզակի զտիչներ OcrInput օբյեկտների համար OcrInput աշխատանքը բարելավելու համար:

Պատկերի բարելավման կոդի օրինակ

OCR- ի մուտքային պատկերները դարձնում է ավելի բարձր որակ ՝ OCR- ի ավելի լավ և արագ արդյունքներ ստանալու համար:

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Armenian;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // ամրագրում է թվային աղմուկը և վատ սկանավորումը
Input.Deskew(); // ամրագրում է ռոտացիան և հեռանկարը
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Armenian;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // ամրագրում է թվային աղմուկը և վատ սկանավորումը
Input.Deskew(); // ամրագրում է ռոտացիան և հեռանկարը
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Armenian

Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' ամրագրում է թվային աղմուկը և վատ սկանավորումը
Input.Deskew() ' ամրագրում է ռոտացիան և հեռանկարը
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR պատկերի զտիչների ցուցակ

IronCR- ի մեջ ներկառուցված OCR- ի արդյունավետությունը բարձրացնելու համար ներածման ֆիլտրերը ներառում են.

  • OcrInput. Պտտեցնել (կրկնակի աստիճան) - Պտտեցնում է պատկերները ժամացույցի սլաքի ուղղությամբ մի շարք աստիճաններով: -Ամացույցի սլաքի հակառակ ուղղությամբ օգտագործեք բացասական թվեր:
  • OcrInput.Binarize () - Այս պատկերի ֆիլտրը յուրաքանչյուր պիքսելը դարձնում է սև կամ սպիտակ առանց միջին հիմքի: Կարող է բարելավել OCR- ի կատարման դեպքերը, երբ տեքստի հետին պլանի շատ ցածր հակադրություն կա:
  • OcrInput.ToGrayScale () - Այս պատկերի ֆիլտրը յուրաքանչյուր պիքսելը վերածում է մոխրագույնի ստվերի: Հազիվ թե բարելավվի OCR- ի ճշգրտությունը, բայց կարող է բարելավել արագությունը
  • OcrInput.Contrast () - ինքնաբերաբար մեծացնում է հակադրությունը: Այս զտիչը հաճախ բարելավում է OCR- ի արագությունն ու ճշգրտությունը ցածր հակապատկերային զննումներում:
  • OcrInput.DeNoise () - Հեռացնում է թվային աղմուկը: Այս զտիչը պետք է օգտագործվի միայն այնտեղ, որտեղ աղմուկ է սպասվում:
  • OcrInput.Invert () - շրջում է յուրաքանչյուր գույնը: Օրինակ ՝ Սպիտակը դառնում է սև. Սևը դառնում է սպիտակ:
  • OcrInput. Ընդարձակ () - Ընդլայնված ձևաբանություն: Ընդլայնումը պատկերի օբյեկտների սահմաններին պիքսել է ավելացնում: Էրոդի դիմաց
  • OcrInput.Erode () - Ընդլայնված ձևաբանություն: Էրոզիան հեռացնում է պիքսելները օբյեկտի սահմանների վրա Dilate- ի դիմաց
  • OcrInput.Deskew () - պտտեցնում է պատկերը, այնպես որ դա ճիշտ ուղին է և ուղղանկյուն: Սա շատ օգտակար է OCR- ի համար, քանի որ շեղված սկանավորման համար Tesseract- ի հանդուրժողականությունը կարող է լինել 5 աստիճանի ցածր:
  • OcrInput.DeepCleanBackgroundNoise () - background անր ֆոնային աղմուկի հեռացում: Օգտագործեք այս զտիչը միայն այն դեպքում, երբ ծայրահեղ փաստաթղթի ֆոնային աղմուկը հայտնի է, քանի որ այս ֆիլտրը նաև ռիսկի կդարձնի մաքուր փաստաթղթերի OCR ճշգրտությունը նվազեցնելը և պրոցեսորը շատ թանկ է:
  • OcrInput.EnhanceResolution - Բարձրացնում է ցածրորակ նկարների լուծաչափը: Այս զտիչը հաճախ անհրաժեշտ չէ, քանի որ OcrInput.MinimumDPI և OcrInput.TargetDPI ավտոմատ կերպով կբռնեն և կլուծեն ցածր բանաձևի ներածումները:

CleanBackgroundNoise. Սա մի պարամետր է, որը որոշ չափով ժամանակատար է. Այնուամենայնիվ, այն թույլ է տալիս գրադարանին ավտոմատ կերպով մաքրել թվային աղմուկը, թղթի փշրանքները և այլ անկատարություններ թվային պատկերի ներսում, ինչը այլապես կդարձնի այն այլևս անկարող կարդալու այլ OCR գրադարանների կողմից:

EnhanceContrast- ը մի պարամետր է, որի արդյունքում Iron OCR- ն ավտոմատ կերպով մեծացնում է տեքստի հակադրությունը պատկերի ֆոնի վրա `բարձրացնելով OCR- ի ճշգրտությունը և, ընդհանուր առմամբ, մեծացնելով OCR- ի կատարումը և արագությունը:

EnhanceResolution- ը կարգավորում է, որն ավտոմատ կերպով կբացահայտի ցածր բանաձևի պատկերներ (որոնք կազմում են 275 dpi) և ավտոմատ կերպով կբարձրացնի պատկերը, այնուհետև սրում է ամբողջ տեքստը, որպեսզի այն հնարավոր լինի կատարելապես կարդալ OCR գրադարանի կողմից: Չնայած այս գործողությունն ինքնին ժամանակատար է, այն, ընդհանուր առմամբ, նվազեցնում է պատկերի OCR գործողության ընդհանուր ժամանակը:

Լեզուն Iron OCR- ն աջակցում է 22 միջազգային լեզվական փաթեթների, և լեզվի կարգավորումը կարող է օգտագործվել մեկ կամ մի քանի լեզուներ ընտրելու համար, որոնք կիրառվելու են OCR գործողության համար:

Ռազմավարություն Iron OCR- ն աջակցում է երկու ռազմավարության: Մենք կարող ենք ընտրել կամ դիմել փաստաթղթի արագ և պակաս ճշգրիտ սկանավորմանը, կամ օգտագործել առաջադեմ ռազմավարություն, որն օգտագործում է արհեստական բանականության որոշ մոդելներ ՝ OCR տեքստի ճշգրտությունն ավտոմատ կերպով բարելավելու համար ՝ դիտելով բառերի միմյանց հետ վիճակագրական կապը նախադասության մեջ ,

ColorSpace- ը այն պարամետրն է, որով մենք կարող ենք ընտրել OCR- ն `մոխրագույն կամ գունավոր: Ընդհանրապես, մոխրագույն սանդղակը լավագույն տարբերակն է: Այնուամենայնիվ, երբեմն, երբ կան նման երանգի կամ շատ տարբեր գույնի տեքստեր, գունավոր գունավոր տարածքը ավելի լավ արդյունքներ կտա:

DetectWhiteTextOnDarkBackgrounds- ը: Ընդհանրապես, OCR- ի բոլոր գրադարանները ակնկալում են տեսնել սպիտակ ֆոնի վրա սև տեքստ: Այս պարամետրը Iron OCR- ին թույլ է տալիս ավտոմատ կերպով հայտնաբերել բացասական կողմեր կամ սպիտակ տեքստով մութ էջեր և կարդալ դրանք:

InputImageType: Այս պարամետրը մշակողին թույլ է տալիս ուղղորդել OCR գրադարանը `արդյոք այն նայում է ամբողջական փաստաթուղթ կամ հատված, օրինակ` սքրինշոթ:

RotateAndStraighten- ը առաջադեմ պարամետր է, որը Iron OCR- ին թույլ է տալիս կարդալու եզակի ունակություն ոչ միայն պտտվող, այլ գուցե հեռանկար պարունակող փաստաթղթեր կարդալու, օրինակ `տեքստային փաստաթղթերի լուսանկարներ:

ReadBarcodes- ը օգտակար հատկություն է, որը Iron OCR- ին թույլ է տալիս ավտոմատ կերպով կարդալ շտրիխ կոդերը և QR կոդերը էջերում, քանի որ այն նաև կարդում է տեքստ, առանց ավելացնելու մեծ լրացուցիչ ժամանակային բեռ:

Գույնի խորությունը Այս պարամետրը որոշում է, թե քանի բիթ / պիքսել է օգտագործելու OCR գրադարանը գույնի խորությունը որոշելու համար: Գույնի ավելի բարձր խորությունը կարող է բարձրացնել OCR որակը, բայց նաև կբարձրացնի OCR գործողության ավարտման համար պահանջվող ժամանակը:

126 լեզուների տուփ

Iron OCR- ն օժանդակում է 126 միջազգային լեզուների ՝ լեզվական փաթեթների միջոցով, որոնք տարածվում են որպես DLL, որոնք կարող են ներբեռնվել այս կայքից , կամ նաև NuGet փաթեթի մենեջերից :

Լեզուները ներառում են գերմաներեն, ֆրանսերեն, անգլերեն, չինարեն, ճապոներեն և շատ ավելին: Մասնագիտական լեզվական փաթեթներ գոյություն ունեն անձնագրերի MRZ, MICR ստուգումների, ֆինանսական տվյալների, պետհամարանիշների և շատ այլնի համար: Կարող եք նաև օգտագործել ցանկացած tesseract «.traineddata» ֆայլ ՝ ներառյալ այնպիսիք, որոնք ինքներդ եք ստեղծում:

Լեզվի օրինակ

Օգտագործելով այլ OCR լեզուներ:

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Անհրաժեշտության դեպքում ավելացնել պատկերի ֆիլտրեր
// Այս դեպքում նույնիսկ մտքի ներդրումը շատ ցածր որակ է
// IronTesseract- ը կարող է կարդալ այն, ինչը չի կարող սովորական Tesseract- ը:

var Result = Ocr.Read(input);

// Վահանակը չի կարող արաբերեն տպել Windows- ի վրա հեշտությամբ:
// Փոխարենը եկեք պահենք սկավառակի վրա:
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Անհրաժեշտության դեպքում ավելացնել պատկերի ֆիլտրեր
// Այս դեպքում նույնիսկ մտքի ներդրումը շատ ցածր որակ է
// IronTesseract- ը կարող է կարդալ այն, ինչը չի կարող սովորական Tesseract- ը:

var Result = Ocr.Read(input);

// Վահանակը չի կարող արաբերեն տպել Windows- ի վրա հեշտությամբ:
// Փոխարենը եկեք պահենք սկավառակի վրա:
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' Անհրաժեշտության դեպքում ավելացնել պատկերի ֆիլտրեր
' Այս դեպքում նույնիսկ մտքի ներդրումը շատ ցածր որակ է
' IronTesseract- ը կարող է կարդալ այն, ինչը չի կարող սովորական Tesseract- ը:

Dim Result = Ocr.Read(input)

' Վահանակը չի կարող արաբերեն տպել Windows- ի վրա հեշտությամբ:
' Փոխարենը եկեք պահենք սկավառակի վրա:
Result.SaveAsTextFile("arabic.txt")
End Using
VB   C#

Բազմակի լեզվի օրինակ

Հնարավոր է նաև OCR- ի միաժամանակ մի քանի լեզուներ օգտագործելը: Սա իսկապես կարող է օգնել Unicode փաստաթղթերում գտնել անգլերենի մետատվյալներ և urls:

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Armenian);

// Մենք կարող ենք ավելացնել ցանկացած քանակի լեզուներ

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Armenian);

// Մենք կարող ենք ավելացնել ցանկացած քանակի լեզուներ

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Armenian)

' Մենք կարող ենք ավելացնել ցանկացած քանակի լեզուներ

Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
VB   C#

Մանրամասն OCR արդյունքների օբյեկտներ

Iron OCR- ն վերադարձնում է OCR արդյունքի օբյեկտ OCR- ի յուրաքանչյուր գործողության համար: Ընդհանրապես, մշակողները օգտագործում են միայն այս օբյեկտի տեքստի հատկությունը ՝ նկարից սկանավորվող տեքստ ստանալու համար: Այնուամենայնիվ, OCR- ի արդյունքները DOM- ը շատ ավելի առաջադեմ են, քան սա:

using IronOcr;
using System.Drawing; //Ավելացնել ժողովի տեղեկանք

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Armenian;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //Կարևոր է

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// Ուսումնասիրեք այստեղ ՝ գտնելու զանգվածային, մանրամասն API:
// - Էջեր, բլոկներ, պարաֆֆներ, տողեր, բառեր, բնութագրեր
// - Պատկերի արտահանում, տառատեսակների կոորդինատներ, վիճակագրական տվյալներ
}
using IronOcr;
using System.Drawing; //Ավելացնել ժողովի տեղեկանք

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Armenian;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //Կարևոր է

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// Ուսումնասիրեք այստեղ ՝ գտնելու զանգվածային, մանրամասն API:
// - Էջեր, բլոկներ, պարաֆֆներ, տողեր, բառեր, բնութագրեր
// - Պատկերի արտահանում, տառատեսակների կոորդինատներ, վիճակագրական տվյալներ
}
Imports IronOcr
Imports System.Drawing 'Ավելացնել ժողովի տեղեկանք

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Armenian
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True 'Կարևոր է

Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages(0).Words
Dim Barcodes = Result.Barcodes
' Ուսումնասիրեք այստեղ ՝ գտնելու զանգվածային, մանրամասն API:
' - Էջեր, բլոկներ, պարաֆֆներ, տողեր, բառեր, բնութագրեր
' - Պատկերի արտահանում, տառատեսակների կոորդինատներ, վիճակագրական տվյալներ
End Using
VB   C#

Ներկայացում

IronOCR- ն աշխատում է տուփից դուրս ՝ առանց մուտքային պատկերների կատարելագործման կամ մեծապես փոփոխելու կարիք:

Արագությունը վառվում է. IronOcr.2020 + - ը մինչև 10 անգամ ավելի արագ է և ավելի քան 250% -ով պակաս սխալներ է թույլ տալիս, քան նախորդ կառուցվածքները:

Իմացեք ավելին

C #, VB, F # կամ որևէ այլ .NET լեզվով OCR- ի մասին ավելին իմանալու համար խնդրում ենք կարդալ մեր համայնքի ձեռնարկները , որոնք տալիս են իրական աշխարհի օրինակներ, թե ինչպես կարելի է օգտագործել Iron OCR- ը և կարող են ցույց տալ նրբությունները, թե ինչպես կարելի է լավագույնը քաղել: այս գրադարանը:

Առկա է նաև օբյեկտի ամբողջական հղում .NET մշակողների համար: