Հայերեն OCR C#և .NET- ում
Այս փաստաթղթի այլ տարբերակներ.
IronOCR- ը C#ծրագրաշարի բաղադրիչ է, որը թույլ է տալիս .NET կոդավորողներին կարդալ տեքստեր պատկերներից և PDF փաստաթղթերից 126 լեզվով, ներառյալ հայերեն:
Այն Tesseract- ի առաջադեմ պատառաքաղ է, որը կառուցված է բացառապես .NET մշակողների համար և պարբերաբար գերազանցում է Tesseract- ի մյուս շարժիչներին `թե արագության, թե ճշգրտության համար:
IronOcr- ի լեզուների պարունակությունը: հայերեն
Այս փաթեթը պարունակում է 120 OCR լեզուներ .NET- ի համար.
- Alfabeto armenio
- Alfabeto armenioBest
- Alfabeto armenioFast
- հայերեն
- ArmenioMejor
- ArmenianFast
Ներբեռնում
Հայոց լեզվի փաթեթ [Հայերեն]
* Descargar como Código postal
* Instalar con como https://www.nuget.org/packages/IronOcr.Languages.Armenian/'> NuGet- ը
Տեղադրում
Առաջին բանը, որ մենք պետք է անենք, տեղադրել մեր հայերեն OCR փաթեթը ձեր .NET նախագծում:
PM> Install-Package IronOCR.Languages.Armenian
Կոդի օրինակ
C#կոդի այս օրինակը կարդում է հայերեն տեքստ Imagen կամ PDF փաստաթղթից:
```cs //PM> Install-Package IronOcr.Languages.Armenian using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Armenian; using (var Input = new OcrInput(@"images\Armenian.png")) { var Result = Ocr.Read(Input); Var AllText = Result.Text } ```Ինչու ընտրել IronOCR- ը:
IronOCR- ը տեղադրվող, ամբողջական և լավ փաստաթղթավորված .NET ծրագրաշարերի գրադարան է:
Ընտրեք IronOCR- ը ` 99.8% + OCR ճշգրտության հասնելու համար` առանց որևէ արտաքին վեբ ծառայությունների, ընթացիկ վճարների կամ ինտերնետով գաղտնի փաստաթղթեր ուղարկելու:
Ինչու C#մշակողները ընտրում են IronOCR- ը Vanilla Tesseract- ի փոխարեն.
- Տեղադրեք որպես մեկ DLL կամ NuGet
- Ներառում է տուփից դուրս Tesseract 5, 4 և 3 շարժիչները:
- Acc շգրտությունը 99,8% -ը զգալիորեն գերազանցում է սովորական Tesseract- ին:
- Բոցավառվող արագություն և բազմալեզու թեմա
- Համատեղելի MVC, WebApp, Desktop, Consola & Aplicación de servidor
- Exes կամ C ++ կոդ չկա, որի հետ աշխատելու համար
- Ամբողջական PDF OCR աջակցություն
- OCR կատարելու համար գրեթե ցանկացած Imagen ֆայլ կամ PDF
- Լրիվ.NET Core, Standard և FrameWork աջակցություն
- Տեղադրեք Windows, Mac, Linux, Azure, Docker, Lambda, AWS համակարգերում
- Կարդացեք շտրիխ ծածկագրերը և QR կոդերը
- Արտահանեք OCR- ը XHTML- ին
- Արտահանեք OCR որոնվող PDF փաստաթղթեր
- Բազմալեզու աջակցություն
- 126 միջազգային լեզուներ, որոնք բոլորը կառավարվում են NuGet կամ OcrData ֆայլերի միջոցով
- Պատկերներ, կոորդինատներ, վիճակագրություն և տառատեսակներ հանեք: Ոչ միայն տեքստ:
- Կարող է օգտագործվել Tesseract OCR- ի վերաբաշխման համար առևտրային և գույքային ծրագրերի ներսում:
IronOCR- ը փայլում է, երբ աշխատում է իրական աշխարհի պատկերների և անկատար փաստաթղթերի հետ, ինչպիսիք են լուսանկարները կամ ցածր թույլատրելիության սկանները, որոնք կարող են ունենալ թվային աղմուկ կամ թերություններ:
Այլ NCR գրադարաններ .NET պլատֆորմի համար, ինչպիսիք են .net tesseract API- ները և վեբ ծառայությունները, այնքան էլ լավ չեն գործում իրական օգտագործման դեպքերի համար:
OCR- ը Tesseract 5-ով - սկսեք կոդավորումը C#- ով
Ստորև բերված ծածկագրի նմուշը ցույց է տալիս, թե որքան հեշտ է կարդալ տեքստը պատկերից ՝ օգտագործելով C#կամ VB. NET:
OneLiner- ը
```cs string Text = new IronTesseract().Read(@"img\Screenshot.png").Text; ```Կարգավորելի Բարև աշխարհ
```cs // PM> Install-Package IronOCR.Languages.Armenian using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Armenian; using (var Input = new OcrInput()){ Input.AddImage("images/sample.jpeg") //... Դուք կարող եք ավելացնել ցանկացած թվով պատկերներ var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```C#PDF OCR
Նույն մոտեցումը նույն կերպ կարող է օգտագործվել ցանկացած PDF փաստաթղթից տեքստ քաղելու համար:
```cs var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Armenian; using (var input = new OcrInput()) { input.AddPdf("example.pdf", "password"); // Կարող ենք նաև ընտրել OCR- ի հատուկ PDF էջերի համարներ var Result = Ocr.Read(input); Console.WriteLine(Result.Text); Console.WriteLine($"{Result.Pages.Count()} Pages"); // 1 էջ PDF- ի յուրաքանչյուր էջի համար } ```OCR MultiPage TIFF- ների համար
OCR ընթերցող TIFF ֆայլի ձևաչափը, ներառյալ բազմաթիվ էջային փաստաթղթեր: TIFF- ը կարող է նաև ուղղակիորեն վերափոխվել PDF ֆայլի ՝ որոնելի տեքստով:
```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Armenian; using (var Input = new OcrInput()){ input.AddMultiFrameTiff("multi - frame.tiff"); var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```Շտրիխ կոդեր և QR
IronOCR- ի եզակի առանձնահատկությունն այն է, որ այն կարող է կարդալ շտրիխ ծածկագրեր և QR կոդեր փաստաթղթերից, երբ այն ստուգում է տեքստը: OcrResult.OcrBarcode
դասի OcrResult.OcrBarcode
տալիս են մանրամասն տեղեկություններ յուրաքանչյուր սկանավորված շտրիխ կոդի մասին:
Պատկերների հատուկ տարածքների վերաբերյալ OCR
IronOCR- ի սկանավորման և ընթերցման բոլոր եղանակները հնարավորություն են տալիս ճշգրտորեն հստակեցնել, թե էջի կամ էջերի որ մասից ենք ցանկանում կարդալ տեքստ: Սա շատ օգտակար է, երբ մենք նայում ենք ստանդարտացված ձևերին և կարող է շատ ժամանակ խնայել և բարելավել արդյունավետությունը:
Բուսաբուծության շրջաններ օգտագործելու համար հարկավոր է համակարգի հղում ավելացնել Sistema.Dibujo
որպեսզի կարողանանք օգտագործել System.Drawing.Rectangle
օբյեկտը:
OCR ցածր որակի սկանավորման համար
IronOCR OcrInput
դասը կարող է ամրագրել OcrInput
որոնք նորմալ Tesseract- ը չի կարող կարդալ:
Արտահանեք OCR արդյունքները ՝ որպես որոնելի PDF
Պատկեր PDF- ին ՝ պատճենվող տեքստային տողերով: Կարող է ինդեքսավորվել որոնիչների և տվյալների բազաների կողմից:
```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Armenian; using (var Input = new OcrInput()){ input.Title = "Quarterly Report" input.AddImage("image1.jpeg"); input.AddImage("image2.png"); input.AddImage("image3.gif"); var Result = Ocr.Read(input); Result.SaveAsSearchablePdf("searchable.pdf") } ```TIFF ՝ որոնելի PDF փոխարկում
Փոխակերպեք TIFF փաստաթուղթը (կամ պատկերային ֆայլերի որևէ խումբ) ուղղակիորեն որոնվող PDF- ի, որը կարող է ինդեքսավորվել ներբանկային, կայքի և google որոնիչների կողմից:
```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Armenian; using (var Input = new OcrInput()){ input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf") } ```Արտահանեք OCR արդյունքները որպես HTML
OCR պատկեր XHTML փոխակերպում:
```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Armenian; using (var Input = new OcrInput()){ input.Title = "Html Title" input.AddImage("image1.jpeg"); var Result = Ocr.Read(input); Result.SaveAsHocrFile("results.html"); } ```OCR պատկերի բարելավման ֆիլտրեր
IronOCR- ն ապահովում է եզակի զտիչներ OcrInput
օբյեկտների համար OcrInput
աշխատանքը բարելավելու համար:
Պատկերի բարելավման կոդի օրինակ
OCR- ի մուտքային պատկերները դարձնում է ավելի բարձր որակ ՝ OCR- ի ավելի լավ և արագ արդյունքներ ստանալու համար:
```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Armenian; using (var Input = new OcrInput(@"LowQuality.jpeg")) { Input.DeNoise(); // ամրագրում է թվային աղմուկը և վատ սկանավորումը Input.Deskew(); // ամրագրում է ռոտացիան և հեռանկարը var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```OCR պատկերի զտիչների ցուցակ
IronCR- ի մեջ ներկառուցված OCR- ի արդյունավետությունը բարձրացնելու համար ներածման ֆիլտրերը ներառում են.
- OcrInput. Պտտեցնել (կրկնակի աստիճան) - Պտտեցնում է պատկերները ժամացույցի սլաքի ուղղությամբ մի շարք աստիճաններով: -Ամացույցի սլաքի հակառակ ուղղությամբ օգտագործեք բացասական թվեր:
- OcrInput.Binarizar () - Այս պատկերի ֆիլտրը յուրաքանչյուր պիքսելը դարձնում է սև կամ սպիտակ առանց միջին հիմքի: Կարող է բարելավել OCR- ի կատարման դեպքերը, երբ տեքստի հետին պլանի շատ ցածր հակադրություն կա:
- OcrInput.ToGrayEscala () - Այս պատկերի ֆիլտրը յուրաքանչյուր պիքսելը վերածում է մոխրագույնի ստվերի: Հազիվ թե բարելավվի OCR- ի ճշգրտությունը, բայց կարող է բարելավել արագությունը
- OcrInput.Contraste () - ինքնաբերաբար մեծացնում է հակադրությունը: Այս զտիչը հաճախ բարելավում է OCR- ի արագությունն ու ճշգրտությունը ցածր հակապատկերային զննումներում:
- OcrInput.DeNoise () - Հեռացնում է թվային աղմուկը: Այս զտիչը պետք է օգտագործվի միայն այնտեղ, որտեղ աղմուկ է սպասվում:
- OcrInput.Invertir () - շրջում է յուրաքանչյուր գույնը: Օրինակ ՝ Սպիտակը դառնում է սև. Սևը դառնում է սպիտակ:
- OcrInput. Ընդարձակ () - Ընդլայնված ձևաբանություն: Ընդլայնումը պատկերի օբյեկտների սահմաններին պիքսել է ավելացնում: Էրոդի դիմաց
- OcrInput.Erode () - Ընդլայնված ձևաբանություն: Էրոզիան հեռացնում է պիքսելները օբյեկտի սահմանների վրա Dilate- ի դիմաց
- OcrInput.Deskew () - պտտեցնում է պատկերը, այնպես որ դա ճիշտ ուղին է և ուղղանկյուն: Սա շատ օգտակար է OCR- ի համար, քանի որ շեղված սկանավորման համար Tesseract- ի հանդուրժողականությունը կարող է լինել 5 աստիճանի ցածր:
- OcrInput.DeepCleanRuido de fondo () - fondo անր ֆոնային աղմուկի հեռացում: Օգտագործեք այս զտիչը միայն այն դեպքում, երբ ծայրահեղ փաստաթղթի ֆոնային աղմուկը հայտնի է, քանի որ այս ֆիլտրը նաև ռիսկի կդարձնի մաքուր փաստաթղթերի OCR ճշգրտությունը նվազեցնելը և պրոցեսորը շատ թանկ է:
- OcrInput.MejorarResolución - Բարձրացնում է ցածրորակ նկարների լուծաչափը: Այս զտիչը հաճախ անհրաժեշտ չէ, քանի որ OcrInput.MinimumDPI և OcrInput.TargetDPI ավտոմատ կերպով կբռնեն և կլուծեն ցածր բանաձևի ներածումները:
LimpiarRuido de Fondo. Սա մի պարամետր է, որը որոշ չափով ժամանակատար է. Այնուամենայնիվ, այն թույլ է տալիս գրադարանին ավտոմատ կերպով մաքրել թվային աղմուկը, թղթի փշրանքները և այլ անկատարություններ թվային պատկերի ներսում, ինչը այլապես կդարձնի այն այլևս անկարող կարդալու այլ OCR գրադարանների կողմից:
MejorarContraste- ը մի պարամետր է, որի արդյունքում IronOCR- ն ավտոմատ կերպով մեծացնում է տեքստի հակադրությունը պատկերի ֆոնի վրա `բարձրացնելով OCR- ի ճշգրտությունը և, ընդհանուր առմամբ, մեծացնելով OCR- ի կատարումը և արագությունը:
MejorarResolución- ը կարգավորում է, որն ավտոմատ կերպով կբացահայտի ցածր բանաձևի պատկերներ (որոնք կազմում են 275 ppp) և ավտոմատ կերպով կբարձրացնի պատկերը, այնուհետև սրում է ամբողջ տեքստը, որպեսզի այն հնարավոր լինի կատարելապես կարդալ OCR գրադարանի կողմից: Չնայած այս գործողությունն ինքնին ժամանակատար է, այն, ընդհանուր առմամբ, նվազեցնում է պատկերի OCR գործողության ընդհանուր ժամանակը:
Լեզուն IronOCR- ն աջակցում է 22 միջազգային լեզվական փաթեթների, և լեզվի կարգավորումը կարող է օգտագործվել մեկ կամ մի քանի լեզուներ ընտրելու համար, որոնք կիրառվելու են OCR գործողության համար:
Ռազմավարություն IronOCR- ն աջակցում է երկու ռազմավարության: Մենք կարող ենք ընտրել կամ դիմել փաստաթղթի արագ և պակաս ճշգրիտ սկանավորմանը, կամ օգտագործել առաջադեմ ռազմավարություն, որն օգտագործում է արհեստական բանականության որոշ մոդելներ ՝ OCR տեքստի ճշգրտությունն ավտոմատ կերպով բարելավելու համար ՝ դիտելով բառերի միմյանց հետ վիճակագրական կապը նախադասության մեջ ,
ColorSpace- ը այն պարամետրն է, որով մենք կարող ենք ընտրել OCR- ն `մոխրագույն կամ գունավոր: Ընդհանրապես, մոխրագույն սանդղակը լավագույն տարբերակն է: Այնուամենայնիվ, երբեմն, երբ կան նման երանգի կամ շատ տարբեր գույնի տեքստեր, գունավոր գունավոր տարածքը ավելի լավ արդյունքներ կտա:
DetectWhiteTextOnDarkBackgrounds- ը: Ընդհանրապես, OCR- ի բոլոր գրադարանները ակնկալում են տեսնել սպիտակ ֆոնի վրա սև տեքստ: Այս պարամետրը IronOCR- ին թույլ է տալիս ավտոմատ կերպով հայտնաբերել բացասական կողմեր կամ սպիտակ տեքստով մութ էջեր և կարդալ դրանք:
InputImageType: Այս պարամետրը մշակողին թույլ է տալիս ուղղորդել OCR գրադարանը `արդյոք այն նայում է ամբողջական փաստաթուղթ կամ հատված, օրինակ` սքրինշոթ:
Girar y enderezar - ը առաջադեմ պարամետր է, որը IronOCR- ին թույլ է տալիս կարդալու եզակի ունակություն ոչ միայն պտտվող, այլ գուցե հեռանկար պարունակող փաստաթղթեր կարդալու, օրինակ `տեքստային փաստաթղթերի լուսանկարներ:
Leer códigos de barras- ը օգտակար հատկություն է, որը IronOCR- ին թույլ է տալիս ավտոմատ կերպով կարդալ շտրիխ կոդերը և QR կոդերը էջերում, քանի որ այն նաև կարդում է տեքստ, առանց ավելացնելու մեծ լրացուցիչ ժամանակային բեռ:
Գույնի խորությունը Այս պարամետրը որոշում է, թե քանի բիթ / պիքսել է օգտագործելու OCR գրադարանը գույնի խորությունը որոշելու համար: Գույնի ավելի բարձր խորությունը կարող է բարձրացնել OCR որակը, բայց նաև կբարձրացնի OCR գործողության ավարտման համար պահանջվող ժամանակը:
126 լեզուների տուփ
IronOCR- ն օժանդակում է 126 միջազգային լեզուների ՝ լեզվական փաթեթների միջոցով, որոնք տարածվում են որպես DLL, որոնք կարող են ներբեռնվել այս կայքից , կամ նաև NuGet փաթեթի մենեջերից :
Լեզուները ներառում են գերմաներեն, ֆրանսերեն, անգլերեն, չինարեն, ճապոներեն և շատ ավելին: Մասնագիտական լեզվական փաթեթներ գոյություն ունեն անձնագրերի MRZ, MICR ստուգումների, ֆինանսական տվյալների, պետհամարանիշների և շատ այլնի համար: Կարող եք նաև օգտագործել ցանկացած tesseract ".traineddata" ֆայլ ՝ ներառյալ այնպիսիք, որոնք ինքներդ եք ստեղծում:
Լեզվի օրինակ
Օգտագործելով այլ OCR լեզուներ:
```cs // using IronOcr; // PM> Install IronOcr.Languages.Arabic var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Arabic; using (var input = new OcrInput()) { input.AddImage("img/arabic.gif"); // Անհրաժեշտության դեպքում ավելացնել պատկերի ֆիլտրեր // Այս դեպքում նույնիսկ մտքի ներդրումը շատ ցածր որակ է // IronTesseract- ը կարող է կարդալ այն, ինչը չի կարող սովորական Tesseract- ը: var Result = Ocr.Read(input); // Վահանակը չի կարող արաբերեն տպել Windows- ի վրա հեշտությամբ: // Փոխարենը եկեք պահենք սկավառակի վրա: Result.SaveAsTextFile("arabic.txt"); } ```Բազմակի լեզվի օրինակ
Հնարավոր է նաև OCR- ի միաժամանակ մի քանի լեզուներ օգտագործելը: Սա իսկապես կարող է օգնել Unicode փաստաթղթերում գտնել անգլերենի մետատվյալներ և urls:
```cs // using IronOcr; // PM> Install IronOcr.Languages.ChineseSimplified var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.ChineseSimplified; Ocr.AddSecondaryLanguage(OcrLanguage.Armenian); // Մենք կարող ենք ավելացնել ցանկացած քանակի լեզուներ using (var input = new OcrInput()) { input.Add("multi - language.pdf"); var Result = Ocr.Read(input); Result.SaveAsTextFile("results.txt"); } ```Մանրամասն OCR արդյունքների օբյեկտներ
IronOCR- ն վերադարձնում է OCR արդյունքի օբյեկտ OCR- ի յուրաքանչյուր գործողության համար: Ընդհանրապես, մշակողները օգտագործում են միայն այս օբյեկտի տեքստի հատկությունը ՝ նկարից սկանավորվող տեքստ ստանալու համար: Այնուամենայնիվ, OCR- ի արդյունքները DOM- ը շատ ավելի առաջադեմ են, քան սա:
```cs using IronOcr; using System.Drawing; //Ավելացնել ժողովի տեղեկանք var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Armenian; Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm; Ocr.Configuration.ReadBarCodes = true; //Կարևոր է using (var Input = new OcrInput(@"images\sample.tiff")) { OcrResult Result = Ocr.Read(Input); var Pages = Result.Pages; var Words = Pages [0].Words; var Barcodes = Result.Barcodes; // Ուսումնասիրեք այստեղ ՝ գտնելու զանգվածային, մանրամասն API: // - Էջեր, բլոկներ, պարաֆֆներ, տողեր, բառեր, բնութագրեր // - Պատկերի արտահանում, տառատեսակների կոորդինատներ, վիճակագրական տվյալներ } ```Ներկայացում
IronOCR- ն աշխատում է տուփից դուրս ՝ առանց մուտքային պատկերների կատարելագործման կամ մեծապես փոփոխելու կարիք:
Արագությունը վառվում է. IronOcr.2020 + - ը մինչև 10 անգամ ավելի արագ է և ավելի քան 250% -ով պակաս սխալներ է թույլ տալիս, քան նախորդ կառուցվածքները:
Իմացեք ավելին
C #, VB, F # կամ որևէ այլ .NET լեզվով OCR- ի մասին ավելին իմանալու համար խնդրում ենք կարդալ մեր համայնքի ձեռնարկները , որոնք տալիս են իրական աշխարհի օրինակներ, թե ինչպես կարելի է օգտագործել IronOCR- ը և կարող են ցույց տալ նրբությունները, թե ինչպես կարելի է լավագույնը քաղել: այս գրադարանը:
Առկա է նաև օբյեկտի ամբողջական հղում .NET մշակողների համար: