OCR тоҷикӣ дар C#ва .NET
Версияҳои дигари ин ҳуҷҷат:
IronOCR як ҷузъи нармафзори C#мебошад, ки ба кодгузорони .NET имкон медиҳад, ки матнро аз тасвирҳо ва ҳуҷҷатҳои PDF бо 126 забон, аз ҷумла тоҷикӣ хонанд.
Ин як чангаки пешрафтаи Tesseract мебошад, ки танҳо барои таҳиягарони .NET сохта шудааст ва мунтазам аз дигар муҳаррикҳои Tesseract ҳам суръат ва ҳам дақиқтарро пеш мегузорад.
Мундариҷаи IronOcr.Languages.Tajik
Ин бастаи дорои 40 забони OCR барои .NET:
- Тоҷикӣ
- TajikBest
- TajikFast
Боргирӣ
Маҷмӯаи забони тоҷикӣ [тоҷикӣ]
* Download as Zip
* Install with as https://www.nuget.org/packages/IronOcr.Languages.Tajik/'> NuGet
Насб
Аввалин чизе, ки мо ба кор аст, насб бастаи тоҷик рамзњо мо ба лоиҳаи .NET кунед.
PM> Install-Package IronOCR.Languages.Tajik
Намунаи код
Ин мисоли рамзи C#матни тоҷикиро аз ҳуҷҷати Image ё PDF мехонад.
//PM> Install-Package IronOcr.Languages.Tajik
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput(@"images\Tajik.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Tajik
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput(@"images\Tajik.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Tajik
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tajik
Using Input = New OcrInput("images\Tajik.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
Чаро IronOCR -ро интихоб кунед?
IronOCR - ин насби осон, мукаммал ва ҳуҷҷатгузории хуби китобхонаи нармафзори .NET мебошад.
IronOCR ро интихоб кунед, то 99,8% + OCR дақиқиро бидуни истифодаи ягон хидмати вебии беруна, пардохтҳои ҷорӣ ё фиристодани ҳуҷҷатҳои махфӣ тавассути интернет ба даст орад.
Чаро таҳиягарони C#IronOCR ро аз болои Vanilla Tesseract интихоб мекунанд:
- Ҳамчун як DLL ё NuGet насб кунед
- Мегирад Tesseract 5, 4 ва 3 Муҳаррикҳо берун аз қуттӣ.
- Дурустӣ 99,8% ба таври назаррас аз Tesseract муқаррарӣ зиёдтар аст.
- Суръат ва MultiThreading сӯзон
- MVC, WebApp, Desktop, Console & Server Application мувофиқ
- Не Exes ё C ++ код барои кор бо
- Дастгирии пурраи PDF OCR
- Барои иҷрои OCR тақрибан ҳама гуна файли тасвир ё PDF
- Дастгирии пурра .NET Core, Standard ва FrameWork
- Дар Windows, Mac, Linux, Azure, Docker, Lambda, AWS ҷойгир кунед
- Штрих-кодҳо ва кодҳои QR-ро хонед
- OCR-ро ба XHTML содир кунед
- Содироти OCR ба ҳуҷҷатҳои PDF ҷустуҷӯшаванда
- Дастгирии бисёрҷабҳа
- 126 забони байналмилалӣ, ки ҳама тавассути файлҳои NuGet ё OcrData идора карда мешаванд
- Баровардани тасвирҳо, координатҳо, омор ва ҳуруфҳо. На танҳо матн.
- Он метавонад барои паҳн кардани Tesseract OCR дар дохили барномаҳои тиҷорӣ ва хусусӣ истифода шавад.
IronOCR ҳангоми кор бо тасвирҳои воқеии ҷаҳонӣ ва ҳуҷҷатҳои номукаммал, ба монанди аксҳо ё сканерҳои пастсифат, ки метавонанд садои рақамӣ ё номукаммалӣ дошта бошанд, медурахшад.
Дигар китобхонаҳои ройгони OCR барои платформаи .NET, чунин дигар APIs .net tesseract ва хидматҳои веб дар ин ҳолатҳои воқеии истифодаи ҷаҳонӣ он қадар хуб кор намекунанд.
OCR бо Tesseract 5 - Рамзро дар C#оғоз кунед
Намунаи рамзи дар поён овардашуда нишон медиҳад, ки хондани матн аз тасвир бо ёрии C#ё VB .NET то чӣ андоза осон аст.
OneLiner
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
Салом ҷаҳонӣ
// PM> Install-Package IronOCR.Languages.Tajik
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... шумо метавонед шумораи дилхоҳ тасвирҳоро илова кунед
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Tajik
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... шумо метавонед шумораи дилхоҳ тасвирҳоро илова кунед
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Tajik
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tajik
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
C#PDF OCR
Ҳамин гуна равишро низ барои баровардани матн аз ҳама гуна ҳуҷҷатҳои PDF истифода бурдан мумкин аст.
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Мо инчунин метавонем рақамҳои мушаххаси PDF-ро ба OCR интихоб кунем
var Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 саҳифа барои ҳар як сафҳаи PDF
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Мо инчунин метавонем рақамҳои мушаххаси PDF-ро ба OCR интихоб кунем
var Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 саҳифа барои ҳар як сафҳаи PDF
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tajik
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' Мо инчунин метавонем рақамҳои мушаххаси PDF-ро ба OCR интихоб кунем
Dim Result = Ocr.Read(input)
Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' 1 саҳифа барои ҳар як сафҳаи PDF
End Using
OCR барои TIFFs MultiPage
OCR Reading формати файли TIFF, аз ҷумла ҳуҷҷатҳои сершумор. TIFF инчунин метавонад мустақиман ба файли PDF бо матни ҷустуҷӯ табдил дода шавад.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tajik
Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Штрих-кодҳо ва QR
Хусусияти беназири IronOCR дар он аст, ки ҳангоми азназаргузаронии матн баркодҳо ва кодҳои QR-ро аз ҳуҷҷатҳо хонда метавонад. Мисолҳои синфи OcrResult.OcrBarcode
ба таҳиягар дар бораи ҳар як OcrResult.OcrBarcode
маълумоти муфассал медиҳад.
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// хосиятҳо ва намудҳо низ ошкор карда шуданд
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// хосиятҳо ва намудҳо низ ошкор карда шуданд
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True
Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' хосиятҳо ва намудҳо низ ошкор карда шуданд
Next Barcode
End Using
OCR дар самтҳои мушаххаси тасвирҳо
Ҳама усулҳои скан ва хондани IronOCR имконият медиҳанд, ки дақиқан кадом қисми саҳифа ё саҳифаҳоро матн хондан мехоҳем. Ин вақте муфид аст, ки мо шаклҳои стандартикунонидашударо дида бароем ва вақти зиёдеро сарфа намуда, самаранокиро баланд бардорем.
Барои истифодаи минтақаҳои зироат, ба мо лозим аст, ки ба System.Drawing
истиноди система илова кунем, то ки мо объекти System.Drawing.Rectangle
истифода барем.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Андозаҳо дар px мебошанд
Input.Add("document.png", ContentArea);
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Андозаҳо дар px мебошанд
Input.Add("document.png", ContentArea);
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tajik
Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
.X = 215,
.Y = 1250,
.Height = 280,
.Width = 1335
}
' Андозаҳо дар px мебошанд
Input.Add("document.png", ContentArea)
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
OCR барои сканҳои пастсифат
Синфи IronOCR OcrInput
метавонад сканерҳоеро ислоҳ кунад, ки Tesseract муқаррарӣ хонда наметавонанд.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // садои рақамӣ ва сканкунии сустро ислоҳ мекунад
Input.Deskew(); // гардиш ва дурнаморо ислоҳ мекунад
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // садои рақамӣ ва сканкунии сустро ислоҳ мекунад
Input.Deskew(); // гардиш ва дурнаморо ислоҳ мекунад
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tajik
Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' садои рақамӣ ва сканкунии сустро ислоҳ мекунад
Input.Deskew() ' гардиш ва дурнаморо ислоҳ мекунад
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Натиҷаҳои OCR-ро ҳамчун PDF-и ҷустуҷӯшаванда содир кунед
Тасвир ба PDF бо сатрҳои матнии нусхабардорӣ. Метавонад аз ҷониби системаҳои ҷустуҷӯӣ ва пойгоҳи додаҳо индексатсия карда шавад.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");
var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");
var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tajik
Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")
Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
TIFF ба Табдили PDF-и ҷустуҷӯшаванда
Ҳуҷҷати TIFF-ро (ё ягон гурӯҳи файлҳои тасвирӣ) мустақиман ба PDF-и ҷустуҷӯшаванда интиқол диҳед, ки онро тавассути интранет, вебсайт ва системаҳои ҷустуҷӯии гугл индекс кардан мумкин аст.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tajik
Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
Натиҷаҳои OCR-ро ҳамчун HTML содир кунед
Тасвири OCR ба табдили XHTML.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tajik
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
Филтрҳои такмили тасвири OCR
IronOCR филтрҳои беназирро барои объектҳои OcrInput
барои беҳтар кардани кори OCR таъмин менамояд.
Мисоли рамзи такмили тасвир
Тасвирҳои вуруди OCR-ро бо сифати баландтар месозад, то натиҷаҳои беҳтар ва зудтари OCR.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // садои рақамӣ ва сканкунии сустро ислоҳ мекунад
Input.Deskew(); // гардиш ва дурнаморо ислоҳ мекунад
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // садои рақамӣ ва сканкунии сустро ислоҳ мекунад
Input.Deskew(); // гардиш ва дурнаморо ислоҳ мекунад
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tajik
Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' садои рақамӣ ва сканкунии сустро ислоҳ мекунад
Input.Deskew() ' гардиш ва дурнаморо ислоҳ мекунад
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Рӯйхати филтрҳои тасвирии OCR
Филтрҳои вурудӣ барои баланд бардоштани сатҳи OCR, ки дар IronOCR сохта шудаанд, инҳоянд:
- OcrInput.Rotate (дараҷаҳои дукарата) - Тасвирҳоро ба андозаи дараҷа бо самти соат гардиш медиҳад. Барои муқобили соат, рақамҳои манфиро истифода баред.
- OcrInput.Binarize () - Ин филтри тасвир ҳар пикселро сиёҳ ё сафед мекунад ва бидуни хоки миёна. Мумкин аст ҳолатҳои иҷрои OCR-ро дар муқоисаи хеле пасти матн ба замина беҳтар созам.
- OcrInput.ToGrayScale () - Ин филтри тасвир ҳар пикселро ба сояи хокистарӣ табдил медиҳад. Ба гумон аст, ки дақиқии OCR-ро беҳтар кунад, аммо суръатро беҳтар кунад
- OcrInput.Contrast () - Контрастро ба таври худкор зиёд мекунад. Ин филтр аксар вақт суръат ва дақиқии OCR-ро дар сканерҳои пасти контраст беҳтар мекунад.
- OcrInput.DeNoise () - садои рақамиро нест мекунад. Ин филтр бояд танҳо дар ҷое истифода шавад, ки садо дар назар аст.
- OcrInput.Invert () - Ҳар рангро тағир медиҳад. Масалан, сафед сиёҳ мешавад: сиёҳ сафед мешавад.
- OcrInput.Dilate () - Морфологияи пешрафта. Васеъкунӣ ба ҳудуди ашё дар тасвир пикселҳо илова мекунад. Дар муқобили Эрод
- OcrInput.Erode () - Морфологияи пешрафта. Эрозия пикселҳоро дар ҳудуди объект хориҷ мекунад Опозитсияи Dilate
- OcrInput.Deskew () - Тасвирро давр мезанад, то он роҳи рости боло ва ортоналӣ бошад. Ин барои OCR хеле муфид аст, зеро таҳаммулпазирии Tesseract барои сканҳои каҷ метавонад то 5 дараҷа паст бошад.
- OcrInput.DeepCleanBackgroundNoise () - бартараф кардани садои вазнин замина. Ин филтрро танҳо дар ҳолате, ки садои шадиди заминаи ҳуҷҷат маълум аст, истифода баред, зеро ин филтр инчунин хавфи коҳиши дурустии OCR-и ҳуҷҷатҳои тозаро дорад ва CPU хеле гарон аст.
- OcrInput.EnhanceResolution - Ҳалли тасвирҳои пастсифатро беҳтар мекунад. Ин филтр аксар вақт лозим нест, зеро OcrInput.MinimumDPI ва OcrInput.TargetDPI ба таври худкор вурудоти ҳалли камро ҳал ва ҳал мекунанд.
CleanBackgroundNoise. Ин танзимест, ки то андозае вақтро талаб мекунад; аммо, он ба китобхона имкон медиҳад, ки садои рақамӣ, резиши коғаз ва дигар камбудиҳоро дар дохили тасвири рақамӣ ба таври худкор тоза кунад, ки дар акси ҳол онро барои хондани китобхонаҳои дигари OCR ғайримумкин мекунад.
EnhanceContrast ин танзимест , ки боиси IronOCR мегардад, ки ба таври худкор контрасти матнро дар пасманзари тасвир афзоиш медиҳад, дақиқии OCR-ро баланд мебардорад ва дар маҷмӯъ кор ва суръати OCR-ро афзоиш медиҳад.
EnhanceResolution ин танзимест , ки ба таври худкор тасвирҳои пастсифатро (ки зери 275 dpi мебошанд) муайян мекунад ва ба таври худкор тасвирро боло мебардорад ва сипас тамоми матнро бурро мекунад, то онро китобхонаи OCR комил хонад. Гарчанде ки ин амалиёт худ вақтро талаб мекунад, аммо он одатан вақти умумии амалиёти OCR дар тасвирро коҳиш медиҳад.
Забони IronOCR 22 бастаи забонҳои байналмилалиро дастгирӣ мекунад ва танзими забон метавонад барои интихоби як ё якчанд забонҳои барои амалиёт OCR татбиқшаванда истифода шавад.
Strategy IronOCR ду стратегияро дастгирӣ мекунад. Мо метавонем интихоб кунем, ки ба сканеркунии зуд ва камтар дақиқи ҳуҷҷат равем, ё стратегияи пешрафтаро истифода барем, ки бо истифода аз баъзе моделҳои зеҳни сунъӣ дурустии матни OCR-ро бо назардошти муносибати омории калимаҳо ба якдигар дар ҷумла истифода барад .
ColorSpace ин параметрест, ки дар он мо метавонем OCR-ро бо ранги хокистарӣ ё рангӣ интихоб кунем. Умуман, ранги хокистарӣ беҳтарин вариант аст. Аммо, баъзан вақте ки матнҳо ё заминаи рангҳои шабеҳ, вале ранги хеле гуногун мавҷуданд, фазои пурраи ранг натиҷаҳои беҳтарро фароҳам меорад.
DetectWhiteTextOnDarkBackgrounds. Умуман, ҳама китобхонаҳои OCR интизори дидани матни сиёҳ дар заминаҳои сафед мебошанд. Ин танзим ба IronOCR имкон медиҳад, ки манфӣ ё сафҳаҳои торикро бо матни сафед ба таври худкор муайян кунад ва хонад.
InputImageType. Ин параметр ба таҳиягар имкон медиҳад, ки китобхонаи OCR-ро дар бораи он, ки оё ба ҳуҷҷати пурра ё порае, ба монанди скриншот нигариста, роҳнамоӣ кунад.
RotateAndStraighten як муҳити мукаммалест, ки ба IronOCR қобилияти беназири хондани ҳуҷҷатҳоеро медиҳад, ки на танҳо гардиш доранд, балки шояд дорои дурнамо бошанд, ба монанди аксҳои ҳуҷҷатҳои матнӣ.
ReadBarcodes хусусияти муфидест , ки ба IronOCR имкон медиҳад, ки штрихкодҳо ва кодҳои QR-ро дар саҳифаҳо ба таври худкор хонад, зеро он матнро низ хонда, бори изофии бори иловагӣ надорад.
Ранги Чуқурӣ. Ин танзимот муайян мекунад, ки чанд бит дар як пиксел китобхонаи OCR барои муайян кардани умқи ранг истифода хоҳад шуд. Чуқурии баландтари ранг метавонад сифати OCR-ро афзоиш диҳад, аммо инчунин вақти ба итмом расонидани амалиёти OCR-ро зиёд мекунад.
126 Бастаи забонҳо
IronOCR 126 забони байналмилалиро тавассути бастаҳои забонӣ, ки ҳамчун DLL паҳн шудаанд, дастгирӣ мекунад, ки онҳоро аз ин вебсайт ё инчунин аз NuGet Package Manager зеркашӣ кардан мумкин аст.
Забонҳо иборатанд аз олмонӣ, фаронсавӣ, англисӣ, чинӣ, ҷопонӣ ва ғайра. Бастаҳои забонҳои мутахассис барои шиносномаҳои MRZ, чекҳои MICR, маълумоти молиявӣ, рақамҳои иҷозатнома ва бисёр чизҳои дигар мавҷуданд. Шумо инчунин метавонед ҳама гуна файли tesseract ".traineddata" -ро истифода баред - аз ҷумла онҳое, ки шумо худатон эҷод мекунед.
Намунаи забон
Истифодаи забонҳои дигари OCR.
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Агар лозим бошад, филтрҳои тасвирро илова кунед
// Дар ин ҳолат, ҳатто вуруди фикр сифати хеле паст аст
// IronTesseract метавонад бихонад, ки Tesseract анъанавӣ наметавонад.
var Result = Ocr.Read(input);
// Консол арабиро дар Windows ба осонӣ чоп карда наметавонад.
// Биёед ба ҷои он ба диск сабт кунем.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Агар лозим бошад, филтрҳои тасвирро илова кунед
// Дар ин ҳолат, ҳатто вуруди фикр сифати хеле паст аст
// IronTesseract метавонад бихонад, ки Tesseract анъанавӣ наметавонад.
var Result = Ocr.Read(input);
// Консол арабиро дар Windows ба осонӣ чоп карда наметавонад.
// Биёед ба ҷои он ба диск сабт кунем.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic
Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' Агар лозим бошад, филтрҳои тасвирро илова кунед
' Дар ин ҳолат, ҳатто вуруди фикр сифати хеле паст аст
' IronTesseract метавонад бихонад, ки Tesseract анъанавӣ наметавонад.
Dim Result = Ocr.Read(input)
' Консол арабиро дар Windows ба осонӣ чоп карда наметавонад.
' Биёед ба ҷои он ба диск сабт кунем.
Result.SaveAsTextFile("arabic.txt")
End Using
Намунаи якчанд забон
Ҳамзамон бо истифодаи забонҳои гуногун ҳамзамон OCR гузаронидан мумкин аст. Ин дарвоқеъ метавонад ба дарёфти метамаълумот ва URL-ҳои забони англисӣ дар ҳуҷҷатҳои Юникод кумак кунад.
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Tajik);
// Мо метавонем шумораи дилхоҳро илова кунем
using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Tajik);
// Мо метавонем шумораи дилхоҳро илова кунем
using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Tajik)
' Мо метавонем шумораи дилхоҳро илова кунем
Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
Объектҳои муфассали натиҷаҳои OCR
IronOCR барои ҳар як амалиёти OCR объекти натиҷаи OCR бар мегардонад. Одатан, таҳиягарон танҳо хосияти матни ин объектро истифода мебаранд, то матнро аз тасвир скан кунанд. Аммо, натиҷаҳои OCR DOM нисбат ба он хеле пешрафтаанд.
using IronOcr;
using System.Drawing; //Истиноди маҷлисро илова кунед
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! Муҳим
using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Барои ёфтани як API муфассал ва муфассалро дар инҷо биомӯзед:
// - Саҳифаҳо, Блокҳо, Парафафҳо, Сатрҳо, Калимаҳо, Чашмҳо
// - Содироти тасвирҳо, Ҳамоҳангҳои ҳуруфҳо, Маълумоти оморӣ
}
using IronOcr;
using System.Drawing; //Истиноди маҷлисро илова кунед
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! Муҳим
using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Барои ёфтани як API муфассал ва муфассалро дар инҷо биомӯзед:
// - Саҳифаҳо, Блокҳо, Парафафҳо, Сатрҳо, Калимаҳо, Чашмҳо
// - Содироти тасвирҳо, Ҳамоҳангҳои ҳуруфҳо, Маълумоти оморӣ
}
Imports IronOcr
Imports System.Drawing 'Истиноди маҷлисро илова кунед
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tajik
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '! Муҳим
Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages (0).Words
Dim Barcodes = Result.Barcodes
' Барои ёфтани як API муфассал ва муфассалро дар инҷо биомӯзед:
' - Саҳифаҳо, Блокҳо, Парафафҳо, Сатрҳо, Калимаҳо, Чашмҳо
' - Содироти тасвирҳо, Ҳамоҳангҳои ҳуруфҳо, Маълумоти оморӣ
End Using
Иҷрои
IronOCR аз қуттӣ кор мекунад ва бидуни зарурат ба ҷӯрсозӣ ё сахт тағир додани тасвирҳои вурудӣ.
Суръат сӯзон аст: IronOcr.2020 + то 10 маротиба тезтар аст ва нисбат ба сохти қаблӣ беш аз 250% камтар хато мекунад.
Бештар омӯз
Барои гирифтани маълумоти бештар дар бораи OCR дар C #, VB, F # ва ё ягон забони дигари .NET, лутфан дастурҳои ҷомеаи моро хонед , ки дар онҳо мисолҳои воқеӣ дар бораи чӣ гуна истифода бурдани IronOCR истифода мешаванд ва метавонанд нозукиҳои чӣ гуна беҳтаринро гирифтанро нишон диҳанд ин китобхона.
Маълумоти пурраи объект барои таҳиягарони .NET низ дастрас аст.