Кыргыз OCR C#жана .NET
Бул документтин башка версиялары:
IronOCR .NET кодерлерине сүрөттөрдөн жана PDF документтеринен 126 тилде, анын ичинде кыргыз тилинде текстти окууга мүмкүнчүлүк берген C#программалык компоненти.
Бул .NET иштеп чыгуучулары үчүн гана курулган жана ылдамдыгы менен тактыгы боюнча башка Tesseract кыймылдаткычтарынан үзгүлтүксүз ашып турган Tesseractтын өркүндөтүлгөн айрысы.
Мазмуну IronOcr.Тилдер.Кыргызча
Бул пакетте .NET үчүн 43 OCR тил бар:
- Кыргызча
- KyrgyzBest
- KyrgyzFast
Жүктөө
Кыргыз тилинин пакети [Кыргызча]
* Download as Zip
* Install with as https://www.nuget.org/packages/IronOcr.Languages.Kyrgyz/'> NuGet
Орнотуу
Биз эмне үчүн биринчи кезекте Сиздин .NET долбоор биздин Кыргызстандын OCR топтомун орнотуу болуп саналат.
PM> Install-Package IronOCR.Languages.Kyrgyz
Коддун мисалы
Бул C#кодунун мисалы Сүрөттөгү же PDF документтеги кыргызча текстти окуйт.
//PM> Install-Package IronOcr.Languages.Kyrgyz
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput(@"images\Kyrgyz.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Kyrgyz
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput(@"images\Kyrgyz.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Kyrgyz
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Kyrgyz
Using Input = New OcrInput("images\Kyrgyz.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
Эмне үчүн IronOCRди тандоо керек?
IronOCR - орнотууга оңой, толук жана жакшы документтелген .NET программалык китепканасы.
99,8% + OCR тактыгына жетүү үчүн IronOCR тандаңыз, эч кандай тышкы веб-кызматтарды колдонбостон, туруктуу акы төлөбөй же интернет аркылуу купуя документтерди жөнөтпөңүз.
Эмне үчүн C#иштеп чыгуучулары IronOCRди Vanilla Tesseract ордуна тандашат:
- Бир DLL же NuGet катары орнотуңуз
- Кутудан тышкары Tesseract 5, 4 жана 3 кыймылдаткычтарын камтыйт.
- Тактыгы 99,8% кадимки Tesseractтен ашып түшөт.
- Жалындуу ылдамдык жана MultiThreading
- MVC, WebApp, Desktop, Console & Server Application шайкеш
- Exes же C ++ коду иштей албайт
- Толугу менен PDF OCR колдоосу
- OCR жүргүзүү үчүн дээрлик бардык сүрөт файлдары же PDF
- Толугу менен .NET Core, Standard жана FrameWork колдоосу
- Windows, Mac, Linux, Azure, Docker, Lambda, AWS орнотуу
- Штрих коддорун жана QR коддорун окуу
- OCRди XHTML форматында экспорттоо
- Издөөгө боло турган PDF документтерине OCR экспорту
- Multithreading колдоо
- 126 эл аралык тилдин бардыгы NuGet же OcrData файлдары аркылуу башкарылат
- Сүрөттөрдү, координаттарды, статистиканы жана шрифттерди бөлүп алыңыз. Тек гана текст эмес.
- Tesseract OCRди коммерциялык жана менчик тиркемелердин ичинде бөлүштүрүү үчүн колдонсо болот.
Темир OCR чыныгы дүйнөдөгү сүрөттөр жана фотосүрөттөр сыяктуу жеткилеңсиз документтер менен иштөөдө же санариптик ызы-чуу же кемчиликтер болушу мүмкүн болгон төмөн чечилиштүү сканерлер менен иштөөдө жаркырайт.
.NET платформасы үчүн башка акысыз OCR китепканалары, мисалы, .net tesseract API жана веб кызматтары, бул чыныгы дүйнөдө колдонуу учурларында анчалык жакшы иштебейт.
Tesseract 5 менен OCR - C#менен коддоону баштаңыз
Төмөндөгү код үлгүсү C#же VB .NET аркылуу сүрөттөн текстти окуунун оңой экендигин көрсөтөт.
OneLiner
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
Configurable Hello World
// PM> Install-Package IronOCR.Languages.Kyrgyz
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... сиз каалаган сандагы сүрөттөрдү кошо аласыз
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Kyrgyz
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... сиз каалаган сандагы сүрөттөрдү кошо аласыз
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Kyrgyz
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Kyrgyz
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
C#PDF OCR
Ушул эле ыкманы ар кандай PDF документтен текст чыгарып алуу үчүн колдонсо болот.
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Ошондой эле, OCR форматындагы PDF баракчасынын номерлерин тандай алабыз
var Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// PDFтин ар бир барагына 1 барак
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Ошондой эле, OCR форматындагы PDF баракчасынын номерлерин тандай алабыз
var Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// PDFтин ар бир барагына 1 барак
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Kyrgyz
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' Ошондой эле, OCR форматындагы PDF баракчасынын номерлерин тандай алабыз
Dim Result = Ocr.Read(input)
Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' PDFтин ар бир барагына 1 барак
End Using
MultiPage TIFF үчүн OCR
OCR Reading TIFF файл форматы, анын ичинде бир нече барактык документтер. TIFF түздөн-түз изделүүчү текст менен PDF файлга айландырылышы мүмкүн.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Kyrgyz
Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Штрих коддору жана QR
Темир OCRдин уникалдуу өзгөчөлүгү - текстти сканерлеп жатканда документтердеги штрих коддорду жана QR коддорду окуй алат. OcrResult.OcrBarcode
классынын мисалдары иштеп чыгуучуга ар бир сканерленген штрих-код жөнүндө кеңири маалымат берет.
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// түрү жана жайгашкан жер касиеттери да ачыкка чыккан
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// түрү жана жайгашкан жер касиеттери да ачыкка чыккан
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True
Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' түрү жана жайгашкан жер касиеттери да ачыкка чыккан
Next Barcode
End Using
Сүрөттөрдүн белгилүү бир аймактары боюнча OCR
Темир OCRди сканерлөө жана окуу ыкмаларынын бардыгы текстти барактын же беттин кайсы бөлүгүнөн окууну каалай тургандыгыбызды көрсөтөт. Бул стандартташтырылган формаларды карап жатканда абдан пайдалуу жана бир топ убакытты үнөмдөп, натыйжалуулугун жогорулатат.
Эгин өсүмдүктөрүн пайдалануу үчүн, биз System.Drawing.Rectangle
объектисин колдоно алышыбыз үчүн, System.Drawing
тутумуна шилтеме System.Drawing
керек.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Өлчөмдөрү px менен
Input.Add("document.png", ContentArea);
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Өлчөмдөрү px менен
Input.Add("document.png", ContentArea);
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Kyrgyz
Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
.X = 215,
.Y = 1250,
.Height = 280,
.Width = 1335
}
' Өлчөмдөрү px менен
Input.Add("document.png", ContentArea)
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Төмөн сапаттуу сканерлер үчүн OCR
IronOCR OcrInput
классы кадимки Tesseract окуй албаган сканерлерди оңдой алат.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // санариптик ызы-чууну жана начар сканерлөөнү оңдойт
Input.Deskew(); // айланууну жана перспективаны оңдойт
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // санариптик ызы-чууну жана начар сканерлөөнү оңдойт
Input.Deskew(); // айланууну жана перспективаны оңдойт
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Kyrgyz
Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' санариптик ызы-чууну жана начар сканерлөөнү оңдойт
Input.Deskew() ' айланууну жана перспективаны оңдойт
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
OCR натыйжаларын Издөөчү PDF форматында экспорттоо
Көчүрүлө турган тексттик саптар менен PDF сүрөтү. Издөө системалары жана маалымат базалары тарабынан индекстелиши мүмкүн.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");
var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");
var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Kyrgyz
Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")
Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
Издөө үчүн PDF которууга TIFF
TIFF документин (же кандайдыр бир сүрөт файлдарынын тобун) түздөн-түз интранет, веб-сайт жана Google издөө системалары тарабынан индекстелиши мүмкүн болгон издөөгө боло турган PDF файлга которуңуз.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Kyrgyz
Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
OCR натыйжаларын HTML форматында экспорттоо
OCR сүрөтүн XHTMLге которуу.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Kyrgyz
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
OCR сүрөтүн өркүндөтүү чыпкалары
IronOCR OcrInput
объектилери үчүн OCR иштөөсүн жакшыртуу үчүн уникалдуу чыпкаларды берет.
Сүрөттү өркүндөтүү кодунун мисалы
OCR натыйжаларын мыкты жана тезирээк чыгаруу үчүн OCR киргизүү сүрөттөрүн сапаттуу кылат.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // санариптик ызы-чууну жана начар сканерлөөнү оңдойт
Input.Deskew(); // айланууну жана перспективаны оңдойт
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // санариптик ызы-чууну жана начар сканерлөөнү оңдойт
Input.Deskew(); // айланууну жана перспективаны оңдойт
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Kyrgyz
Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' санариптик ызы-чууну жана начар сканерлөөнү оңдойт
Input.Deskew() ' айланууну жана перспективаны оңдойт
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
OCR сүрөт чыпкаларынын тизмеси
IronOCR ичине орнотулган OCR иштөөсүн жогорулатуучу киргизүү чыпкаларына төмөнкүлөр кирет:
- OcrInput.Rotate (эки градус) - Сүрөттөрдү сааттын жебеси боюнча бир нече градуска айландырат. Сааттын жебесине каршы терс сандарды колдонуңуз.
- OcrInput.Binarize () - Бул сүрөт чыпкасы ар бир пикселди ак же кара түскө айландырат. Тексттин фон менен карама-каршы келишинин OCR көрсөткүчтөрүн жакшыртышы мүмкүн.
- OcrInput.ToGrayScale () - Бул сүрөт чыпкасы ар бир пикселди боз түстөгү көлөкөгө айландырат. OCR тактыгын жакшыртат окшойт, бирок ылдамдыгын жакшырта алат
- OcrInput.Contrast () - Контрастты автоматтык түрдө көбөйтөт . Бул чыпка көп учурда контрасттык сканерлерде OCR ылдамдыгын жана тактыгын жакшыртат.
- OcrInput.DeNoise () - Санарип ызы-чууну жок кылат. Бул чыпканы ызы-чуу күтүлгөн жерде гана колдонуу керек.
- OcrInput.Invert () - Ар бир түстү тескери бурат. Мисалы, Ак кара болуп калат: кара ак болуп калат.
- OcrInput.Dilate () - Өркүндөтүлгөн Морфология. Кеңейтүү сүрөттөгү объектилердин чек араларына пикселдерди кошот. Эроддун каршысында
- OcrInput.Erode () - Advanced Morphology. Эрозия объект чек араларындагы пикселдерди жок кылатOposite of Dilate
- OcrInput.Deskew () - Сүрөттү айландырып, ал туура жол жана ортогоналдуу болот. Бул OCR үчүн абдан пайдалуу, анткени бурмаланган сканерлерге Tesseract толеранттуулугу 5 градуска чейин жетиши мүмкүн.
- OcrInput.DeepCleanBackgroundNoise () - Катуу фондук ызы-чууну алып салуу. Бул фильтрди документтин фону өтө ызы-чуу болгон учурда гана колдонуңуз, анткени бул чыпка таза документтердин OCR тактыгын төмөндөтүү коркунучун жаратат жана CPU өтө кымбатка турат.
- OcrInput.EnhanceResolution - Төмөн сапаттагы сүрөттөрдүн чечилишин жогорулатат. Бул чыпка көп талап кылынбайт, анткени OcrInput.MinimumDPI жана OcrInput.TargetDPI төмөн чечилиштүү киргизүүлөрдү автоматтык түрдө кармайт жана чечет.
CleanBackgroundNoise. Бул бир аз убакытты талап кылган жөндөө; бирок, ал китепканага санариптик сүрөттүн ичиндеги санариптик ызы-чууну, кагаздын бырыштарын жана башка кемчиликтерди автоматтык түрдө тазалоого мүмкүндүк берет, башкача айтканда, аны башка OCR китепканалары окуй албай калат.
EnhanceContrast - бул темир OCRдин тексттин карама-каршылыгын сүрөттүн фонунда автоматтык түрдө көбөйтүп, OCRдин тактыгын жогорулатып, негизинен, OCRдин иштешин жана ылдамдыгын жогорулатуучу жөндөө.
EnhanceResolution - бул резолюциясы төмөн сүрөттөрдү (275 дюймден төмөн) автоматтык түрдө аныктай турган жана сүрөттү автоматтык түрдө жогорку деңгээлге көтөрүп, андан кийин тексттин бардыгын курчутуп, OCR китепканасы тарабынан мыкты окула турган жөндөө. Бул иш өзү көп убакытты талап кылганына карабастан, жалпысынан сүрөттөгү OCR операциясынын жалпы убактысын кыскартат.
Тил IronOCR 22 эл аралык пакетти колдойт жана тилди жөндөө менен OCR иштөөсүнө колдонула турган бир же бир нече тилди тандап алса болот.
Стратегия IronOCR эки стратегияны колдойт. Документти ылдамыраак жана анча так эмес сканерлөөнү тандашыбыз керек, же сүйлөмдөгү сөздөрдүн бири-бирине болгон статистикалык байланышын карап, OCR текстинин тактыгын автоматтык түрдө өркүндөтүү үчүн жасалма интеллекттин кээ бир моделдерин колдонгон өнүккөн стратегияны колдонсок болот. .
ColorSpace - бул биз OCRди боз түстө же түстө тандай алабыз. Көбүнчө, боз түстөгү шкала мыкты вариант. Бирок, кээде окшош түстөгү тексттер же тектер болгондо, бирок алардын түсү такыр башка болгондо, толук түстүү мейкиндик жакшы натыйжаларды берет.
DetectWhiteTextOnDarkBackgrounds. Адатта, бардык OCR китепканалары ак түстөгү кара текстти көрөт деп күтүшөт. Бул жөндөө IronOCR автоматтык түрдө негативдерди, же ак тексттүү кара барактарды таап, аларды окуй алат.
InputImageType. Бул жөндөө иштеп чыгуучуга OCR китепканасын толук документти же скриншот сыяктуу үзүндүнү карап жатабы же жокпу, көрсөтөт.
RotateAndStraighten - бул Iron OCRге айландырылуучу гана эмес, тексттик документтердин фотосүрөттөрү сыяктуу перспективаларды камтыган уникалдуу мүмкүнчүлүктөрдү камсыз кылган.
ReadBarcodes - бул пайдалуу функция, бул Iron OCRге баракчалардагы штрих коддорду жана QR коддорду автоматтык түрдө окуй алат, анткени текстти дагы кошумча убакыт жүктөөсү жок окуйт.
Түс тереңдиги. Бул параметр түстүн тереңдигин аныктоо үчүн OCR китепканасы бир пикселге канча бит колдоноорун аныктайт. Түстүн тереңдиги OCR сапатын жогорулатышы мүмкүн, бирок OCR иштөөсүн аяктаганга чейинки убакытты дагы көбөйтөт.
126 тил таңгактары
IronOCR 126 эл аралык тилди DLL форматында таратылган тил пакеттери аркылуу колдойт, аларды бул веб-сайттан , же NuGet Пакет Менеджеринен жүктөп алууга болот.
Тилдерге немис, француз, англис, кытай, жапон жана башка көптөгөн тилдер кирет. Паспорттук MRZ, MICR чектери, Финансылык маалыматтар, Мамлекеттик номурлар жана башка көптөгөн нерселер боюнча тилдик пакеттер бар. Сиз каалаган ".traineddata" tesseract файлын, анын ичинде өзүңүз жараткан файлдарды колдонсоңуз болот.
Тил мисалы
Башка OCR тилдерин колдонуу.
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Керек болсо сүрөт чыпкаларын кошуңуз
// Бул учурда, ал тургай, ой киргизүү абдан төмөн сапаттагы болот
// IronTesseract кадимки Tesseract кыла албаган нерсени окуй алат.
var Result = Ocr.Read(input);
// Console Windows'то араб тилин оңой басып чыгара албайт.
// Анын ордуна дискке сактайлы.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Керек болсо сүрөт чыпкаларын кошуңуз
// Бул учурда, ал тургай, ой киргизүү абдан төмөн сапаттагы болот
// IronTesseract кадимки Tesseract кыла албаган нерсени окуй алат.
var Result = Ocr.Read(input);
// Console Windows'то араб тилин оңой басып чыгара албайт.
// Анын ордуна дискке сактайлы.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic
Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' Керек болсо сүрөт чыпкаларын кошуңуз
' Бул учурда, ал тургай, ой киргизүү абдан төмөн сапаттагы болот
' IronTesseract кадимки Tesseract кыла албаган нерсени окуй алат.
Dim Result = Ocr.Read(input)
' Console Windows'то араб тилин оңой басып чыгара албайт.
' Анын ордуна дискке сактайлы.
Result.SaveAsTextFile("arabic.txt")
End Using
Көп тилдин мисалы
Бир эле учурда бир нече тилди колдонуп OCR жүргүзсө болот. Бул чындыгында англис тилиндеги метадайындарды жана Юникод документтериндеги URL даректерин алууга жардам берет.
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Kyrgyz);
// Биз каалаган тилдерди кошо алабыз
using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Kyrgyz);
// Биз каалаган тилдерди кошо алабыз
using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Kyrgyz)
' Биз каалаган тилдерди кошо алабыз
Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
Толук OCR натыйжалары объектилери
Темир OCR ар бир OCR операциясы үчүн OCR натыйжасы объектисин берет. Адатта, иштеп чыгуучулар сүрөттүн сканерленген текстин алуу үчүн ушул объекттин тексттик касиетин гана колдонушат. Бирок, OCR натыйжалары DOM буга караганда кыйла өнүккөн.
using IronOcr;
using System.Drawing; //Ассамблея маалымдамасын кошуу
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! Маанилүү
using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Масштабдуу, кеңири API табуу үчүн бул жерден издеңиз:
// - Барактар, Блоктор, Параффалар, Сызыктар, Сөздөр, Чаралар
// - Сүрөттөрдү экспорттоо, Шрифттердин координаттары, Статистикалык маалыматтар
}
using IronOcr;
using System.Drawing; //Ассамблея маалымдамасын кошуу
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! Маанилүү
using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Масштабдуу, кеңири API табуу үчүн бул жерден издеңиз:
// - Барактар, Блоктор, Параффалар, Сызыктар, Сөздөр, Чаралар
// - Сүрөттөрдү экспорттоо, Шрифттердин координаттары, Статистикалык маалыматтар
}
Imports IronOcr
Imports System.Drawing 'Ассамблея маалымдамасын кошуу
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Kyrgyz
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '! Маанилүү
Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages (0).Words
Dim Barcodes = Result.Barcodes
' Масштабдуу, кеңири API табуу үчүн бул жерден издеңиз:
' - Барактар, Блоктор, Параффалар, Сызыктар, Сөздөр, Чаралар
' - Сүрөттөрдү экспорттоо, Шрифттердин координаттары, Статистикалык маалыматтар
End Using
Performance
IronOCR коробкадан чыгып, сүрөттөрдү аткарууну же катуу өзгөртүүнү талап кылбайт.
Ылдамдык жалындап турат: IronOcr.2020 + 10 эсе ылдамыраак жана мурунку курууларга караганда 250% га аз ката кетирет.
Көбүрөөк билүү
OCR жөнүндө C #, VB, F # же башка .NET тилдеринде көбүрөөк билүү үчүн, темир OCRди кантип колдонсо болоору жөнүндө чыныгы мисалдарды келтирген жамаатыбыздын окуу куралдарын окуп чыгыңыз жана андан мыкты нерселерди алуунун нюанстарын көрсөтүңүз. бул китепкана.
.NET иштеп чыгуучулары үчүн толук объект маалымдамасы да бар.