Кыргыз OCR C# жана .NET
Бул документтин башка версиялары:
IronOCR .NET кодерлерине сүрөттөрдөн жана PDF документтеринен 126 тилде, анын ичинде кыргыз тилинде текстти окууга мүмкүнчүлүк берген C# программалык компоненти.
Бул .NET иштеп чыгуучулары үчүн гана курулган жана ылдамдыгы менен тактыгы боюнча башка Tesseract кыймылдаткычтарынан үзгүлтүксүз ашып турган Tesseractтын өркүндөтүлгөн айрысы.
Мазмуну IronOcr.Тилдер.Кыргызча
Бул пакетте .NET үчүн 43 OCR тил бар:
- Кыргызча
- KyrgyzBest
- KyrgyzFast
Жүктөө
Кыргыз тилинин пакети [Кыргызча]
* Download as Zip
* Install with as NuGet
Орнотуу
Сиздин .NET долбоорго Кыргызстан OCR топтомун орнотуу керек.
PM> Install-Package IronOCR.Languages.Kyrgyz
Коддун мисалы
Бул C# кодунун мисалы сүрөттөгү же PDF документтеги кыргызча текстти окуйт:
// PM> Install-Package IronOcr.Languages.Kyrgyz
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput(@"images\Kyrgyz.png"))
{
var Result = Ocr.Read(Input);
// Read the text using OCR from the image
var AllText = Result.Text;
// Extracted text from the image
}
// PM> Install-Package IronOcr.Languages.Kyrgyz
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput(@"images\Kyrgyz.png"))
{
var Result = Ocr.Read(Input);
// Read the text using OCR from the image
var AllText = Result.Text;
// Extracted text from the image
}
' PM> Install-Package IronOcr.Languages.Kyrgyz
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Kyrgyz
Using Input = New OcrInput("images\Kyrgyz.png")
Dim Result = Ocr.Read(Input)
' Read the text using OCR from the image
Dim AllText = Result.Text
' Extracted text from the image
End Using
Эмне үчүн IronOCRди тандоо керек?
IronOCR - орнотууга оңой, толук жана жакшы документтелген .NET программалык китепканасы.
99,8% + OCR тактыгына жетүү үчүн IronOCR тандаңыз, эч кандай тышкы веб-кызматтарды колдонбостон, туруктуу акы төлөбөй же интернет аркылуу купуя документтерди жөнөтпөңүз.
Эмне үчүн C# иштеп чыгуучулары IronOCRди Vanilla Tesseract ордуна тандашат:
- Бир DLL же NuGet катары орнотуңуз
- Кутудан тышкары Tesseract 5, 4 жана 3 кыймылдаткычтарын камтыйт.
- Тактыгы 99,8% кадимки Tesseractтен ашып түшөт.
- Жалындуу ылдамдык жана MultiThreading
- MVC, WebApp, Desktop, Console & Server Application шайкеш
- Exes же C++ коду иштей албайт
- Толугу менен PDF OCR колдоосу
- OCR жүргүзүү үчүн дээрлик бардык сүрөт файлдары же PDF
- Толугу менен .NET Core, Standard жана FrameWork колдоосу
- Windows, Mac, Linux, Azure, Docker, Lambda, AWS орнотуу
- Штрих коддорун жана QR коддорун окуу
- OCRди XHTML форматында экспорттоо
- Издөөгө боло турган PDF документтерине OCR экспорту
- Multithreading колдоо
- 126 эл аралык тилдин бардыгы NuGet же OcrData файлдары аркылуу башкарылат
- Сүрөттөрдү, координаттарды, статистиканы жана шрифттерди бөлүп алыңыз. Тек гана текст эмес.
- Tesseract OCRди коммерциялык жана менчик тиркемелердин ичинде бөлүштүрүү үчүн колдонсо болот.
Темир OCR чыныгы дүйнөдөгү сүрөттөр жана фотосүрөттөр сыяктуу жеткилеңсиз документтер менен иштөөдө же санариптик ызы-чуу же кемчиликтер болушу мүмкүн болгон төмөн чечилиштүү сканерлер менен иштөөдө жаркырайт.
.NET платформасы үчүн башка акысыз OCR китепканалары, мисалы, .net tesseract API жана веб кызматтары, бул чыныгы дүйнөдө колдонуу учурларында анчалык жакшы иштебейт.
Tesseract 5 менен OCR - C# менен коддоону баштаңыз
Төмөндөгү код үлгүсү C# же VB .NET аркылуу сүрөттөн текстти окуунун оңой экендигин көрсөтөт.
OneLiner
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
// Simple one-liner to read text from an image
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
// Simple one-liner to read text from an image
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
' Simple one-liner to read text from an image
Configurable Hello World
// PM> Install-Package IronOCR.Languages.Kyrgyz
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput())
{
Input.AddImage("images/sample.jpeg");
//... сиз каалаган сандагы сүрөттөрдү кошо аласыз (you can add as many images as needed)
var Result = Ocr.Read(Input);
// Outputs the read text to the console
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Kyrgyz
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput())
{
Input.AddImage("images/sample.jpeg");
//... сиз каалаган сандагы сүрөттөрдү кошо аласыз (you can add as many images as needed)
var Result = Ocr.Read(Input);
// Outputs the read text to the console
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Kyrgyz
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Kyrgyz
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg")
'... сиз каалаган сандагы сүрөттөрдү кошо аласыз (you can add as many images as needed)
Dim Result = Ocr.Read(Input)
' Outputs the read text to the console
Console.WriteLine(Result.Text)
End Using
C# PDF OCR
Ушул эле ыкманы ар кандай PDF документтен текст чыгарып алуу үчүн колдонсо болот.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Add PDF and decrypt if necessary
var Result = Ocr.Read(input);
// Outputs the content read from the PDF
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// PDFтин ар бир барагына 1 барак
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Add PDF and decrypt if necessary
var Result = Ocr.Read(input);
// Outputs the content read from the PDF
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// PDFтин ар бир барагына 1 барак
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Kyrgyz
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' Add PDF and decrypt if necessary
Dim Result = Ocr.Read(input)
' Outputs the content read from the PDF
Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' PDFтин ар бир барагына 1 барак
End Using
MultiPage TIFF үчүн OCR
OCR Reading TIFF файл форматы, анын ичинде бир нече барактык документтер. TIFF түздөн-түз изделүүчү текст менен PDF файлга айландырылышы мүмкүн.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput())
{
Input.AddMultiFrameTiff("multi-frame.tiff");
// Processes multi-page TIFF
var Result = Ocr.Read(Input);
// Outputs the text from the TIFF
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput())
{
Input.AddMultiFrameTiff("multi-frame.tiff");
// Processes multi-page TIFF
var Result = Ocr.Read(Input);
// Outputs the text from the TIFF
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Kyrgyz
Using Input = New OcrInput()
Input.AddMultiFrameTiff("multi-frame.tiff")
' Processes multi-page TIFF
Dim Result = Ocr.Read(Input)
' Outputs the text from the TIFF
Console.WriteLine(Result.Text)
End Using
Штрих коддору жана QR
Темир OCRдин уникалдуу өзгөчөлүгү - текстти сканерлеп жатканда документтердеги штрих коддорду жана QR коддорду окуй алат. OcrResult.OcrBarcode
классынын мисалдары иштеп чыгуучуга ар бир сканерленген штрих-код жөнүндө кеңири маалымат берет.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
// Read barcodes from images
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// түрү жана жайгашкан жер касиеттери да ачыкка чыккан
}
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
// Read barcodes from images
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// түрү жана жайгашкан жер касиеттери да ачыкка чыккан
}
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True
Using input = New OcrInput()
input.AddImage("img/Barcode.png")
' Read barcodes from images
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' түрү жана жайгашкан жер касиеттери да ачыкка чыккан
Next Barcode
End Using
Сүрөттөрдүн белгилүү бир аймактары боюнча OCR
Темир OCRди сканерлөө жана окуу ыкмаларынын бардыгы текстти барактын же беттин кайсы бөлүгүнөн окууну каалай тургандыгыбызды көрсөтөт. Бул стандартташтырылган формаларды карап жатканда абдан пайдалуу жана бир топ убакытты үнөмдөп, натыйжалуулугун жогорулатат.
Эгин өсүмдүктөрүн пайдалануу үчүн, биз System.Drawing.Rectangle
объектисин колдоно алышыбыз үчүн, System.Drawing
тутумуна шилтеме керек.
using IronOcr;
using System.Drawing; // Required for working with Rectangle
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput())
{
var ContentArea = new Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Specify the area to perform OCR in
Input.Add("document.png", ContentArea);
var Result = Ocr.Read(Input);
// Outputs the text from the specified rectangle in the image
Console.WriteLine(Result.Text);
}
using IronOcr;
using System.Drawing; // Required for working with Rectangle
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput())
{
var ContentArea = new Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Specify the area to perform OCR in
Input.Add("document.png", ContentArea);
var Result = Ocr.Read(Input);
// Outputs the text from the specified rectangle in the image
Console.WriteLine(Result.Text);
}
Imports IronOcr
Imports System.Drawing ' Required for working with Rectangle
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Kyrgyz
Using Input = New OcrInput()
Dim ContentArea = New Rectangle() With {
.X = 215,
.Y = 1250,
.Height = 280,
.Width = 1335
}
' Specify the area to perform OCR in
Input.Add("document.png", ContentArea)
Dim Result = Ocr.Read(Input)
' Outputs the text from the specified rectangle in the image
Console.WriteLine(Result.Text)
End Using
Төмөн сапаттуу сканерлер үчүн OCR
IronOCR OcrInput
классы кадимки Tesseract окуй албаган сканерлерди оңдой алат.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // Sanitize noisy images
Input.Deskew(); // Correct skewed images
var Result = Ocr.Read(Input);
// Outputs the text from the low-quality image
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // Sanitize noisy images
Input.Deskew(); // Correct skewed images
var Result = Ocr.Read(Input);
// Outputs the text from the low-quality image
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Kyrgyz
Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' Sanitize noisy images
Input.Deskew() ' Correct skewed images
Dim Result = Ocr.Read(Input)
' Outputs the text from the low-quality image
Console.WriteLine(Result.Text)
End Using
OCR натыйжаларын Издөөчү PDF форматында экспорттоо
Көчүрүлө турган тексттик саптар менен PDF сүрөтү. Издөө системалары жана маалымат базалары тарабынан индекстелиши мүмкүн.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput())
{
Input.Title = "Quarterly Report";
Input.AddImage("image1.jpeg");
Input.AddImage("image2.png");
Input.AddImage("image3.gif");
var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf");
// Save OCR results as searchable PDF
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput())
{
Input.Title = "Quarterly Report";
Input.AddImage("image1.jpeg");
Input.AddImage("image2.png");
Input.AddImage("image3.gif");
var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf");
// Save OCR results as searchable PDF
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Kyrgyz
Using Input = New OcrInput()
Input.Title = "Quarterly Report"
Input.AddImage("image1.jpeg")
Input.AddImage("image2.png")
Input.AddImage("image3.gif")
Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
' Save OCR results as searchable PDF
End Using
Издөө үчүн PDF которууга TIFF
TIFF документин (же кандайдыр бир сүрөт файлдарынын тобун) түздөн-түз интранет, веб-сайт жана Google издөө системалары тарабынан индекстелиши мүмкүн болгон издөөгө боло турган PDF файлга которуңуз.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput())
{
Input.AddMultiFrameTiff("example.tiff");
var Result = Ocr.Read(Input).SaveAsSearchablePdf("searchable.pdf");
// Converts TIFF to a searchable PDF
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput())
{
Input.AddMultiFrameTiff("example.tiff");
var Result = Ocr.Read(Input).SaveAsSearchablePdf("searchable.pdf");
// Converts TIFF to a searchable PDF
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Kyrgyz
Using Input = New OcrInput()
Input.AddMultiFrameTiff("example.tiff")
Dim Result = Ocr.Read(Input).SaveAsSearchablePdf("searchable.pdf")
' Converts TIFF to a searchable PDF
End Using
OCR натыйжаларын HTML форматында экспорттоо
OCR сүрөтүн XHTMLге которуу.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput())
{
Input.Title = "Html Title";
Input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
// Save OCR results as HTML
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput())
{
Input.Title = "Html Title";
Input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
// Save OCR results as HTML
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Kyrgyz
Using Input = New OcrInput()
Input.Title = "Html Title"
Input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
' Save OCR results as HTML
End Using
OCR сүрөтүн өркүндөтүү чыпкалары
IronOCR OcrInput
объектилери үчүн OCR иштөөсүн жакшыртуу үчүн уникалдуу чыпкаларды берет.
Сүрөттү өркүндөтүү кодунун мисалы
OCR натыйжаларын мыкты жана тезирээк чыгаруу үчүн OCR киргизүү сүрөттөрүн сапаттуу кылат.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // Removes digital noise
Input.Deskew(); // Corrects rotation and perspective
var Result = Ocr.Read(Input);
// Outputs the text after image enhancement
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // Removes digital noise
Input.Deskew(); // Corrects rotation and perspective
var Result = Ocr.Read(Input);
// Outputs the text after image enhancement
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Kyrgyz
Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' Removes digital noise
Input.Deskew() ' Corrects rotation and perspective
Dim Result = Ocr.Read(Input)
' Outputs the text after image enhancement
Console.WriteLine(Result.Text)
End Using
OCR сүрөт чыпкаларынын тизмеси
IronOCR ичине орнотулган OCR иштөөсүн жогорулатуучу киргизүү чыпкаларына төмөнкүлөр кирет:
- OcrInput.Rotate (эки градус) - Сүрөттөрдү сааттын жебеси боюнча бир нече градуска айландырат. Сааттын жебесине каршы терс сандарды колдонуңуз.
- OcrInput.Binarize() - Бул сүрөт чыпкасы ар бир пикселди ак же кара түскө айландырат. Тексттин фон менен карама-каршы келишинин OCR көрсөткүчтөрүн жакшыртышы мүмкүн.
- OcrInput.ToGrayScale() - Сүрөттөрдү боз түстөгү көлөкөгө айландыруу OCR тактыгын жакшыртат.
- OcrInput.Contrast() - Контрастты автоматтык түрдө көбөйтөт. Бул чыпка күңүрт сканерлерде OCR ылдамдыгын жана тактыгын жакшыртат.
- OcrInput.DeNoise() - Санарип ызы-чууну токтотуу. Бул чыпканы ызы-чуу болушу мүмкүн деп эсептеген учурларда гана колдонуу керек.
- OcrInput.Invert() - Ар бир түстү тесвит кылат. Мисалы, ак кара болуп калат, кара ак болуп калат.
- OcrInput.Dilate() - Морфологиялык мүмкүндүктөрдү жакшыртуу. Сүрөттөгү объектилердин чек араларына пикселдерди кошот.
- OcrInput.Erode() - Морфологиялык мүмкүндүктөрдү жакшыртуу, чек араларындагы пикселдерди жок кылат.
- OcrInput.Deskew() - Сүрөттү айландырып, ал туура жол жана ортогоналдуу болот. Бул OCR үчүн абдан пайдалуу.
- OcrInput.DeepCleanBackgroundNoise() - Катуу фондук ызы-чууну жок кылуу.
- OcrInput.EnhanceResolution - Төмөн сапаттагы сүрөттөрдүн чечилишин жогорулатуу.
CleanBackgroundNoise. Бул бир аз убакытты талап кылган жөндөө; бирок, ал китепканага санариптик сүрөттүн ичиндеги санариптик ызы-чууну, кагаздын бырыштарын жана башка кемчиликтерди автоматтык түрдө тазалоого мүмкүнчүлүк берет, башкача айтканда, аны башка OCR китепканалары окуй албай калат.
EnhanceContrast - ийгиликтерди темир OCRтин тексттин карама-каршылыгын сүрөттүн фонунда автоматтык түрдө көбөйтүп, OCRдин тактыгын жогорулатып, иштешин жана ылдамдыгын жогорулатуу үчүн колдонулат.
EnhanceResolution - резолюциясы төмөн сүрөттөрдүн автоматтык түрдө аныкталуучу жана жогорулатуу, андан кийин тексттин бардыгын курчутуу.
Тил IronOCR 122 тилдик пакеттерди колдойт жана тилди жөндөө аркылуу OCR үчүн бир же бир нече тилди тандап алууда колдонулушу мүмкүн.
Стратегия IronOCR алты стратегияны колдойт. Документти тезирээк жана таптакыр так эмес сканерлөөнү тандашыбыз керек же жасалма интеллекттин каражаттары менен OCR текстинин тактыгын өркүндөтүү үчүн чечимдер менен алектенүүчү стратегияларды тандашыбыз мүмкүн.
ColorSpace - бул биз боз түстө же түстө окууну каалаган ишмерчиликтер үчүн белгиленет. Көпчүлүк учурда, боз шкала катары тандап алуу эң жакшы.
DetectWhiteTextOnDarkBackgrounds. Бул темир OCRди автоматтык түрдө негативге ылдамдык жана тактык менен натыйжалуу чечүү мүмкүнчүлүгүн берет.
InputImageType. Бул жараткычка OCRдин бүт документин же кандайдыр бир үзүндү же таркатма билишке даяр документти окуу керек экендигин көрсөтөт.
RotateAndStraighten - бул темир OCRди графикалык түзүлүштөргө каршы болдура турган уникалдуу жөндөмдүүлүктү берет.
ReadBarcodes - барактын текстин сканерлөө маалында кайталарда автоматтык штрих-коддорду окуйт, ал тек көздөй кошумча убакытты талап кылбайт.
Түс тереңдиги. Бул параметр түстүн тереңдигин аныктоо үчүн OCR китепканасы канча бит пикселге кармаларын аныктайт.
126 тил таңгактары
IronOCR 126 эл аралык тилди DLL форматында таратылган тил пакеттери аркылуу колдойт, аларды бул веб-сайттан , же NuGet Пакет Менеджеринен жүктөп алууга болот.
Тилдерге немис, француз, англис, кытай, жапон жана башка көптөгөн тилдер кирет. Паспорттук MRZ, MICR чектер, Финансылык маалыматтар, Мамлекеттик номурлар жана башка көптөгөн нерселер боюнча тилдик пакеттер бар. Сиз каалаган ".traineddata" tesseract файлын, анын ичинде бирӨзүңүз жараткан файлдарды колдонсоңуз болот.
Тил мисалы
Башка OCR тилдерин колдонуу.
using IronOcr;
// PM> Install IronOcr.Languages.Arabic
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Керек болсо сүрөт чыпкаларын кошуңуз
var Result = Ocr.Read(input);
// Save Arabic text to file as it may not display correctly in Console
Result.SaveAsTextFile("arabic.txt");
}
using IronOcr;
// PM> Install IronOcr.Languages.Arabic
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Керек болсо сүрөт чыпкаларын кошуңуз
var Result = Ocr.Read(input);
// Save Arabic text to file as it may not display correctly in Console
Result.SaveAsTextFile("arabic.txt");
}
Imports IronOcr
' PM> Install IronOcr.Languages.Arabic
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic
Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' Керек болсо сүрөт чыпкаларын кошуңуз
Dim Result = Ocr.Read(input)
' Save Arabic text to file as it may not display correctly in Console
Result.SaveAsTextFile("arabic.txt")
End Using
Көп тилдин мисалы
Бир эле учурда бир нече тилди колдонуп OCR жүргүзсө болот. Бул чындыгында англис тилиндеги метадайындарды жана Юникод документтериндеги URL даректерин алууга жардам берет.
using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Kyrgyz);
using (var input = new OcrInput())
{
input.Add("multi-language.pdf");
// Extract text from multi-language PDF
var Result = Ocr.Read(input);
// Save the OCR results to a text file
Result.SaveAsTextFile("results.txt");
}
using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Kyrgyz);
using (var input = new OcrInput())
{
input.Add("multi-language.pdf");
// Extract text from multi-language PDF
var Result = Ocr.Read(input);
// Save the OCR results to a text file
Result.SaveAsTextFile("results.txt");
}
Imports IronOcr
' PM> Install IronOcr.Languages.ChineseSimplified
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Kyrgyz)
Using input = New OcrInput()
input.Add("multi-language.pdf")
' Extract text from multi-language PDF
Dim Result = Ocr.Read(input)
' Save the OCR results to a text file
Result.SaveAsTextFile("results.txt")
End Using
Толук OCR натыйжалары объектилери
Темир OCR ар бир OCR операциясы үчүн OCR натыйжасы объектисин берет. Адатта, иштеп чыгуучулар сүрөттүн сканерленген текстин алуу үчүн ушул объекттин тексттик касиетин гана колдонушат. Бирок, OCR натыйжалары DOM буга караганда кыйла өнүккөн.
using IronOcr;
using System.Drawing; // Ассамблея маалымдамасын кошуу
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true;
using (var Input = new OcrInput(@"images\sample.tiff"))
{
var Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// Массалык, кеңири API табуу үчүн бул жерден издеңиз:
// - Барактар, Блоктор, Парафрафалар, Сызыктар, Сөздөр, Тексттер
// - Сүрөттөрдү экспорттоо, Шрифттердин координаттары, Статистикалык маалыматтар
}
using IronOcr;
using System.Drawing; // Ассамблея маалымдамасын кошуу
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Kyrgyz;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true;
using (var Input = new OcrInput(@"images\sample.tiff"))
{
var Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// Массалык, кеңири API табуу үчүн бул жерден издеңиз:
// - Барактар, Блоктор, Парафрафалар, Сызыктар, Сөздөр, Тексттер
// - Сүрөттөрдү экспорттоо, Шрифттердин координаттары, Статистикалык маалыматтар
}
Imports IronOcr
Imports System.Drawing ' Ассамблея маалымдамасын кошуу
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Kyrgyz
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True
Using Input = New OcrInput("images\sample.tiff")
Dim Result = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages(0).Words
Dim Barcodes = Result.Barcodes
' Массалык, кеңири API табуу үчүн бул жерден издеңиз:
' - Барактар, Блоктор, Парафрафалар, Сызыктар, Сөздөр, Тексттер
' - Сүрөттөрдү экспорттоо, Шрифттердин координаттары, Статистикалык маалыматтар
End Using
Performance
IronOCR коробкадан чыгып, сүрөттөрдү аткарууну же катуу өзгөртүүнү талап кылбайт.
Ылдамдык жалындап турат: IronOcr.2020 + 10 эсе ылдамыраак жана мурунку курууларга караганда 250% га аз ката кетирет.
Көбүрөөк билүү
OCR жөнүндө C#, VB, F# же башка .NET тилдеринде көбүрөөк билүү үчүн, темир OCRди кантип колдонсо болоору жөнүндө чыныгы мисалдарды келтирген жамаатыбыздын окуу куралдарын окуп чыгыңыз жана андан мыкты нерселерди алуунун нюанстарын көрсөтүңүз. бул китепкана.
.NET иштеп чыгуучулары үчүн толук объект маалымдамасы да бар.