C#һәм .NET
Бу документның башка версияләре:
IronOCR - C#программа компоненты .NET кодераторларына рәсемнәрдән һәм PDF документларыннан текстны 126 телдә укырга мөмкинлек бирә, шул исәптән татар.
Бу Тессерактның алдынгы челтәре, .NET ясаучылар өчен генә төзелгән һәм тизлек һәм төгәллек өчен башка Tesseract двигательләреннән даими узып бара.
IronOcr.Languages.Tatar эчтәлеге
Бу пакетта .NET өчен 40 OCR теле бар:
- Татар
- TatarBest
- Tatarәр сүзнең
Йөкләү
Татар Pack [татар теле Себер теле]
* Download as Почта
* Install with https://www.nuget.org/packages/IronOcr.Languages.Tatar/'> NuGet
Урнаштыру
Беренче эш - безнең .NET проектына безнең Татар OCR пакетын урнаштыру.
PM> Install-Package IronOCR.Languages.Tatar
Код үрнәге
Бу C#код мисалы Рәсем яки PDF документыннан татар текстын укый.
//PM> Install-Package IronOcr.Languages.Tatar
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tatar;
using (var Input = new OcrInput(@"images\Tatar.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Tatar
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tatar;
using (var Input = new OcrInput(@"images\Tatar.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Tatar
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tatar
Using Input = New OcrInput("images\Tatar.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
Нигә IronOCR сайларга?
Тимер OCR - урнаштыру җиңел, тулы һәм яхшы документлаштырылган .NET программа китапханәсе.
Тышкы веб-хезмәтләрне, дәвамлы түләүләрне кулланмыйча яки интернет аша яшерен документлар җибәрмичә, 99,8% + OCR төгәллегенә ирешү өчен IronOCR-ны сайлагыз.
Ни өчен C#уйлап табучылар Vanilla Tesseract өстендә IronOCR сайлыйлар:
- Бер DLL яки NuGet итеп урнаштырыгыз
- Тессеракт өчен 5, 4 һәм 3 двигательләр керә.
- Төгәллек 99,8% регуляр Тессеракттан күпкә өстен.
- Ялкынлы тизлек һәм күп уку
- MVC, WebApp, Desktop, Console & Server кушымтасы туры килә
- Эшләргә Exes яки C ++ коды юк
- Тулы PDF OCR ярдәме
- OCR теләсә нинди Рәсем файлын яки PDFны башкару өчен
- Тулы .NET Core, Standard һәм FrameWork ярдәме
- Windows, Mac, Linux, Azure, Docker, Lambda, AWS урнаштырыгыз
- Штрих-кодларны һәм QR кодларны укыгыз
- XHTML буенча OCR экспортлагыз
- Эзләнә торган PDF документларына OCR экспортлагыз
- Күпкырлы ярдәм
- 126 халыкара тел барысы да NuGet яки OcrData файллары белән идарә ителә
- Рәсемнәрне, координаталарны, статистика һәм шрифтларны чыгару. Текст кына түгел.
- Tesseract OCR-ны коммерция һәм милек кушымталары эчендә тарату өчен кулланырга мөмкин.
Тимер OCR реаль дөнья образлары һәм камил булмаган документлар белән эшләгәндә балкып тора, фотосурәтләр, яки санлы тавыш яки кимчелекләр булырга мөмкин түбән резолюция сканерлары.
.NET платформасы өчен бүтән бушлай OCR китапханәләре, башка .net tesseract APIs һәм веб-хезмәтләр бу реаль дөнья куллану очракларында бик яхшы эшләми.
Tesseract 5 белән OCR - C#кодлаштыруны башлау
Түбәндәге код үрнәге C#яки VB .NET ярдәмендә рәсемнән текстны уку ничек җиңел икәнен күрсәтә.
OneLiner
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
Сәлам Дөнья
// PM> Install-Package IronOCR.Languages.Tatar
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tatar;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... сез теләсә нинди рәсемнәр өсти аласыз
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Tatar
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tatar;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... сез теләсә нинди рәсемнәр өсти аласыз
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Tatar
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tatar
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
C#PDF OCR
Шул ук ысул теләсә нинди PDF документыннан текст алу өчен кулланылырга мөмкин.
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tatar;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Без шулай ук OCR өчен махсус PDF бит номерларын сайлый алабыз
var Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// PDF-ның һәр бите өчен 1 бит
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tatar;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Без шулай ук OCR өчен махсус PDF бит номерларын сайлый алабыз
var Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// PDF-ның һәр бите өчен 1 бит
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tatar
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' Без шулай ук OCR өчен махсус PDF бит номерларын сайлый алабыз
Dim Result = Ocr.Read(input)
Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' PDF-ның һәр бите өчен 1 бит
End Using
MultiPage TIFF өчен OCR
OCR уку TIFF файл форматы, берничә бит документларын кертеп. TIFF шулай ук эзләнә торган текст белән турыдан-туры PDF файлына әверелергә мөмкин.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tatar;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tatar;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tatar
Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Штрих-кодлар һәм QR
Тимер OCRның уникаль үзенчәлеге - ул текстны сканерләгәндә документлардан штрих-кодларны һәм QR кодларны укый ала. OcrResult.OcrBarcode
класс очраклары уйлап табучыга һәр сканерланган штрих-код турында тулы мәгълүмат бирә.
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// төре һәм урнашу үзенчәлекләре дә фаш ителә
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// төре һәм урнашу үзенчәлекләре дә фаш ителә
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True
Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' төре һәм урнашу үзенчәлекләре дә фаш ителә
Next Barcode
End Using
Рәсемнәрнең аерым өлкәләрендә OCR
Тимер OCR-ның барлык сканерлау һәм уку ысуллары битнең яки битнең кайсы өлешен текст укырга теләгәнебезне күрсәтә ала. Стандартланган формаларны караганда бу бик файдалы, бик күп вакытны саклап калырга һәм эффективлыкны күтәрергә мөмкин.
Уңыш районнары куллану өчен, без бер система Белешмә өстәргә кирәк булачак System.Drawing
без куллана ала дип System.Drawing.Rectangle
объект.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tatar;
using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Ensionsлчәмнәре px
Input.Add("document.png", ContentArea);
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tatar;
using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Ensionsлчәмнәре px
Input.Add("document.png", ContentArea);
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tatar
Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
.X = 215,
.Y = 1250,
.Height = 280,
.Width = 1335
}
' Ensionsлчәмнәре px
Input.Add("document.png", ContentArea)
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Сыйфатсыз сканерлар өчен OCR
Тимер OCR OcrInput
классы гадәти Tesseract укый алмаган сканерларны төзәтә ала.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tatar;
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // санлы тавышны һәм начар сканерны төзәтә
Input.Deskew(); // әйләнүне һәм перспективаны төзәтә
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tatar;
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // санлы тавышны һәм начар сканерны төзәтә
Input.Deskew(); // әйләнүне һәм перспективаны төзәтә
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tatar
Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' санлы тавышны һәм начар сканерны төзәтә
Input.Deskew() ' әйләнүне һәм перспективаны төзәтә
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
OCR нәтиҗәләрен эзләү PDF итеп экспортлау
Күчереп язылган текст сызыклары белән PDF-ка рәсем. Эзләү системалары һәм мәгълүмат базалары белән индексацияләнергә мөмкин.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tatar;
using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");
var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tatar;
using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");
var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tatar
Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")
Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
Эзләнә торган PDF конверсиясенә TIFF
TIFF документын (яки теләсә нинди рәсем файллары төркемен) турыдан-туры эзләнә торган PDFка күчерегез, аны интернет, вебсайт һәм google эзләү системалары индексацияли ала.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tatar;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tatar;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tatar
Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
OCR нәтиҗәләрен HTML итеп экспортлагыз
OCR рәсеме XHTML конверсиясенә.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tatar;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tatar;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tatar
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
OCR рәсемне арттыру фильтрлары
IronOCR OCR эшчәнлеген яхшырту өчен OcrInput
объектлары өчен уникаль фильтрлар тәкъдим итә.
Рәсемне арттыру коды мисалы
Яхшырак, тизрәк OCR нәтиҗәләрен чыгару өчен OCR кертү рәсемнәрен югары сыйфатлы итә.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tatar;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // санлы тавышны һәм начар сканерны төзәтә
Input.Deskew(); // әйләнүне һәм перспективаны төзәтә
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tatar;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // санлы тавышны һәм начар сканерны төзәтә
Input.Deskew(); // әйләнүне һәм перспективаны төзәтә
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tatar
Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' санлы тавышны һәм начар сканерны төзәтә
Input.Deskew() ' әйләнүне һәм перспективаны төзәтә
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
OCR Рәсем Фильтрлары исемлеге
IronOCR эчендә төзелгән OCR җитештерүчәнлеген арттыру өчен кертү фильтрлары:
- OcrInput.Rotate (икеләтә градус) - рәсемнәрне сәгать юлы буенча берничә градуска әйләндерә. Сәгатькә каршы юнәлештә тискәре саннарны кулланыгыз.
- OcrInput.Binarize () - Бу рәсем фильтры һәр пиксельне кара яки ак төскә әйләндерә. Тексттан фонга бик түбән контраст булган OCR җитештерү очракларын яхшыртырга мөмкин.
- OcrInput.ToGrayScale () - Бу рәсем фильтры һәр пиксельне соры төс күләгәсенә әйләндерә. OCR төгәллеген яхшырту мөмкин түгел, ләкин тизлекне яхшыртырга мөмкин
- OcrInput.Contrast () - контрастны автоматик рәвештә арттыра. Бу фильтр еш контраст сканерларда OCR тизлеген һәм төгәллеген яхшырта.
- OcrInput.DeNoise () - санлы тавышны бетерә. Бу фильтр шау-шу көтелгән җирдә генә кулланылырга тиеш.
- OcrInput.Invert () - һәр төсне үзгәртә. Мисал өчен, ак кара була: кара ак була.
- OcrInput.Dilate () - Алга киткән морфология. Дилация образдагы әйберләр чикләренә пиксель өсти. Эродка каршы
- OcrInput.Erode () - Алга киткән морфология. Эрозия объект чикләрендә пиксельләрне бетерә
- OcrInput.Deskew () - Рәсемне әйләндерә, шуңа күрә ул дөрес һәм ортогональ. Бу OCR өчен бик файдалы, чөнки сканерлау өчен Тессеракт толерантлыгы 5 градуска кадәр түбән булырга мөмкин.
- OcrInput.DeepCleanBackgroundNoise () - Авыр фон тавышын бетерү. Бу фильтрны экстремаль документ фон тавышы билгеле булган очракта кулланыгыз, чөнки бу фильтр шулай ук чиста документларның OCR төгәллеген киметү куркынычына китерә, һәм бик үзәк эшкәрткеч җайланма кыйммәт.
- OcrInput.EnhanceResolution - түбән сыйфатлы рәсемнәрнең резолюциясен көчәйтә. Бу фильтр еш кирәк түгел, чөнки OcrInput.MinimumDPI һәм OcrInput.TargetDPI түбән резолюция керемнәрен автоматик рәвештә тотып чишәчәк .
CleanBackgroundNoise. Бу бераз вакыт таләп итә торган көйләү; шулай да, ул китапханәгә санлы тавыш эчендә, кәгазь ватыкларында һәм башка кимчелекләрне автоматик рәвештә чистартырга мөмкинлек бирә, бу аны бүтән OCR китапханәләре укый алмаслык итеп күрсәтә.
EnhanceContrast - тимер OCR рәсем фонында текст контрастын автоматик рәвештә арттыра торган көйләү, OCR төгәллеген арттыру һәм гадәттә җитештерүчәнлекне һәм OCR тизлеген арттыру.
EnhanceResolution - түбән резолюцияле рәсемнәрне (275 dpi астында) автоматик рәвештә ачыклый торган һәм рәсемне автоматик рәвештә күтәрә торган, аннары OCR китапханәсе белән яхшы укылырлык итеп көйләү. Бу операция үзе күп вакыт таләп итсә дә, гадәттә образдагы OCR операциясе өчен гомуми вакытны кыскарта.
Тел тимер OCR 22 халыкара тел пакетына ярдәм итә, һәм тел көйләү OCR операциясе өчен кулланыла торган бер яки берничә телне сайлау өчен кулланылырга мөмкин.
Стратегия тимер OCR ике стратегияне хуплый. Без документны тиз һәм азрак төгәл сканерлау өчен, яисә ясалма интеллект модельләрен кулланып, җөмләдәге сүзләрнең статистик бәйләнешен карап, OCR текстының төгәллеген автоматик рәвештә яхшырту өчен кулланылган алдынгы стратегияне кулланырга мөмкин. .
ColorSpace - соры төстә яки төстә OCR сайлый торган көйләү. Гадәттә, соры төс - иң яхшы вариант. Ләкин, кайвакыт охшаш төсле текстлар яки фон булганда, ләкин төрле төс булганда, тулы төсле төс киңлеге яхшырак нәтиҗәләр бирәчәк.
DetectWhiteTextOnDarkBackgrounds. Гадәттә, барлык OCR китапханәләре ак фонда кара текст күрерләр. Бу көйләү тимер OCRга тискәре яки ак текстлы кара битләрне автоматик рәвештә ачыкларга һәм аларны укырга мөмкинлек бирә.
InputImageType. Бу көйләү ясаучыга OCR китапханәсенә тулы документка яки скриншот кебек сниппетка караганга юл күрсәтергә мөмкинлек бирә.
RotateAndStraighten - тимер OCRга әйләнү генә түгел, бәлки текст документлары фотолары кебек перспективаны үз эченә алган уникаль уку мөмкинлеге бирә торган алдынгы көйләү.
ReadBarcodes - файдалы үзенчәлек, ул тимер OCRга штрих-кодларны һәм QR кодларны битләрдә автоматик рәвештә укырга мөмкинлек бирә, чөнки ул текстны укый, зур өстәмә вакыт йөкләмичә.
ColorDepth. Бу көйләү төс тирәнлеген билгеләү өчен OCR китапханәсе пиксельгә ничә бит кулланачагын билгели. Colorгары төс тирәнлеге OCR сыйфатын арттырырга мөмкин, ләкин шулай ук OCR операциясен тәмамлау өчен кирәкле вакытны арттырачак.
126 Тел пакетлары
Тимер OCR тел пакетлары аша 126 халыкара телгә ярдәм итә, алар DLL буларак таратыла , бу сайттан йөкләнә ала, яки NuGet Package менеджерыннан .
Телләргә немец, француз, инглиз, кытай, япон һәм башкалар керә. МРЗ паспорты, MICR тикшерүләре, финанс мәгълүматлары, лицензия тәлинкәләре һәм башкалар өчен махсус тел пакетлары бар. Сез шулай ук теләсә нинди ".traineddata" файлын куллана аласыз - үзегез ясаган файлларны да кертеп.
Тел мисалы
Башка OCR телләрен куллану.
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Кирәк булса, рәсем фильтрларын өстәгез
// Бу очракта, хәтта уйлау кертү дә бик түбән сыйфатлы
// IronTesseract гадәти Tesseract булдыра алмаганны укый ала.
var Result = Ocr.Read(input);
// Консоль гарәп телен Windowsда җиңел бастыра алмый.
// Аның урынына дискка саклыйк.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Кирәк булса, рәсем фильтрларын өстәгез
// Бу очракта, хәтта уйлау кертү дә бик түбән сыйфатлы
// IronTesseract гадәти Tesseract булдыра алмаганны укый ала.
var Result = Ocr.Read(input);
// Консоль гарәп телен Windowsда җиңел бастыра алмый.
// Аның урынына дискка саклыйк.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic
Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' Кирәк булса, рәсем фильтрларын өстәгез
' Бу очракта, хәтта уйлау кертү дә бик түбән сыйфатлы
' IronTesseract гадәти Tesseract булдыра алмаганны укый ала.
Dim Result = Ocr.Read(input)
' Консоль гарәп телен Windowsда җиңел бастыра алмый.
' Аның урынына дискка саклыйк.
Result.SaveAsTextFile("arabic.txt")
End Using
Күп телләр мисалы
ОКРга берьюлы берничә тел кулланып та мөмкин. Бу чыннан да icникод документларында инглиз теленең мета-мәгълүматларын һәм урлларын алырга ярдәм итә ала.
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Tatar);
// Без теләсә нинди тел өсти алабыз
using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Tatar);
// Без теләсә нинди тел өсти алабыз
using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Tatar)
' Без теләсә нинди тел өсти алабыз
Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
OCR нәтиҗәләре объектлары
Тимер OCR һәр OCR операциясе өчен OCR нәтиҗә объектын кайтара. Гадәттә, уйлап табучылар бу объектның текст мөлкәтен тексттан сканерлау өчен кулланалар. Ләкин, OCR нәтиҗәләре DOM моннан күпкә алгарак.
using IronOcr;
using System.Drawing; //Ассамблея белешмәсе өстәгез
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tatar;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! Мөһим
using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Зур, җентекле API табу өчен монда өйрәнегез:
// - Битләр, Блоклар, Парафафлар, Сызыклар, сүзләр, схемалар
// - Рәсем экспорты, шрифт координаталары, статистик мәгълүматлар
}
using IronOcr;
using System.Drawing; //Ассамблея белешмәсе өстәгез
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tatar;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! Мөһим
using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Зур, җентекле API табу өчен монда өйрәнегез:
// - Битләр, Блоклар, Парафафлар, Сызыклар, сүзләр, схемалар
// - Рәсем экспорты, шрифт координаталары, статистик мәгълүматлар
}
Imports IronOcr
Imports System.Drawing 'Ассамблея белешмәсе өстәгез
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tatar
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '! Мөһим
Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages (0).Words
Dim Barcodes = Result.Barcodes
' Зур, җентекле API табу өчен монда өйрәнегез:
' - Битләр, Блоклар, Парафафлар, Сызыклар, сүзләр, схемалар
' - Рәсем экспорты, шрифт координаталары, статистик мәгълүматлар
End Using
Спектакль
IronOCR рамкадан эшли, көйләү көйләрен башкарырга яки кертү рәсемнәрен бик үзгәртергә кирәкми.
Тизлек янып тора: IronOcr.2020 + 10 тапкырга тизрәк һәм алдагы корылмаларга караганда 250% азрак хаталар ясый.
Тулырак
OCR турында C #, VB, F # яки бүтән .NET телендә күбрәк белү өчен, зинһар өчен, безнең җәмгыять дәреслекләрен укыгыз , алар тимер OCR куллануның реаль дөнья мисалларын китерәләр һәм ничек яхшырак файдалану нюансларын күрсәтә алалар. бу китапханә.
.NET ясаучылар өчен тулы объект сылтамасы да бар.