OCR тоҷикӣ дар C#ва .NET

Версияҳои дигари ин ҳуҷҷат:

IronOCR як ҷузъи нармафзори C#мебошад, ки ба кодгузорони .NET имкон медиҳад, ки матнро аз тасвирҳо ва ҳуҷҷатҳои PDF бо 126 забон, аз ҷумла тоҷикӣ хонанд.

Ин як чангаки пешрафтаи Tesseract мебошад, ки танҳо барои таҳиягарони .NET сохта шудааст ва мунтазам аз дигар муҳаррикҳои Tesseract ҳам суръат ва ҳам дақиқтарро пеш мегузорад.

Мундариҷаи IronOcr.Languages.Tajik

Ин бастаи дорои 40 забони OCR барои .NET:

  • Тоҷикӣ
  • TajikBest
  • TajikFast

Боргирӣ

Маҷмӯаи забони тоҷикӣ [тоҷикӣ]
* Download as Zip
* Install with as
https://www.nuget.org/packages/IronOcr.Languages.Tajik/'> NuGet

Насб

Аввалин чизе, ки мо ба кор аст, насб бастаи тоҷик рамзњо мо ба лоиҳаи .NET кунед.

PM> Install-Package IronOCR.Languages.Tajik

Намунаи код

Ин мисоли рамзи C#матни тоҷикиро аз ҳуҷҷати Image ё PDF мехонад.

//PM> Install-Package IronOcr.Languages.Tajik
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput(@"images\Tajik.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Tajik
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput(@"images\Tajik.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Tajik
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tajik
Using Input = New OcrInput("images\Tajik.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

Чаро IronOCR -ро интихоб кунед?

IronOCR - ин насби осон, мукаммал ва ҳуҷҷатгузории хуби китобхонаи нармафзори .NET мебошад.

IronOCR ро интихоб кунед, то 99,8% + OCR дақиқиро бидуни истифодаи ягон хидмати вебии беруна, пардохтҳои ҷорӣ ё фиристодани ҳуҷҷатҳои махфӣ тавассути интернет ба даст орад.

Чаро таҳиягарони C#IronOCR ро аз болои Vanilla Tesseract интихоб мекунанд:

  • Ҳамчун як DLL ё NuGet насб кунед
  • Мегирад Tesseract 5, 4 ва 3 Муҳаррикҳо берун аз қуттӣ.
  • Дурустӣ 99,8% ба таври назаррас аз Tesseract муқаррарӣ зиёдтар аст.
  • Суръат ва MultiThreading сӯзон
  • MVC, WebApp, Desktop, Console & Server Application мувофиқ
  • Не Exes ё C ++ код барои кор бо
  • Дастгирии пурраи PDF OCR
  • Барои иҷрои OCR тақрибан ҳама гуна файли тасвир ё PDF
  • Дастгирии пурра .NET Core, Standard ва FrameWork
  • Дар Windows, Mac, Linux, Azure, Docker, Lambda, AWS ҷойгир кунед
  • Штрих-кодҳо ва кодҳои QR-ро хонед
  • OCR-ро ба XHTML содир кунед
  • Содироти OCR ба ҳуҷҷатҳои PDF ҷустуҷӯшаванда
  • Дастгирии бисёрҷабҳа
  • 126 забони байналмилалӣ, ки ҳама тавассути файлҳои NuGet ё OcrData идора карда мешаванд
  • Баровардани тасвирҳо, координатҳо, омор ва ҳуруфҳо. На танҳо матн.
  • Он метавонад барои паҳн кардани Tesseract OCR дар дохили барномаҳои тиҷорӣ ва хусусӣ истифода шавад.

IronOCR ҳангоми кор бо тасвирҳои воқеии ҷаҳонӣ ва ҳуҷҷатҳои номукаммал, ба монанди аксҳо ё сканерҳои пастсифат, ки метавонанд садои рақамӣ ё номукаммалӣ дошта бошанд, медурахшад.

Дигар китобхонаҳои ройгони OCR барои платформаи .NET, чунин дигар APIs .net tesseract ва хидматҳои веб дар ин ҳолатҳои воқеии истифодаи ҷаҳонӣ он қадар хуб кор намекунанд.

OCR бо Tesseract 5 - Рамзро дар C#оғоз кунед

Намунаи рамзи дар поён овардашуда нишон медиҳад, ки хондани матн аз тасвир бо ёрии C#ё VB .NET то чӣ андоза осон аст.

OneLiner

string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
VB   C#

Салом ҷаҳонӣ

// PM> Install-Package IronOCR.Languages.Tajik
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... шумо метавонед шумораи дилхоҳ тасвирҳоро илова кунед
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Tajik
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... шумо метавонед шумораи дилхоҳ тасвирҳоро илова кунед
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Tajik
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tajik
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

C#PDF OCR

Ҳамин гуна равишро низ барои баровардани матн аз ҳама гуна ҳуҷҷатҳои PDF истифода бурдан мумкин аст.

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Мо инчунин метавонем рақамҳои мушаххаси PDF-ро ба OCR интихоб кунем

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 саҳифа барои ҳар як сафҳаи PDF
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Мо инчунин метавонем рақамҳои мушаххаси PDF-ро ба OCR интихоб кунем

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 саҳифа барои ҳар як сафҳаи PDF
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tajik
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' Мо инчунин метавонем рақамҳои мушаххаси PDF-ро ба OCR интихоб кунем

Dim Result = Ocr.Read(input)

Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' 1 саҳифа барои ҳар як сафҳаи PDF
End Using
VB   C#

OCR барои TIFFs MultiPage

OCR Reading формати файли TIFF, аз ҷумла ҳуҷҷатҳои сершумор. TIFF инчунин метавонад мустақиман ба файли PDF бо матни ҷустуҷӯ табдил дода шавад.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tajik

Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Штрих-кодҳо ва QR

Хусусияти беназири IronOCR дар он аст, ки ҳангоми азназаргузаронии матн баркодҳо ва кодҳои QR-ро аз ҳуҷҷатҳо хонда метавонад. Мисолҳои синфи OcrResult.OcrBarcode ба таҳиягар дар бораи ҳар як OcrResult.OcrBarcode маълумоти муфассал медиҳад.

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// хосиятҳо ва намудҳо низ ошкор карда шуданд
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// хосиятҳо ва намудҳо низ ошкор карда шуданд
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True

Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' хосиятҳо ва намудҳо низ ошкор карда шуданд
Next Barcode
End Using
VB   C#

OCR дар самтҳои мушаххаси тасвирҳо

Ҳама усулҳои скан ва хондани IronOCR имконият медиҳанд, ки дақиқан кадом қисми саҳифа ё саҳифаҳоро матн хондан мехоҳем. Ин вақте муфид аст, ки мо шаклҳои стандартикунонидашударо дида бароем ва вақти зиёдеро сарфа намуда, самаранокиро баланд бардорем.

Барои истифодаи минтақаҳои зироат, ба мо лозим аст, ки ба System.Drawing истиноди система илова кунем, то ки мо объекти System.Drawing.Rectangle истифода барем.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Андозаҳо дар px мебошанд

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Андозаҳо дар px мебошанд

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tajik

Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
	.X = 215,
	.Y = 1250,
	.Height = 280,
	.Width = 1335
}
' Андозаҳо дар px мебошанд

Input.Add("document.png", ContentArea)

Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR барои сканҳои пастсифат

Синфи IronOCR OcrInput метавонад сканерҳоеро ислоҳ кунад, ки Tesseract муқаррарӣ хонда наметавонанд.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // садои рақамӣ ва сканкунии сустро ислоҳ мекунад
Input.Deskew(); // гардиш ва дурнаморо ислоҳ мекунад
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // садои рақамӣ ва сканкунии сустро ислоҳ мекунад
Input.Deskew(); // гардиш ва дурнаморо ислоҳ мекунад
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tajik

Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' садои рақамӣ ва сканкунии сустро ислоҳ мекунад
Input.Deskew() ' гардиш ва дурнаморо ислоҳ мекунад
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Натиҷаҳои OCR-ро ҳамчун PDF-и ҷустуҷӯшаванда содир кунед

Тасвир ба PDF бо сатрҳои матнии нусхабардорӣ. Метавонад аз ҷониби системаҳои ҷустуҷӯӣ ва пойгоҳи додаҳо индексатсия карда шавад.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tajik

Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")

Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

TIFF ба Табдили PDF-и ҷустуҷӯшаванда

Ҳуҷҷати TIFF-ро (ё ягон гурӯҳи файлҳои тасвирӣ) мустақиман ба PDF-и ҷустуҷӯшаванда интиқол диҳед, ки онро тавассути интранет, вебсайт ва системаҳои ҷустуҷӯии гугл индекс кардан мумкин аст.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tajik

Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

Натиҷаҳои OCR-ро ҳамчун HTML содир кунед

Тасвири OCR ба табдили XHTML.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tajik
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
VB   C#

Филтрҳои такмили тасвири OCR

IronOCR филтрҳои беназирро барои объектҳои OcrInput барои беҳтар кардани кори OCR таъмин менамояд.

Мисоли рамзи такмили тасвир

Тасвирҳои вуруди OCR-ро бо сифати баландтар месозад, то натиҷаҳои беҳтар ва зудтари OCR.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // садои рақамӣ ва сканкунии сустро ислоҳ мекунад
Input.Deskew(); // гардиш ва дурнаморо ислоҳ мекунад
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // садои рақамӣ ва сканкунии сустро ислоҳ мекунад
Input.Deskew(); // гардиш ва дурнаморо ислоҳ мекунад
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tajik

Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' садои рақамӣ ва сканкунии сустро ислоҳ мекунад
Input.Deskew() ' гардиш ва дурнаморо ислоҳ мекунад
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Рӯйхати филтрҳои тасвирии OCR

Филтрҳои вурудӣ барои баланд бардоштани сатҳи OCR, ки дар IronOCR сохта шудаанд, инҳоянд:

  • OcrInput.Rotate (дараҷаҳои дукарата) - Тасвирҳоро ба андозаи дараҷа бо самти соат гардиш медиҳад. Барои муқобили соат, рақамҳои манфиро истифода баред.
  • OcrInput.Binarize () - Ин филтри тасвир ҳар пикселро сиёҳ ё сафед мекунад ва бидуни хоки миёна. Мумкин аст ҳолатҳои иҷрои OCR-ро дар муқоисаи хеле пасти матн ба замина беҳтар созам.
  • OcrInput.ToGrayScale () - Ин филтри тасвир ҳар пикселро ба сояи хокистарӣ табдил медиҳад. Ба гумон аст, ки дақиқии OCR-ро беҳтар кунад, аммо суръатро беҳтар кунад
  • OcrInput.Contrast () - Контрастро ба таври худкор зиёд мекунад. Ин филтр аксар вақт суръат ва дақиқии OCR-ро дар сканерҳои пасти контраст беҳтар мекунад.
  • OcrInput.DeNoise () - садои рақамиро нест мекунад. Ин филтр бояд танҳо дар ҷое истифода шавад, ки садо дар назар аст.
  • OcrInput.Invert () - Ҳар рангро тағир медиҳад. Масалан, сафед сиёҳ мешавад: сиёҳ сафед мешавад.
  • OcrInput.Dilate () - Морфологияи пешрафта. Васеъкунӣ ба ҳудуди ашё дар тасвир пикселҳо илова мекунад. Дар муқобили Эрод
  • OcrInput.Erode () - Морфологияи пешрафта. Эрозия пикселҳоро дар ҳудуди объект хориҷ мекунад Опозитсияи Dilate
  • OcrInput.Deskew () - Тасвирро давр мезанад, то он роҳи рости боло ва ортоналӣ бошад. Ин барои OCR хеле муфид аст, зеро таҳаммулпазирии Tesseract барои сканҳои каҷ метавонад то 5 дараҷа паст бошад.
  • OcrInput.DeepCleanBackgroundNoise () - бартараф кардани садои вазнин замина. Ин филтрро танҳо дар ҳолате, ки садои шадиди заминаи ҳуҷҷат маълум аст, истифода баред, зеро ин филтр инчунин хавфи коҳиши дурустии OCR-и ҳуҷҷатҳои тозаро дорад ва CPU хеле гарон аст.
  • OcrInput.EnhanceResolution - Ҳалли тасвирҳои пастсифатро беҳтар мекунад. Ин филтр аксар вақт лозим нест, зеро OcrInput.MinimumDPI ва OcrInput.TargetDPI ба таври худкор вурудоти ҳалли камро ҳал ва ҳал мекунанд.

CleanBackgroundNoise. Ин танзимест, ки то андозае вақтро талаб мекунад; аммо, он ба китобхона имкон медиҳад, ки садои рақамӣ, резиши коғаз ва дигар камбудиҳоро дар дохили тасвири рақамӣ ба таври худкор тоза кунад, ки дар акси ҳол онро барои хондани китобхонаҳои дигари OCR ғайримумкин мекунад.

EnhanceContrast ин танзимест , ки боиси IronOCR мегардад, ки ба таври худкор контрасти матнро дар пасманзари тасвир афзоиш медиҳад, дақиқии OCR-ро баланд мебардорад ва дар маҷмӯъ кор ва суръати OCR-ро афзоиш медиҳад.

EnhanceResolution ин танзимест , ки ба таври худкор тасвирҳои пастсифатро (ки зери 275 dpi мебошанд) муайян мекунад ва ба таври худкор тасвирро боло мебардорад ва сипас тамоми матнро бурро мекунад, то онро китобхонаи OCR комил хонад. Гарчанде ки ин амалиёт худ вақтро талаб мекунад, аммо он одатан вақти умумии амалиёти OCR дар тасвирро коҳиш медиҳад.

Забони IronOCR 22 бастаи забонҳои байналмилалиро дастгирӣ мекунад ва танзими забон метавонад барои интихоби як ё якчанд забонҳои барои амалиёт OCR татбиқшаванда истифода шавад.

Strategy IronOCR ду стратегияро дастгирӣ мекунад. Мо метавонем интихоб кунем, ки ба сканеркунии зуд ва камтар дақиқи ҳуҷҷат равем, ё стратегияи пешрафтаро истифода барем, ки бо истифода аз баъзе моделҳои зеҳни сунъӣ дурустии матни OCR-ро бо назардошти муносибати омории калимаҳо ба якдигар дар ҷумла истифода барад .

ColorSpace ин параметрест, ки дар он мо метавонем OCR-ро бо ранги хокистарӣ ё рангӣ интихоб кунем. Умуман, ранги хокистарӣ беҳтарин вариант аст. Аммо, баъзан вақте ки матнҳо ё заминаи рангҳои шабеҳ, вале ранги хеле гуногун мавҷуданд, фазои пурраи ранг натиҷаҳои беҳтарро фароҳам меорад.

DetectWhiteTextOnDarkBackgrounds. Умуман, ҳама китобхонаҳои OCR интизори дидани матни сиёҳ дар заминаҳои сафед мебошанд. Ин танзим ба IronOCR имкон медиҳад, ки манфӣ ё сафҳаҳои торикро бо матни сафед ба таври худкор муайян кунад ва хонад.

InputImageType. Ин параметр ба таҳиягар имкон медиҳад, ки китобхонаи OCR-ро дар бораи он, ки оё ба ҳуҷҷати пурра ё порае, ба монанди скриншот нигариста, роҳнамоӣ кунад.

RotateAndStraighten як муҳити мукаммалест, ки ба IronOCR қобилияти беназири хондани ҳуҷҷатҳоеро медиҳад, ки на танҳо гардиш доранд, балки шояд дорои дурнамо бошанд, ба монанди аксҳои ҳуҷҷатҳои матнӣ.

ReadBarcodes хусусияти муфидест , ки ба IronOCR имкон медиҳад, ки штрихкодҳо ва кодҳои QR-ро дар саҳифаҳо ба таври худкор хонад, зеро он матнро низ хонда, бори изофии бори иловагӣ надорад.

Ранги Чуқурӣ. Ин танзимот муайян мекунад, ки чанд бит дар як пиксел китобхонаи OCR барои муайян кардани умқи ранг истифода хоҳад шуд. Чуқурии баландтари ранг метавонад сифати OCR-ро афзоиш диҳад, аммо инчунин вақти ба итмом расонидани амалиёти OCR-ро зиёд мекунад.

126 Бастаи забонҳо

IronOCR 126 забони байналмилалиро тавассути бастаҳои забонӣ, ки ҳамчун DLL паҳн шудаанд, дастгирӣ мекунад, ки онҳоро аз ин вебсайт ё инчунин аз NuGet Package Manager зеркашӣ кардан мумкин аст.

Забонҳо иборатанд аз олмонӣ, фаронсавӣ, англисӣ, чинӣ, ҷопонӣ ва ғайра. Бастаҳои забонҳои мутахассис барои шиносномаҳои MRZ, чекҳои MICR, маълумоти молиявӣ, рақамҳои иҷозатнома ва бисёр чизҳои дигар мавҷуданд. Шумо инчунин метавонед ҳама гуна файли tesseract ".traineddata" -ро истифода баред - аз ҷумла онҳое, ки шумо худатон эҷод мекунед.

Намунаи забон

Истифодаи забонҳои дигари OCR.

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Агар лозим бошад, филтрҳои тасвирро илова кунед
// Дар ин ҳолат, ҳатто вуруди фикр сифати хеле паст аст
// IronTesseract метавонад бихонад, ки Tesseract анъанавӣ наметавонад.

var Result = Ocr.Read(input);

// Консол арабиро дар Windows ба осонӣ чоп карда наметавонад.
// Биёед ба ҷои он ба диск сабт кунем.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Агар лозим бошад, филтрҳои тасвирро илова кунед
// Дар ин ҳолат, ҳатто вуруди фикр сифати хеле паст аст
// IronTesseract метавонад бихонад, ки Tesseract анъанавӣ наметавонад.

var Result = Ocr.Read(input);

// Консол арабиро дар Windows ба осонӣ чоп карда наметавонад.
// Биёед ба ҷои он ба диск сабт кунем.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' Агар лозим бошад, филтрҳои тасвирро илова кунед
' Дар ин ҳолат, ҳатто вуруди фикр сифати хеле паст аст
' IronTesseract метавонад бихонад, ки Tesseract анъанавӣ наметавонад.

Dim Result = Ocr.Read(input)

' Консол арабиро дар Windows ба осонӣ чоп карда наметавонад.
' Биёед ба ҷои он ба диск сабт кунем.
Result.SaveAsTextFile("arabic.txt")
End Using
VB   C#

Намунаи якчанд забон

Ҳамзамон бо истифодаи забонҳои гуногун ҳамзамон OCR гузаронидан мумкин аст. Ин дарвоқеъ метавонад ба дарёфти метамаълумот ва URL-ҳои забони англисӣ дар ҳуҷҷатҳои Юникод кумак кунад.

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Tajik);

// Мо метавонем шумораи дилхоҳро илова кунем

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Tajik);

// Мо метавонем шумораи дилхоҳро илова кунем

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Tajik)

' Мо метавонем шумораи дилхоҳро илова кунем

Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
VB   C#

Объектҳои муфассали натиҷаҳои OCR

IronOCR барои ҳар як амалиёти OCR объекти натиҷаи OCR бар мегардонад. Одатан, таҳиягарон танҳо хосияти матни ин объектро истифода мебаранд, то матнро аз тасвир скан кунанд. Аммо, натиҷаҳои OCR DOM нисбат ба он хеле пешрафтаанд.

using IronOcr;
using System.Drawing; //Истиноди маҷлисро илова кунед

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! Муҳим

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Барои ёфтани як API муфассал ва муфассалро дар инҷо биомӯзед:
// - Саҳифаҳо, Блокҳо, Парафафҳо, Сатрҳо, Калимаҳо, Чашмҳо
// - Содироти тасвирҳо, Ҳамоҳангҳои ҳуруфҳо, Маълумоти оморӣ
}
using IronOcr;
using System.Drawing; //Истиноди маҷлисро илова кунед

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tajik;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! Муҳим

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Барои ёфтани як API муфассал ва муфассалро дар инҷо биомӯзед:
// - Саҳифаҳо, Блокҳо, Парафафҳо, Сатрҳо, Калимаҳо, Чашмҳо
// - Содироти тасвирҳо, Ҳамоҳангҳои ҳуруфҳо, Маълумоти оморӣ
}
Imports IronOcr
Imports System.Drawing 'Истиноди маҷлисро илова кунед

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tajik
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '! Муҳим

Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages (0).Words
Dim Barcodes = Result.Barcodes
' Барои ёфтани як API муфассал ва муфассалро дар инҷо биомӯзед:
' - Саҳифаҳо, Блокҳо, Парафафҳо, Сатрҳо, Калимаҳо, Чашмҳо
' - Содироти тасвирҳо, Ҳамоҳангҳои ҳуруфҳо, Маълумоти оморӣ
End Using
VB   C#

Иҷрои

IronOCR аз қуттӣ кор мекунад ва бидуни зарурат ба ҷӯрсозӣ ё сахт тағир додани тасвирҳои вурудӣ.

Суръат сӯзон аст: IronOcr.2020 + то 10 маротиба тезтар аст ва нисбат ба сохти қаблӣ беш аз 250% камтар хато мекунад.

Бештар омӯз

Барои гирифтани маълумоти бештар дар бораи OCR дар C #, VB, F # ва ё ягон забони дигари .NET, лутфан дастурҳои ҷомеаи моро хонед , ки дар онҳо мисолҳои воқеӣ дар бораи чӣ гуна истифода бурдани IronOCR истифода мешаванд ва метавонанд нозукиҳои чӣ гуна беҳтаринро гирифтанро нишон диҳанд ин китобхона.

Маълумоти пурраи объект барои таҳиягарони .NET низ дастрас аст.