C#ۋە .NET دىكى ئۇيغۇر OCR

بۇ ھۆججەتنىڭ باشقا نەشرى:

IronOCR بولسا C#يۇمشاق دېتال زاپچاسلىرى .NET كودلىغۇچلىرى ئۇيغۇرنى ئۆز ئىچىگە ئالغان 126 تىلدىكى رەسىم ۋە PDF ھۆججەتلىرىدىكى تېكىستلەرنى ئوقۇيالايدۇ.

ئۇ Tesseract نىڭ ئىلغار قورالى بولۇپ ، مەخسۇس .NET ئاچقۇچىلار ئۈچۈن ياسالغان بولۇپ ، سۈرئەت ۋە توغرىلىق ئۈچۈن باشقا Tesseract ماتورلىرىدىن دائىم ئۈستۈن تۇرىدۇ.

IronOcr.Languages.Uyghur نىڭ مەزمۇنى

بۇ بولاقتا .NET ئۈچۈن 43 OCR تىلى بار:

  • ئۇيغۇر
  • UyghurBest
  • UyghurFast

چۈشۈرۈش

ئۇيغۇر تىل بولىقى [ ئۇيغۇر ]
* Download as Zip
* Install with as
https://www.nuget.org/packages/IronOcr.Languages.Uyghur/'> NuGet

قاچىلاش

بىزنىڭ قىلىشقا تېگىشلىك بىرىنچى ئىشىمىز. ئۇيغۇر OCR بولىقىمىزنى .NET تۈرىڭىزگە قاچىلاش.

PM> Install-Package IronOCR.Languages.Uyghur

كود مىسالى

بۇ C#كود مىسالى رەسىم ياكى PDF ھۆججىتىدىن ئۇيغۇر تېكىستىنى ئوقۇيدۇ.

//PM> Install-Package IronOcr.Languages.Uyghur
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Uyghur;
using (var Input = new OcrInput(@"images\Uyghur.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Uyghur
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Uyghur;
using (var Input = new OcrInput(@"images\Uyghur.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Uyghur
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Uyghur
Using Input = New OcrInput("images\Uyghur.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

نېمىشقا IronOCR نى تاللايسىز؟

تۆمۈر OCR قاچىلاش ئاسان ، تولۇق ۋە ھۆججەتلىرى تولۇق .NET يۇمشاق دېتال ئامبىرى.

IronOCR نى تاللاڭ ، ھېچقانداق سىرتقى تور مۇلازىمىتى ، داۋاملىشىۋاتقان ھەق ياكى ئىنتېرنېتتە مەخپىي ھۆججەت ئەۋەتمەي تۇرۇپ ، % 99.8 + OCR توغرىلىقىغا ئېرىشىڭ.

نېمە ئۈچۈن C#ئاچقۇچىلار Vanilla Tesseract دىن IronOCR نى تاللايدۇ:

  • يەككە DLL ياكى NuGet قىلىپ قاچىلاڭ
  • Tesseract 5 ، 4 ۋە 3 ماتورنى ئۆز ئىچىگە ئالىدۇ.
  • ئېنىقلىق نىسبىتى% 99.8 ئادەتتىكى Tesseract دىن كۆرۈنەرلىك يۇقىرى.
  • چاقماق تېزلىكى ۋە كۆپ ئوقۇش
  • MVC ، WebApp ، ئۈستەل يۈزى ، كونترول سۇپىسى ۋە مۇلازىمېتىر قوللىنىشچان پروگراممىلىرى ماس كېلىدۇ
  • ئىشلەيدىغان Exes ياكى C ++ كودى يوق
  • تولۇق PDF OCR قوللاش
  • OCR نى ھەر قانداق بىر رەسىم ھۆججىتى ياكى PDF دېگۈدەك ئىجرا قىلىش
  • تولۇق .NET Core ، ئۆلچەملىك ۋە FrameWork قوللايدۇ
  • Windows ، Mac ، Linux ، Azure ، Docker ، Lambda ، AWS غا ئورۇنلاشتۇرۇڭ
  • تاياقچە كودى ۋە QR كودىنى ئوقۇڭ
  • OCR نى XHTML غا چىقىرىش
  • ئىزدەشكە بولىدىغان PDF ھۆججەتلىرىگە OCR نى چىقىرىڭ
  • كۆپ ئوقۇشنى قوللاش
  • 126 خەلقئارالىق تىلنىڭ ھەممىسى NuGet ياكى OcrData ھۆججىتى ئارقىلىق باشقۇرۇلىدۇ
  • رەسىم ، كوردىنات ، ستاتىستىكا ۋە خەت نۇسخىسىنى چىقىرىڭ. پەقەت تېكىستلا ئەمەس.
  • سودا ۋە شەخسىي قوللىنىشچان پروگراممىلارنىڭ ئىچىدە Tesseract OCR نى قايتا تەقسىملەشكە ئىشلىتىلىدۇ.

تۆمۈر OCR ھەقىقىي دۇنيا تەسۋىرى ۋە سۈرەت قاتارلىق مۇكەممەل بولمىغان ھۆججەتلەر ياكى رەقەملىك شاۋقۇن ياكى كەمتۈكلۈكلەر بولۇشى مۇمكىن بولغان تۆۋەن ئېنىقلىقتىكى سايىلىغۇچلار بىلەن ئىشلىگەندە پارقىرايدۇ.

.NET سۇپىسىنىڭ باشقا ھەقسىز .

Tesseract 5 بىلەن OCR - C#دىن كودلاشنى باشلاڭ

تۆۋەندىكى كود ئەۋرىشكىسىدە C#ياكى VB .NET ئارقىلىق رەسىمدىن تېكىست ئوقۇشنىڭ قانچىلىك ئاسانلىقىنى كۆرسىتىپ بېرىدۇ.

OneLiner

string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
VB   C#

سەپلىگىلى بولىدىغان سالام دۇنيا

// PM> Install-Package IronOCR.Languages.Uyghur
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Uyghur;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... ھەر قانداق رەسىمنى قوشالايسىز
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Uyghur
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Uyghur;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... ھەر قانداق رەسىمنى قوشالايسىز
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Uyghur
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Uyghur
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

C#PDF OCR

ئوخشاش ئۇسۇلنى ھەر قانداق PDF ھۆججىتىدىن تېكىست چىقىرىشقا ئىشلىتىشكە بولىدۇ.

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Uyghur;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// بىز يەنە OCR غا مەخسۇس PDF بەت نومۇرىنى تاللىيالايمىز

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// PDF نىڭ ھەر بىر بېتى ئۈچۈن 1 بەت
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Uyghur;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// بىز يەنە OCR غا مەخسۇس PDF بەت نومۇرىنى تاللىيالايمىز

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// PDF نىڭ ھەر بىر بېتى ئۈچۈن 1 بەت
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Uyghur
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' بىز يەنە OCR غا مەخسۇس PDF بەت نومۇرىنى تاللىيالايمىز

Dim Result = Ocr.Read(input)

Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' PDF نىڭ ھەر بىر بېتى ئۈچۈن 1 بەت
End Using
VB   C#

MultiPage TIFFs ئۈچۈن OCR

OCR ئوقۇش TIFF ھۆججەت فورماتى كۆپ بەت ھۆججەتلىرىنى ئۆز ئىچىگە ئالىدۇ. TIFF نى بىۋاسىتە PDF ھۆججىتىگە ئايلاندۇرغىلى بولىدۇ.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Uyghur;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Uyghur;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Uyghur

Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

تاياقچە كودى ۋە QR

تۆمۈر OCR نىڭ بىر ئالاھىدە ئالاھىدىلىكى ئۇ تېكىستنى سىكاننېرلىغاندا ھۆججەتلەردىن تاياقچە كود ۋە QR كودىنى ئوقۇيالايدۇ. OcrResult.OcrBarcode مىساللىرى.

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// تىپى ۋە ئورۇن خاسلىقىمۇ ئاشكارىلاندى
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// تىپى ۋە ئورۇن خاسلىقىمۇ ئاشكارىلاندى
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True

Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' تىپى ۋە ئورۇن خاسلىقىمۇ ئاشكارىلاندى
Next Barcode
End Using
VB   C#

رەسىملەرنىڭ كونكرېت رايونلىرىدىكى OCR

تۆمۈر OCR نىڭ بارلىق سىكانىرلاش ۋە ئوقۇش ئۇسۇللىرى بىز قايسى بەت ياكى بەتلەرنىڭ تېكىستنى ئوقۇشنى خالايدىغانلىقىمىزنى ئېنىق كۆرسىتىپ بېرىدۇ. بىز قېلىپلاشقان جەدۋەللەرنى كۆرۈۋاتقاندا ئىنتايىن پايدىلىق ، نۇرغۇن ۋاقىتنى تېجەپ ، ئۈنۈمنى يۇقىرى كۆتۈرەلەيمىز.

زىرائەت رايونلىرىنى ئىشلىتىش ئۈچۈن ، بىز سىستېما. رەسىم System.Drawing سىستېما پايدىلىنىش ماتېرىيالى قوشۇشىمىز كېرەك ، شۇنداق بولغاندا بىز سىستېما. System.Drawing.Rectangle . System.Drawing.Rectangle جىسىمنى ئىشلىتەلەيمىز.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Uyghur;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// رازمېرى px دا

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Uyghur;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// رازمېرى px دا

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Uyghur

Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
	.X = 215,
	.Y = 1250,
	.Height = 280,
	.Width = 1335
}
' رازمېرى px دا

Input.Add("document.png", ContentArea)

Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

تۆۋەن سۈپەتلىك سىكانېرلاش ئۈچۈن OCR

تۆمۈر OCR OcrInput سىنىپى نورمال Tesseract ئوقۇيالمايدىغان سىكانىرلاشنى OcrInput .

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Uyghur;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // رەقەملىك شاۋقۇن ۋە سىكانېرلاشنىڭ ياخشى ئەمەسلىكىنى ئوڭشايدۇ
Input.Deskew(); // ئايلىنىش ۋە نۇقتىئىنەزەرنى ئوڭشايدۇ
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Uyghur;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // رەقەملىك شاۋقۇن ۋە سىكانېرلاشنىڭ ياخشى ئەمەسلىكىنى ئوڭشايدۇ
Input.Deskew(); // ئايلىنىش ۋە نۇقتىئىنەزەرنى ئوڭشايدۇ
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Uyghur

Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' رەقەملىك شاۋقۇن ۋە سىكانېرلاشنىڭ ياخشى ئەمەسلىكىنى ئوڭشايدۇ
Input.Deskew() ' ئايلىنىش ۋە نۇقتىئىنەزەرنى ئوڭشايدۇ
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR نەتىجىسىنى ئىزدەشكە بولىدىغان PDF قىلىپ چىقىرىش

كۆچۈرگىلى بولىدىغان تېكىست تىزمىسى بىلەن PDF غا رەسىم. ئىزدەش ماتورى ۋە ساندان ئارقىلىق مۇندەرىجە قىلىشقا بولىدۇ.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Uyghur;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Uyghur;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Uyghur

Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")

Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

ئىزدەشكە بولىدىغان PDF ئايلاندۇرۇش ئۈچۈن TIFF

TIFF ھۆججىتىنى (ياكى ھەر قانداق بىر گۇرۇپپا رەسىم ھۆججىتىنى) بىۋاسىتە ئىزدەشكە بولىدىغان PDF غا ئايلاندۇرۇڭ ، ئۇنى ئىنتېرنېت تورى ، توربېكەت ۋە گۇگۇل ئىزدەش ماتورى ئارقىلىق مۇندەرىجە قىلالايدۇ.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Uyghur;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Uyghur;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Uyghur

Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

OCR نەتىجىسىنى HTML قىلىپ چىقىرىش

OCR رەسىمنى XHTML غا ئايلاندۇرۇش.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Uyghur;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Uyghur;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Uyghur
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
VB   C#

OCR رەسىمنى كۈچەيتىش سۈزگۈچ

IronOCR OcrInput ئوبيېكتلىرىنى OCR ئىقتىدارىنى يۇقىرى كۆتۈرۈش ئۈچۈن ئۆزگىچە سۈزگۈچ بىلەن تەمىنلەيدۇ.

رەسىمنى ئاشۇرۇش كودى مىسالى

OCR كىرگۈزۈش رەسىملىرىنى تېخىمۇ سۈپەتلىك قىلىپ ، تېخىمۇ ياخشى ، تېخىمۇ تېز OCR نەتىجىسىنى ھاسىل قىلىدۇ.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Uyghur;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // رەقەملىك شاۋقۇن ۋە سىكانېرلاشنىڭ ياخشى ئەمەسلىكىنى ئوڭشايدۇ
Input.Deskew(); // ئايلىنىش ۋە نۇقتىئىنەزەرنى ئوڭشايدۇ
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Uyghur;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // رەقەملىك شاۋقۇن ۋە سىكانېرلاشنىڭ ياخشى ئەمەسلىكىنى ئوڭشايدۇ
Input.Deskew(); // ئايلىنىش ۋە نۇقتىئىنەزەرنى ئوڭشايدۇ
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Uyghur

Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' رەقەملىك شاۋقۇن ۋە سىكانېرلاشنىڭ ياخشى ئەمەسلىكىنى ئوڭشايدۇ
Input.Deskew() ' ئايلىنىش ۋە نۇقتىئىنەزەرنى ئوڭشايدۇ
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR رەسىم سۈزگۈچ تىزىملىكى

IronOCR غا قاچىلانغان OCR ئىقتىدارىنى يۇقىرى كۆتۈرۈش ئۈچۈن كىرگۈزگۈچ سۈزگۈچلەر:

  • OcrInput.Rotate (قوش گرادۇس) - رەسىملەرنى سائەتلىك يۆنىلىشتە بىر قانچە گرادۇس ئايلاندۇرىدۇ. سائەتكە قارشى يۆنىلىشتە ، مەنپىي سانلارنى ئىشلىتىڭ.
  • OcrInput.Binarize () - بۇ رەسىم سۈزگۈچ ھەر بىر پېكسىلنى قارا ياكى ئاق رەڭگە ئايلاندۇرىدۇ ، ئوتتۇرىسى يوق. تېكىستنىڭ تەگلىكى بىلەن سېلىشتۇرما نىسبىتى ئىنتايىن تۆۋەن بولغان OCR ئىقتىدار ئەھۋاللىرىنى ياخشىلىشى مۇمكىن.
  • OcrInput.ToGrayScale () - بۇ رەسىم سۈزگۈچ ھەر بىر پېكسىلنى كۈلرەڭ سايىغا ئايلاندۇرىدۇ. OCR نىڭ توغرىلىقىنى يۇقىرى كۆتۈرۈش مۇمكىن ئەمەس ، ئەمما سۈرئەتنى ئۆستۈرۈشى مۇمكىن
  • OcrInput.Contrast () - سېلىشتۇرمىنى ئاپتوماتىك ئاشۇرىدۇ. بۇ سۈزگۈچ تۆۋەن سېلىشتۇرما سىكانېرلاردا دائىم OCR سۈرئىتى ۋە توغرىلىقىنى ئۆستۈرىدۇ.
  • OcrInput.DeNoise () - رەقەملىك شاۋقۇننى يوقىتىدۇ . بۇ سۈزگۈچ پەقەت شاۋقۇن كۈتكەن يەردىلا ئىشلىتىلىشى كېرەك.
  • OcrInput.Invert () - ھەر بىر رەڭنى ئۆزگەرتىدۇ. تۇخۇم ئاق رەڭگە ئۆزگىرىدۇ: قارا رەڭ ئاق بولىدۇ.
  • OcrInput.Dilate () - ئىلغار مورفولوگىيە. كېڭەيتىش رەسىمدىكى جىسىملارنىڭ چېگرىسىغا پىكسېل قوشىدۇ. Erode نىڭ قارشى تەرىپى
  • OcrInput.Erode () - ئىلغار مورفولوگىيە. Erosion ئوبيېكت چېگراسىدىكى پىكسېلنى چىقىرىۋېتىدۇ
  • OcrInput.Deskew () - رەسىمنى ئايلاندۇرىدۇ ، شۇڭا ئۇ توغرا ۋە توغرا يۆنىلىشلىك بولىدۇ. بۇ OCR ئۈچۈن ئىنتايىن پايدىلىق ، چۈنكى تېسلانىڭ سىيرىلما سىكانىرلاشقا بەرداشلىق بېرىش ئىقتىدارى 5 گرادۇستىن تۆۋەن بولىدۇ.
  • OcrInput.DeepCleanBackgroundNoise () - ئېغىر تەگلىك شاۋقۇنى يوقىتىش. پەۋقۇلئاددە ھۆججەت تەگلىك شاۋقۇنى مەلۇم بولغان ئەھۋال ئاستىدا ، بۇ سۈزگۈچنى ئىشلىتىڭ ، چۈنكى بۇ سۈزگۈچ يەنە پاكىز ھۆججەتلەرنىڭ OCR توغرىلىقىنى تۆۋەنلىتىش خەۋىپىگە دۇچ كېلىدۇ ، شۇنداقلا CPU قىممەت.
  • OcrInput.EnhanceResolution - تۆۋەن سۈپەتلىك رەسىملەرنىڭ ئېنىقلىق دەرىجىسىنى ئۆستۈرىدۇ. بۇ سۈزگۈچ دائىم لازىم ئەمەس ، چۈنكى OcrInput.MinimumDPI ۋە OcrInput.TargetDPI تۆۋەن ئېنىقلىقتىكى كىرگۈزۈشنى ئاپتوماتىك تۇتىدۇ ۋە ھەل قىلىدۇ.

CleanBackgroundNoise. بۇ بىر ئاز ۋاقىت سەرپ قىلىدىغان تەڭشەك. قانداقلا بولمىسۇن ، ئۇ كۇتۇپخانىنى رەقەملىك رەسىم ئىچىدىكى رەقەملىك شاۋقۇن ، قەغەز يىمىرىلىش ۋە باشقا يېتەرسىزلىكلەرنى ئاپتوماتىك تازىلىيالايدۇ ، بولمىسا ئۇنى باشقا OCR كۈتۈپخانىلىرى ئوقۇشقا ئامالسىز قىلىدۇ.

EnhanceContrast بولسا تۆمۈر OCR نىڭ رەسىمنىڭ تەگلىكى بىلەن بولغان سېلىشتۇرما نىسبىتىنى ئاپتوماتىك ئاشۇرۇۋېتىدىغان ، OCR نىڭ توغرىلىق دەرىجىسىنى ئاشۇرىدىغان ۋە ئادەتتە ئىقتىدار ۋە OCR نىڭ سۈرئىتىنى ئاشۇرىدىغان تەڭشەك.

EnhanceResolution بولسا تۆۋەن ئېنىقلىقتىكى رەسىملەرنى (275 dpi دىن تۆۋەن) ئاپتوماتىك بايقىيالايدىغان ۋە رەسىمنى ئاپتوماتىك يۇقىرى كۆتۈرىدىغان ، ئاندىن بارلىق تېكىستلەرنى ئۆتكۈرلەشتۈرۈۋېتىدىغان تەڭشەك بولۇپ ، ئۇنى OCR كۈتۈپخانىسى ياخشى ئوقۇيالايدۇ. گەرچە بۇ مەشغۇلاتنىڭ ئۆزى ۋاقىت ئىسراپچىلىقى بولسىمۇ ، ئەمما ئادەتتە رەسىمدىكى OCR مەشغۇلاتىنىڭ ئومۇمىي ۋاقتىنى قىسقارتىدۇ.

تىل تۆمۈر OCR 22 خەلقئارالىق تىل بولىقىنى قوللايدۇ ، تىل تەڭشىكىنى OCR مەشغۇلاتىغا قوللىنىلىدىغان بىر ياكى بىر قانچە تىلنى تاللاشقا ئىشلىتىشكە بولىدۇ.

ئىستراتېگىيىلىك تۆمۈر OCR ئىككى خىل ئىستراتېگىيىنى قوللايدۇ. بىز بەلكىم ھۆججەتنى تېز ۋە تېخىمۇ توغرا سىكانىرلاشنى تاللىشىمىز مۇمكىن ، ياكى بىر قىسىم سۈنئىي ئىدراك مودېللىرى ئارقىلىق سۆزلەرنىڭ بىر-بىرىگە بولغان ستاتىستىكىلىق مۇناسىۋىتىگە قاراپ OCR تېكىستىنىڭ توغرىلىقىنى ئاپتوماتىك ياخشىلايدىغان ئىلغار ئىستراتېگىيىنى قوللانساق بولىدۇ .

ColorSpace بولسا كۈلرەڭ ياكى رەڭدە OCR نى تاللىيالايدىغان تەڭشەك. ئادەتتە ، كۈلرەڭ ئەڭ ياخشى تاللاش. قانداقلا بولمىسۇن ، بەزىدە ئوخشىشىپ كېتىدىغان ، ئەمما رەڭگى ئوخشىمايدىغان تېكىستلەر ياكى تەگلىكلەر بولغاندا ، تولۇق رەڭلىك بوشلۇق تېخىمۇ ياخشى ئۈنۈم بېرىدۇ.

DetWhiteTextOnDarkBackgrounds. ئادەتتە ، OCR كۈتۈپخانىلىرىنىڭ ھەممىسى ئاق تەگلىكتە قارا تېكىستنى كۆرۈشنى ئۈمىد قىلىدۇ. بۇ تەڭشەك تۆمۈر OCR نىڭ پاسسىپ تەرەپلەرنى ياكى ئاق تېكىستلىك قاراڭغۇ بەتلەرنى ئاپتوماتىك بايقىيالايدۇ ۋە ئۇلارنى ئوقۇيالايدۇ.

InputImageType. بۇ تەڭشەك پروگرامما ئاچقۇچىنىڭ OCR كۈتۈپخانىسىنى ئېكران ھۆججىتىگە ئوخشاش تولۇق ھۆججەت ياكى پارچىلارنى كۆرۈۋاتقىنىغا يېتەكچىلىك قىلالايدۇ.

RotateAndStraighten بولسا ئىلغار تەڭشەك بولۇپ ، ئۇ تۆمۈر OCR نىڭ ئايلانما ھۆججەت بولۇپلا قالماي ، بەلكى تېكىست ھۆججەتلىرىنىڭ سۈرىتى قاتارلىق كۆز قاراشلارنى ئۆز ئىچىگە ئالغان ھۆججەتلەرنى ئوقۇش ئىقتىدارىغا ئىگە.

ReadBarcodes بىر خىل پايدىلىق ئىقتىدار بولۇپ ، ئۇ تۆمۈر OCR نىڭ تېكىستلەرنى ئوقۇغانلىقى ئۈچۈن بەتتىكى تاياقچە كود ۋە QR كودىنى ئاپتوماتىك ئوقۇيالايدۇ.

ColorDepth. بۇ تەڭشەك OCR كۈتۈپخانىسىنىڭ ھەر بىر پېكسىلغا قانچە خانىلىق رەڭ ئىشلىتىدىغانلىقىنى بەلگىلەيدۇ. تېخىمۇ يۇقىرى رەڭ چوڭقۇرلۇقى OCR سۈپىتىنى ئۆستۈرۈشى مۇمكىن ، ئەمما OCR مەشغۇلاتىنىڭ تاماملىنىش ۋاقتىمۇ ئاشىدۇ.

126 تىل بولىقى

تۆمۈر OCR DLL شەكلىدە تارقىتىلغان تىل بولىقى ئارقىلىق 126 خەلقئارالىق تىلنى قوللايدۇ ، بۇ تور بەتتىن چۈشۈرگىلى بولىدۇ ، ياكى NuGet بوغچا باشقۇرغۇچىدىنمۇ چۈشۈرگىلى بولىدۇ.

تىللار نېمىسچە ، فىرانسۇزچە ، ئىنگلىزچە ، خەنزۇچە ، ياپونچە ۋە باشقىلارنى ئۆز ئىچىگە ئالىدۇ. پاسپورت MRZ ، MICR تەكشۈرۈشى ، مالىيە سانلىق مەلۇماتلىرى ، نومۇر تاختىلىرى ۋە باشقىلار ئۈچۈن مەخسۇس تىل بولىقى بار. سىز ئۆزىڭىز قۇرغان ھۆججەتلەرنى ئۆز ئىچىگە ئالغان ھەر قانداق سىناق ".traineddata" ھۆججىتىنى ئىشلىتەلەيسىز.

تىل مىسالى

باشقا OCR تىللىرىنى ئىشلىتىش.

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// ئەگەر لازىم بولسا رەسىم سۈزگۈچ قوشۇڭ
// بۇ خىل ئەھۋالدا ، ھەتتا پىكىر كىرگۈزۈشمۇ ئىنتايىن سۈپەتلىك
// IronTesseract ئادەتتىكى Tesseract ئوقۇيالمايدىغان نەرسىنى ئوقۇيالايدۇ.

var Result = Ocr.Read(input);

// كونترول سۇپىسى Windows دا ئاسانلا ئەرەبچە بېسىپ چىقارمايدۇ.
// ئۇنىڭ ئورنىغا دىسكىغا ساقلايلى.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// ئەگەر لازىم بولسا رەسىم سۈزگۈچ قوشۇڭ
// بۇ خىل ئەھۋالدا ، ھەتتا پىكىر كىرگۈزۈشمۇ ئىنتايىن سۈپەتلىك
// IronTesseract ئادەتتىكى Tesseract ئوقۇيالمايدىغان نەرسىنى ئوقۇيالايدۇ.

var Result = Ocr.Read(input);

// كونترول سۇپىسى Windows دا ئاسانلا ئەرەبچە بېسىپ چىقارمايدۇ.
// ئۇنىڭ ئورنىغا دىسكىغا ساقلايلى.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' ئەگەر لازىم بولسا رەسىم سۈزگۈچ قوشۇڭ
' بۇ خىل ئەھۋالدا ، ھەتتا پىكىر كىرگۈزۈشمۇ ئىنتايىن سۈپەتلىك
' IronTesseract ئادەتتىكى Tesseract ئوقۇيالمايدىغان نەرسىنى ئوقۇيالايدۇ.

Dim Result = Ocr.Read(input)

' كونترول سۇپىسى Windows دا ئاسانلا ئەرەبچە بېسىپ چىقارمايدۇ.
' ئۇنىڭ ئورنىغا دىسكىغا ساقلايلى.
Result.SaveAsTextFile("arabic.txt")
End Using
VB   C#

كۆپ تىل مىسالى

بىرلا ۋاقىتتا كۆپ خىل تىلنى ئىشلىتىپ OCR نى ئىشلىتىش مۇمكىن. بۇ يۇنىكود ھۆججىتىدىكى ئىنگلىزچە مېتا سانلىق مەلۇمات ۋە urls غا ئېرىشىشكە ھەقىقىي ياردەم بېرەلەيدۇ.

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Uyghur);

// بىز ھەر قانداق تىلنى قوشالايمىز

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Uyghur);

// بىز ھەر قانداق تىلنى قوشالايمىز

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Uyghur)

' بىز ھەر قانداق تىلنى قوشالايمىز

Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
VB   C#

تەپسىلىي OCR نەتىجە ئوبيېكتى

تۆمۈر OCR ھەر بىر OCR مەشغۇلاتى ئۈچۈن OCR نەتىجە ئوبيېكتىنى قايتۇرىدۇ. ئادەتتە ، پروگراممېرلار بۇ ئوبيېكتنىڭ تېكىست خاسلىقىنى ئىشلىتىپ ، تېكىستنى رەسىمدىن سايىلەيدۇ. قانداقلا بولمىسۇن ، OCR نىڭ نەتىجىسى DOM بۇنىڭدىن كۆپ ئىلغار.

using IronOcr;
using System.Drawing; //مەجلىس پايدىلانمىسىنى قوشۇڭ

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Uyghur;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! مۇھىم

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// كەڭ كۆلەمدە ، تەپسىلىي API تېپىش ئۈچۈن بۇ يەردىن ئىزدىنىڭ:
// - بەتلەر ، بۆلەكلەر ، پارافافلار ، قۇرلار ، سۆزلەر ، ھەرپلەر
// - رەسىم ئېكسپورتى ، خەت نۇسخىسى ماسلاشتۇرغۇچ ، ستاتىستىكىلىق سانلىق مەلۇمات
}
using IronOcr;
using System.Drawing; //مەجلىس پايدىلانمىسىنى قوشۇڭ

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Uyghur;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! مۇھىم

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// كەڭ كۆلەمدە ، تەپسىلىي API تېپىش ئۈچۈن بۇ يەردىن ئىزدىنىڭ:
// - بەتلەر ، بۆلەكلەر ، پارافافلار ، قۇرلار ، سۆزلەر ، ھەرپلەر
// - رەسىم ئېكسپورتى ، خەت نۇسخىسى ماسلاشتۇرغۇچ ، ستاتىستىكىلىق سانلىق مەلۇمات
}
Imports IronOcr
Imports System.Drawing 'مەجلىس پايدىلانمىسىنى قوشۇڭ

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Uyghur
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '! مۇھىم

Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages(0).Words
Dim Barcodes = Result.Barcodes
' كەڭ كۆلەمدە ، تەپسىلىي API تېپىش ئۈچۈن بۇ يەردىن ئىزدىنىڭ:
' - بەتلەر ، بۆلەكلەر ، پارافافلار ، قۇرلار ، سۆزلەر ، ھەرپلەر
' - رەسىم ئېكسپورتى ، خەت نۇسخىسى ماسلاشتۇرغۇچ ، ستاتىستىكىلىق سانلىق مەلۇمات
End Using
VB   C#

ئىقتىدار

IronOCR ئىقتىدارنى تەڭشەش ياكى كىرگۈزۈش رەسىملىرىنى زور دەرىجىدە ئۆزگەرتىشنىڭ ھاجىتى يوق.

سۈرئەت لاۋۇلدايدۇ: IronOcr.2020 + 10 ھەسسە تېز بولۇپ ، ئىلگىرىكى قۇرۇلۇشلارغا قارىغاندا% 250 تىن ئارتۇق خاتالىق سادىر قىلىدۇ.

تەپسىلاتى

OCR ھەققىدە C#، VB ، F # ياكى باشقا .NET تىلىدا تېخىمۇ كۆپ بىلىمگە ئېرىشىش ئۈچۈن ، مەھەللە دەرسلىكىمىزنى ئوقۇڭ ، بۇلار تۆمۈر OCR نى قانداق ئىشلىتىشكە بولىدىغانلىقى ۋە ھەقىقىي ياخشى ئۈنۈمگە ئېرىشىشنىڭ ئىنچىكە نۇقتىلىرىنى كۆرسىتىپ بېرەلەيدىغان مەھەللە دەرسلىكىمىزنى ئوقۇڭ. بۇ كۇتۇپخانا.

.NET ئاچقۇچىلار ئۈچۈن تولۇق ئوبيېكت پايدىلىنىشىمۇ بار.