C#మరియు .NET లో తెలుగు OCR

ఈ పత్రం యొక్క ఇతర సంస్కరణలు:

ఐరన్‌ఓసిఆర్ అనేది సి # సాఫ్ట్‌వేర్ భాగం, .నెట్ కోడర్‌లు తెలుగుతో సహా 126 భాషలో చిత్రాలు మరియు పిడిఎఫ్ పత్రాల నుండి వచనాన్ని చదవడానికి అనుమతిస్తుంది.

ఇది టెస్రాక్ట్ యొక్క అధునాతన ఫోర్క్, ఇది .NET డెవలపర్‌ల కోసం ప్రత్యేకంగా నిర్మించబడింది మరియు వేగం మరియు ఖచ్చితత్వం రెండింటికీ ఇతర టెస్రాక్ట్ ఇంజిన్‌లను క్రమం తప్పకుండా అధిగమిస్తుంది.

IronOcr.Languages.Telugu యొక్క విషయాలు

ఈ ప్యాకేజీ .NET కోసం 108 OCR భాషలను కలిగి ఉంది:

  • తెలుగు
  • తెలుగుబెస్ట్
  • తెలుగుఫాస్ట్
  • తెలుగు ఆల్ఫాబెట్
  • తెలుగు ఆల్ఫాబెట్ బెస్ట్
  • తెలుగు ఆల్ఫాబెట్ ఫాస్ట్

డౌన్‌లోడ్

తెలుగు భాష ప్యాక్ [తెలుగు]
* Download as జిప్
* Install with as
https://www.nuget.org/packages/IronOcr.Languages.Telugu/'> నుగెట్

సంస్థాపన

మేము చేయవలసిన మొదటి విషయం మీ .NET ప్రాజెక్ట్కు మా తెలుగు OCR ప్యాకేజీని వ్యవస్థాపించడం.

PM> Install-Package IronOCR.Languages.Telugu

కోడ్ ఉదాహరణ

ఈ సి # కోడ్ ఉదాహరణ చిత్రం లేదా పిడిఎఫ్ పత్రం నుండి తెలుగు వచనాన్ని చదువుతుంది.

//PM> Install-Package IronOcr.Languages.Telugu
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput(@"images\Telugu.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Telugu
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput(@"images\Telugu.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Telugu
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Telugu
Using Input = New OcrInput("images\Telugu.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

ఐరన్‌ఓసిఆర్ ఎందుకు ఎంచుకోవాలి?

ఐరన్ OCR అనేది ఇన్‌స్టాల్ చేయడం సులభం, పూర్తి మరియు చక్కగా లిఖితం చేయబడిన .NET సాఫ్ట్‌వేర్ లైబ్రరీ.

బాహ్య వెబ్ సేవలు, కొనసాగుతున్న ఫీజులు లేదా ఇంటర్నెట్ ద్వారా రహస్య పత్రాలను పంపకుండా 99.8% + OCR ఖచ్చితత్వాన్ని సాధించడానికి ఐరన్‌ఓసిఆర్ ఎంచుకోండి.

సి # డెవలపర్లు వనిల్లా టెస్రాక్ట్ కంటే ఐరన్‌ఓసిఆర్‌ను ఎందుకు ఎంచుకుంటారు:

  • ఒకే DLL లేదా నుగేట్‌గా ఇన్‌స్టాల్ చేయండి
  • బాక్స్ వెలుపల టెస్రాక్ట్ 5, 4 మరియు 3 ఇంజిన్ల కోసం ఉంటుంది.
  • ఖచ్చితత్వం 99.8% సాధారణ టెస్రాక్ట్‌ను గణనీయంగా అధిగమిస్తుంది.
  • మండుతున్న వేగం మరియు మల్టీథ్రెడింగ్
  • MVC, వెబ్‌అప్, డెస్క్‌టాప్, కన్సోల్ & సర్వర్ అప్లికేషన్ అనుకూలమైనది
  • పని చేయడానికి Exes లేదా C ++ కోడ్ లేదు
  • పూర్తి PDF OCR మద్దతు
  • OCR ను దాదాపు ఏదైనా ఇమేజ్ ఫైల్ లేదా PDF చేయడానికి
  • పూర్తి. నెట్ కోర్, స్టాండర్డ్ మరియు ఫ్రేమ్‌వర్క్ మద్దతు
  • విండోస్, మాక్, లైనక్స్, అజూర్, డాకర్, లాంబ్డా, AWS లలో అమర్చండి
  • బార్‌కోడ్‌లు మరియు క్యూఆర్ కోడ్‌లను చదవండి
  • OCR ను XHTML గా ఎగుమతి చేయండి
  • శోధించదగిన PDF పత్రాలకు OCR ని ఎగుమతి చేయండి
  • మల్టీథ్రెడింగ్ మద్దతు
  • 126 అంతర్జాతీయ భాషలు అన్నీ నుగేట్ లేదా ఓకర్‌డేటా ఫైళ్ల ద్వారా నిర్వహించబడతాయి
  • చిత్రాలు, కోఆర్డినేట్లు, గణాంకాలు మరియు ఫాంట్లను సంగ్రహించండి. వచనం మాత్రమే కాదు.
  • వాణిజ్య మరియు యాజమాన్య అనువర్తనాలలో టెస్రాక్ట్ OCR ను పున ist పంపిణీ చేయడానికి ఉపయోగించవచ్చు.

వాస్తవ ప్రపంచ చిత్రాలు మరియు ఛాయాచిత్రాలు వంటి అసంపూర్ణ పత్రాలతో లేదా డిజిటల్ శబ్దం లేదా లోపాలను కలిగి ఉన్న తక్కువ రిజల్యూషన్ స్కాన్‌లతో పనిచేసేటప్పుడు ఐరన్ OCR ప్రకాశిస్తుంది.

.NET ప్లాట్‌ఫాం కోసం ఇతర ఉచిత OCR లైబ్రరీలు ఈ ఇతర వాస్తవ ప్రపంచ వినియోగ సందర్భాలలో అంత బాగా పనిచేయవు.

టెస్రాక్ట్ 5 తో OCR - C#లో కోడింగ్ ప్రారంభించండి

దిగువ కోడ్ నమూనా C#లేదా VB .NET ఉపయోగించి చిత్రం నుండి వచనాన్ని చదవడం ఎంత సులభమో చూపిస్తుంది.

వన్‌లైనర్

string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
VB   C#

కాన్ఫిగర్ హలో వరల్డ్

// PM> Install-Package IronOCR.Languages.Telugu
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... మీరు ఎన్ని చిత్రాలను అయినా జోడించవచ్చు
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Telugu
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... మీరు ఎన్ని చిత్రాలను అయినా జోడించవచ్చు
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Telugu
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Telugu
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

సి # పిడిఎఫ్ ఓసిఆర్

ఏదైనా పిడిఎఫ్ పత్రం నుండి వచనాన్ని సేకరించేందుకు ఇదే విధానాన్ని ఉపయోగించవచ్చు.

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// మేము OCR కు నిర్దిష్ట PDF పేజీ నంబర్లను కూడా ఎంచుకోవచ్చు

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// PDF యొక్క ప్రతి పేజీకి 1 పేజీ
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// మేము OCR కు నిర్దిష్ట PDF పేజీ నంబర్లను కూడా ఎంచుకోవచ్చు

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// PDF యొక్క ప్రతి పేజీకి 1 పేజీ
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Telugu
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' మేము OCR కు నిర్దిష్ట PDF పేజీ నంబర్లను కూడా ఎంచుకోవచ్చు

Dim Result = Ocr.Read(input)

Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' PDF యొక్క ప్రతి పేజీకి 1 పేజీ
End Using
VB   C#

మల్టీపేజ్ TIFF ల కోసం OCR

OCR బహుళ పేజీ పత్రాలతో సహా TIFF ఫైల్ ఆకృతిని చదవడం. TIFF ను నేరుగా శోధించదగిన వచనంతో PDF ఫైల్‌గా మార్చవచ్చు.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Telugu

Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

బార్‌కోడ్‌లు మరియు క్యూఆర్

ఐరన్ OCR యొక్క ప్రత్యేక లక్షణం ఏమిటంటే ఇది టెక్స్ట్ కోసం స్కాన్ చేస్తున్నప్పుడు పత్రాల నుండి బార్‌కోడ్‌లు మరియు QR కోడ్‌లను చదవగలదు. OcrResult.OcrBarcode క్లాస్ యొక్క ఉదాహరణలు ప్రతి స్కాన్ చేసిన బార్‌కోడ్ గురించి డెవలపర్‌కు వివరణాత్మక సమాచారాన్ని ఇస్తాయి.

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// రకం మరియు స్థాన లక్షణాలు కూడా బహిర్గతమవుతాయి
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// రకం మరియు స్థాన లక్షణాలు కూడా బహిర్గతమవుతాయి
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True

Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' రకం మరియు స్థాన లక్షణాలు కూడా బహిర్గతమవుతాయి
Next Barcode
End Using
VB   C#

చిత్రాల నిర్దిష్ట ప్రాంతాలపై OCR

ఐరన్ OCR యొక్క అన్ని స్కానింగ్ మరియు పఠన పద్ధతులు మనం వచనం చదవాలనుకుంటున్న పేజీ లేదా పేజీలలో ఏ భాగాన్ని ఖచ్చితంగా పేర్కొనే సామర్థ్యాన్ని అందిస్తాయి. మేము ప్రామాణిక రూపాలను చూస్తున్నప్పుడు ఇది చాలా ఉపయోగకరంగా ఉంటుంది మరియు చాలా సమయాన్ని ఆదా చేస్తుంది మరియు సామర్థ్యాన్ని మెరుగుపరుస్తుంది.

పంట ప్రాంతాలను ఉపయోగించడానికి, మేము System.Drawing కు సిస్టమ్ రిఫరెన్స్‌ను జోడించాలి, తద్వారా మేము System.Drawing.Rectangle object ను ఉపయోగించవచ్చు.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// కొలతలు px లో ఉన్నాయి

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// కొలతలు px లో ఉన్నాయి

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Telugu

Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
	.X = 215,
	.Y = 1250,
	.Height = 280,
	.Width = 1335
}
' కొలతలు px లో ఉన్నాయి

Input.Add("document.png", ContentArea)

Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

తక్కువ నాణ్యత స్కాన్‌ల కోసం OCR

ఐరన్ OCR OcrInput క్లాస్ సాధారణ OcrInput స్కాన్‌లను పరిష్కరించగలదు.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // డిజిటల్ శబ్దం మరియు పేలవమైన స్కానింగ్‌ను పరిష్కరిస్తుంది
Input.Deskew(); // భ్రమణం మరియు దృక్పథాన్ని పరిష్కరిస్తుంది
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // డిజిటల్ శబ్దం మరియు పేలవమైన స్కానింగ్‌ను పరిష్కరిస్తుంది
Input.Deskew(); // భ్రమణం మరియు దృక్పథాన్ని పరిష్కరిస్తుంది
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Telugu

Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' డిజిటల్ శబ్దం మరియు పేలవమైన స్కానింగ్‌ను పరిష్కరిస్తుంది
Input.Deskew() ' భ్రమణం మరియు దృక్పథాన్ని పరిష్కరిస్తుంది
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR ఫలితాలను శోధించదగిన PDF గా ఎగుమతి చేయండి

కాపీ చేయదగిన టెక్స్ట్ తీగలతో పిడిఎఫ్‌కు చిత్రం. సెర్చ్ ఇంజన్లు మరియు డేటాబేస్ల ద్వారా సూచిక చేయవచ్చు.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Telugu

Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")

Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

శోధించదగిన PDF మార్పిడికి TIFF

ఇంట్రానెట్, వెబ్‌సైట్ మరియు గూగుల్ సెర్చ్ ఇంజిన్‌ల ద్వారా సూచించబడే ఒక టిఎఫ్ఎఫ్ పత్రాన్ని (లేదా ఇమేజ్ ఫైళ్ల సమూహం) నేరుగా శోధించదగిన పిడిఎఫ్‌కు మార్చండి.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Telugu

Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

OCR ఫలితాలను HTML గా ఎగుమతి చేయండి

OCR చిత్రం XHTML మార్పిడికి.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Telugu
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
VB   C#

OCR ఇమేజ్ వృద్ధి ఫిల్టర్లు

OCR పనితీరును మెరుగుపరచడానికి OcrInput వస్తువుల కోసం ప్రత్యేకమైన ఫిల్టర్‌లను అందిస్తుంది.

చిత్ర వృద్ధి కోడ్ ఉదాహరణ

మెరుగైన, వేగవంతమైన OCR ఫలితాలను ఇవ్వడానికి OCR ఇన్‌పుట్ చిత్రాలను అధిక నాణ్యతతో చేస్తుంది.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // డిజిటల్ శబ్దం మరియు పేలవమైన స్కానింగ్‌ను పరిష్కరిస్తుంది
Input.Deskew(); // భ్రమణం మరియు దృక్పథాన్ని పరిష్కరిస్తుంది
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // డిజిటల్ శబ్దం మరియు పేలవమైన స్కానింగ్‌ను పరిష్కరిస్తుంది
Input.Deskew(); // భ్రమణం మరియు దృక్పథాన్ని పరిష్కరిస్తుంది
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Telugu

Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' డిజిటల్ శబ్దం మరియు పేలవమైన స్కానింగ్‌ను పరిష్కరిస్తుంది
Input.Deskew() ' భ్రమణం మరియు దృక్పథాన్ని పరిష్కరిస్తుంది
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR ఇమేజ్ ఫిల్టర్‌ల జాబితా

ఐరన్‌ఓసిఆర్‌లో నిర్మించిన OCR పనితీరును మెరుగుపరచడానికి ఇన్‌పుట్ ఫిల్టర్లు:

  • OcrInput.Rotate (డబుల్ డిగ్రీలు) - చిత్రాలను సవ్యదిశలో అనేక డిగ్రీల ద్వారా తిరుగుతుంది . వ్యతిరేక సవ్యదిశలో, ప్రతికూల సంఖ్యలను ఉపయోగించండి.
  • OcrInput.Binarize () - ఈ ఇమేజ్ ఫిల్టర్ ప్రతి పిక్సెల్ నలుపు లేదా తెలుపు మధ్య గ్రౌండ్ లేకుండా మారుతుంది. వచనానికి నేపథ్యానికి చాలా తక్కువ విరుద్ధమైన OCR పనితీరు కేసులను మెరుగుపరచవచ్చు.
  • OcrInput.ToGrayScale () - ఈ ఇమేజ్ ఫిల్టర్ ప్రతి పిక్సెల్‌ను గ్రేస్కేల్ నీడగా మారుస్తుంది. OCR ఖచ్చితత్వాన్ని మెరుగుపరచడం అసాధ్యం కాని వేగాన్ని మెరుగుపరుస్తుంది
  • OcrInput.Contrast () - కాంట్రాస్ట్‌ను స్వయంచాలకంగా పెంచుతుంది. ఈ ఫిల్టర్ తరచుగా తక్కువ కాంట్రాస్ట్ స్కాన్లలో OCR వేగం మరియు ఖచ్చితత్వాన్ని మెరుగుపరుస్తుంది.
  • OcrInput.DeNoise () - డిజిటల్ శబ్దాన్ని తొలగిస్తుంది. శబ్దం ఆశించిన చోట మాత్రమే ఈ ఫిల్టర్ ఉపయోగించాలి.
  • OcrInput.Invert () - ప్రతి రంగును విలోమం చేస్తుంది . ఉదా తెలుపు నలుపు: నలుపు తెలుపు అవుతుంది.
  • OcrInput.Dilate () - అడ్వాన్స్డ్ మార్ఫాలజీ. చిత్రంలోని వస్తువుల సరిహద్దులకు డైలేషన్ పిక్సెల్‌లను జోడిస్తుంది. ఈరోడ్ ఎదురుగా
  • OcrInput.Erode () - అడ్వాన్స్డ్ మార్ఫాలజీ. ఎరోజన్ విస్తారంగా వర్ణించు వస్తువు boundariesOpposite పిక్సెళ్ళు తొలగిస్తుంది
  • OcrInput.Deskew () - ఒక చిత్రాన్ని తిరుగుతుంది కాబట్టి ఇది సరైన మార్గం మరియు ఆర్తోగోనల్. OCR కి ఇది చాలా ఉపయోగకరంగా ఉంటుంది ఎందుకంటే వక్రీకృత స్కాన్‌ల కోసం టెస్రాక్ట్ టాలరెన్స్ 5 డిగ్రీల వరకు ఉంటుంది.
  • OcrInput.DeepCleanBackgroundNoise () - భారీ నేపథ్య శబ్దం తొలగింపు. విపరీతమైన పత్ర నేపథ్య శబ్దం తెలిసిన సందర్భంలో మాత్రమే ఈ ఫిల్టర్‌ను ఉపయోగించండి, ఎందుకంటే ఈ ఫిల్టర్ శుభ్రమైన పత్రాల OCR ఖచ్చితత్వాన్ని తగ్గించే ప్రమాదం ఉంది మరియు ఇది చాలా CPU ఖరీదైనది.
  • OcrInput.EnhanceResolution - తక్కువ నాణ్యత గల చిత్రాల రిజల్యూషన్‌ను మెరుగుపరుస్తుంది. ఈ ఫిల్టర్ తరచుగా అవసరం లేదు ఎందుకంటే OcrInput.MinimumDPI మరియు OcrInput.TargetDPI స్వయంచాలకంగా తక్కువ రిజల్యూషన్ ఇన్‌పుట్‌లను పట్టుకుని పరిష్కరిస్తాయి.

క్లీన్‌బ్యాక్‌గ్రౌండ్ నోయిస్. ఇది కొంత సమయం తీసుకునే సెట్టింగ్; ఏది ఏమయినప్పటికీ, డిజిటల్ ఇమేజ్‌లోని డిజిటల్ శబ్దం, కాగితపు ముక్కలు మరియు ఇతర లోపాలను స్వయంచాలకంగా శుభ్రం చేయడానికి ఇది లైబ్రరీని అనుమతిస్తుంది, అది ఇతర OCR లైబ్రరీల ద్వారా చదవలేకపోతుంది.

EnhanceContrast అనేది ఒక చిత్రం యొక్క నేపథ్యానికి వ్యతిరేకంగా ఐరన్ OCR స్వయంచాలకంగా వచన విరుద్ధతను పెంచుతుంది, OCR యొక్క ఖచ్చితత్వాన్ని పెంచుతుంది మరియు సాధారణంగా పనితీరు మరియు OCR యొక్క వేగాన్ని పెంచుతుంది.

EnhanceResolution అనేది తక్కువ-రిజల్యూషన్ చిత్రాలను స్వయంచాలకంగా గుర్తించే (275 dpi కంటే తక్కువ) మరియు స్వయంచాలకంగా చిత్రాన్ని స్వయంచాలకంగా పెంచుతుంది మరియు తరువాత అన్ని వచనాలను పదునుపెడుతుంది , తద్వారా ఇది OCR లైబ్రరీ ద్వారా ఖచ్చితంగా చదవబడుతుంది. ఈ ఆపరేషన్ సమయం తీసుకుంటున్నప్పటికీ, ఇది సాధారణంగా చిత్రంపై OCR ఆపరేషన్ కోసం మొత్తం సమయాన్ని తగ్గిస్తుంది.

భాష ఐరన్ OCR 22 అంతర్జాతీయ భాషా ప్యాక్‌లకు మద్దతు ఇస్తుంది మరియు OCR ఆపరేషన్ కోసం వర్తించే ఒకటి లేదా అంతకంటే ఎక్కువ బహుళ భాషలను ఎంచుకోవడానికి భాషా అమరికను ఉపయోగించవచ్చు.

వ్యూహం ఐరన్ OCR రెండు వ్యూహాలకు మద్దతు ఇస్తుంది. మేము పత్రం యొక్క వేగవంతమైన మరియు తక్కువ ఖచ్చితమైన స్కాన్ కోసం ఎంచుకోవచ్చు లేదా ఒక వాక్యంలో పదాల గణాంక సంబంధాన్ని ఒకదానితో ఒకటి చూడటం ద్వారా OCR టెక్స్ట్ యొక్క ఖచ్చితత్వాన్ని స్వయంచాలకంగా మెరుగుపరచడానికి కొన్ని కృత్రిమ మేధస్సు నమూనాలను ఉపయోగించే ఒక ఆధునిక వ్యూహాన్ని ఉపయోగించవచ్చు. .

కలర్‌స్పేస్ అనేది గ్రేస్కేల్ లేదా కలర్‌లో OCR ను ఎంచుకునే ఒక సెట్టింగ్. సాధారణంగా, గ్రేస్కేల్ ఉత్తమ ఎంపిక. ఏదేమైనా, కొన్నిసార్లు ఇలాంటి రంగు యొక్క పాఠాలు లేదా నేపథ్యాలు ఉన్నప్పటికీ చాలా భిన్నమైన రంగు, పూర్తి-రంగు రంగు స్థలం మంచి ఫలితాలను అందిస్తుంది.

DetectWhiteTextOnDarkBackgrounds. సాధారణంగా, అన్ని OCR లైబ్రరీలు తెలుపు నేపథ్యంలో బ్లాక్ టెక్స్ట్ చూడాలని ఆశిస్తాయి. ఈ సెట్టింగ్ ఐరన్ OCR ను స్వయంచాలకంగా ప్రతికూలతలను లేదా తెల్లని వచనంతో చీకటి పేజీలను గుర్తించి వాటిని చదవడానికి అనుమతిస్తుంది.

ఇన్‌పుట్ ఇమేజ్ టైప్. ఈ సెట్టింగ్ డెవలపర్‌ను OCR లైబ్రరీకి పూర్తి పత్రం లేదా స్క్రీన్‌షాట్ వంటి స్నిప్పెట్‌ను చూస్తున్నారా అని మార్గనిర్దేశం చేయడానికి అనుమతిస్తుంది.

RotateAndStraighten అనేది ఒక అధునాతన అమరిక, ఇది ఐరన్ OCR ను తిప్పడానికి మాత్రమే కాకుండా, వచన పత్రాల ఛాయాచిత్రాలు వంటి దృక్పథాన్ని కలిగి ఉన్న పత్రాలను చదవగల ప్రత్యేక సామర్థ్యాన్ని అనుమతిస్తుంది.

రీడ్‌బార్కోడ్‌లు ఉపయోగకరమైన లక్షణం, ఇది ఐరన్ OCR స్వయంచాలకంగా పేజీలలో బార్‌కోడ్‌లు మరియు QR కోడ్‌లను చదవడానికి అనుమతిస్తుంది, ఇది పెద్ద అదనపు సమయ భారాన్ని జోడించకుండా, టెక్స్ట్‌ను కూడా చదువుతుంది.

కలర్‌డెప్త్. రంగు యొక్క లోతును నిర్ణయించడానికి OCR లైబ్రరీ పిక్సెల్కు ఎన్ని బిట్స్ ఉపయోగిస్తుందో ఈ సెట్టింగ్ నిర్ణయిస్తుంది. అధిక రంగు లోతు OCR నాణ్యతను పెంచుతుంది, కానీ OCR ఆపరేషన్ పూర్తి కావడానికి అవసరమైన సమయాన్ని కూడా పెంచుతుంది.

126 భాషా ప్యాక్‌లు

ఐరన్ OCR భాషా ప్యాక్‌ల ద్వారా 126 అంతర్జాతీయ భాషలకు మద్దతు ఇస్తుంది, వీటిని DLL లుగా పంపిణీ చేస్తారు, వీటిని ఈ వెబ్‌సైట్ నుండి డౌన్‌లోడ్ చేసుకోవచ్చు లేదా నుగెట్ ప్యాకేజీ మేనేజర్ నుండి కూడా పొందవచ్చు.

భాషలలో జర్మన్, ఫ్రెంచ్, ఇంగ్లీష్, చైనీస్, జపనీస్ మరియు మరెన్నో ఉన్నాయి. పాస్‌పోర్ట్ MRZ, MICR తనిఖీలు, ఫైనాన్షియల్ డేటా, లైసెన్స్ ప్లేట్లు మరియు మరెన్నో కోసం స్పెషలిస్ట్ లాంగ్వేజ్ ప్యాక్‌లు ఉన్నాయి. మీరు మీరే సృష్టించిన వాటితో సహా ఏదైనా టెస్రాక్ట్ ".ట్రైన్డేటా" ఫైల్‌ను కూడా ఉపయోగించవచ్చు.

భాషా ఉదాహరణ

ఇతర OCR భాషలను ఉపయోగించడం.

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// అవసరమైతే చిత్ర ఫిల్టర్లను జోడించండి
// ఈ సందర్భంలో, ఆలోచన ఇన్పుట్ కూడా చాలా తక్కువ నాణ్యత
// ఐరన్ టెస్రాక్ట్ సాంప్రదాయిక టెస్రాక్ట్ చేయలేనిదాన్ని చదవగలదు.

var Result = Ocr.Read(input);

// విండోస్‌లో కన్సోల్ అరబిక్‌ను సులభంగా ముద్రించదు.
// బదులుగా డిస్కులో సేవ్ చేద్దాం.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// అవసరమైతే చిత్ర ఫిల్టర్లను జోడించండి
// ఈ సందర్భంలో, ఆలోచన ఇన్పుట్ కూడా చాలా తక్కువ నాణ్యత
// ఐరన్ టెస్రాక్ట్ సాంప్రదాయిక టెస్రాక్ట్ చేయలేనిదాన్ని చదవగలదు.

var Result = Ocr.Read(input);

// విండోస్‌లో కన్సోల్ అరబిక్‌ను సులభంగా ముద్రించదు.
// బదులుగా డిస్కులో సేవ్ చేద్దాం.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' అవసరమైతే చిత్ర ఫిల్టర్లను జోడించండి
' ఈ సందర్భంలో, ఆలోచన ఇన్పుట్ కూడా చాలా తక్కువ నాణ్యత
' ఐరన్ టెస్రాక్ట్ సాంప్రదాయిక టెస్రాక్ట్ చేయలేనిదాన్ని చదవగలదు.

Dim Result = Ocr.Read(input)

' విండోస్‌లో కన్సోల్ అరబిక్‌ను సులభంగా ముద్రించదు.
' బదులుగా డిస్కులో సేవ్ చేద్దాం.
Result.SaveAsTextFile("arabic.txt")
End Using
VB   C#

బహుళ భాషా ఉదాహరణ

ఒకే సమయంలో బహుళ భాషలను ఉపయోగించి OCR కు కూడా అవకాశం ఉంది. యునికోడ్ పత్రాలలో ఆంగ్ల భాషా మెటాడేటా మరియు url లను పొందడానికి ఇది నిజంగా సహాయపడుతుంది.

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Telugu);

// మేము ఎన్ని భాషలను అయినా జోడించవచ్చు

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Telugu);

// మేము ఎన్ని భాషలను అయినా జోడించవచ్చు

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Telugu)

' మేము ఎన్ని భాషలను అయినా జోడించవచ్చు

Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
VB   C#

వివరణాత్మక OCR ఫలితాల వస్తువులు

ఐరన్ OCR ప్రతి OCR ఆపరేషన్ కోసం OCR ఫలిత వస్తువును అందిస్తుంది. సాధారణంగా, డెవలపర్లు చిత్రం నుండి వచనాన్ని స్కాన్ చేయడానికి ఈ వస్తువు యొక్క వచన ఆస్తిని మాత్రమే ఉపయోగిస్తారు. ఏదేమైనా, OCR ఫలితాలు DOM దీని కంటే చాలా అధునాతనమైనది.

using IronOcr;
using System.Drawing; //అసెంబ్లీ సూచనను జోడించండి

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! ముఖ్యమైనది

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// భారీ, వివరణాత్మక API ని కనుగొనడానికి ఇక్కడ అన్వేషించండి:
// - పేజీలు, బ్లాక్‌లు, పారాఫాఫ్‌లు, లైన్స్, పదాలు, అక్షరాలు
// - ఇమేజ్ ఎక్స్‌పోర్ట్, ఫాంట్స్ కోఆర్డినేట్స్, స్టాటిస్టికల్ డేటా
}
using IronOcr;
using System.Drawing; //అసెంబ్లీ సూచనను జోడించండి

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! ముఖ్యమైనది

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// భారీ, వివరణాత్మక API ని కనుగొనడానికి ఇక్కడ అన్వేషించండి:
// - పేజీలు, బ్లాక్‌లు, పారాఫాఫ్‌లు, లైన్స్, పదాలు, అక్షరాలు
// - ఇమేజ్ ఎక్స్‌పోర్ట్, ఫాంట్స్ కోఆర్డినేట్స్, స్టాటిస్టికల్ డేటా
}
Imports IronOcr
Imports System.Drawing 'అసెంబ్లీ సూచనను జోడించండి

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Telugu
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '! ముఖ్యమైనది

Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages(0).Words
Dim Barcodes = Result.Barcodes
' భారీ, వివరణాత్మక API ని కనుగొనడానికి ఇక్కడ అన్వేషించండి:
' - పేజీలు, బ్లాక్‌లు, పారాఫాఫ్‌లు, లైన్స్, పదాలు, అక్షరాలు
' - ఇమేజ్ ఎక్స్‌పోర్ట్, ఫాంట్స్ కోఆర్డినేట్స్, స్టాటిస్టికల్ డేటా
End Using
VB   C#

ప్రదర్శన

పనితీరు ట్యూన్ చేయాల్సిన అవసరం లేకుండా లేదా ఇన్‌పుట్ చిత్రాలను భారీగా సవరించాల్సిన అవసరం లేకుండా ఐరన్‌ఓసిఆర్ బాక్స్ వెలుపల పనిచేస్తుంది.

వేగం మండుతోంది: IronOcr.2020 + 10 రెట్లు వేగంగా ఉంటుంది మరియు మునుపటి నిర్మాణాల కంటే 250% తక్కువ లోపాలను చేస్తుంది.

ఇంకా నేర్చుకో

C #, VB, F #, లేదా మరేదైనా .NET భాషలో OCR గురించి మరింత తెలుసుకోవడానికి, దయచేసి మా కమ్యూనిటీ ట్యుటోరియల్స్ చదవండి , ఇవి ఐరన్ OCR ను ఎలా ఉపయోగించవచ్చో వాస్తవ ప్రపంచ ఉదాహరణలను ఇస్తాయి మరియు ఉత్తమమైనవి ఎలా పొందాలో సూక్ష్మ నైపుణ్యాలను చూపుతాయి ఈ లైబ్రరీ.

.NET డెవలపర్‌ల కోసం పూర్తి ఆబ్జెక్ట్ రిఫరెన్స్ కూడా అందుబాటులో ఉంది.