C#మరియు .NET లో తెలుగు OCR
ఈ పత్రం యొక్క ఇతర సంస్కరణలు:
ఐరన్ఓసిఆర్ అనేది సి # సాఫ్ట్వేర్ భాగం, .నెట్ కోడర్లు తెలుగుతో సహా 126 భాషలో చిత్రాలు మరియు పిడిఎఫ్ పత్రాల నుండి వచనాన్ని చదవడానికి అనుమతిస్తుంది.
ఇది టెస్రాక్ట్ యొక్క అధునాతన ఫోర్క్, ఇది .NET డెవలపర్ల కోసం ప్రత్యేకంగా నిర్మించబడింది మరియు వేగం మరియు ఖచ్చితత్వం రెండింటికీ ఇతర టెస్రాక్ట్ ఇంజిన్లను క్రమం తప్పకుండా అధిగమిస్తుంది.
IronOcr.Languages.Telugu యొక్క విషయాలు
ఈ ప్యాకేజీ .NET కోసం 108 OCR భాషలను కలిగి ఉంది:
- తెలుగు
- తెలుగుబెస్ట్
- తెలుగుఫాస్ట్
- తెలుగు ఆల్ఫాబెట్
- తెలుగు ఆల్ఫాబెట్ బెస్ట్
- తెలుగు ఆల్ఫాబెట్ ఫాస్ట్
డౌన్లోడ్
తెలుగు భాష ప్యాక్ [తెలుగు]
* Download as జిప్
* Install with as https://www.nuget.org/packages/IronOcr.Languages.Telugu/'> నుగెట్
సంస్థాపన
మేము చేయవలసిన మొదటి విషయం మీ .NET ప్రాజెక్ట్కు మా తెలుగు OCR ప్యాకేజీని వ్యవస్థాపించడం.
PM> Install-Package IronOCR.Languages.Telugu
కోడ్ ఉదాహరణ
ఈ సి # కోడ్ ఉదాహరణ చిత్రం లేదా పిడిఎఫ్ పత్రం నుండి తెలుగు వచనాన్ని చదువుతుంది.
//PM> Install-Package IronOcr.Languages.Telugu
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput(@"images\Telugu.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Telugu
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput(@"images\Telugu.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Telugu
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Telugu
Using Input = New OcrInput("images\Telugu.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
ఐరన్ఓసిఆర్ ఎందుకు ఎంచుకోవాలి?
ఐరన్ OCR అనేది ఇన్స్టాల్ చేయడం సులభం, పూర్తి మరియు చక్కగా లిఖితం చేయబడిన .NET సాఫ్ట్వేర్ లైబ్రరీ.
బాహ్య వెబ్ సేవలు, కొనసాగుతున్న ఫీజులు లేదా ఇంటర్నెట్ ద్వారా రహస్య పత్రాలను పంపకుండా 99.8% + OCR ఖచ్చితత్వాన్ని సాధించడానికి ఐరన్ఓసిఆర్ ఎంచుకోండి.
సి # డెవలపర్లు వనిల్లా టెస్రాక్ట్ కంటే ఐరన్ఓసిఆర్ను ఎందుకు ఎంచుకుంటారు:
- ఒకే DLL లేదా నుగేట్గా ఇన్స్టాల్ చేయండి
- బాక్స్ వెలుపల టెస్రాక్ట్ 5, 4 మరియు 3 ఇంజిన్ల కోసం ఉంటుంది.
- ఖచ్చితత్వం 99.8% సాధారణ టెస్రాక్ట్ను గణనీయంగా అధిగమిస్తుంది.
- మండుతున్న వేగం మరియు మల్టీథ్రెడింగ్
- MVC, వెబ్అప్, డెస్క్టాప్, కన్సోల్ & సర్వర్ అప్లికేషన్ అనుకూలమైనది
- పని చేయడానికి Exes లేదా C ++ కోడ్ లేదు
- పూర్తి PDF OCR మద్దతు
- OCR ను దాదాపు ఏదైనా ఇమేజ్ ఫైల్ లేదా PDF చేయడానికి
- పూర్తి. నెట్ కోర్, స్టాండర్డ్ మరియు ఫ్రేమ్వర్క్ మద్దతు
- విండోస్, మాక్, లైనక్స్, అజూర్, డాకర్, లాంబ్డా, AWS లలో అమర్చండి
- బార్కోడ్లు మరియు క్యూఆర్ కోడ్లను చదవండి
- OCR ను XHTML గా ఎగుమతి చేయండి
- శోధించదగిన PDF పత్రాలకు OCR ని ఎగుమతి చేయండి
- మల్టీథ్రెడింగ్ మద్దతు
- 126 అంతర్జాతీయ భాషలు అన్నీ నుగేట్ లేదా ఓకర్డేటా ఫైళ్ల ద్వారా నిర్వహించబడతాయి
- చిత్రాలు, కోఆర్డినేట్లు, గణాంకాలు మరియు ఫాంట్లను సంగ్రహించండి. వచనం మాత్రమే కాదు.
- వాణిజ్య మరియు యాజమాన్య అనువర్తనాలలో టెస్రాక్ట్ OCR ను పున ist పంపిణీ చేయడానికి ఉపయోగించవచ్చు.
వాస్తవ ప్రపంచ చిత్రాలు మరియు ఛాయాచిత్రాలు వంటి అసంపూర్ణ పత్రాలతో లేదా డిజిటల్ శబ్దం లేదా లోపాలను కలిగి ఉన్న తక్కువ రిజల్యూషన్ స్కాన్లతో పనిచేసేటప్పుడు ఐరన్ OCR ప్రకాశిస్తుంది.
.NET ప్లాట్ఫాం కోసం ఇతర ఉచిత OCR లైబ్రరీలు ఈ ఇతర వాస్తవ ప్రపంచ వినియోగ సందర్భాలలో అంత బాగా పనిచేయవు.
టెస్రాక్ట్ 5 తో OCR - C#లో కోడింగ్ ప్రారంభించండి
దిగువ కోడ్ నమూనా C#లేదా VB .NET ఉపయోగించి చిత్రం నుండి వచనాన్ని చదవడం ఎంత సులభమో చూపిస్తుంది.
వన్లైనర్
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
కాన్ఫిగర్ హలో వరల్డ్
// PM> Install-Package IronOCR.Languages.Telugu
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... మీరు ఎన్ని చిత్రాలను అయినా జోడించవచ్చు
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Telugu
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... మీరు ఎన్ని చిత్రాలను అయినా జోడించవచ్చు
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Telugu
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Telugu
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
సి # పిడిఎఫ్ ఓసిఆర్
ఏదైనా పిడిఎఫ్ పత్రం నుండి వచనాన్ని సేకరించేందుకు ఇదే విధానాన్ని ఉపయోగించవచ్చు.
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// మేము OCR కు నిర్దిష్ట PDF పేజీ నంబర్లను కూడా ఎంచుకోవచ్చు
var Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// PDF యొక్క ప్రతి పేజీకి 1 పేజీ
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// మేము OCR కు నిర్దిష్ట PDF పేజీ నంబర్లను కూడా ఎంచుకోవచ్చు
var Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// PDF యొక్క ప్రతి పేజీకి 1 పేజీ
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Telugu
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' మేము OCR కు నిర్దిష్ట PDF పేజీ నంబర్లను కూడా ఎంచుకోవచ్చు
Dim Result = Ocr.Read(input)
Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' PDF యొక్క ప్రతి పేజీకి 1 పేజీ
End Using
మల్టీపేజ్ TIFF ల కోసం OCR
OCR బహుళ పేజీ పత్రాలతో సహా TIFF ఫైల్ ఆకృతిని చదవడం. TIFF ను నేరుగా శోధించదగిన వచనంతో PDF ఫైల్గా మార్చవచ్చు.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Telugu
Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
బార్కోడ్లు మరియు క్యూఆర్
ఐరన్ OCR యొక్క ప్రత్యేక లక్షణం ఏమిటంటే ఇది టెక్స్ట్ కోసం స్కాన్ చేస్తున్నప్పుడు పత్రాల నుండి బార్కోడ్లు మరియు QR కోడ్లను చదవగలదు. OcrResult.OcrBarcode
క్లాస్ యొక్క ఉదాహరణలు ప్రతి స్కాన్ చేసిన బార్కోడ్ గురించి డెవలపర్కు వివరణాత్మక సమాచారాన్ని ఇస్తాయి.
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// రకం మరియు స్థాన లక్షణాలు కూడా బహిర్గతమవుతాయి
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// రకం మరియు స్థాన లక్షణాలు కూడా బహిర్గతమవుతాయి
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True
Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' రకం మరియు స్థాన లక్షణాలు కూడా బహిర్గతమవుతాయి
Next Barcode
End Using
చిత్రాల నిర్దిష్ట ప్రాంతాలపై OCR
ఐరన్ OCR యొక్క అన్ని స్కానింగ్ మరియు పఠన పద్ధతులు మనం వచనం చదవాలనుకుంటున్న పేజీ లేదా పేజీలలో ఏ భాగాన్ని ఖచ్చితంగా పేర్కొనే సామర్థ్యాన్ని అందిస్తాయి. మేము ప్రామాణిక రూపాలను చూస్తున్నప్పుడు ఇది చాలా ఉపయోగకరంగా ఉంటుంది మరియు చాలా సమయాన్ని ఆదా చేస్తుంది మరియు సామర్థ్యాన్ని మెరుగుపరుస్తుంది.
పంట ప్రాంతాలను ఉపయోగించడానికి, మేము System.Drawing
కు సిస్టమ్ రిఫరెన్స్ను జోడించాలి, తద్వారా మేము System.Drawing.Rectangle
object ను ఉపయోగించవచ్చు.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// కొలతలు px లో ఉన్నాయి
Input.Add("document.png", ContentArea);
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// కొలతలు px లో ఉన్నాయి
Input.Add("document.png", ContentArea);
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Telugu
Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
.X = 215,
.Y = 1250,
.Height = 280,
.Width = 1335
}
' కొలతలు px లో ఉన్నాయి
Input.Add("document.png", ContentArea)
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
తక్కువ నాణ్యత స్కాన్ల కోసం OCR
ఐరన్ OCR OcrInput
క్లాస్ సాధారణ OcrInput
స్కాన్లను పరిష్కరించగలదు.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // డిజిటల్ శబ్దం మరియు పేలవమైన స్కానింగ్ను పరిష్కరిస్తుంది
Input.Deskew(); // భ్రమణం మరియు దృక్పథాన్ని పరిష్కరిస్తుంది
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // డిజిటల్ శబ్దం మరియు పేలవమైన స్కానింగ్ను పరిష్కరిస్తుంది
Input.Deskew(); // భ్రమణం మరియు దృక్పథాన్ని పరిష్కరిస్తుంది
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Telugu
Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' డిజిటల్ శబ్దం మరియు పేలవమైన స్కానింగ్ను పరిష్కరిస్తుంది
Input.Deskew() ' భ్రమణం మరియు దృక్పథాన్ని పరిష్కరిస్తుంది
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
OCR ఫలితాలను శోధించదగిన PDF గా ఎగుమతి చేయండి
కాపీ చేయదగిన టెక్స్ట్ తీగలతో పిడిఎఫ్కు చిత్రం. సెర్చ్ ఇంజన్లు మరియు డేటాబేస్ల ద్వారా సూచిక చేయవచ్చు.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");
var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");
var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Telugu
Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")
Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
శోధించదగిన PDF మార్పిడికి TIFF
ఇంట్రానెట్, వెబ్సైట్ మరియు గూగుల్ సెర్చ్ ఇంజిన్ల ద్వారా సూచించబడే ఒక టిఎఫ్ఎఫ్ పత్రాన్ని (లేదా ఇమేజ్ ఫైళ్ల సమూహం) నేరుగా శోధించదగిన పిడిఎఫ్కు మార్చండి.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Telugu
Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
OCR ఫలితాలను HTML గా ఎగుమతి చేయండి
OCR చిత్రం XHTML మార్పిడికి.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Telugu
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
OCR ఇమేజ్ వృద్ధి ఫిల్టర్లు
OCR పనితీరును మెరుగుపరచడానికి OcrInput
వస్తువుల కోసం ప్రత్యేకమైన ఫిల్టర్లను అందిస్తుంది.
చిత్ర వృద్ధి కోడ్ ఉదాహరణ
మెరుగైన, వేగవంతమైన OCR ఫలితాలను ఇవ్వడానికి OCR ఇన్పుట్ చిత్రాలను అధిక నాణ్యతతో చేస్తుంది.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // డిజిటల్ శబ్దం మరియు పేలవమైన స్కానింగ్ను పరిష్కరిస్తుంది
Input.Deskew(); // భ్రమణం మరియు దృక్పథాన్ని పరిష్కరిస్తుంది
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // డిజిటల్ శబ్దం మరియు పేలవమైన స్కానింగ్ను పరిష్కరిస్తుంది
Input.Deskew(); // భ్రమణం మరియు దృక్పథాన్ని పరిష్కరిస్తుంది
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Telugu
Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' డిజిటల్ శబ్దం మరియు పేలవమైన స్కానింగ్ను పరిష్కరిస్తుంది
Input.Deskew() ' భ్రమణం మరియు దృక్పథాన్ని పరిష్కరిస్తుంది
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
OCR ఇమేజ్ ఫిల్టర్ల జాబితా
ఐరన్ఓసిఆర్లో నిర్మించిన OCR పనితీరును మెరుగుపరచడానికి ఇన్పుట్ ఫిల్టర్లు:
- OcrInput.Rotate (డబుల్ డిగ్రీలు) - చిత్రాలను సవ్యదిశలో అనేక డిగ్రీల ద్వారా తిరుగుతుంది . వ్యతిరేక సవ్యదిశలో, ప్రతికూల సంఖ్యలను ఉపయోగించండి.
- OcrInput.Binarize () - ఈ ఇమేజ్ ఫిల్టర్ ప్రతి పిక్సెల్ నలుపు లేదా తెలుపు మధ్య గ్రౌండ్ లేకుండా మారుతుంది. వచనానికి నేపథ్యానికి చాలా తక్కువ విరుద్ధమైన OCR పనితీరు కేసులను మెరుగుపరచవచ్చు.
- OcrInput.ToGrayScale () - ఈ ఇమేజ్ ఫిల్టర్ ప్రతి పిక్సెల్ను గ్రేస్కేల్ నీడగా మారుస్తుంది. OCR ఖచ్చితత్వాన్ని మెరుగుపరచడం అసాధ్యం కాని వేగాన్ని మెరుగుపరుస్తుంది
- OcrInput.Contrast () - కాంట్రాస్ట్ను స్వయంచాలకంగా పెంచుతుంది. ఈ ఫిల్టర్ తరచుగా తక్కువ కాంట్రాస్ట్ స్కాన్లలో OCR వేగం మరియు ఖచ్చితత్వాన్ని మెరుగుపరుస్తుంది.
- OcrInput.DeNoise () - డిజిటల్ శబ్దాన్ని తొలగిస్తుంది. శబ్దం ఆశించిన చోట మాత్రమే ఈ ఫిల్టర్ ఉపయోగించాలి.
- OcrInput.Invert () - ప్రతి రంగును విలోమం చేస్తుంది . ఉదా తెలుపు నలుపు: నలుపు తెలుపు అవుతుంది.
- OcrInput.Dilate () - అడ్వాన్స్డ్ మార్ఫాలజీ. చిత్రంలోని వస్తువుల సరిహద్దులకు డైలేషన్ పిక్సెల్లను జోడిస్తుంది. ఈరోడ్ ఎదురుగా
- OcrInput.Erode () - అడ్వాన్స్డ్ మార్ఫాలజీ. ఎరోజన్ విస్తారంగా వర్ణించు వస్తువు boundariesOpposite పిక్సెళ్ళు తొలగిస్తుంది
- OcrInput.Deskew () - ఒక చిత్రాన్ని తిరుగుతుంది కాబట్టి ఇది సరైన మార్గం మరియు ఆర్తోగోనల్. OCR కి ఇది చాలా ఉపయోగకరంగా ఉంటుంది ఎందుకంటే వక్రీకృత స్కాన్ల కోసం టెస్రాక్ట్ టాలరెన్స్ 5 డిగ్రీల వరకు ఉంటుంది.
- OcrInput.DeepCleanBackgroundNoise () - భారీ నేపథ్య శబ్దం తొలగింపు. విపరీతమైన పత్ర నేపథ్య శబ్దం తెలిసిన సందర్భంలో మాత్రమే ఈ ఫిల్టర్ను ఉపయోగించండి, ఎందుకంటే ఈ ఫిల్టర్ శుభ్రమైన పత్రాల OCR ఖచ్చితత్వాన్ని తగ్గించే ప్రమాదం ఉంది మరియు ఇది చాలా CPU ఖరీదైనది.
- OcrInput.EnhanceResolution - తక్కువ నాణ్యత గల చిత్రాల రిజల్యూషన్ను మెరుగుపరుస్తుంది. ఈ ఫిల్టర్ తరచుగా అవసరం లేదు ఎందుకంటే OcrInput.MinimumDPI మరియు OcrInput.TargetDPI స్వయంచాలకంగా తక్కువ రిజల్యూషన్ ఇన్పుట్లను పట్టుకుని పరిష్కరిస్తాయి.
క్లీన్బ్యాక్గ్రౌండ్ నోయిస్. ఇది కొంత సమయం తీసుకునే సెట్టింగ్; ఏది ఏమయినప్పటికీ, డిజిటల్ ఇమేజ్లోని డిజిటల్ శబ్దం, కాగితపు ముక్కలు మరియు ఇతర లోపాలను స్వయంచాలకంగా శుభ్రం చేయడానికి ఇది లైబ్రరీని అనుమతిస్తుంది, అది ఇతర OCR లైబ్రరీల ద్వారా చదవలేకపోతుంది.
EnhanceContrast అనేది ఒక చిత్రం యొక్క నేపథ్యానికి వ్యతిరేకంగా ఐరన్ OCR స్వయంచాలకంగా వచన విరుద్ధతను పెంచుతుంది, OCR యొక్క ఖచ్చితత్వాన్ని పెంచుతుంది మరియు సాధారణంగా పనితీరు మరియు OCR యొక్క వేగాన్ని పెంచుతుంది.
EnhanceResolution అనేది తక్కువ-రిజల్యూషన్ చిత్రాలను స్వయంచాలకంగా గుర్తించే (275 dpi కంటే తక్కువ) మరియు స్వయంచాలకంగా చిత్రాన్ని స్వయంచాలకంగా పెంచుతుంది మరియు తరువాత అన్ని వచనాలను పదునుపెడుతుంది , తద్వారా ఇది OCR లైబ్రరీ ద్వారా ఖచ్చితంగా చదవబడుతుంది. ఈ ఆపరేషన్ సమయం తీసుకుంటున్నప్పటికీ, ఇది సాధారణంగా చిత్రంపై OCR ఆపరేషన్ కోసం మొత్తం సమయాన్ని తగ్గిస్తుంది.
భాష ఐరన్ OCR 22 అంతర్జాతీయ భాషా ప్యాక్లకు మద్దతు ఇస్తుంది మరియు OCR ఆపరేషన్ కోసం వర్తించే ఒకటి లేదా అంతకంటే ఎక్కువ బహుళ భాషలను ఎంచుకోవడానికి భాషా అమరికను ఉపయోగించవచ్చు.
వ్యూహం ఐరన్ OCR రెండు వ్యూహాలకు మద్దతు ఇస్తుంది. మేము పత్రం యొక్క వేగవంతమైన మరియు తక్కువ ఖచ్చితమైన స్కాన్ కోసం ఎంచుకోవచ్చు లేదా ఒక వాక్యంలో పదాల గణాంక సంబంధాన్ని ఒకదానితో ఒకటి చూడటం ద్వారా OCR టెక్స్ట్ యొక్క ఖచ్చితత్వాన్ని స్వయంచాలకంగా మెరుగుపరచడానికి కొన్ని కృత్రిమ మేధస్సు నమూనాలను ఉపయోగించే ఒక ఆధునిక వ్యూహాన్ని ఉపయోగించవచ్చు. .
కలర్స్పేస్ అనేది గ్రేస్కేల్ లేదా కలర్లో OCR ను ఎంచుకునే ఒక సెట్టింగ్. సాధారణంగా, గ్రేస్కేల్ ఉత్తమ ఎంపిక. ఏదేమైనా, కొన్నిసార్లు ఇలాంటి రంగు యొక్క పాఠాలు లేదా నేపథ్యాలు ఉన్నప్పటికీ చాలా భిన్నమైన రంగు, పూర్తి-రంగు రంగు స్థలం మంచి ఫలితాలను అందిస్తుంది.
DetectWhiteTextOnDarkBackgrounds. సాధారణంగా, అన్ని OCR లైబ్రరీలు తెలుపు నేపథ్యంలో బ్లాక్ టెక్స్ట్ చూడాలని ఆశిస్తాయి. ఈ సెట్టింగ్ ఐరన్ OCR ను స్వయంచాలకంగా ప్రతికూలతలను లేదా తెల్లని వచనంతో చీకటి పేజీలను గుర్తించి వాటిని చదవడానికి అనుమతిస్తుంది.
ఇన్పుట్ ఇమేజ్ టైప్. ఈ సెట్టింగ్ డెవలపర్ను OCR లైబ్రరీకి పూర్తి పత్రం లేదా స్క్రీన్షాట్ వంటి స్నిప్పెట్ను చూస్తున్నారా అని మార్గనిర్దేశం చేయడానికి అనుమతిస్తుంది.
RotateAndStraighten అనేది ఒక అధునాతన అమరిక, ఇది ఐరన్ OCR ను తిప్పడానికి మాత్రమే కాకుండా, వచన పత్రాల ఛాయాచిత్రాలు వంటి దృక్పథాన్ని కలిగి ఉన్న పత్రాలను చదవగల ప్రత్యేక సామర్థ్యాన్ని అనుమతిస్తుంది.
రీడ్బార్కోడ్లు ఉపయోగకరమైన లక్షణం, ఇది ఐరన్ OCR స్వయంచాలకంగా పేజీలలో బార్కోడ్లు మరియు QR కోడ్లను చదవడానికి అనుమతిస్తుంది, ఇది పెద్ద అదనపు సమయ భారాన్ని జోడించకుండా, టెక్స్ట్ను కూడా చదువుతుంది.
కలర్డెప్త్. రంగు యొక్క లోతును నిర్ణయించడానికి OCR లైబ్రరీ పిక్సెల్కు ఎన్ని బిట్స్ ఉపయోగిస్తుందో ఈ సెట్టింగ్ నిర్ణయిస్తుంది. అధిక రంగు లోతు OCR నాణ్యతను పెంచుతుంది, కానీ OCR ఆపరేషన్ పూర్తి కావడానికి అవసరమైన సమయాన్ని కూడా పెంచుతుంది.
126 భాషా ప్యాక్లు
ఐరన్ OCR భాషా ప్యాక్ల ద్వారా 126 అంతర్జాతీయ భాషలకు మద్దతు ఇస్తుంది, వీటిని DLL లుగా పంపిణీ చేస్తారు, వీటిని ఈ వెబ్సైట్ నుండి డౌన్లోడ్ చేసుకోవచ్చు లేదా నుగెట్ ప్యాకేజీ మేనేజర్ నుండి కూడా పొందవచ్చు.
భాషలలో జర్మన్, ఫ్రెంచ్, ఇంగ్లీష్, చైనీస్, జపనీస్ మరియు మరెన్నో ఉన్నాయి. పాస్పోర్ట్ MRZ, MICR తనిఖీలు, ఫైనాన్షియల్ డేటా, లైసెన్స్ ప్లేట్లు మరియు మరెన్నో కోసం స్పెషలిస్ట్ లాంగ్వేజ్ ప్యాక్లు ఉన్నాయి. మీరు మీరే సృష్టించిన వాటితో సహా ఏదైనా టెస్రాక్ట్ ".ట్రైన్డేటా" ఫైల్ను కూడా ఉపయోగించవచ్చు.
భాషా ఉదాహరణ
ఇతర OCR భాషలను ఉపయోగించడం.
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// అవసరమైతే చిత్ర ఫిల్టర్లను జోడించండి
// ఈ సందర్భంలో, ఆలోచన ఇన్పుట్ కూడా చాలా తక్కువ నాణ్యత
// ఐరన్ టెస్రాక్ట్ సాంప్రదాయిక టెస్రాక్ట్ చేయలేనిదాన్ని చదవగలదు.
var Result = Ocr.Read(input);
// విండోస్లో కన్సోల్ అరబిక్ను సులభంగా ముద్రించదు.
// బదులుగా డిస్కులో సేవ్ చేద్దాం.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// అవసరమైతే చిత్ర ఫిల్టర్లను జోడించండి
// ఈ సందర్భంలో, ఆలోచన ఇన్పుట్ కూడా చాలా తక్కువ నాణ్యత
// ఐరన్ టెస్రాక్ట్ సాంప్రదాయిక టెస్రాక్ట్ చేయలేనిదాన్ని చదవగలదు.
var Result = Ocr.Read(input);
// విండోస్లో కన్సోల్ అరబిక్ను సులభంగా ముద్రించదు.
// బదులుగా డిస్కులో సేవ్ చేద్దాం.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic
Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' అవసరమైతే చిత్ర ఫిల్టర్లను జోడించండి
' ఈ సందర్భంలో, ఆలోచన ఇన్పుట్ కూడా చాలా తక్కువ నాణ్యత
' ఐరన్ టెస్రాక్ట్ సాంప్రదాయిక టెస్రాక్ట్ చేయలేనిదాన్ని చదవగలదు.
Dim Result = Ocr.Read(input)
' విండోస్లో కన్సోల్ అరబిక్ను సులభంగా ముద్రించదు.
' బదులుగా డిస్కులో సేవ్ చేద్దాం.
Result.SaveAsTextFile("arabic.txt")
End Using
బహుళ భాషా ఉదాహరణ
ఒకే సమయంలో బహుళ భాషలను ఉపయోగించి OCR కు కూడా అవకాశం ఉంది. యునికోడ్ పత్రాలలో ఆంగ్ల భాషా మెటాడేటా మరియు url లను పొందడానికి ఇది నిజంగా సహాయపడుతుంది.
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Telugu);
// మేము ఎన్ని భాషలను అయినా జోడించవచ్చు
using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Telugu);
// మేము ఎన్ని భాషలను అయినా జోడించవచ్చు
using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Telugu)
' మేము ఎన్ని భాషలను అయినా జోడించవచ్చు
Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
వివరణాత్మక OCR ఫలితాల వస్తువులు
ఐరన్ OCR ప్రతి OCR ఆపరేషన్ కోసం OCR ఫలిత వస్తువును అందిస్తుంది. సాధారణంగా, డెవలపర్లు చిత్రం నుండి వచనాన్ని స్కాన్ చేయడానికి ఈ వస్తువు యొక్క వచన ఆస్తిని మాత్రమే ఉపయోగిస్తారు. ఏదేమైనా, OCR ఫలితాలు DOM దీని కంటే చాలా అధునాతనమైనది.
using IronOcr;
using System.Drawing; //అసెంబ్లీ సూచనను జోడించండి
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! ముఖ్యమైనది
using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// భారీ, వివరణాత్మక API ని కనుగొనడానికి ఇక్కడ అన్వేషించండి:
// - పేజీలు, బ్లాక్లు, పారాఫాఫ్లు, లైన్స్, పదాలు, అక్షరాలు
// - ఇమేజ్ ఎక్స్పోర్ట్, ఫాంట్స్ కోఆర్డినేట్స్, స్టాటిస్టికల్ డేటా
}
using IronOcr;
using System.Drawing; //అసెంబ్లీ సూచనను జోడించండి
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Telugu;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! ముఖ్యమైనది
using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// భారీ, వివరణాత్మక API ని కనుగొనడానికి ఇక్కడ అన్వేషించండి:
// - పేజీలు, బ్లాక్లు, పారాఫాఫ్లు, లైన్స్, పదాలు, అక్షరాలు
// - ఇమేజ్ ఎక్స్పోర్ట్, ఫాంట్స్ కోఆర్డినేట్స్, స్టాటిస్టికల్ డేటా
}
Imports IronOcr
Imports System.Drawing 'అసెంబ్లీ సూచనను జోడించండి
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Telugu
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '! ముఖ్యమైనది
Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages (0).Words
Dim Barcodes = Result.Barcodes
' భారీ, వివరణాత్మక API ని కనుగొనడానికి ఇక్కడ అన్వేషించండి:
' - పేజీలు, బ్లాక్లు, పారాఫాఫ్లు, లైన్స్, పదాలు, అక్షరాలు
' - ఇమేజ్ ఎక్స్పోర్ట్, ఫాంట్స్ కోఆర్డినేట్స్, స్టాటిస్టికల్ డేటా
End Using
ప్రదర్శన
పనితీరు ట్యూన్ చేయాల్సిన అవసరం లేకుండా లేదా ఇన్పుట్ చిత్రాలను భారీగా సవరించాల్సిన అవసరం లేకుండా ఐరన్ఓసిఆర్ బాక్స్ వెలుపల పనిచేస్తుంది.
వేగం మండుతోంది: IronOcr.2020 + 10 రెట్లు వేగంగా ఉంటుంది మరియు మునుపటి నిర్మాణాల కంటే 250% తక్కువ లోపాలను చేస్తుంది.
ఇంకా నేర్చుకో
C #, VB, F #, లేదా మరేదైనా .NET భాషలో OCR గురించి మరింత తెలుసుకోవడానికి, దయచేసి మా కమ్యూనిటీ ట్యుటోరియల్స్ చదవండి , ఇవి ఐరన్ OCR ను ఎలా ఉపయోగించవచ్చో వాస్తవ ప్రపంచ ఉదాహరణలను ఇస్తాయి మరియు ఉత్తమమైనవి ఎలా పొందాలో సూక్ష్మ నైపుణ్యాలను చూపుతాయి ఈ లైబ్రరీ.
.NET డెవలపర్ల కోసం పూర్తి ఆబ్జెక్ట్ రిఫరెన్స్ కూడా అందుబాటులో ఉంది.