सी # आणि .नेट मध्ये मराठी ओसीआर

या दस्तऐवजाच्या इतर आवृत्त्याः

आयर्नओसीआर एक सी # सॉफ्टवेअर घटक आहे .नेट कोडर मराठीसह 126 भाषेत प्रतिमा आणि पीडीएफ दस्तऐवजांमधून मजकूर वाचू देतो.

हा टेस्क्रॅक्टचा प्रगत काटा आहे जो केवळ. नेट विकसकांसाठी तयार केलेला आहे आणि वेग आणि अचूकतेसाठी नियमितपणे इतर टेसरेक्ट इंजिनला मागे टाकतो.

आयर्नऑक. भाषा.मराठीची सामग्री

या पॅकेजमध्ये नेट. साठी 46 ओसीआर भाषा आहेत:

  • मराठी
  • मराठीबेस्ट
  • मराठीफास्ट

डाउनलोड करा

मराठी भाषा पॅक [मराठी]
* Download as जि.प.
* Install with as
https://www.nuget.org/packages/IronOcr.Languages.Marathi/'> न्यूजीट

स्थापना

आपल्यास सर्वप्रथम आपल्या .नेट प्रोजेक्टवर आपले मराठी ओसीआर पॅकेज स्थापित करणे आहे.

PM> Install-Package IronOCR.Languages.Marathi

कोड उदाहरण

हे सी # कोड उदाहरण किंवा प्रतिमा किंवा पीडीएफ दस्तऐवजातून मराठी मजकूर वाचतो.

//PM> Install-Package IronOcr.Languages.Marathi
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Marathi;
using (var Input = new OcrInput(@"images\Marathi.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Marathi
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Marathi;
using (var Input = new OcrInput(@"images\Marathi.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Marathi
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Marathi
Using Input = New OcrInput("images\Marathi.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

आयर्नओसीआर का निवडा?

लोह ओसीआर एक स्थापित करणे सोपे, पूर्ण आणि दस्तऐवजीकरण .NET सॉफ्टवेअर लायब्ररी आहे.

कोणतीही बाह्य वेब सेवा, चालू फी किंवा इंटरनेटवर गोपनीय कागदपत्रे न वापरता 99.8% + ओसीआर अचूकता मिळविण्यासाठी आयर्नओसीआर निवडा.

सी # विकसक व्हॅनिला परीक्षणावरील आयर्नओसीआर का निवडतात:

  • एकल डीएलएल किंवा नुजेट म्हणून स्थापित करा
  • बॉक्सच्या बाहेर टेसरॅक्ट 5, 4 आणि 3 इंजिनांचा समावेश आहे.
  • अचूकता 99.8% नियमित टेस्क्रॅक्टपेक्षा लक्षणीय आहे.
  • ब्लेझिंग स्पीड आणि मल्टीथ्रेडिंग
  • एमव्हीसी, वेबअॅप, डेस्कटॉप, कन्सोल आणि सर्व्हर अनुप्रयोग सुसंगत
  • कार्य करण्यासाठी कोणतेही Exes किंवा C ++ कोड नाही
  • पूर्ण पीडीएफ ओसीआर समर्थन
  • जवळजवळ कोणतीही प्रतिमा फाइल किंवा पीडीएफ ओसीआर करण्यासाठी
  • पूर्ण .नेट कोअर, मानक आणि फ्रेमवर्क समर्थन
  • विंडोज, मॅक, लिनक्स, अझर, डॉकर, लॅम्बडा, एडब्ल्यूएस वर तैनात करा
  • बारकोड आणि क्यूआर कोड वाचा
  • एक्सएचटीएमएल म्हणून ओसीआर निर्यात करा
  • शोधण्यायोग्य पीडीएफ दस्तऐवजांवर ओसीआर निर्यात करा
  • मल्टीथ्रेडिंग समर्थन
  • 126 आंतरराष्ट्रीय भाषा सर्व नूगे किंवा ओकरडाटा फायली द्वारे व्यवस्थापित केल्या आहेत
  • प्रतिमा, समन्वय, आकडेवारी आणि फॉन्ट काढा. फक्त मजकूर नाही.
  • व्यावसायिक आणि मालकीच्या अनुप्रयोगांमध्ये टेस्क्रॅक्ट ओसीआरचे पुन्हा वितरण करण्यासाठी वापरले जाऊ शकते.

वास्तविक जगाच्या प्रतिमा आणि छायाचित्रांसारख्या अपूर्ण दस्तऐवजांवर काम करताना किंवा डिजिटल आवाज किंवा अपूर्णता असू शकतात कमी रिजोल्यूशनचे स्कॅन घेताना लोह ओसीआर चमकतो.

.नेट प्लॅटफॉर्मसाठी इतर विनामूल्य ओसीआर लायब्ररी अशा इतर. नेट टेसरेक्ट एपीआय आणि वेब सेवा या वास्तविक जगाच्या वापरासाठी चांगल्याप्रकारे काम करत नाहीत.

टेसरॅक्ट 5 सह ओसीआर - सी # मध्ये कोडिंग प्रारंभ करा

खाली कोड नमुना दर्शवितो की सी # किंवा व्हीबी .NET वापरून प्रतिमेचे मजकूर वाचणे किती सोपे आहे.

वनलाइनर

string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
VB   C#

हॅलो वर्ल्ड कॉन्फिगर करण्यायोग्य

// PM> Install-Package IronOCR.Languages.Marathi
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Marathi;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... आपण कितीही प्रतिमा जोडू शकता
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Marathi
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Marathi;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... आपण कितीही प्रतिमा जोडू शकता
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Marathi
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Marathi
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

सी # पीडीएफ ओसीआर

कोणत्याही पीडीएफ कागदजत्रातून मजकूर काढण्यासाठी समान दृष्टीकोन वापरला जाऊ शकतो.

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Marathi;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// आम्ही ओसीआरसाठी विशिष्ट पीडीएफ पृष्ठ क्रमांकही निवडू शकतो

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// पीडीएफच्या प्रत्येक पृष्ठासाठी 1 पृष्ठ
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Marathi;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// आम्ही ओसीआरसाठी विशिष्ट पीडीएफ पृष्ठ क्रमांकही निवडू शकतो

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// पीडीएफच्या प्रत्येक पृष्ठासाठी 1 पृष्ठ
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Marathi
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' आम्ही ओसीआरसाठी विशिष्ट पीडीएफ पृष्ठ क्रमांकही निवडू शकतो

Dim Result = Ocr.Read(input)

Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' पीडीएफच्या प्रत्येक पृष्ठासाठी 1 पृष्ठ
End Using
VB   C#

मल्टीपेज टीआयएफएफसाठी ओसीआर

एकाधिक पृष्ठ दस्तऐवजांसह ओसीआर वाचन टीआयएफएफ फाइल स्वरूप. टीआयएफएफ शोधण्यायोग्य मजकूरासह थेट पीडीएफ फाइलमध्ये रूपांतरित देखील केले जाऊ शकते.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Marathi;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Marathi;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Marathi

Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

बारकोड आणि क्यूआर

आयर्न ओसीआरचे वैशिष्ट्य म्हणजे ते मजकूरासाठी स्कॅन करीत असताना कागदपत्रांमधून बारकोड आणि क्यूआर कोड वाचू शकतात. OcrResult.OcrBarcode क्लासची उदाहरणे OcrResult.OcrBarcode प्रत्येक स्कॅन केलेल्या OcrResult.OcrBarcode तपशीलवार माहिती देतात.

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// प्रकार आणि स्थान गुणधर्म देखील उघड
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// प्रकार आणि स्थान गुणधर्म देखील उघड
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True

Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' प्रकार आणि स्थान गुणधर्म देखील उघड
Next Barcode
End Using
VB   C#

प्रतिमांच्या विशिष्ट क्षेत्रावरील ओसीआर

लोह ओसीआरच्या सर्व स्कॅनिंग आणि वाचन पद्धती पृष्ठाचा कोणत्या भागातील किंवा पृष्ठावरील मजकूर वाचू इच्छित आहेत याचा नेमका भाग निर्दिष्ट करण्याची क्षमता प्रदान करतात. जेव्हा आम्ही प्रमाणित फॉर्म पहात आहोत आणि खूप वेळ वाचवू शकतो आणि कार्यक्षमता सुधारतो तेव्हा हे फार उपयुक्त आहे.

क्रॉप क्षेत्रे वापरण्यासाठी, आम्ही System.Drawing सिस्टम संदर्भ जोडणे आवश्यक आहे जेणेकरून आम्ही System.Drawing.Rectangle . System.Drawing.Rectangle वस्तू वापरू शकू.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Marathi;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// परिमाण px मध्ये आहेत

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Marathi;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// परिमाण px मध्ये आहेत

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Marathi

Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
	.X = 215,
	.Y = 1250,
	.Height = 280,
	.Width = 1335
}
' परिमाण px मध्ये आहेत

Input.Add("document.png", ContentArea)

Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

निम्न गुणवत्ता स्कॅनसाठी ओसीआर

लोह ओसीआर OcrInput वर्ग सामान्य OcrInput वाचू शकत नाही असे स्कॅन निराकरण करू शकतो.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Marathi;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // डिजिटल आवाज आणि खराब स्कॅनिंग निराकरण करते
Input.Deskew(); // रोटेशन आणि दृष्टीकोन निराकरण करते
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Marathi;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // डिजिटल आवाज आणि खराब स्कॅनिंग निराकरण करते
Input.Deskew(); // रोटेशन आणि दृष्टीकोन निराकरण करते
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Marathi

Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' डिजिटल आवाज आणि खराब स्कॅनिंग निराकरण करते
Input.Deskew() ' रोटेशन आणि दृष्टीकोन निराकरण करते
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

शोधण्यायोग्य पीडीएफ म्हणून ओसीआर परिणाम निर्यात करा

कॉपीराइट मजकूर तारांसह पीडीएफवर प्रतिमा. शोध इंजिन आणि डेटाबेसद्वारे अनुक्रमित केले जाऊ शकते.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Marathi;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Marathi;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Marathi

Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")

Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

शोधण्यायोग्य पीडीएफ रूपांतरणासाठी टीआयएफएफ

टीआयएफएफ दस्तऐवज (किंवा प्रतिमा फाइल्सचा कोणताही गट) थेट शोधण्यायोग्य पीडीएफमध्ये रूपांतरित करा जो इंट्रानेट, वेबसाइट आणि Google शोध इंजिनद्वारे अनुक्रमित केला जाऊ शकतो.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Marathi;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Marathi;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Marathi

Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

एचसीएल म्हणून ओसीआर परिणाम निर्यात करा

ओसीआर प्रतिमा ते एक्सएचटीएमएल रूपांतरण.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Marathi;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Marathi;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Marathi
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
VB   C#

ओसीआर प्रतिमा वर्धित फिल्टर

ओसीआर कार्यक्षमता सुधारित करण्यासाठी OcrInput अद्वितीय फिल्टर प्रदान करते.

प्रतिमा वर्धन कोड उदाहरण

चांगले, वेगवान ओसीआर परिणाम तयार करण्यासाठी ओसीआर इनपुट प्रतिमा उच्च प्रतीचे बनवते.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Marathi;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // डिजिटल आवाज आणि खराब स्कॅनिंग निराकरण करते
Input.Deskew(); // रोटेशन आणि दृष्टीकोन निराकरण करते
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Marathi;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // डिजिटल आवाज आणि खराब स्कॅनिंग निराकरण करते
Input.Deskew(); // रोटेशन आणि दृष्टीकोन निराकरण करते
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Marathi

Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' डिजिटल आवाज आणि खराब स्कॅनिंग निराकरण करते
Input.Deskew() ' रोटेशन आणि दृष्टीकोन निराकरण करते
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

ओसीआर प्रतिमा फिल्टरची यादी

ICROCR मध्ये तयार केलेल्या ओसीआर कार्यक्षमतेस वर्धित करण्यासाठी इनपुट फिल्टरमध्ये हे समाविष्ट आहे:

  • OcrInput.Rotate (डबल डिग्री) - अनेक घड्याळाच्या दिशेने प्रतिमा फिरविते . घड्याळाच्या विरूद्ध दिशेने, नकारात्मक संख्या वापरा.
  • OcrInput.Binarize () - हे प्रतिमा फिल्टर मध्यम नसलेल्या प्रत्येक पिक्सेलला काळे किंवा पांढरा करते. मजकूराच्या पार्श्वभूमीवर अगदी कमी कॉन्ट्रास्टची ओसीआर कामगिरीची प्रकरणे सुधारू शकतात.
  • OcrInput.ToGrayScale () - हा इमेज फिल्टर प्रत्येक पिक्सेलला ग्रेस्केलच्या सावलीत बदलते. ओसीआर अचूकता सुधारणे अशक्य परंतु वेग वाढवू शकते
  • OcrInput.Contrast () - आपोआप कॉन्ट्रास्ट वाढवते. हे फिल्टर बर्‍याचदा कमी कॉन्ट्रास्ट स्कॅनमध्ये ओसीआर वेग आणि अचूकता सुधारते.
  • OcrInput.DeNoise () - डिजिटल आवाज काढते. हा फिल्टर केवळ त्या ठिकाणीच वापरला जाणे आवश्यक आहे जेथे ध्वनी अपेक्षित आहे.
  • OcrInput.Invert () - प्रत्येक रंग उलटा . उदा. पांढरा काळा होतो: काळा पांढरा होतो.
  • ओक्रिनपुट.डिलेट () - प्रगत मॉर्फोलॉजी. डिलिशन प्रतिमेच्या ऑब्जेक्ट्सच्या सीमांवर पिक्सल जोडते. ईरोडच्या विरूद्ध
  • OcrInput.Erode () - प्रगत मॉर्फोलॉजी. इरोशन ऑब्जेक्टच्या सीमेवरील पिक्सल काढून टाका
  • OcrInput.Deskew () - एक प्रतिमा फिरवते जेणेकरून ती योग्य मार्गावर आणि ऑर्थोगोनल आहे. हे ओसीआरसाठी खूप उपयुक्त आहे कारण स्क्यू स्कॅनसाठी टेस्क्रॅक्ट सहनशीलता 5 डिग्रीपेक्षा कमी असू शकते.
  • OcrInput.DeepCleanBackgroundNoise () - जड पार्श्वभूमी आवाज काढणे. केवळ अत्यधिक दस्तऐवज पार्श्वभूमी आवाज ज्ञात झाल्यास केवळ हा फिल्टर वापरा, कारण हा फिल्टर स्वच्छ दस्तऐवजांची ओसीआर अचूकता कमी करण्याचा धोका देखील दर्शवितो, आणि खूप सीपीयू महाग आहे.
  • OcrInput.EnhanceResolution - कमी गुणवत्तेच्या प्रतिमेचे निराकरण वाढवते . हे फिल्टर बर्‍याचदा आवश्यक नसते कारण OcrInput.MINimumDPI आणि OcrInput.TargetDPI स्वयंचलितपणे कमी रिजोल्यूशन इनपुट पकडेल आणि त्यांचे निराकरण करेल.

क्लीनबॅकग्राउंडनोईस. ही एक सेटिंग आहे जी थोडीशी वेळ घेणारी आहे; तथापि, हे लायब्ररीला डिजिटल प्रतिमेमध्ये स्वयंचलितपणे डिजिटल ध्वनी, कागद गोंधळ आणि इतर अपूर्णते साफ करण्यास अनुमती देते जे अन्यथा अन्य ओसीआर लायब्ररीद्वारे वाचण्यास असमर्थ ठरते.

एनहॅन्सकंट्रास्ट ही अशी सेटिंग आहे जी लोह ओसीआरला प्रतिमेच्या पार्श्वभूमीच्या विरूद्ध मजकूराचा कॉन्ट्रास्ट आपोआप वाढवते, ओसीआरची अचूकता वाढवते आणि सामान्यत: कार्यक्षमता आणि ओसीआरची गती वाढवते.

एनहॅन्सर्यूझोल्यूशन ही एक सेटिंग आहे जी आपणास कमी-रिझोल्यूशन प्रतिमा (जे 275 डीपीआय पेक्षा कमी आहे) स्वयंचलितपणे शोधते आणि स्वयंचलितपणे प्रतिमेस अपस्केल करेल आणि नंतर सर्व मजकूर तीक्ष्ण करेल जेणेकरून ते ओसीआर लायब्ररीत उत्तम प्रकारे वाचले जाऊ शकते. जरी हे ऑपरेशन स्वतःच वेळ घेणारे असले तरी ते प्रतिमेवरील ओसीआर ऑपरेशनसाठी सामान्यत: एकूण वेळ कमी करते.

भाषा आयर्न ओसीआर 22 आंतरराष्ट्रीय भाषेच्या पॅकना समर्थन देते आणि ओसीआर ऑपरेशनसाठी लागू होणारी एक किंवा अधिक भाषा निवडण्यासाठी भाषा सेटिंगचा वापर केला जाऊ शकतो.

रणनीती आयर्न ओसीआर दोन धोरणांना समर्थन देते. आम्ही एकतर दस्तऐवजाच्या वेगवान आणि कमी अचूक स्कॅनसाठी जाणे निवडू शकतो, किंवा वाक्यात एकमेकांशी शब्दांचे सांख्यिकीय संबंध बघून ओसीआर मजकूराची अचूकता स्वयंचलितरित्या सुधारण्यासाठी काही कृत्रिम बुद्धिमत्ता मॉडेल्स वापरणारी प्रगत रणनीती वापरू शकतो. .

कलरस्पेस ही एक सेटिंग आहे ज्याद्वारे आम्ही ग्रेस्केल किंवा रंगात ओसीआर निवडू शकतो. सामान्यत: ग्रेस्केल हा एक उत्तम पर्याय आहे. तथापि, कधीकधी जेव्हा समान छटा परंतु अगदी भिन्न रंगाचे ग्रंथ किंवा पार्श्वभूमी असतात तेव्हा एक पूर्ण-रंगीत जागा अधिक चांगले परिणाम प्रदान करते.

व्हाइटटेक्स्टऑनडार्कबॅकग्राउंड्स शोधा. साधारणपणे, सर्व ओसीआर लायब्ररी पांढर्‍या पार्श्वभूमीवर काळा मजकूर पाहण्याची अपेक्षा करतात. ही सेटिंग लोह ओसीआरला स्वयंचलितपणे नकारात्मक किंवा पांढर्‍या मजकुरासह गडद पृष्ठे शोधण्याची आणि त्या वाचण्यास अनुमती देते.

इनपुटइमेजटाइप. ही सेटिंग विकसकास संपूर्ण दस्तऐवज किंवा स्निपेट, स्क्रीनशॉट सारखी पहात आहे की नाही याविषयी ओसीआर लायब्ररीचे मार्गदर्शन करण्यास अनुमती देते.

रोटेटएन्डस्टाइन एक प्रगत सेटिंग आहे जी आयर्न ओसीआरला केवळ कागदपत्रे वाचण्यासारखीच नाही तर मजकूर कागदपत्रांच्या छायाचित्रांसारखी दृष्टीकोनातून वाचणारी दस्तऐवज वाचण्याची अद्वितीय क्षमता देते.

रिडबार्कोड्स एक उपयुक्त वैशिष्ट्य आहे जे आयर्न ओसीआरला पृष्ठांवर बारकोड आणि क्यूआर कोड स्वयंचलितपणे वाचू देते कारण मजकूर वाचतो, शिवाय अतिरिक्त वेळेचा बोजा न घालता.

कलरडेप्ट. रंगाची खोली निश्चित करण्यासाठी ओसीआर लायब्ररी किती पिक्सेल प्रति पिक्सेल वापरते हे ही सेटिंग निर्धारित करते. उच्च रंगाची खोली ओसीआर गुणवत्तेत वाढवू शकते, परंतु ओसीआर ऑपरेशन पूर्ण होण्यासाठी लागणारा वेळ देखील वाढवते.

126 भाषा पॅक

आयआरएल ओसीआर 126 आंतरराष्ट्रीय भाषांना भाषेच्या पॅकद्वारे समर्थन देतात जे डीएलएल म्हणून वितरीत केल्या जातात, ज्या या वेबसाइटवरून डाउनलोड केल्या जाऊ शकतात, किंवा नुजेट पॅकेज मॅनेजरकडून देखील.

भाषांमध्ये जर्मन, फ्रेंच, इंग्रजी, चीनी, जपानी आणि बर्‍याच गोष्टींचा समावेश आहे. पासपोर्ट एमआरझेड, एमआयसीआर चेक, फायनान्शियल डेटा, लायसन्स प्लेट्स आणि इतर बर्‍याच गोष्टींसाठी तज्ञ भाषा पॅक अस्तित्त्वात आहेत. आपण कोणतीही तयार केलेली ".traineddata" फाइल देखील वापरू शकता - आपण स्वतः तयार केलेल्या फायलींचा समावेश.

भाषेचे उदाहरण

इतर ओसीआर भाषा वापरणे.

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// आवश्यक असल्यास प्रतिमा फिल्टर जोडा
// या प्रकरणात, अगदी विचार इनपुट अगदी निम्न गुणवत्तेचे आहे
// पारंपारिक परीक्षणास काय शक्य नाही हे आयरनट्रॅक्ट वाचू शकते.

var Result = Ocr.Read(input);

// कन्सोल विंडोजवर अरबी सहज मुद्रित करू शकत नाही.
// त्याऐवजी डिस्कवर सेव्ह करू.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// आवश्यक असल्यास प्रतिमा फिल्टर जोडा
// या प्रकरणात, अगदी विचार इनपुट अगदी निम्न गुणवत्तेचे आहे
// पारंपारिक परीक्षणास काय शक्य नाही हे आयरनट्रॅक्ट वाचू शकते.

var Result = Ocr.Read(input);

// कन्सोल विंडोजवर अरबी सहज मुद्रित करू शकत नाही.
// त्याऐवजी डिस्कवर सेव्ह करू.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' आवश्यक असल्यास प्रतिमा फिल्टर जोडा
' या प्रकरणात, अगदी विचार इनपुट अगदी निम्न गुणवत्तेचे आहे
' पारंपारिक परीक्षणास काय शक्य नाही हे आयरनट्रॅक्ट वाचू शकते.

Dim Result = Ocr.Read(input)

' कन्सोल विंडोजवर अरबी सहज मुद्रित करू शकत नाही.
' त्याऐवजी डिस्कवर सेव्ह करू.
Result.SaveAsTextFile("arabic.txt")
End Using
VB   C#

एकाधिक भाषेचे उदाहरण

ओसीआर एकाच वेळी एकाधिक भाषा वापरणे देखील शक्य आहे. हे युनिकोड दस्तऐवजांमध्ये इंग्रजी भाषेचा मेटाडेटा आणि url मिळविण्यात खरोखर मदत करू शकते.

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Marathi);

// आम्ही कितीही भाषा जोडू शकतो

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Marathi);

// आम्ही कितीही भाषा जोडू शकतो

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Marathi)

' आम्ही कितीही भाषा जोडू शकतो

Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
VB   C#

तपशीलवार ओसीआर निकाल ऑब्जेक्ट्स

आयर्न ओसीआर प्रत्येक ओसीआर ऑपरेशनसाठी ओसीआर निकाल ऑब्जेक्ट परत करते. साधारणपणे, विकसक केवळ प्रतिमेवरून मजकूर स्कॅन करण्यासाठी या ऑब्जेक्टची मजकूर मालमत्ता वापरतात. तथापि, ओसीआर निकाल डीओएम यापेक्षा बरेच प्रगत आहे.

using IronOcr;
using System.Drawing; //असेंब्ली संदर्भ जोडा

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Marathi;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //महत्वाचे!

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// एक भव्य, तपशीलवार API शोधण्यासाठी येथे एक्सप्लोर करा:
// - पृष्ठे, अवरोध, परिच्छेद, रेखा, शब्द, वर्ण
// - प्रतिमा निर्यात, फॉन्ट समन्वय, सांख्यिकीय डेटा
}
using IronOcr;
using System.Drawing; //असेंब्ली संदर्भ जोडा

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Marathi;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //महत्वाचे!

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// एक भव्य, तपशीलवार API शोधण्यासाठी येथे एक्सप्लोर करा:
// - पृष्ठे, अवरोध, परिच्छेद, रेखा, शब्द, वर्ण
// - प्रतिमा निर्यात, फॉन्ट समन्वय, सांख्यिकीय डेटा
}
Imports IronOcr
Imports System.Drawing 'असेंब्ली संदर्भ जोडा

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Marathi
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True 'महत्वाचे!

Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages(0).Words
Dim Barcodes = Result.Barcodes
' एक भव्य, तपशीलवार API शोधण्यासाठी येथे एक्सप्लोर करा:
' - पृष्ठे, अवरोध, परिच्छेद, रेखा, शब्द, वर्ण
' - प्रतिमा निर्यात, फॉन्ट समन्वय, सांख्यिकीय डेटा
End Using
VB   C#

कामगिरी

आयर्नओसीआर कार्यप्रदर्शन ट्यून करण्याची किंवा इनपुट प्रतिमा जोरदारपणे सुधारित करण्याची आवश्यकता नसताना बॉक्सच्या बाहेर कार्य करते.

वेग ब्लीझिंग आहेः आयरनऑक .२०२० + १० पट अधिक वेगवान आहे आणि मागील बांधकामांपेक्षा २ %०% पेक्षा कमी चुका करतो.

अधिक जाणून घ्या

सी #, व्हीबी, एफ #, किंवा इतर कोणत्याही नेट ओसीसीमध्ये ओसीआरबद्दल अधिक जाणून घेण्यासाठी, कृपया आमचे समुदाय प्रशिक्षण वाचा , जे लोहा ओसीआर कसे वापरावे याची वास्तविक जगाची उदाहरणे देतात आणि यातून सर्वोत्तम कसे मिळवावे याची बारीक बारीक उदाहरणे दिली जाऊ शकतात. हे वाचनालय.

.नेट विकसकांसाठी पूर्ण ऑब्जेक्ट संदर्भ देखील उपलब्ध आहे.