सी # और .NET में हिंदी ओसीआर

इस दस्तावेज़ के अन्य संस्करण:

आयरनओसीआर एक सी # सॉफ्टवेयर घटक है जो .NET कोडर्स को हिंदी सहित 126 भाषाओं में छवियों और पीडीएफ दस्तावेजों से पाठ पढ़ने की अनुमति देता है।

यह Tesseract का एक उन्नत कांटा है, जो विशेष रूप से .NET डेवलपर्स के लिए बनाया गया है और गति और सटीकता दोनों के लिए नियमित रूप से अन्य Tesseract इंजन को बेहतर बनाता है।

IronOcr.Languages.Hindi की सामग्री

इस पैकेज में .NET के लिए 40 OCR भाषाएं हैं:

  • हिंदी
  • HindiBest
  • HindiFast

डाउनलोड

हिंदी भाषा पैक [ हिंदी ]
* Download as ज़िप
* Install with
https://www.nuget.org/packages/IronOcr.Languages.Hindi/'> NuGet

स्थापना

सबसे पहले हमें अपना हिंदी OCR पैकेज अपने .NET प्रोजेक्ट में स्थापित करना होगा।

PM> Install-Package IronOCR.Languages.Hindi

कोड उदाहरण

यह C#कोड उदाहरण एक छवि या पीडीएफ दस्तावेज़ से हिंदी पाठ को पढ़ता है।

//PM> Install-Package IronOcr.Languages.Hindi
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput(@"images\Hindi.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Hindi
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput(@"images\Hindi.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Hindi
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Hindi
Using Input = New OcrInput("images\Hindi.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

क्यों चुनें आयरनओआरसीआर?

आयरन ओसीआर एक आसान-स्थापित, पूर्ण और अच्छी तरह से प्रलेखित .NET सॉफ्टवेयर लाइब्रेरी है।

किसी भी बाहरी वेब सेवाओं, चल रही फीस या इंटरनेट पर गोपनीय दस्तावेज भेजने के बिना 99.8% + OCR सटीकता प्राप्त करने के लिए IronOCR चुनें।

क्यों C#डेवलपर्स वेनिला टेसरैक्ट के ऊपर आयरनओसीआर चुनते हैं:

  • एकल DLL या NuGet के रूप में स्थापित करें
  • बॉक्स से बाहर Tesseract 5, 4 और 3 इंजन शामिल हैं।
  • सटीकता 99.8% नियमित रूप से टेसरैक्ट से बेहतर प्रदर्शन करती है।
  • धधकती गति और मल्टीथ्रेडिंग
  • MVC, WebApp, डेस्कटॉप, कंसोल और सर्वर अनुप्रयोग संगत
  • कोई Exes या C ++ कोड के साथ काम करने के लिए नहीं
  • पूर्ण पीडीएफ ओसीआर समर्थन
  • OCR करने के लिए लगभग कोई भी इमेज फाइल या PDF
  • फुल .NET कोर, स्टैंडर्ड और फ्रेमवर्क सपोर्ट
  • Windows, Mac, Linux, Azure, Docker, Lambda, AWS पर नियोजित करें
  • बारकोड और क्यूआर कोड पढ़ें
  • निर्यात OCR XHTML के रूप में
  • निर्यात OCR खोजा पीडीएफ दस्तावेजों के लिए
  • बहुपरत समर्थन
  • 126 अंतर्राष्ट्रीय भाषाएं सभी NuGet या OcrData फ़ाइलों के माध्यम से प्रबंधित की गई हैं
  • छवियाँ, निर्देशांक, सांख्यिकी और फ़ॉन्ट्स निकालें। सिर्फ पाठ ही नहीं।
  • वाणिज्यिक और मालिकाना अनुप्रयोगों के अंदर Tesseract OCR को फिर से वितरित करने के लिए इस्तेमाल किया जा सकता है।

असली दुनिया की छवियों और अपूर्ण दस्तावेजों जैसे तस्वीरों, या कम रिज़ॉल्यूशन के स्कैन के साथ काम करने पर आयरन ओसीआर चमकता है, जिसमें डिजिटल शोर या खामियां हो सकती हैं।

.NET प्लेटफ़ॉर्म के लिए अन्य मुक्त OCR लाइब्रेरीज़ जैसे अन्य .net tesseract API और वेब सेवाएँ इन वास्तविक विश्व उपयोग मामलों पर इतना अच्छा प्रदर्शन नहीं करती हैं।

Tesseract 5 के साथ OCR - C#में कोडिंग शुरू करें

नीचे दिए गए कोड का नमूना दिखाता है कि C#या VB .NET का उपयोग करके छवि से पाठ पढ़ना कितना आसान है।

एक लाइन

string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
VB   C#

विन्यास योग्य नमस्ते विश्व

// PM> Install-Package IronOCR.Languages.Hindi
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... आप किसी भी संख्या में चित्र जोड़ सकते हैं
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Hindi
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... आप किसी भी संख्या में चित्र जोड़ सकते हैं
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Hindi
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Hindi
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

सी # पीडीएफ ओसीआर

इसी तरह के दृष्टिकोण का उपयोग किसी भी पीडीएफ दस्तावेज़ से पाठ निकालने के लिए किया जा सकता है।

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// हम OCR के लिए विशिष्ट PDF पेज संख्याएँ भी चुन सकते हैं

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// पीडीएफ के हर पेज के लिए 1 पेज
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// हम OCR के लिए विशिष्ट PDF पेज संख्याएँ भी चुन सकते हैं

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// पीडीएफ के हर पेज के लिए 1 पेज
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Hindi
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' हम OCR के लिए विशिष्ट PDF पेज संख्याएँ भी चुन सकते हैं

Dim Result = Ocr.Read(input)

Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' पीडीएफ के हर पेज के लिए 1 पेज
End Using
VB   C#

मल्टीपेज टीआईएफएस के लिए ओसीआर

कई पृष्ठ दस्तावेजों सहित ओसीआर रीडिंग झगड़ा फ़ाइल प्रारूप। TIFF को सीधे पीडीएफ फाइल में खोजे जा सकने वाले टेक्स्ट के साथ बदला जा सकता है।

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Hindi

Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

बारकोड और क्यूआर

आयरन ओसीआर की एक अनूठी विशेषता यह है कि यह दस्तावेजों से बारकोड और क्यूआर कोड पढ़ सकता है जबकि यह पाठ के लिए स्कैन कर रहा है। OcrResult.OcrBarcode Class के उदाहरण डेवलपर को प्रत्येक स्कैन किए गए बारकोड के बारे में विस्तृत जानकारी देते हैं।

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// प्रकार और स्थान के गुण भी उजागर हुए
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// प्रकार और स्थान के गुण भी उजागर हुए
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True

Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' प्रकार और स्थान के गुण भी उजागर हुए
Next Barcode
End Using
VB   C#

छवियों के विशिष्ट क्षेत्रों पर ओसीआर

आयरन ओसीआर के सभी स्कैनिंग और रीडिंग मेथड्स यह निर्दिष्ट करते हैं कि हम जिस पेज या पेज से टेक्स्ट पढ़ना चाहते हैं, उसका कौन सा हिस्सा ठीक है। यह बहुत उपयोगी है जब हम मानकीकृत रूपों को देख रहे हैं और एक भयानक समय बचा सकते हैं और दक्षता में सुधार कर सकते हैं।

फसल क्षेत्रों का उपयोग करने के लिए, हमें System.Drawing लिए एक सिस्टम संदर्भ जोड़ना होगा ताकि हम System.Drawing.Rectangle ऑब्जेक्ट का उपयोग कर सकें।

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// आयाम px में हैं

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// आयाम px में हैं

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Hindi

Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
	.X = 215,
	.Y = 1250,
	.Height = 280,
	.Width = 1335
}
' आयाम px में हैं

Input.Add("document.png", ContentArea)

Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

निम्न गुणवत्ता वाले स्कैन के लिए ओसीआर

लौह ओसीआर OcrInput वर्ग स्कैन को ठीक कर सकता है जो सामान्य OcrInput नहीं पढ़ सकता है।

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // डिजिटल शोर और खराब स्कैनिंग को ठीक करता है
Input.Deskew(); // रोटेशन और परिप्रेक्ष्य को ठीक करता है
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // डिजिटल शोर और खराब स्कैनिंग को ठीक करता है
Input.Deskew(); // रोटेशन और परिप्रेक्ष्य को ठीक करता है
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Hindi

Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' डिजिटल शोर और खराब स्कैनिंग को ठीक करता है
Input.Deskew() ' रोटेशन और परिप्रेक्ष्य को ठीक करता है
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

निर्यात OCR एक खोजा पीडीएफ के रूप में परिणाम है

प्रतिलिपि करने योग्य पाठ स्ट्रिंग के साथ पीडीएफ के लिए छवि। खोज इंजन और डेटाबेस द्वारा अनुक्रमित किया जा सकता है।

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Hindi

Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")

Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

खोजा पीडीएफ रूपांतरण के लिए झगड़ा

सीधे एक खोज योग्य PDF पर TIFF दस्तावेज़ (या छवि फ़ाइलों के किसी भी समूह) को ले जाएं, जिसे इंट्रानेट, वेबसाइट और Google खोज इंजन द्वारा अनुक्रमित किया जा सकता है।

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Hindi

Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

HTML के रूप में निर्यात OCR परिणाम

ओसीआर छवि एक्सएचटीएमएल रूपांतरण में।

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Hindi
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
VB   C#

ओसीआर इमेज एनहांसमेंट फिल्टर

IronOCR OCR प्रदर्शन को बेहतर बनाने के लिए OcrInput ऑब्जेक्ट के लिए अद्वितीय फ़िल्टर प्रदान करता है।

इमेज एनहांसमेंट कोड उदाहरण

OCR इनपुट छवियों को बेहतर, तेज़ OCR परिणामों का उत्पादन करने के लिए उच्च गुणवत्ता बनाता है।

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // डिजिटल शोर और खराब स्कैनिंग को ठीक करता है
Input.Deskew(); // रोटेशन और परिप्रेक्ष्य को ठीक करता है
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // डिजिटल शोर और खराब स्कैनिंग को ठीक करता है
Input.Deskew(); // रोटेशन और परिप्रेक्ष्य को ठीक करता है
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Hindi

Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' डिजिटल शोर और खराब स्कैनिंग को ठीक करता है
Input.Deskew() ' रोटेशन और परिप्रेक्ष्य को ठीक करता है
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

ओसीआर छवि फ़िल्टर की सूची

OCR प्रदर्शन बढ़ाने के लिए इनपुट फ़िल्टर जो कि IronOCR में बनाए गए हैं, शामिल हैं:

  • OcrInput.Rotate (डबल डिग्री) - कई डिग्री दक्षिणावर्त छवियों को घुमाता है। विरोधी दक्षिणावर्त के लिए, नकारात्मक संख्याओं का उपयोग करें।
  • OcrInput.Binarize () - यह छवि फ़िल्टर हर पिक्सेल को बिना किसी मध्य मैदान के काला या सफेद कर देता है। पृष्ठभूमि के पाठ के बहुत कम विपरीत OCR प्रदर्शन मामलों में सुधार कर सकते हैं।
  • OcrInput.ToGrayScale () - यह छवि फ़िल्टर हर पिक्सेल को ग्रेस्केल की छाया में बदल देता है। OCR सटीकता में सुधार करने के लिए पूरी तरह से लेकिन गति में सुधार हो सकता है
  • OcrInput.Contrast () - स्वचालित रूप से इसके विपरीत बढ़ता है। यह फिल्टर अक्सर कम विपरीत स्कैन में ओसीआर गति और सटीकता में सुधार करता है।
  • OcrInput.DeNoise () - डिजिटल शोर को हटाता है। इस फिल्टर का उपयोग केवल वहीं किया जाना चाहिए, जहां शोर होने की उम्मीद हो।
  • OcrInput.Invert () - हर रंग में इन्वर्ट करता है। जैसे सफेद काला हो जाता है: काला सफेद हो जाता है।
  • OcrInput.Dilate () - उन्नत आकृति विज्ञान। Dilation एक छवि में वस्तुओं की सीमाओं में पिक्सेल जोड़ता है। इरोड के विपरीत
  • OcrInput.Erode () - उन्नत आकृति विज्ञान। कटाव वस्तु सीमाओं पर पिक्सल को हटा देता है
  • OcrInput.Deskew () - एक छवि को घुमाता है इसलिए यह सही तरीके से ऊपर और ऑर्थोगोनल है। यह ओसीआर के लिए बहुत उपयोगी है क्योंकि तिरछी स्कैन के लिए टेसरैक्ट सहिष्णुता 5 डिग्री से कम हो सकती है।
  • OcrInput.DeepCleanBackgroundNoise () - भारी पृष्ठभूमि शोर को हटाने। केवल इस फ़िल्टर का उपयोग करें यदि चरम दस्तावेज़ पृष्ठभूमि शोर ज्ञात है, क्योंकि यह फ़िल्टर स्वच्छ दस्तावेज़ों की ओसीआर सटीकता को कम करने का जोखिम भी लेगा, और बहुत सीपीयू महंगा है।
  • OcrInput.EnhanceResolution - निम्न गुणवत्ता वाले चित्रों के संकल्प को बढ़ाता है। यह फ़िल्टर अक्सर आवश्यक नहीं होता है क्योंकि OcrInput.MinimumDPI और OcrInput.TargetDPI स्वचालित रूप से कम रिज़ॉल्यूशन इनपुट को पकड़ेंगे और हल करेंगे।

CleanBackgroundNoise। यह एक सेटिंग है जो कुछ समय लेने वाली है; हालाँकि, यह लाइब्रेरी को डिजिटल छवि के भीतर डिजिटल शोर, पेपर crumples, और अन्य खामियों को स्वचालित रूप से साफ़ करने की अनुमति देता है जो अन्यथा इसे अन्य OCR पुस्तकालयों द्वारा पढ़े जाने में असमर्थ बना देता है।

एन्हांसकंट्रास्ट एक ऐसी सेटिंग है जो आयरन ओसीआर को छवि की पृष्ठभूमि के खिलाफ स्वचालित रूप से पाठ के विपरीत को बढ़ाने का कारण बनता है, जिससे ओसीआर की सटीकता बढ़ जाती है और आमतौर पर प्रदर्शन और ओसीआर की गति बढ़ जाती है।

EnhanceResolution एक सेटिंग है जो स्वचालित रूप से कम-रिज़ॉल्यूशन छवियों (जो 275 डीपीआई के अंतर्गत है) का पता लगाएगा और स्वचालित रूप से छवि को अपस्केल करेगा और फिर सभी पाठ को तेज कर देगा ताकि यह एक ओसीआर लाइब्रेरी द्वारा पूरी तरह से पढ़ा जा सके। यद्यपि यह ऑपरेशन अपने आप में समय लेने वाला है, यह आमतौर पर एक छवि पर ओसीआर ऑपरेशन के लिए समग्र समय को कम करता है।

भाषा आयरन ओसीआर 22 अंतरराष्ट्रीय भाषा पैक का समर्थन करता है, और भाषा सेटिंग का उपयोग एक ओसीआर ऑपरेशन के लिए लागू की जाने वाली एक या अधिक भाषाओं का चयन करने के लिए किया जा सकता है।

रणनीति आयरन ओसीआर दो रणनीतियों का समर्थन करता है। हम या तो किसी दस्तावेज़ के तेज़ और कम सटीक स्कैन के लिए जा सकते हैं, या एक उन्नत रणनीति का उपयोग कर सकते हैं जो शब्दों में एक दूसरे से वाक्यों के सांख्यिकीय संबंध को देखकर OCR पाठ की सटीकता को स्वचालित रूप से सुधारने के लिए कुछ कृत्रिम बुद्धिमत्ता मॉडल का उपयोग करता है। ।

कलरस्पेस एक सेटिंग है जिसके तहत हम ग्रेस्केल या रंग में ओसीआर चुन सकते हैं। आम तौर पर, ग्रेस्केल सबसे अच्छा विकल्प है। हालांकि, कभी-कभी जब समान रंग के ग्रंथ या पृष्ठभूमि होते हैं लेकिन बहुत अलग रंग होते हैं, तो एक पूर्ण-रंग का रंग बेहतर परिणाम प्रदान करेगा।

DetectWhiteTextOnDarkBackgrounds। आम तौर पर, सभी ओसीआर पुस्तकालयों को सफेद पृष्ठभूमि पर काला पाठ देखने की उम्मीद है। यह सेटिंग आयरन ओसीआर को स्वचालित रूप से नकारात्मक पाठ, या सफेद पाठ के साथ अंधेरे पृष्ठों का पता लगाने और उन्हें पढ़ने की अनुमति देती है।

InputImageType। यह सेटिंग डेवलपर को ओसीआर लाइब्रेरी का मार्गदर्शन करने की अनुमति देती है, चाहे वह एक पूर्ण दस्तावेज़ या एक स्निपेट जैसे स्क्रीनशॉट के रूप में देख रही हो।

रोटेटएंडस्ट्रीमेन एक उन्नत सेटिंग है जो आयरन ओसीआर को दस्तावेजों को पढ़ने की अनूठी क्षमता प्रदान करता है जो न केवल घुमाए जाते हैं, बल्कि शायद परिप्रेक्ष्य भी होते हैं, जैसे कि पाठ दस्तावेजों की तस्वीरें।

ReadBarcodes एक उपयोगी सुविधा है जो आयरन OCR को पृष्ठों पर स्वचालित रूप से बारकोड और क्यूआर कोड पढ़ने की अनुमति देता है क्योंकि यह पाठ को भी पढ़ता है, बिना एक अतिरिक्त अतिरिक्त बोझ डाले।

रंग की गहराई। यह सेटिंग निर्धारित करता है कि रंग की गहराई निर्धारित करने के लिए ओसीआर पुस्तकालय प्रति पिक्सेल कितने बिट्स का उपयोग करेगा। एक उच्च रंग गहराई OCR गुणवत्ता को बढ़ा सकती है, लेकिन OCR ऑपरेशन को पूरा करने के लिए आवश्यक समय को भी बढ़ाएगी।

126 भाषा पैक

आयरन OCR भाषा पैक के माध्यम से 126 अंतर्राष्ट्रीय भाषाओं का समर्थन करता है, जिन्हें DLL के रूप में वितरित किया जाता है, जिसे इस वेबसाइट से या NuGet Package Manager से भी डाउनलोड किया जा सकता है।

भाषाओं में जर्मन, फ्रेंच, अंग्रेजी, चीनी, जापानी और कई शामिल हैं। पासपोर्ट एमआरजेड, एमआईसीआर चेक, फाइनेंशियल डेटा, लाइसेंस प्लेट और कई और अधिक के लिए विशेषज्ञ भाषा पैक मौजूद हैं। आप किसी भी tesseract ".traineddata" फ़ाइल का उपयोग कर सकते हैं - जिसमें आप स्वयं बनाते हैं।

भाषा उदाहरण

अन्य ओसीआर भाषाओं का उपयोग करना।

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// यदि आवश्यक हो तो छवि फ़िल्टर जोड़ें
// इस मामले में, यहां तक कि सोचा इनपुट बहुत कम गुणवत्ता वाला है
// IronTesseract पढ़ सकता है कि पारंपरिक Tesseract क्या नहीं कर सकता।

var Result = Ocr.Read(input);

// कंसोल अरबी को विंडोज पर आसानी से प्रिंट नहीं कर सकता है।
// इसके बजाय डिस्क पर सहेजें।
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// यदि आवश्यक हो तो छवि फ़िल्टर जोड़ें
// इस मामले में, यहां तक कि सोचा इनपुट बहुत कम गुणवत्ता वाला है
// IronTesseract पढ़ सकता है कि पारंपरिक Tesseract क्या नहीं कर सकता।

var Result = Ocr.Read(input);

// कंसोल अरबी को विंडोज पर आसानी से प्रिंट नहीं कर सकता है।
// इसके बजाय डिस्क पर सहेजें।
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' यदि आवश्यक हो तो छवि फ़िल्टर जोड़ें
' इस मामले में, यहां तक कि सोचा इनपुट बहुत कम गुणवत्ता वाला है
' IronTesseract पढ़ सकता है कि पारंपरिक Tesseract क्या नहीं कर सकता।

Dim Result = Ocr.Read(input)

' कंसोल अरबी को विंडोज पर आसानी से प्रिंट नहीं कर सकता है।
' इसके बजाय डिस्क पर सहेजें।
Result.SaveAsTextFile("arabic.txt")
End Using
VB   C#

एकाधिक भाषा उदाहरण

एक ही समय में कई भाषाओं का उपयोग करके ओसीआर करना भी संभव है। यह वास्तव में यूनिकोड दस्तावेजों में अंग्रेजी भाषा मेटाडेटा और यूआरएल प्राप्त करने में मदद कर सकता है।

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Hindi);

// हम कितनी भी भाषाएं जोड़ सकते हैं

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Hindi);

// हम कितनी भी भाषाएं जोड़ सकते हैं

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Hindi)

' हम कितनी भी भाषाएं जोड़ सकते हैं

Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
VB   C#

विस्तृत OCR परिणाम ऑब्जेक्ट

आयरन OCR प्रत्येक OCR ऑपरेशन के लिए OCR परिणाम वस्तु देता है। आमतौर पर, डेवलपर केवल छवि से स्कैन किए गए टेक्स्ट को प्राप्त करने के लिए इस ऑब्जेक्ट की टेक्स्ट संपत्ति का उपयोग करते हैं। हालाँकि, OCR परिणाम DOM इससे कहीं अधिक उन्नत है।

using IronOcr;
using System.Drawing; //विधानसभा संदर्भ जोड़ें

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!जरूरी

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// एक विस्तृत, विस्तृत एपीआई खोजने के लिए यहां देखें:
// - पेज, ब्लॉक, पैराफ्स, लाइन्स, शब्द, चार्ट
// - छवि निर्यात, फ़ॉन्ट्स निर्देशांक, सांख्यिकीय डेटा
}
using IronOcr;
using System.Drawing; //विधानसभा संदर्भ जोड़ें

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!जरूरी

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// एक विस्तृत, विस्तृत एपीआई खोजने के लिए यहां देखें:
// - पेज, ब्लॉक, पैराफ्स, लाइन्स, शब्द, चार्ट
// - छवि निर्यात, फ़ॉन्ट्स निर्देशांक, सांख्यिकीय डेटा
}
Imports IronOcr
Imports System.Drawing 'विधानसभा संदर्भ जोड़ें

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Hindi
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '!जरूरी

Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages (0).Words
Dim Barcodes = Result.Barcodes
' एक विस्तृत, विस्तृत एपीआई खोजने के लिए यहां देखें:
' - पेज, ब्लॉक, पैराफ्स, लाइन्स, शब्द, चार्ट
' - छवि निर्यात, फ़ॉन्ट्स निर्देशांक, सांख्यिकीय डेटा
End Using
VB   C#

प्रदर्शन

आयरनओसीआर बॉक्स से बाहर काम करता है जिसमें ट्यून के प्रदर्शन की आवश्यकता नहीं होती है या इनपुट छवियों को बहुत अधिक संशोधित किया जाता है।

गति धधक रही है: IronOcr.2020 + 10 गुना तेज है और पिछले बिल्ड की तुलना में 250% कम त्रुटी करता है।

और अधिक जानें

OCR के बारे में और अधिक जानने के लिए C #, VB, F #, या किसी भी अन्य .NET भाषा में, कृपया हमारे समुदाय ट्यूटोरियल पढ़ें , जो इस बात का वास्तविक उदाहरण देते हैं कि आयरन OCR का उपयोग कैसे किया जा सकता है और इस बात की बारीकियों को दिखा सकता है कि परीक्षा से बाहर कैसे जाएं यह पुस्तकालय।

.NET डेवलपर्स के लिए एक पूर्ण ऑब्जेक्ट संदर्भ भी उपलब्ध है।