सी # और .NET में हिंदी ओसीआर
इस दस्तावेज़ के अन्य संस्करण:
आयरनओसीआर एक सी # सॉफ्टवेयर घटक है जो .NET कोडर्स को हिंदी सहित 126 भाषाओं में छवियों और पीडीएफ दस्तावेजों से पाठ पढ़ने की अनुमति देता है।
यह Tesseract का एक उन्नत कांटा है, जो विशेष रूप से .NET डेवलपर्स के लिए बनाया गया है और गति और सटीकता दोनों के लिए नियमित रूप से अन्य Tesseract इंजन को बेहतर बनाता है।
IronOcr.Languages.Hindi की सामग्री
इस पैकेज में .NET के लिए 40 OCR भाषाएं हैं:
- हिंदी
- HindiBest
- HindiFast
डाउनलोड
हिंदी भाषा पैक [ हिंदी ]
* Download as ज़िप
* Install with https://www.nuget.org/packages/IronOcr.Languages.Hindi/'> NuGet
स्थापना
सबसे पहले हमें अपना हिंदी OCR पैकेज अपने .NET प्रोजेक्ट में स्थापित करना होगा।
PM> Install-Package IronOCR.Languages.Hindi
कोड उदाहरण
यह C#कोड उदाहरण एक छवि या पीडीएफ दस्तावेज़ से हिंदी पाठ को पढ़ता है।
//PM> Install-Package IronOcr.Languages.Hindi
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput(@"images\Hindi.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Hindi
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput(@"images\Hindi.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Hindi
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Hindi
Using Input = New OcrInput("images\Hindi.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
क्यों चुनें आयरनओआरसीआर?
आयरन ओसीआर एक आसान-स्थापित, पूर्ण और अच्छी तरह से प्रलेखित .NET सॉफ्टवेयर लाइब्रेरी है।
किसी भी बाहरी वेब सेवाओं, चल रही फीस या इंटरनेट पर गोपनीय दस्तावेज भेजने के बिना 99.8% + OCR सटीकता प्राप्त करने के लिए IronOCR चुनें।
क्यों C#डेवलपर्स वेनिला टेसरैक्ट के ऊपर आयरनओसीआर चुनते हैं:
- एकल DLL या NuGet के रूप में स्थापित करें
- बॉक्स से बाहर Tesseract 5, 4 और 3 इंजन शामिल हैं।
- सटीकता 99.8% नियमित रूप से टेसरैक्ट से बेहतर प्रदर्शन करती है।
- धधकती गति और मल्टीथ्रेडिंग
- MVC, WebApp, डेस्कटॉप, कंसोल और सर्वर अनुप्रयोग संगत
- कोई Exes या C ++ कोड के साथ काम करने के लिए नहीं
- पूर्ण पीडीएफ ओसीआर समर्थन
- OCR करने के लिए लगभग कोई भी इमेज फाइल या PDF
- फुल .NET कोर, स्टैंडर्ड और फ्रेमवर्क सपोर्ट
- Windows, Mac, Linux, Azure, Docker, Lambda, AWS पर नियोजित करें
- बारकोड और क्यूआर कोड पढ़ें
- निर्यात OCR XHTML के रूप में
- निर्यात OCR खोजा पीडीएफ दस्तावेजों के लिए
- बहुपरत समर्थन
- 126 अंतर्राष्ट्रीय भाषाएं सभी NuGet या OcrData फ़ाइलों के माध्यम से प्रबंधित की गई हैं
- छवियाँ, निर्देशांक, सांख्यिकी और फ़ॉन्ट्स निकालें। सिर्फ पाठ ही नहीं।
- वाणिज्यिक और मालिकाना अनुप्रयोगों के अंदर Tesseract OCR को फिर से वितरित करने के लिए इस्तेमाल किया जा सकता है।
असली दुनिया की छवियों और अपूर्ण दस्तावेजों जैसे तस्वीरों, या कम रिज़ॉल्यूशन के स्कैन के साथ काम करने पर आयरन ओसीआर चमकता है, जिसमें डिजिटल शोर या खामियां हो सकती हैं।
.NET प्लेटफ़ॉर्म के लिए अन्य मुक्त OCR लाइब्रेरीज़ जैसे अन्य .net tesseract API और वेब सेवाएँ इन वास्तविक विश्व उपयोग मामलों पर इतना अच्छा प्रदर्शन नहीं करती हैं।
Tesseract 5 के साथ OCR - C#में कोडिंग शुरू करें
नीचे दिए गए कोड का नमूना दिखाता है कि C#या VB .NET का उपयोग करके छवि से पाठ पढ़ना कितना आसान है।
एक लाइन
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
विन्यास योग्य नमस्ते विश्व
// PM> Install-Package IronOCR.Languages.Hindi
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... आप किसी भी संख्या में चित्र जोड़ सकते हैं
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Hindi
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... आप किसी भी संख्या में चित्र जोड़ सकते हैं
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Hindi
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Hindi
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
सी # पीडीएफ ओसीआर
इसी तरह के दृष्टिकोण का उपयोग किसी भी पीडीएफ दस्तावेज़ से पाठ निकालने के लिए किया जा सकता है।
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// हम OCR के लिए विशिष्ट PDF पेज संख्याएँ भी चुन सकते हैं
var Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// पीडीएफ के हर पेज के लिए 1 पेज
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// हम OCR के लिए विशिष्ट PDF पेज संख्याएँ भी चुन सकते हैं
var Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// पीडीएफ के हर पेज के लिए 1 पेज
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Hindi
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' हम OCR के लिए विशिष्ट PDF पेज संख्याएँ भी चुन सकते हैं
Dim Result = Ocr.Read(input)
Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' पीडीएफ के हर पेज के लिए 1 पेज
End Using
मल्टीपेज टीआईएफएस के लिए ओसीआर
कई पृष्ठ दस्तावेजों सहित ओसीआर रीडिंग झगड़ा फ़ाइल प्रारूप। TIFF को सीधे पीडीएफ फाइल में खोजे जा सकने वाले टेक्स्ट के साथ बदला जा सकता है।
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Hindi
Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
बारकोड और क्यूआर
आयरन ओसीआर की एक अनूठी विशेषता यह है कि यह दस्तावेजों से बारकोड और क्यूआर कोड पढ़ सकता है जबकि यह पाठ के लिए स्कैन कर रहा है। OcrResult.OcrBarcode
Class के उदाहरण डेवलपर को प्रत्येक स्कैन किए गए बारकोड के बारे में विस्तृत जानकारी देते हैं।
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// प्रकार और स्थान के गुण भी उजागर हुए
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// प्रकार और स्थान के गुण भी उजागर हुए
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True
Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' प्रकार और स्थान के गुण भी उजागर हुए
Next Barcode
End Using
छवियों के विशिष्ट क्षेत्रों पर ओसीआर
आयरन ओसीआर के सभी स्कैनिंग और रीडिंग मेथड्स यह निर्दिष्ट करते हैं कि हम जिस पेज या पेज से टेक्स्ट पढ़ना चाहते हैं, उसका कौन सा हिस्सा ठीक है। यह बहुत उपयोगी है जब हम मानकीकृत रूपों को देख रहे हैं और एक भयानक समय बचा सकते हैं और दक्षता में सुधार कर सकते हैं।
फसल क्षेत्रों का उपयोग करने के लिए, हमें System.Drawing
लिए एक सिस्टम संदर्भ जोड़ना होगा ताकि हम System.Drawing.Rectangle
ऑब्जेक्ट का उपयोग कर सकें।
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// आयाम px में हैं
Input.Add("document.png", ContentArea);
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// आयाम px में हैं
Input.Add("document.png", ContentArea);
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Hindi
Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
.X = 215,
.Y = 1250,
.Height = 280,
.Width = 1335
}
' आयाम px में हैं
Input.Add("document.png", ContentArea)
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
निम्न गुणवत्ता वाले स्कैन के लिए ओसीआर
लौह ओसीआर OcrInput
वर्ग स्कैन को ठीक कर सकता है जो सामान्य OcrInput
नहीं पढ़ सकता है।
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // डिजिटल शोर और खराब स्कैनिंग को ठीक करता है
Input.Deskew(); // रोटेशन और परिप्रेक्ष्य को ठीक करता है
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // डिजिटल शोर और खराब स्कैनिंग को ठीक करता है
Input.Deskew(); // रोटेशन और परिप्रेक्ष्य को ठीक करता है
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Hindi
Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' डिजिटल शोर और खराब स्कैनिंग को ठीक करता है
Input.Deskew() ' रोटेशन और परिप्रेक्ष्य को ठीक करता है
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
निर्यात OCR एक खोजा पीडीएफ के रूप में परिणाम है
प्रतिलिपि करने योग्य पाठ स्ट्रिंग के साथ पीडीएफ के लिए छवि। खोज इंजन और डेटाबेस द्वारा अनुक्रमित किया जा सकता है।
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");
var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");
var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Hindi
Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")
Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
खोजा पीडीएफ रूपांतरण के लिए झगड़ा
सीधे एक खोज योग्य PDF पर TIFF दस्तावेज़ (या छवि फ़ाइलों के किसी भी समूह) को ले जाएं, जिसे इंट्रानेट, वेबसाइट और Google खोज इंजन द्वारा अनुक्रमित किया जा सकता है।
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Hindi
Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
HTML के रूप में निर्यात OCR परिणाम
ओसीआर छवि एक्सएचटीएमएल रूपांतरण में।
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Hindi
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
ओसीआर इमेज एनहांसमेंट फिल्टर
IronOCR OCR प्रदर्शन को बेहतर बनाने के लिए OcrInput
ऑब्जेक्ट के लिए अद्वितीय फ़िल्टर प्रदान करता है।
इमेज एनहांसमेंट कोड उदाहरण
OCR इनपुट छवियों को बेहतर, तेज़ OCR परिणामों का उत्पादन करने के लिए उच्च गुणवत्ता बनाता है।
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // डिजिटल शोर और खराब स्कैनिंग को ठीक करता है
Input.Deskew(); // रोटेशन और परिप्रेक्ष्य को ठीक करता है
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // डिजिटल शोर और खराब स्कैनिंग को ठीक करता है
Input.Deskew(); // रोटेशन और परिप्रेक्ष्य को ठीक करता है
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Hindi
Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' डिजिटल शोर और खराब स्कैनिंग को ठीक करता है
Input.Deskew() ' रोटेशन और परिप्रेक्ष्य को ठीक करता है
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
ओसीआर छवि फ़िल्टर की सूची
OCR प्रदर्शन बढ़ाने के लिए इनपुट फ़िल्टर जो कि IronOCR में बनाए गए हैं, शामिल हैं:
- OcrInput.Rotate (डबल डिग्री) - कई डिग्री दक्षिणावर्त छवियों को घुमाता है। विरोधी दक्षिणावर्त के लिए, नकारात्मक संख्याओं का उपयोग करें।
- OcrInput.Binarize () - यह छवि फ़िल्टर हर पिक्सेल को बिना किसी मध्य मैदान के काला या सफेद कर देता है। पृष्ठभूमि के पाठ के बहुत कम विपरीत OCR प्रदर्शन मामलों में सुधार कर सकते हैं।
- OcrInput.ToGrayScale () - यह छवि फ़िल्टर हर पिक्सेल को ग्रेस्केल की छाया में बदल देता है। OCR सटीकता में सुधार करने के लिए पूरी तरह से लेकिन गति में सुधार हो सकता है
- OcrInput.Contrast () - स्वचालित रूप से इसके विपरीत बढ़ता है। यह फिल्टर अक्सर कम विपरीत स्कैन में ओसीआर गति और सटीकता में सुधार करता है।
- OcrInput.DeNoise () - डिजिटल शोर को हटाता है। इस फिल्टर का उपयोग केवल वहीं किया जाना चाहिए, जहां शोर होने की उम्मीद हो।
- OcrInput.Invert () - हर रंग में इन्वर्ट करता है। जैसे सफेद काला हो जाता है: काला सफेद हो जाता है।
- OcrInput.Dilate () - उन्नत आकृति विज्ञान। Dilation एक छवि में वस्तुओं की सीमाओं में पिक्सेल जोड़ता है। इरोड के विपरीत
- OcrInput.Erode () - उन्नत आकृति विज्ञान। कटाव वस्तु सीमाओं पर पिक्सल को हटा देता है
- OcrInput.Deskew () - एक छवि को घुमाता है इसलिए यह सही तरीके से ऊपर और ऑर्थोगोनल है। यह ओसीआर के लिए बहुत उपयोगी है क्योंकि तिरछी स्कैन के लिए टेसरैक्ट सहिष्णुता 5 डिग्री से कम हो सकती है।
- OcrInput.DeepCleanBackgroundNoise () - भारी पृष्ठभूमि शोर को हटाने। केवल इस फ़िल्टर का उपयोग करें यदि चरम दस्तावेज़ पृष्ठभूमि शोर ज्ञात है, क्योंकि यह फ़िल्टर स्वच्छ दस्तावेज़ों की ओसीआर सटीकता को कम करने का जोखिम भी लेगा, और बहुत सीपीयू महंगा है।
- OcrInput.EnhanceResolution - निम्न गुणवत्ता वाले चित्रों के संकल्प को बढ़ाता है। यह फ़िल्टर अक्सर आवश्यक नहीं होता है क्योंकि OcrInput.MinimumDPI और OcrInput.TargetDPI स्वचालित रूप से कम रिज़ॉल्यूशन इनपुट को पकड़ेंगे और हल करेंगे।
CleanBackgroundNoise। यह एक सेटिंग है जो कुछ समय लेने वाली है; हालाँकि, यह लाइब्रेरी को डिजिटल छवि के भीतर डिजिटल शोर, पेपर crumples, और अन्य खामियों को स्वचालित रूप से साफ़ करने की अनुमति देता है जो अन्यथा इसे अन्य OCR पुस्तकालयों द्वारा पढ़े जाने में असमर्थ बना देता है।
एन्हांसकंट्रास्ट एक ऐसी सेटिंग है जो आयरन ओसीआर को छवि की पृष्ठभूमि के खिलाफ स्वचालित रूप से पाठ के विपरीत को बढ़ाने का कारण बनता है, जिससे ओसीआर की सटीकता बढ़ जाती है और आमतौर पर प्रदर्शन और ओसीआर की गति बढ़ जाती है।
EnhanceResolution एक सेटिंग है जो स्वचालित रूप से कम-रिज़ॉल्यूशन छवियों (जो 275 डीपीआई के अंतर्गत है) का पता लगाएगा और स्वचालित रूप से छवि को अपस्केल करेगा और फिर सभी पाठ को तेज कर देगा ताकि यह एक ओसीआर लाइब्रेरी द्वारा पूरी तरह से पढ़ा जा सके। यद्यपि यह ऑपरेशन अपने आप में समय लेने वाला है, यह आमतौर पर एक छवि पर ओसीआर ऑपरेशन के लिए समग्र समय को कम करता है।
भाषा आयरन ओसीआर 22 अंतरराष्ट्रीय भाषा पैक का समर्थन करता है, और भाषा सेटिंग का उपयोग एक ओसीआर ऑपरेशन के लिए लागू की जाने वाली एक या अधिक भाषाओं का चयन करने के लिए किया जा सकता है।
रणनीति आयरन ओसीआर दो रणनीतियों का समर्थन करता है। हम या तो किसी दस्तावेज़ के तेज़ और कम सटीक स्कैन के लिए जा सकते हैं, या एक उन्नत रणनीति का उपयोग कर सकते हैं जो शब्दों में एक दूसरे से वाक्यों के सांख्यिकीय संबंध को देखकर OCR पाठ की सटीकता को स्वचालित रूप से सुधारने के लिए कुछ कृत्रिम बुद्धिमत्ता मॉडल का उपयोग करता है। ।
कलरस्पेस एक सेटिंग है जिसके तहत हम ग्रेस्केल या रंग में ओसीआर चुन सकते हैं। आम तौर पर, ग्रेस्केल सबसे अच्छा विकल्प है। हालांकि, कभी-कभी जब समान रंग के ग्रंथ या पृष्ठभूमि होते हैं लेकिन बहुत अलग रंग होते हैं, तो एक पूर्ण-रंग का रंग बेहतर परिणाम प्रदान करेगा।
DetectWhiteTextOnDarkBackgrounds। आम तौर पर, सभी ओसीआर पुस्तकालयों को सफेद पृष्ठभूमि पर काला पाठ देखने की उम्मीद है। यह सेटिंग आयरन ओसीआर को स्वचालित रूप से नकारात्मक पाठ, या सफेद पाठ के साथ अंधेरे पृष्ठों का पता लगाने और उन्हें पढ़ने की अनुमति देती है।
InputImageType। यह सेटिंग डेवलपर को ओसीआर लाइब्रेरी का मार्गदर्शन करने की अनुमति देती है, चाहे वह एक पूर्ण दस्तावेज़ या एक स्निपेट जैसे स्क्रीनशॉट के रूप में देख रही हो।
रोटेटएंडस्ट्रीमेन एक उन्नत सेटिंग है जो आयरन ओसीआर को दस्तावेजों को पढ़ने की अनूठी क्षमता प्रदान करता है जो न केवल घुमाए जाते हैं, बल्कि शायद परिप्रेक्ष्य भी होते हैं, जैसे कि पाठ दस्तावेजों की तस्वीरें।
ReadBarcodes एक उपयोगी सुविधा है जो आयरन OCR को पृष्ठों पर स्वचालित रूप से बारकोड और क्यूआर कोड पढ़ने की अनुमति देता है क्योंकि यह पाठ को भी पढ़ता है, बिना एक अतिरिक्त अतिरिक्त बोझ डाले।
रंग की गहराई। यह सेटिंग निर्धारित करता है कि रंग की गहराई निर्धारित करने के लिए ओसीआर पुस्तकालय प्रति पिक्सेल कितने बिट्स का उपयोग करेगा। एक उच्च रंग गहराई OCR गुणवत्ता को बढ़ा सकती है, लेकिन OCR ऑपरेशन को पूरा करने के लिए आवश्यक समय को भी बढ़ाएगी।
126 भाषा पैक
आयरन OCR भाषा पैक के माध्यम से 126 अंतर्राष्ट्रीय भाषाओं का समर्थन करता है, जिन्हें DLL के रूप में वितरित किया जाता है, जिसे इस वेबसाइट से या NuGet Package Manager से भी डाउनलोड किया जा सकता है।
भाषाओं में जर्मन, फ्रेंच, अंग्रेजी, चीनी, जापानी और कई शामिल हैं। पासपोर्ट एमआरजेड, एमआईसीआर चेक, फाइनेंशियल डेटा, लाइसेंस प्लेट और कई और अधिक के लिए विशेषज्ञ भाषा पैक मौजूद हैं। आप किसी भी tesseract ".traineddata" फ़ाइल का उपयोग कर सकते हैं - जिसमें आप स्वयं बनाते हैं।
भाषा उदाहरण
अन्य ओसीआर भाषाओं का उपयोग करना।
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// यदि आवश्यक हो तो छवि फ़िल्टर जोड़ें
// इस मामले में, यहां तक कि सोचा इनपुट बहुत कम गुणवत्ता वाला है
// IronTesseract पढ़ सकता है कि पारंपरिक Tesseract क्या नहीं कर सकता।
var Result = Ocr.Read(input);
// कंसोल अरबी को विंडोज पर आसानी से प्रिंट नहीं कर सकता है।
// इसके बजाय डिस्क पर सहेजें।
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// यदि आवश्यक हो तो छवि फ़िल्टर जोड़ें
// इस मामले में, यहां तक कि सोचा इनपुट बहुत कम गुणवत्ता वाला है
// IronTesseract पढ़ सकता है कि पारंपरिक Tesseract क्या नहीं कर सकता।
var Result = Ocr.Read(input);
// कंसोल अरबी को विंडोज पर आसानी से प्रिंट नहीं कर सकता है।
// इसके बजाय डिस्क पर सहेजें।
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic
Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' यदि आवश्यक हो तो छवि फ़िल्टर जोड़ें
' इस मामले में, यहां तक कि सोचा इनपुट बहुत कम गुणवत्ता वाला है
' IronTesseract पढ़ सकता है कि पारंपरिक Tesseract क्या नहीं कर सकता।
Dim Result = Ocr.Read(input)
' कंसोल अरबी को विंडोज पर आसानी से प्रिंट नहीं कर सकता है।
' इसके बजाय डिस्क पर सहेजें।
Result.SaveAsTextFile("arabic.txt")
End Using
एकाधिक भाषा उदाहरण
एक ही समय में कई भाषाओं का उपयोग करके ओसीआर करना भी संभव है। यह वास्तव में यूनिकोड दस्तावेजों में अंग्रेजी भाषा मेटाडेटा और यूआरएल प्राप्त करने में मदद कर सकता है।
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Hindi);
// हम कितनी भी भाषाएं जोड़ सकते हैं
using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Hindi);
// हम कितनी भी भाषाएं जोड़ सकते हैं
using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Hindi)
' हम कितनी भी भाषाएं जोड़ सकते हैं
Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
विस्तृत OCR परिणाम ऑब्जेक्ट
आयरन OCR प्रत्येक OCR ऑपरेशन के लिए OCR परिणाम वस्तु देता है। आमतौर पर, डेवलपर केवल छवि से स्कैन किए गए टेक्स्ट को प्राप्त करने के लिए इस ऑब्जेक्ट की टेक्स्ट संपत्ति का उपयोग करते हैं। हालाँकि, OCR परिणाम DOM इससे कहीं अधिक उन्नत है।
using IronOcr;
using System.Drawing; //विधानसभा संदर्भ जोड़ें
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!जरूरी
using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// एक विस्तृत, विस्तृत एपीआई खोजने के लिए यहां देखें:
// - पेज, ब्लॉक, पैराफ्स, लाइन्स, शब्द, चार्ट
// - छवि निर्यात, फ़ॉन्ट्स निर्देशांक, सांख्यिकीय डेटा
}
using IronOcr;
using System.Drawing; //विधानसभा संदर्भ जोड़ें
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Hindi;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!जरूरी
using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// एक विस्तृत, विस्तृत एपीआई खोजने के लिए यहां देखें:
// - पेज, ब्लॉक, पैराफ्स, लाइन्स, शब्द, चार्ट
// - छवि निर्यात, फ़ॉन्ट्स निर्देशांक, सांख्यिकीय डेटा
}
Imports IronOcr
Imports System.Drawing 'विधानसभा संदर्भ जोड़ें
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Hindi
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '!जरूरी
Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages (0).Words
Dim Barcodes = Result.Barcodes
' एक विस्तृत, विस्तृत एपीआई खोजने के लिए यहां देखें:
' - पेज, ब्लॉक, पैराफ्स, लाइन्स, शब्द, चार्ट
' - छवि निर्यात, फ़ॉन्ट्स निर्देशांक, सांख्यिकीय डेटा
End Using
प्रदर्शन
आयरनओसीआर बॉक्स से बाहर काम करता है जिसमें ट्यून के प्रदर्शन की आवश्यकता नहीं होती है या इनपुट छवियों को बहुत अधिक संशोधित किया जाता है।
गति धधक रही है: IronOcr.2020 + 10 गुना तेज है और पिछले बिल्ड की तुलना में 250% कम त्रुटी करता है।
और अधिक जानें
OCR के बारे में और अधिक जानने के लिए C #, VB, F #, या किसी भी अन्य .NET भाषा में, कृपया हमारे समुदाय ट्यूटोरियल पढ़ें , जो इस बात का वास्तविक उदाहरण देते हैं कि आयरन OCR का उपयोग कैसे किया जा सकता है और इस बात की बारीकियों को दिखा सकता है कि परीक्षा से बाहर कैसे जाएं यह पुस्तकालय।
.NET डेवलपर्स के लिए एक पूर्ण ऑब्जेक्ट संदर्भ भी उपलब्ध है।