சி # மற்றும் .நெட்டில் தமிழ் ஓ.சி.ஆர்
இந்த ஆவணத்தின் பிற பதிப்புகள்:
IronOCR என்பது ஒரு சி # மென்பொருள் கூறு ஆகும். நெட் குறியீட்டாளர்கள் படங்கள் மற்றும் PDF ஆவணங்களிலிருந்து உரையை தமிழ் உட்பட 126 மொழியில் படிக்க அனுமதிக்கிறது.
இது டெசராக்டின் மேம்பட்ட முட்கரண்டி ஆகும், இது நெட் டெவலப்பர்களுக்காக பிரத்யேகமாக கட்டப்பட்டுள்ளது மற்றும் வேகம் மற்றும் துல்லியம் ஆகிய இரண்டிற்கும் மற்ற டெசராக்ட் இயந்திரங்களை தவறாமல் விஞ்சும்.
IronOcr.Languages.Tamil இன் உள்ளடக்கங்கள்
இந்த தொகுப்பில் .NET க்கான 102 OCR மொழிகள் உள்ளன:
- தமிழ்
- தமிழ்பெஸ்ட்
- தமிழ்பாஸ்ட்
- தமிழ் எழுத்துக்கள்
- தமிழ் ஆல்பாபெட் பெஸ்ட்
- தமிழ் ஆல்பாபெட்ஃபாஸ்ட்
பதிவிறக்க Tamil
தமிழ் மொழிப் பொதி [தமனித்]
* Download as ஜிப்
* Install with as https://www.nuget.org/packages/IronOcr.Languages.Tamil/'> நுஜெட்
நிறுவல்
நாங்கள் செய்ய வேண்டியது முதலில் உங்கள் .NET திட்டத்தில் எங்கள் தமிழ் OCR தொகுப்பை நிறுவ வேண்டும்.
PM> Install-Package IronOCR.Languages.Tamil
குறியீடு எடுத்துக்காட்டு
இந்த சி # குறியீடு எடுத்துக்காட்டு ஒரு படம் அல்லது PDF ஆவணத்திலிருந்து தமிழ் உரையைப் படிக்கிறது.
//PM> Install-Package IronOcr.Languages.Tamil
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput(@"images\Tamil.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Tamil
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput(@"images\Tamil.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Tamil
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tamil
Using Input = New OcrInput("images\Tamil.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
IronOCR ஐ ஏன் தேர்வு செய்ய வேண்டும்?
இரும்பு ஓ.சி.ஆர் என்பது நிறுவ எளிதானது, முழுமையானது மற்றும் நன்கு ஆவணப்படுத்தப்பட்ட நெட் மென்பொருள் நூலகம்.
வெளிப்புற வலை சேவைகள், நடந்துகொண்டிருக்கும் கட்டணம் அல்லது இணையத்தில் ரகசிய ஆவணங்களை அனுப்பாமல் 99.8% + OCR துல்லியத்தை அடைய இரும்பு OCR ஐத் தேர்வுசெய்க.
சி # டெவலப்பர்கள் வெண்ணிலா டெசராக்டை விட இரும்பு ஓ.சி.ஆரை ஏன் தேர்வு செய்கிறார்கள்:
- ஒற்றை டி.எல்.எல் அல்லது நுஜெட்டாக நிறுவவும்
- பெட்டியின் வெளியே டெசராக்ட் 5, 4 மற்றும் 3 என்ஜின்கள் அடங்கும்.
- துல்லியம் 99.8% வழக்கமான டெசராக்டை விட சிறப்பாக செயல்படுகிறது.
- எரியும் வேகம் மற்றும் மல்டி த்ரெடிங்
- எம்.வி.சி, வெப்ஆப், டெஸ்க்டாப், கன்சோல் & சர்வர் பயன்பாடு இணக்கமானது
- வேலை செய்ய Exes அல்லது C ++ குறியீடு இல்லை
- முழு PDF OCR ஆதரவு
- OCR ஐ செய்ய கிட்டத்தட்ட எந்த படக் கோப்பு அல்லது PDF
- முழு .நெட் கோர், ஸ்டாண்டர்ட் மற்றும் ஃபிரேம்வொர்க் ஆதரவு
- விண்டோஸ், மேக், லினக்ஸ், அஸூர், டோக்கர், லாம்ப்டா, ஏ.டபிள்யூ.எஸ்
- பார்கோடுகள் மற்றும் கியூஆர் குறியீடுகளைப் படிக்கவும்
- XHTML ஆக OCR ஐ ஏற்றுமதி செய்க
- தேடக்கூடிய PDF ஆவணங்களுக்கு OCR ஐ ஏற்றுமதி செய்க
- மல்டித்ரெடிங் ஆதரவு
- 126 சர்வதேச மொழிகள் அனைத்தும் நுஜெட் அல்லது ஓக்ராடா கோப்புகள் வழியாக நிர்வகிக்கப்படுகின்றன
- படங்கள், ஒருங்கிணைப்புகள், புள்ளிவிவரங்கள் மற்றும் எழுத்துருக்களைப் பிரித்தெடுக்கவும். உரை மட்டுமல்ல.
- வணிக மற்றும் தனியுரிம பயன்பாடுகளுக்குள் டெசராக்ட் ஓ.சி.ஆரை மறுபகிர்வு செய்ய பயன்படுத்தலாம்.
நிஜ உலக படங்கள் மற்றும் புகைப்படங்கள் போன்ற அபூரண ஆவணங்களுடன் அல்லது டிஜிட்டல் இரைச்சல் அல்லது குறைபாடுகளைக் கொண்ட குறைந்த தெளிவுத்திறனுடன் ஸ்கேன் செய்யும் போது இரும்பு OCR பிரகாசிக்கிறது.
நெட் இயங்குதளத்திற்கான பிற இலவச OCR நூலகங்கள் இந்த உண்மையான உலக பயன்பாட்டு நிகழ்வுகளில் அவ்வளவு சிறப்பாக செயல்படவில்லை. நெட் டெசராக்ட் API கள் மற்றும் வலை சேவைகள்.
டெசராக்ட் 5 உடன் OCR - சி # இல் குறியீட்டு முறையைத் தொடங்குங்கள்
கீழேயுள்ள குறியீடு மாதிரி C#அல்லது VB .NET ஐப் பயன்படுத்தி ஒரு படத்திலிருந்து உரையைப் படிப்பது எவ்வளவு எளிது என்பதைக் காட்டுகிறது.
ஒன்லைனர்
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
கட்டமைக்கக்கூடிய ஹலோ உலகம்
// PM> Install-Package IronOCR.Languages.Tamil
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... நீங்கள் எத்தனை படங்களையும் சேர்க்கலாம்
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Tamil
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... நீங்கள் எத்தனை படங்களையும் சேர்க்கலாம்
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Tamil
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tamil
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
சி # PDF OCR
எந்தவொரு PDF ஆவணத்திலிருந்தும் உரையைப் பிரித்தெடுக்க இதே அணுகுமுறையைப் பயன்படுத்தலாம்.
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// OCR க்கு குறிப்பிட்ட PDF பக்க எண்களையும் நாம் தேர்ந்தெடுக்கலாம்
var Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// PDF இன் ஒவ்வொரு பக்கத்திற்கும் 1 பக்கம்
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// OCR க்கு குறிப்பிட்ட PDF பக்க எண்களையும் நாம் தேர்ந்தெடுக்கலாம்
var Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// PDF இன் ஒவ்வொரு பக்கத்திற்கும் 1 பக்கம்
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tamil
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' OCR க்கு குறிப்பிட்ட PDF பக்க எண்களையும் நாம் தேர்ந்தெடுக்கலாம்
Dim Result = Ocr.Read(input)
Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' PDF இன் ஒவ்வொரு பக்கத்திற்கும் 1 பக்கம்
End Using
மல்டிபேஜ் TIFF களுக்கான OCR
OCR படித்தல் பல பக்க ஆவணங்கள் உட்பட TIFF கோப்பு வடிவம். TIFF ஐ நேரடியாக தேடக்கூடிய உரையுடன் PDF கோப்பாக மாற்றலாம்.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tamil
Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
பார்கோடுகள் மற்றும் QR
இரும்பு OCR இன் ஒரு தனித்துவமான அம்சம், இது உரையை ஸ்கேன் செய்யும் போது ஆவணங்களிலிருந்து பார்கோடுகள் மற்றும் QR குறியீடுகளைப் படிக்க முடியும். OcrResult.OcrBarcode
வகுப்பின் நிகழ்வுகள் டெவலப்பருக்கு ஒவ்வொரு ஸ்கேன் செய்யப்பட்ட பார்கோடு பற்றிய விரிவான தகவல்களையும் OcrResult.OcrBarcode
.
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// வகை மற்றும் இருப்பிட பண்புகளும் அம்பலப்படுத்தப்படுகின்றன
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// வகை மற்றும் இருப்பிட பண்புகளும் அம்பலப்படுத்தப்படுகின்றன
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True
Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' வகை மற்றும் இருப்பிட பண்புகளும் அம்பலப்படுத்தப்படுகின்றன
Next Barcode
End Using
படங்களின் குறிப்பிட்ட பகுதிகளில் OCR
இரும்பு ஓ.சி.ஆரின் ஸ்கேனிங் மற்றும் வாசிப்பு முறைகள் அனைத்தும் ஒரு பக்கத்தின் எந்த பகுதியை அல்லது நாம் உரையை படிக்க விரும்புகிறோம் என்பதை சரியாக குறிப்பிடும் திறனை வழங்குகிறது. தரப்படுத்தப்பட்ட படிவங்களைப் பார்க்கும்போது இது மிகவும் பயனுள்ளதாக இருக்கும், மேலும் மோசமான நேரத்தை மிச்சப்படுத்தவும் செயல்திறனை மேம்படுத்தவும் முடியும்.
பயிர் பகுதிகளைப் பயன்படுத்த, நாங்கள் System.Drawing
க்கு ஒரு கணினி குறிப்பைச் சேர்க்க வேண்டும், இதனால் System.Drawing.Rectangle
object ஐப் பயன்படுத்தலாம்.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// பரிமாணங்கள் px இல் உள்ளன
Input.Add("document.png", ContentArea);
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// பரிமாணங்கள் px இல் உள்ளன
Input.Add("document.png", ContentArea);
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tamil
Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
.X = 215,
.Y = 1250,
.Height = 280,
.Width = 1335
}
' பரிமாணங்கள் px இல் உள்ளன
Input.Add("document.png", ContentArea)
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
குறைந்த தர ஸ்கேன்களுக்கான OCR
இரும்பு OCR OcrInput
வகுப்பு சாதாரண OcrInput
படிக்க முடியாத ஸ்கேன்களை சரிசெய்ய முடியும்.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // டிஜிட்டல் சத்தம் மற்றும் மோசமான ஸ்கேனிங் ஆகியவற்றை சரிசெய்கிறது
Input.Deskew(); // சுழற்சி மற்றும் முன்னோக்கை சரிசெய்கிறது
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // டிஜிட்டல் சத்தம் மற்றும் மோசமான ஸ்கேனிங் ஆகியவற்றை சரிசெய்கிறது
Input.Deskew(); // சுழற்சி மற்றும் முன்னோக்கை சரிசெய்கிறது
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tamil
Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' டிஜிட்டல் சத்தம் மற்றும் மோசமான ஸ்கேனிங் ஆகியவற்றை சரிசெய்கிறது
Input.Deskew() ' சுழற்சி மற்றும் முன்னோக்கை சரிசெய்கிறது
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
OCR முடிவுகளை தேடக்கூடிய PDF ஆக ஏற்றுமதி செய்க
நகலெடுக்கக்கூடிய உரை சரங்களுடன் PDF க்கு படம். தேடுபொறிகள் மற்றும் தரவுத்தளங்களால் குறியிடப்படலாம்.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");
var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");
var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tamil
Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")
Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
தேடக்கூடிய PDF மாற்றத்திற்கு TIFF
ஒரு TIFF ஆவணத்தை (அல்லது படக் கோப்புகளின் எந்தவொரு குழுவையும்) நேரடியாக தேடக்கூடிய PDF க்கு மாற்றவும், இது இன்ட்ராநெட், வலைத்தளம் மற்றும் Google தேடுபொறிகளால் குறியிடப்படலாம்.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tamil
Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
OCR முடிவுகளை HTML ஆக ஏற்றுமதி செய்க
OCR படம் XHTML மாற்றத்திற்கு.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tamil
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
OCR பட விரிவாக்க வடிப்பான்கள்
OCR செயல்திறனை மேம்படுத்த OcrInput
பொருள்களுக்கான தனித்துவமான வடிப்பான்களை IronOCR வழங்குகிறது.
பட மேம்பாட்டுக் குறியீடு எடுத்துக்காட்டு
சிறந்த, வேகமான OCR முடிவுகளை உருவாக்க OCR உள்ளீட்டு படங்களை உயர் தரமாக்குகிறது.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // டிஜிட்டல் சத்தம் மற்றும் மோசமான ஸ்கேனிங் ஆகியவற்றை சரிசெய்கிறது
Input.Deskew(); // சுழற்சி மற்றும் முன்னோக்கை சரிசெய்கிறது
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // டிஜிட்டல் சத்தம் மற்றும் மோசமான ஸ்கேனிங் ஆகியவற்றை சரிசெய்கிறது
Input.Deskew(); // சுழற்சி மற்றும் முன்னோக்கை சரிசெய்கிறது
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tamil
Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' டிஜிட்டல் சத்தம் மற்றும் மோசமான ஸ்கேனிங் ஆகியவற்றை சரிசெய்கிறது
Input.Deskew() ' சுழற்சி மற்றும் முன்னோக்கை சரிசெய்கிறது
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
OCR பட வடிப்பான்களின் பட்டியல்
இரும்பு ஓ.சி.ஆரில் கட்டமைக்கப்பட்ட OCR செயல்திறனை மேம்படுத்த உள்ளீட்டு வடிப்பான்கள் பின்வருமாறு:
- OcrInput.Rotate (இரட்டை டிகிரி) - பல டிகிரி கடிகார திசையில் படங்களை சுழற்றுகிறது. எதிர்ப்பு கடிகார திசையில், எதிர்மறை எண்களைப் பயன்படுத்தவும்.
- OcrInput.Binarize () - இந்த பட வடிப்பான் ஒவ்வொரு பிக்சலையும் கருப்பு அல்லது வெள்ளை நிறமாக மாற்றும். உரையின் பின்னணிக்கு மிகக் குறைந்த மாறுபாட்டின் OCR செயல்திறன் நிகழ்வுகளை மேம்படுத்தலாம்.
- OcrInput.ToGrayScale () - இந்த பட வடிப்பான் ஒவ்வொரு பிக்சலையும் கிரேஸ்கேலின் நிழலாக மாற்றுகிறது . OCR துல்லியத்தை மேம்படுத்த வாய்ப்பில்லை, ஆனால் வேகத்தை மேம்படுத்தலாம்
- OcrInput.Contrast () - மாறுபாட்டை தானாக அதிகரிக்கிறது. இந்த வடிப்பான் பெரும்பாலும் குறைந்த மாறுபாடு ஸ்கேன்களில் OCR வேகத்தையும் துல்லியத்தையும் மேம்படுத்துகிறது.
- OcrInput.DeNoise () - டிஜிட்டல் சத்தத்தை நீக்குகிறது. சத்தம் எதிர்பார்க்கப்படும் இடத்தில் மட்டுமே இந்த வடிப்பான் பயன்படுத்தப்பட வேண்டும்.
- OcrInput.Invert () - ஒவ்வொரு வண்ணத்தையும் தலைகீழாக மாற்றுகிறது. எ.கா வெள்ளை கருப்பு ஆகிறது: கருப்பு வெள்ளை ஆகிறது.
- OcrInput.Dilate () - மேம்பட்ட உருவவியல். ஒரு படத்தில் உள்ள பொருட்களின் எல்லைகளுக்கு நீட்டிப்பு பிக்சல்களைச் சேர்க்கிறது. ஈரோட்டுக்கு எதிரே
- OcrInput.Erode () - மேம்பட்ட உருவவியல். அரிப்பு பொருள் எல்லைகளில் பிக்சல்களை நீக்குகிறது
- OcrInput.Deskew () - ஒரு படத்தை சுழற்றுகிறது, எனவே இது சரியான வழி மற்றும் ஆர்த்தோகனல் ஆகும். இது OCR க்கு மிகவும் பயனுள்ளதாக இருக்கும், ஏனெனில் வளைந்த ஸ்கேன்களுக்கான டெசராக்ட் சகிப்புத்தன்மை 5 டிகிரி வரை குறைவாக இருக்கும்.
- OcrInput.DeepCleanBackgroundNoise () - கனமான பின்னணி இரைச்சல் நீக்கம். தீவிர ஆவண பின்னணி இரைச்சல் தெரிந்தால் மட்டுமே இந்த வடிப்பானைப் பயன்படுத்தவும், ஏனெனில் இந்த வடிப்பான் சுத்தமான ஆவணங்களின் OCR துல்லியத்தை குறைக்கும் அபாயத்தை ஏற்படுத்தும், மேலும் இது மிகவும் CPU விலை அதிகம்.
- OcrInput.EnhanceResolution - குறைந்த தரமான படங்களின் தீர்மானத்தை மேம்படுத்துகிறது. இந்த வடிப்பான் பெரும்பாலும் தேவையில்லை, ஏனெனில் OcrInput.MinimumDPI மற்றும் OcrInput.TargetDPI தானாகவே குறைந்த தெளிவுத்திறன் உள்ளீடுகளைப் பிடித்து தீர்க்கும்.
CleanBackgroundNoise. இது ஓரளவு நேரம் எடுக்கும் ஒரு அமைப்பு; இருப்பினும், டிஜிட்டல் இரைச்சலுக்குள் டிஜிட்டல் இரைச்சல், காகித நொறுக்குதல்கள் மற்றும் பிற குறைபாடுகளை தானாகவே சுத்தம் செய்ய நூலகத்தை இது அனுமதிக்கிறது, இது மற்ற OCR நூலகங்களால் படிக்க இயலாது.
EnhanceContrast என்பது ஒரு அமைப்பாகும், இது இரும்பு OCR தானாக ஒரு படத்தின் பின்னணிக்கு எதிரான உரையின் மாறுபாட்டை அதிகரிக்கச் செய்கிறது, OCR இன் துல்லியத்தை அதிகரிக்கிறது மற்றும் பொதுவாக செயல்திறன் மற்றும் OCR இன் வேகத்தை அதிகரிக்கும்.
EnhanceResolution என்பது குறைந்த தெளிவுத்திறன் கொண்ட படங்களை (275 dpi க்குக் கீழ் உள்ளவை ) தானாகவே கண்டறிந்து தானாகவே படத்தை உயர்த்தி , பின்னர் அனைத்து உரையையும் கூர்மைப்படுத்தும், எனவே இது OCR நூலகத்தால் முழுமையாகப் படிக்க முடியும். இந்த செயல்பாடு தானாகவே நேரத்தை எடுத்துக்கொள்ளும் என்றாலும், இது பொதுவாக ஒரு படத்தில் OCR செயல்பாட்டிற்கான ஒட்டுமொத்த நேரத்தைக் குறைக்கிறது.
மொழி இரும்பு OCR 22 சர்வதேச மொழி பொதிகளை ஆதரிக்கிறது, மேலும் OCR செயல்பாட்டிற்கு பயன்படுத்தப்பட வேண்டிய ஒன்று அல்லது அதற்கு மேற்பட்ட பல மொழிகளைத் தேர்ந்தெடுக்க மொழி அமைப்பைப் பயன்படுத்தலாம்.
வியூகம் இரும்பு OCR இரண்டு உத்திகளை ஆதரிக்கிறது. ஒரு ஆவணத்தின் வேகமான மற்றும் குறைவான துல்லியமான ஸ்கேன் செய்ய நாங்கள் தேர்வு செய்யலாம் அல்லது ஒரு செயற்கை சொற்களை ஒருவருக்கொருவர் ஒரு உறவில் பார்ப்பதன் மூலம் OCR உரையின் துல்லியத்தை தானாக மேம்படுத்த சில செயற்கை நுண்ணறிவு மாதிரிகளைப் பயன்படுத்தும் ஒரு மேம்பட்ட மூலோபாயத்தைப் பயன்படுத்தலாம். .
கலர்ஸ்பேஸ் என்பது ஒரு அமைப்பாகும், இதன் மூலம் நாம் OCR ஐ கிரேஸ்கேல் அல்லது வண்ணத்தில் தேர்வு செய்யலாம். பொதுவாக, கிரேஸ்கேல் சிறந்த வழி. இருப்பினும், சில நேரங்களில் ஒத்த சாயல் ஆனால் மிகவும் மாறுபட்ட நிறத்தின் உரைகள் அல்லது பின்னணிகள் இருக்கும்போது, ஒரு முழு வண்ண வண்ண இடம் சிறந்த முடிவுகளை வழங்கும்.
DetectWhiteTextOnDarkBackgrounds. பொதுவாக, அனைத்து OCR நூலகங்களும் வெள்ளை பின்னணியில் கருப்பு உரையைக் காண எதிர்பார்க்கின்றன. இந்த அமைப்பு இரும்பு OCR ஐ தானாகவே எதிர்மறைகளைக் கண்டறிய அல்லது வெள்ளை உரையுடன் இருண்ட பக்கங்களைக் கண்டறிந்து அவற்றைப் படிக்க அனுமதிக்கிறது.
InputImageType. இந்த அமைப்பு டெவலப்பருக்கு OCR நூலகத்தை ஒரு முழு ஆவணமா அல்லது ஸ்கிரீன் ஷாட் போன்ற ஒரு துணுக்கைப் பார்க்கிறதா என்று வழிகாட்ட அனுமதிக்கிறது.
RotateAndStraighten என்பது ஒரு மேம்பட்ட அமைப்பாகும், இது இரும்பு OCR ஐ சுழற்றுவதோடு மட்டுமல்லாமல், உரை ஆவணங்களின் புகைப்படங்கள் போன்ற முன்னோக்கையும் கொண்டிருக்கும் ஆவணங்களைப் படிக்க தனித்துவமான திறனை அனுமதிக்கிறது.
ReadBarcodes என்பது ஒரு பயனுள்ள அம்சமாகும், இது இரும்பு OCR பக்கங்களில் பார்கோடுகள் மற்றும் QR குறியீடுகளை தானாகவே படிக்க அனுமதிக்கிறது, இது உரையை வாசிப்பதால், கூடுதல் கூடுதல் நேர சுமையைச் சேர்க்காமல்.
கலர் டெப்த். ஒரு வண்ணத்தின் ஆழத்தை தீர்மானிக்க OCR நூலகம் ஒரு பிக்சலுக்கு எத்தனை பிட்கள் பயன்படுத்தும் என்பதை இந்த அமைப்பு தீர்மானிக்கிறது. அதிக வண்ண ஆழம் OCR தரத்தை அதிகரிக்கக்கூடும், ஆனால் OCR செயல்பாட்டை முடிக்க தேவையான நேரத்தையும் அதிகரிக்கும்.
126 மொழிப் பொதிகள்
இரும்பு ஓ.சி.ஆர் 126 சர்வதேச மொழிகளை மொழி பொதிகள் வழியாக ஆதரிக்கிறது, அவை டி.எல்.எல் ஆக விநியோகிக்கப்படுகின்றன, அவற்றை இந்த வலைத்தளத்திலிருந்து பதிவிறக்கம் செய்யலாம் அல்லது நுஜெட் தொகுப்பு மேலாளரிடமிருந்தும் பதிவிறக்கம் செய்யலாம் .
மொழிகளில் ஜெர்மன், பிரஞ்சு, ஆங்கிலம், சீன, ஜப்பானிய மற்றும் பல உள்ளன. பாஸ்போர்ட் எம்.ஆர்.இசட், எம்.ஐ.சி.ஆர் காசோலைகள், நிதி தரவு, உரிமத் தகடுகள் மற்றும் பலவற்றிற்கான சிறப்பு மொழிப் பொதிகள் உள்ளன. நீங்கள் உருவாக்கும் எந்தவொரு டெசராக்ட் ".traineddata" கோப்பையும் பயன்படுத்தலாம்.
மொழி எடுத்துக்காட்டு
பிற OCR மொழிகளைப் பயன்படுத்துதல்.
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// தேவைப்பட்டால் பட வடிப்பான்களைச் சேர்க்கவும்
// இந்த விஷயத்தில், சிந்தனை உள்ளீடு கூட மிகக் குறைந்த தரம் கொண்டது
// வழக்கமான டெசராக்டால் முடியாததை அயர்ன் டெசராக்ட் படிக்க முடியும்.
var Result = Ocr.Read(input);
// விண்டோஸில் கன்சோல் அரபியை எளிதில் அச்சிட முடியாது.
// அதற்கு பதிலாக வட்டில் சேமிப்போம்.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// தேவைப்பட்டால் பட வடிப்பான்களைச் சேர்க்கவும்
// இந்த விஷயத்தில், சிந்தனை உள்ளீடு கூட மிகக் குறைந்த தரம் கொண்டது
// வழக்கமான டெசராக்டால் முடியாததை அயர்ன் டெசராக்ட் படிக்க முடியும்.
var Result = Ocr.Read(input);
// விண்டோஸில் கன்சோல் அரபியை எளிதில் அச்சிட முடியாது.
// அதற்கு பதிலாக வட்டில் சேமிப்போம்.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic
Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' தேவைப்பட்டால் பட வடிப்பான்களைச் சேர்க்கவும்
' இந்த விஷயத்தில், சிந்தனை உள்ளீடு கூட மிகக் குறைந்த தரம் கொண்டது
' வழக்கமான டெசராக்டால் முடியாததை அயர்ன் டெசராக்ட் படிக்க முடியும்.
Dim Result = Ocr.Read(input)
' விண்டோஸில் கன்சோல் அரபியை எளிதில் அச்சிட முடியாது.
' அதற்கு பதிலாக வட்டில் சேமிப்போம்.
Result.SaveAsTextFile("arabic.txt")
End Using
பல மொழி எடுத்துக்காட்டு
ஒரே நேரத்தில் பல மொழிகளைப் பயன்படுத்தி OCR க்கும் இது சாத்தியமாகும். யூனிகோட் ஆவணங்களில் ஆங்கில மொழி மெட்டாடேட்டா மற்றும் URL களைப் பெற இது உண்மையில் உதவும்.
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Tamil);
// நாம் எத்தனை மொழிகளையும் சேர்க்கலாம்
using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Tamil);
// நாம் எத்தனை மொழிகளையும் சேர்க்கலாம்
using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Tamil)
' நாம் எத்தனை மொழிகளையும் சேர்க்கலாம்
Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
விரிவான OCR முடிவுகள் பொருள்கள்
இரும்பு OCR ஒவ்வொரு OCR செயல்பாட்டிற்கும் ஒரு OCR முடிவு பொருளை வழங்குகிறது. பொதுவாக, டெவலப்பர்கள் இந்த பொருளின் உரை சொத்தை மட்டுமே படத்திலிருந்து ஸ்கேன் செய்ய பயன்படுத்துகிறார்கள். இருப்பினும், OCR முடிவுகள் DOM இதை விட மிகவும் மேம்பட்டது.
using IronOcr;
using System.Drawing; //சட்டசபை குறிப்பைச் சேர்க்கவும்
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!முக்கியமான
using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// மிகப்பெரிய, விரிவான API ஐக் கண்டுபிடிக்க இங்கே ஆராயுங்கள்:
// - பக்கங்கள், தொகுதிகள், பொழிப்புரைகள், கோடுகள், சொற்கள், எழுத்துக்கள்
// - பட ஏற்றுமதி, எழுத்துரு ஒருங்கிணைப்புகள், புள்ளிவிவர தரவு
}
using IronOcr;
using System.Drawing; //சட்டசபை குறிப்பைச் சேர்க்கவும்
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!முக்கியமான
using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// மிகப்பெரிய, விரிவான API ஐக் கண்டுபிடிக்க இங்கே ஆராயுங்கள்:
// - பக்கங்கள், தொகுதிகள், பொழிப்புரைகள், கோடுகள், சொற்கள், எழுத்துக்கள்
// - பட ஏற்றுமதி, எழுத்துரு ஒருங்கிணைப்புகள், புள்ளிவிவர தரவு
}
Imports IronOcr
Imports System.Drawing 'சட்டசபை குறிப்பைச் சேர்க்கவும்
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tamil
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '!முக்கியமான
Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages (0).Words
Dim Barcodes = Result.Barcodes
' மிகப்பெரிய, விரிவான API ஐக் கண்டுபிடிக்க இங்கே ஆராயுங்கள்:
' - பக்கங்கள், தொகுதிகள், பொழிப்புரைகள், கோடுகள், சொற்கள், எழுத்துக்கள்
' - பட ஏற்றுமதி, எழுத்துரு ஒருங்கிணைப்புகள், புள்ளிவிவர தரவு
End Using
செயல்திறன்
செயல்திறன் இசைக்கு அல்லது உள்ளீட்டு படங்களை பெரிதும் மாற்ற வேண்டிய அவசியமின்றி இரும்பு ஓ.சி.ஆர் பெட்டியிலிருந்து செயல்படுகிறது.
வேகம் எரியும்: IronOcr.2020 + 10 மடங்கு வேகமானது மற்றும் முந்தைய உருவாக்கங்களை விட 250% குறைவான பிழைகள் செய்கிறது.
மேலும் அறிக
சி #, வி.பி., எஃப் # அல்லது வேறு எந்த நெட் மொழியிலும் ஓ.சி.ஆர் பற்றி மேலும் அறிய, தயவுசெய்து எங்கள் சமூக பயிற்சிகளைப் படியுங்கள் , இது இரும்பு ஓ.சி.ஆர் எவ்வாறு பயன்படுத்தப்படலாம் என்பதற்கான உண்மையான உலக எடுத்துக்காட்டுகளைத் தருகிறது, மேலும் சிறந்ததை எவ்வாறு பெறுவது என்பதற்கான நுணுக்கங்களைக் காட்டக்கூடும் இந்த நூலகம்.
நெட் டெவலப்பர்களுக்கான முழு பொருள் குறிப்பும் கிடைக்கிறது.