சி # மற்றும் .நெட்டில் தமிழ் ஓ.சி.ஆர்

இந்த ஆவணத்தின் பிற பதிப்புகள்:

IronOCR என்பது ஒரு சி # மென்பொருள் கூறு ஆகும். நெட் குறியீட்டாளர்கள் படங்கள் மற்றும் PDF ஆவணங்களிலிருந்து உரையை தமிழ் உட்பட 126 மொழியில் படிக்க அனுமதிக்கிறது.

இது டெசராக்டின் மேம்பட்ட முட்கரண்டி ஆகும், இது நெட் டெவலப்பர்களுக்காக பிரத்யேகமாக கட்டப்பட்டுள்ளது மற்றும் வேகம் மற்றும் துல்லியம் ஆகிய இரண்டிற்கும் மற்ற டெசராக்ட் இயந்திரங்களை தவறாமல் விஞ்சும்.

IronOcr.Languages.Tamil இன் உள்ளடக்கங்கள்

இந்த தொகுப்பில் .NET க்கான 102 OCR மொழிகள் உள்ளன:

  • தமிழ்
  • தமிழ்பெஸ்ட்
  • தமிழ்பாஸ்ட்
  • தமிழ் எழுத்துக்கள்
  • தமிழ் ஆல்பாபெட் பெஸ்ட்
  • தமிழ் ஆல்பாபெட்ஃபாஸ்ட்

பதிவிறக்க Tamil

தமிழ் மொழிப் பொதி [தமனித்]
* Download as ஜிப்
* Install with as
https://www.nuget.org/packages/IronOcr.Languages.Tamil/'> நுஜெட்

நிறுவல்

நாங்கள் செய்ய வேண்டியது முதலில் உங்கள் .NET திட்டத்தில் எங்கள் தமிழ் OCR தொகுப்பை நிறுவ வேண்டும்.

PM> Install-Package IronOCR.Languages.Tamil

குறியீடு எடுத்துக்காட்டு

இந்த சி # குறியீடு எடுத்துக்காட்டு ஒரு படம் அல்லது PDF ஆவணத்திலிருந்து தமிழ் உரையைப் படிக்கிறது.

//PM> Install-Package IronOcr.Languages.Tamil
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput(@"images\Tamil.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Tamil
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput(@"images\Tamil.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Tamil
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tamil
Using Input = New OcrInput("images\Tamil.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

IronOCR ஐ ஏன் தேர்வு செய்ய வேண்டும்?

இரும்பு ஓ.சி.ஆர் என்பது நிறுவ எளிதானது, முழுமையானது மற்றும் நன்கு ஆவணப்படுத்தப்பட்ட நெட் மென்பொருள் நூலகம்.

வெளிப்புற வலை சேவைகள், நடந்துகொண்டிருக்கும் கட்டணம் அல்லது இணையத்தில் ரகசிய ஆவணங்களை அனுப்பாமல் 99.8% + OCR துல்லியத்தை அடைய இரும்பு OCR ஐத் தேர்வுசெய்க.

சி # டெவலப்பர்கள் வெண்ணிலா டெசராக்டை விட இரும்பு ஓ.சி.ஆரை ஏன் தேர்வு செய்கிறார்கள்:

  • ஒற்றை டி.எல்.எல் அல்லது நுஜெட்டாக நிறுவவும்
  • பெட்டியின் வெளியே டெசராக்ட் 5, 4 மற்றும் 3 என்ஜின்கள் அடங்கும்.
  • துல்லியம் 99.8% வழக்கமான டெசராக்டை விட சிறப்பாக செயல்படுகிறது.
  • எரியும் வேகம் மற்றும் மல்டி த்ரெடிங்
  • எம்.வி.சி, வெப்ஆப், டெஸ்க்டாப், கன்சோல் & சர்வர் பயன்பாடு இணக்கமானது
  • வேலை செய்ய Exes அல்லது C ++ குறியீடு இல்லை
  • முழு PDF OCR ஆதரவு
  • OCR ஐ செய்ய கிட்டத்தட்ட எந்த படக் கோப்பு அல்லது PDF
  • முழு .நெட் கோர், ஸ்டாண்டர்ட் மற்றும் ஃபிரேம்வொர்க் ஆதரவு
  • விண்டோஸ், மேக், லினக்ஸ், அஸூர், டோக்கர், லாம்ப்டா, ஏ.டபிள்யூ.எஸ்
  • பார்கோடுகள் மற்றும் கியூஆர் குறியீடுகளைப் படிக்கவும்
  • XHTML ஆக OCR ஐ ஏற்றுமதி செய்க
  • தேடக்கூடிய PDF ஆவணங்களுக்கு OCR ஐ ஏற்றுமதி செய்க
  • மல்டித்ரெடிங் ஆதரவு
  • 126 சர்வதேச மொழிகள் அனைத்தும் நுஜெட் அல்லது ஓக்ராடா கோப்புகள் வழியாக நிர்வகிக்கப்படுகின்றன
  • படங்கள், ஒருங்கிணைப்புகள், புள்ளிவிவரங்கள் மற்றும் எழுத்துருக்களைப் பிரித்தெடுக்கவும். உரை மட்டுமல்ல.
  • வணிக மற்றும் தனியுரிம பயன்பாடுகளுக்குள் டெசராக்ட் ஓ.சி.ஆரை மறுபகிர்வு செய்ய பயன்படுத்தலாம்.

நிஜ உலக படங்கள் மற்றும் புகைப்படங்கள் போன்ற அபூரண ஆவணங்களுடன் அல்லது டிஜிட்டல் இரைச்சல் அல்லது குறைபாடுகளைக் கொண்ட குறைந்த தெளிவுத்திறனுடன் ஸ்கேன் செய்யும் போது இரும்பு OCR பிரகாசிக்கிறது.

நெட் இயங்குதளத்திற்கான பிற இலவச OCR நூலகங்கள் இந்த உண்மையான உலக பயன்பாட்டு நிகழ்வுகளில் அவ்வளவு சிறப்பாக செயல்படவில்லை. நெட் டெசராக்ட் API கள் மற்றும் வலை சேவைகள்.

டெசராக்ட் 5 உடன் OCR - சி # இல் குறியீட்டு முறையைத் தொடங்குங்கள்

கீழேயுள்ள குறியீடு மாதிரி C#அல்லது VB .NET ஐப் பயன்படுத்தி ஒரு படத்திலிருந்து உரையைப் படிப்பது எவ்வளவு எளிது என்பதைக் காட்டுகிறது.

ஒன்லைனர்

string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
VB   C#

கட்டமைக்கக்கூடிய ஹலோ உலகம்

// PM> Install-Package IronOCR.Languages.Tamil
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... நீங்கள் எத்தனை படங்களையும் சேர்க்கலாம்
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Tamil
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... நீங்கள் எத்தனை படங்களையும் சேர்க்கலாம்
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Tamil
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tamil
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

சி # PDF OCR

எந்தவொரு PDF ஆவணத்திலிருந்தும் உரையைப் பிரித்தெடுக்க இதே அணுகுமுறையைப் பயன்படுத்தலாம்.

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// OCR க்கு குறிப்பிட்ட PDF பக்க எண்களையும் நாம் தேர்ந்தெடுக்கலாம்

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// PDF இன் ஒவ்வொரு பக்கத்திற்கும் 1 பக்கம்
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// OCR க்கு குறிப்பிட்ட PDF பக்க எண்களையும் நாம் தேர்ந்தெடுக்கலாம்

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// PDF இன் ஒவ்வொரு பக்கத்திற்கும் 1 பக்கம்
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tamil
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' OCR க்கு குறிப்பிட்ட PDF பக்க எண்களையும் நாம் தேர்ந்தெடுக்கலாம்

Dim Result = Ocr.Read(input)

Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' PDF இன் ஒவ்வொரு பக்கத்திற்கும் 1 பக்கம்
End Using
VB   C#

மல்டிபேஜ் TIFF களுக்கான OCR

OCR படித்தல் பல பக்க ஆவணங்கள் உட்பட TIFF கோப்பு வடிவம். TIFF ஐ நேரடியாக தேடக்கூடிய உரையுடன் PDF கோப்பாக மாற்றலாம்.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tamil

Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

பார்கோடுகள் மற்றும் QR

இரும்பு OCR இன் ஒரு தனித்துவமான அம்சம், இது உரையை ஸ்கேன் செய்யும் போது ஆவணங்களிலிருந்து பார்கோடுகள் மற்றும் QR குறியீடுகளைப் படிக்க முடியும். OcrResult.OcrBarcode வகுப்பின் நிகழ்வுகள் டெவலப்பருக்கு ஒவ்வொரு ஸ்கேன் செய்யப்பட்ட பார்கோடு பற்றிய விரிவான தகவல்களையும் OcrResult.OcrBarcode .

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// வகை மற்றும் இருப்பிட பண்புகளும் அம்பலப்படுத்தப்படுகின்றன
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// வகை மற்றும் இருப்பிட பண்புகளும் அம்பலப்படுத்தப்படுகின்றன
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True

Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' வகை மற்றும் இருப்பிட பண்புகளும் அம்பலப்படுத்தப்படுகின்றன
Next Barcode
End Using
VB   C#

படங்களின் குறிப்பிட்ட பகுதிகளில் OCR

இரும்பு ஓ.சி.ஆரின் ஸ்கேனிங் மற்றும் வாசிப்பு முறைகள் அனைத்தும் ஒரு பக்கத்தின் எந்த பகுதியை அல்லது நாம் உரையை படிக்க விரும்புகிறோம் என்பதை சரியாக குறிப்பிடும் திறனை வழங்குகிறது. தரப்படுத்தப்பட்ட படிவங்களைப் பார்க்கும்போது இது மிகவும் பயனுள்ளதாக இருக்கும், மேலும் மோசமான நேரத்தை மிச்சப்படுத்தவும் செயல்திறனை மேம்படுத்தவும் முடியும்.

பயிர் பகுதிகளைப் பயன்படுத்த, நாங்கள் System.Drawing க்கு ஒரு கணினி குறிப்பைச் சேர்க்க வேண்டும், இதனால் System.Drawing.Rectangle object ஐப் பயன்படுத்தலாம்.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// பரிமாணங்கள் px இல் உள்ளன

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// பரிமாணங்கள் px இல் உள்ளன

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tamil

Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
	.X = 215,
	.Y = 1250,
	.Height = 280,
	.Width = 1335
}
' பரிமாணங்கள் px இல் உள்ளன

Input.Add("document.png", ContentArea)

Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

குறைந்த தர ஸ்கேன்களுக்கான OCR

இரும்பு OCR OcrInput வகுப்பு சாதாரண OcrInput படிக்க முடியாத ஸ்கேன்களை சரிசெய்ய முடியும்.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // டிஜிட்டல் சத்தம் மற்றும் மோசமான ஸ்கேனிங் ஆகியவற்றை சரிசெய்கிறது
Input.Deskew(); // சுழற்சி மற்றும் முன்னோக்கை சரிசெய்கிறது
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // டிஜிட்டல் சத்தம் மற்றும் மோசமான ஸ்கேனிங் ஆகியவற்றை சரிசெய்கிறது
Input.Deskew(); // சுழற்சி மற்றும் முன்னோக்கை சரிசெய்கிறது
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tamil

Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' டிஜிட்டல் சத்தம் மற்றும் மோசமான ஸ்கேனிங் ஆகியவற்றை சரிசெய்கிறது
Input.Deskew() ' சுழற்சி மற்றும் முன்னோக்கை சரிசெய்கிறது
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR முடிவுகளை தேடக்கூடிய PDF ஆக ஏற்றுமதி செய்க

நகலெடுக்கக்கூடிய உரை சரங்களுடன் PDF க்கு படம். தேடுபொறிகள் மற்றும் தரவுத்தளங்களால் குறியிடப்படலாம்.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tamil

Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")

Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

தேடக்கூடிய PDF மாற்றத்திற்கு TIFF

ஒரு TIFF ஆவணத்தை (அல்லது படக் கோப்புகளின் எந்தவொரு குழுவையும்) நேரடியாக தேடக்கூடிய PDF க்கு மாற்றவும், இது இன்ட்ராநெட், வலைத்தளம் மற்றும் Google தேடுபொறிகளால் குறியிடப்படலாம்.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tamil

Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

OCR முடிவுகளை HTML ஆக ஏற்றுமதி செய்க

OCR படம் XHTML மாற்றத்திற்கு.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tamil
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
VB   C#

OCR பட விரிவாக்க வடிப்பான்கள்

OCR செயல்திறனை மேம்படுத்த OcrInput பொருள்களுக்கான தனித்துவமான வடிப்பான்களை IronOCR வழங்குகிறது.

பட மேம்பாட்டுக் குறியீடு எடுத்துக்காட்டு

சிறந்த, வேகமான OCR முடிவுகளை உருவாக்க OCR உள்ளீட்டு படங்களை உயர் தரமாக்குகிறது.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // டிஜிட்டல் சத்தம் மற்றும் மோசமான ஸ்கேனிங் ஆகியவற்றை சரிசெய்கிறது
Input.Deskew(); // சுழற்சி மற்றும் முன்னோக்கை சரிசெய்கிறது
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // டிஜிட்டல் சத்தம் மற்றும் மோசமான ஸ்கேனிங் ஆகியவற்றை சரிசெய்கிறது
Input.Deskew(); // சுழற்சி மற்றும் முன்னோக்கை சரிசெய்கிறது
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tamil

Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' டிஜிட்டல் சத்தம் மற்றும் மோசமான ஸ்கேனிங் ஆகியவற்றை சரிசெய்கிறது
Input.Deskew() ' சுழற்சி மற்றும் முன்னோக்கை சரிசெய்கிறது
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR பட வடிப்பான்களின் பட்டியல்

இரும்பு ஓ.சி.ஆரில் கட்டமைக்கப்பட்ட OCR செயல்திறனை மேம்படுத்த உள்ளீட்டு வடிப்பான்கள் பின்வருமாறு:

  • OcrInput.Rotate (இரட்டை டிகிரி) - பல டிகிரி கடிகார திசையில் படங்களை சுழற்றுகிறது. எதிர்ப்பு கடிகார திசையில், எதிர்மறை எண்களைப் பயன்படுத்தவும்.
  • OcrInput.Binarize () - இந்த பட வடிப்பான் ஒவ்வொரு பிக்சலையும் கருப்பு அல்லது வெள்ளை நிறமாக மாற்றும். உரையின் பின்னணிக்கு மிகக் குறைந்த மாறுபாட்டின் OCR செயல்திறன் நிகழ்வுகளை மேம்படுத்தலாம்.
  • OcrInput.ToGrayScale () - இந்த பட வடிப்பான் ஒவ்வொரு பிக்சலையும் கிரேஸ்கேலின் நிழலாக மாற்றுகிறது . OCR துல்லியத்தை மேம்படுத்த வாய்ப்பில்லை, ஆனால் வேகத்தை மேம்படுத்தலாம்
  • OcrInput.Contrast () - மாறுபாட்டை தானாக அதிகரிக்கிறது. இந்த வடிப்பான் பெரும்பாலும் குறைந்த மாறுபாடு ஸ்கேன்களில் OCR வேகத்தையும் துல்லியத்தையும் மேம்படுத்துகிறது.
  • OcrInput.DeNoise () - டிஜிட்டல் சத்தத்தை நீக்குகிறது. சத்தம் எதிர்பார்க்கப்படும் இடத்தில் மட்டுமே இந்த வடிப்பான் பயன்படுத்தப்பட வேண்டும்.
  • OcrInput.Invert () - ஒவ்வொரு வண்ணத்தையும் தலைகீழாக மாற்றுகிறது. எ.கா வெள்ளை கருப்பு ஆகிறது: கருப்பு வெள்ளை ஆகிறது.
  • OcrInput.Dilate () - மேம்பட்ட உருவவியல். ஒரு படத்தில் உள்ள பொருட்களின் எல்லைகளுக்கு நீட்டிப்பு பிக்சல்களைச் சேர்க்கிறது. ஈரோட்டுக்கு எதிரே
  • OcrInput.Erode () - மேம்பட்ட உருவவியல். அரிப்பு பொருள் எல்லைகளில் பிக்சல்களை நீக்குகிறது
  • OcrInput.Deskew () - ஒரு படத்தை சுழற்றுகிறது, எனவே இது சரியான வழி மற்றும் ஆர்த்தோகனல் ஆகும். இது OCR க்கு மிகவும் பயனுள்ளதாக இருக்கும், ஏனெனில் வளைந்த ஸ்கேன்களுக்கான டெசராக்ட் சகிப்புத்தன்மை 5 டிகிரி வரை குறைவாக இருக்கும்.
  • OcrInput.DeepCleanBackgroundNoise () - கனமான பின்னணி இரைச்சல் நீக்கம். தீவிர ஆவண பின்னணி இரைச்சல் தெரிந்தால் மட்டுமே இந்த வடிப்பானைப் பயன்படுத்தவும், ஏனெனில் இந்த வடிப்பான் சுத்தமான ஆவணங்களின் OCR துல்லியத்தை குறைக்கும் அபாயத்தை ஏற்படுத்தும், மேலும் இது மிகவும் CPU விலை அதிகம்.
  • OcrInput.EnhanceResolution - குறைந்த தரமான படங்களின் தீர்மானத்தை மேம்படுத்துகிறது. இந்த வடிப்பான் பெரும்பாலும் தேவையில்லை, ஏனெனில் OcrInput.MinimumDPI மற்றும் OcrInput.TargetDPI தானாகவே குறைந்த தெளிவுத்திறன் உள்ளீடுகளைப் பிடித்து தீர்க்கும்.

CleanBackgroundNoise. இது ஓரளவு நேரம் எடுக்கும் ஒரு அமைப்பு; இருப்பினும், டிஜிட்டல் இரைச்சலுக்குள் டிஜிட்டல் இரைச்சல், காகித நொறுக்குதல்கள் மற்றும் பிற குறைபாடுகளை தானாகவே சுத்தம் செய்ய நூலகத்தை இது அனுமதிக்கிறது, இது மற்ற OCR நூலகங்களால் படிக்க இயலாது.

EnhanceContrast என்பது ஒரு அமைப்பாகும், இது இரும்பு OCR தானாக ஒரு படத்தின் பின்னணிக்கு எதிரான உரையின் மாறுபாட்டை அதிகரிக்கச் செய்கிறது, OCR இன் துல்லியத்தை அதிகரிக்கிறது மற்றும் பொதுவாக செயல்திறன் மற்றும் OCR இன் வேகத்தை அதிகரிக்கும்.

EnhanceResolution என்பது குறைந்த தெளிவுத்திறன் கொண்ட படங்களை (275 dpi க்குக் கீழ் உள்ளவை ) தானாகவே கண்டறிந்து தானாகவே படத்தை உயர்த்தி , பின்னர் அனைத்து உரையையும் கூர்மைப்படுத்தும், எனவே இது OCR நூலகத்தால் முழுமையாகப் படிக்க முடியும். இந்த செயல்பாடு தானாகவே நேரத்தை எடுத்துக்கொள்ளும் என்றாலும், இது பொதுவாக ஒரு படத்தில் OCR செயல்பாட்டிற்கான ஒட்டுமொத்த நேரத்தைக் குறைக்கிறது.

மொழி இரும்பு OCR 22 சர்வதேச மொழி பொதிகளை ஆதரிக்கிறது, மேலும் OCR செயல்பாட்டிற்கு பயன்படுத்தப்பட வேண்டிய ஒன்று அல்லது அதற்கு மேற்பட்ட பல மொழிகளைத் தேர்ந்தெடுக்க மொழி அமைப்பைப் பயன்படுத்தலாம்.

வியூகம் இரும்பு OCR இரண்டு உத்திகளை ஆதரிக்கிறது. ஒரு ஆவணத்தின் வேகமான மற்றும் குறைவான துல்லியமான ஸ்கேன் செய்ய நாங்கள் தேர்வு செய்யலாம் அல்லது ஒரு செயற்கை சொற்களை ஒருவருக்கொருவர் ஒரு உறவில் பார்ப்பதன் மூலம் OCR உரையின் துல்லியத்தை தானாக மேம்படுத்த சில செயற்கை நுண்ணறிவு மாதிரிகளைப் பயன்படுத்தும் ஒரு மேம்பட்ட மூலோபாயத்தைப் பயன்படுத்தலாம். .

கலர்ஸ்பேஸ் என்பது ஒரு அமைப்பாகும், இதன் மூலம் நாம் OCR ஐ கிரேஸ்கேல் அல்லது வண்ணத்தில் தேர்வு செய்யலாம். பொதுவாக, கிரேஸ்கேல் சிறந்த வழி. இருப்பினும், சில நேரங்களில் ஒத்த சாயல் ஆனால் மிகவும் மாறுபட்ட நிறத்தின் உரைகள் அல்லது பின்னணிகள் இருக்கும்போது, ஒரு முழு வண்ண வண்ண இடம் சிறந்த முடிவுகளை வழங்கும்.

DetectWhiteTextOnDarkBackgrounds. பொதுவாக, அனைத்து OCR நூலகங்களும் வெள்ளை பின்னணியில் கருப்பு உரையைக் காண எதிர்பார்க்கின்றன. இந்த அமைப்பு இரும்பு OCR ஐ தானாகவே எதிர்மறைகளைக் கண்டறிய அல்லது வெள்ளை உரையுடன் இருண்ட பக்கங்களைக் கண்டறிந்து அவற்றைப் படிக்க அனுமதிக்கிறது.

InputImageType. இந்த அமைப்பு டெவலப்பருக்கு OCR நூலகத்தை ஒரு முழு ஆவணமா அல்லது ஸ்கிரீன் ஷாட் போன்ற ஒரு துணுக்கைப் பார்க்கிறதா என்று வழிகாட்ட அனுமதிக்கிறது.

RotateAndStraighten என்பது ஒரு மேம்பட்ட அமைப்பாகும், இது இரும்பு OCR ஐ சுழற்றுவதோடு மட்டுமல்லாமல், உரை ஆவணங்களின் புகைப்படங்கள் போன்ற முன்னோக்கையும் கொண்டிருக்கும் ஆவணங்களைப் படிக்க தனித்துவமான திறனை அனுமதிக்கிறது.

ReadBarcodes என்பது ஒரு பயனுள்ள அம்சமாகும், இது இரும்பு OCR பக்கங்களில் பார்கோடுகள் மற்றும் QR குறியீடுகளை தானாகவே படிக்க அனுமதிக்கிறது, இது உரையை வாசிப்பதால், கூடுதல் கூடுதல் நேர சுமையைச் சேர்க்காமல்.

கலர் டெப்த். ஒரு வண்ணத்தின் ஆழத்தை தீர்மானிக்க OCR நூலகம் ஒரு பிக்சலுக்கு எத்தனை பிட்கள் பயன்படுத்தும் என்பதை இந்த அமைப்பு தீர்மானிக்கிறது. அதிக வண்ண ஆழம் OCR தரத்தை அதிகரிக்கக்கூடும், ஆனால் OCR செயல்பாட்டை முடிக்க தேவையான நேரத்தையும் அதிகரிக்கும்.

126 மொழிப் பொதிகள்

இரும்பு ஓ.சி.ஆர் 126 சர்வதேச மொழிகளை மொழி பொதிகள் வழியாக ஆதரிக்கிறது, அவை டி.எல்.எல் ஆக விநியோகிக்கப்படுகின்றன, அவற்றை இந்த வலைத்தளத்திலிருந்து பதிவிறக்கம் செய்யலாம் அல்லது நுஜெட் தொகுப்பு மேலாளரிடமிருந்தும் பதிவிறக்கம் செய்யலாம் .

மொழிகளில் ஜெர்மன், பிரஞ்சு, ஆங்கிலம், சீன, ஜப்பானிய மற்றும் பல உள்ளன. பாஸ்போர்ட் எம்.ஆர்.இசட், எம்.ஐ.சி.ஆர் காசோலைகள், நிதி தரவு, உரிமத் தகடுகள் மற்றும் பலவற்றிற்கான சிறப்பு மொழிப் பொதிகள் உள்ளன. நீங்கள் உருவாக்கும் எந்தவொரு டெசராக்ட் ".traineddata" கோப்பையும் பயன்படுத்தலாம்.

மொழி எடுத்துக்காட்டு

பிற OCR மொழிகளைப் பயன்படுத்துதல்.

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// தேவைப்பட்டால் பட வடிப்பான்களைச் சேர்க்கவும்
// இந்த விஷயத்தில், சிந்தனை உள்ளீடு கூட மிகக் குறைந்த தரம் கொண்டது
// வழக்கமான டெசராக்டால் முடியாததை அயர்ன் டெசராக்ட் படிக்க முடியும்.

var Result = Ocr.Read(input);

// விண்டோஸில் கன்சோல் அரபியை எளிதில் அச்சிட முடியாது.
// அதற்கு பதிலாக வட்டில் சேமிப்போம்.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// தேவைப்பட்டால் பட வடிப்பான்களைச் சேர்க்கவும்
// இந்த விஷயத்தில், சிந்தனை உள்ளீடு கூட மிகக் குறைந்த தரம் கொண்டது
// வழக்கமான டெசராக்டால் முடியாததை அயர்ன் டெசராக்ட் படிக்க முடியும்.

var Result = Ocr.Read(input);

// விண்டோஸில் கன்சோல் அரபியை எளிதில் அச்சிட முடியாது.
// அதற்கு பதிலாக வட்டில் சேமிப்போம்.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' தேவைப்பட்டால் பட வடிப்பான்களைச் சேர்க்கவும்
' இந்த விஷயத்தில், சிந்தனை உள்ளீடு கூட மிகக் குறைந்த தரம் கொண்டது
' வழக்கமான டெசராக்டால் முடியாததை அயர்ன் டெசராக்ட் படிக்க முடியும்.

Dim Result = Ocr.Read(input)

' விண்டோஸில் கன்சோல் அரபியை எளிதில் அச்சிட முடியாது.
' அதற்கு பதிலாக வட்டில் சேமிப்போம்.
Result.SaveAsTextFile("arabic.txt")
End Using
VB   C#

பல மொழி எடுத்துக்காட்டு

ஒரே நேரத்தில் பல மொழிகளைப் பயன்படுத்தி OCR க்கும் இது சாத்தியமாகும். யூனிகோட் ஆவணங்களில் ஆங்கில மொழி மெட்டாடேட்டா மற்றும் URL களைப் பெற இது உண்மையில் உதவும்.

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Tamil);

// நாம் எத்தனை மொழிகளையும் சேர்க்கலாம்

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Tamil);

// நாம் எத்தனை மொழிகளையும் சேர்க்கலாம்

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Tamil)

' நாம் எத்தனை மொழிகளையும் சேர்க்கலாம்

Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
VB   C#

விரிவான OCR முடிவுகள் பொருள்கள்

இரும்பு OCR ஒவ்வொரு OCR செயல்பாட்டிற்கும் ஒரு OCR முடிவு பொருளை வழங்குகிறது. பொதுவாக, டெவலப்பர்கள் இந்த பொருளின் உரை சொத்தை மட்டுமே படத்திலிருந்து ஸ்கேன் செய்ய பயன்படுத்துகிறார்கள். இருப்பினும், OCR முடிவுகள் DOM இதை விட மிகவும் மேம்பட்டது.

using IronOcr;
using System.Drawing; //சட்டசபை குறிப்பைச் சேர்க்கவும்

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!முக்கியமான

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// மிகப்பெரிய, விரிவான API ஐக் கண்டுபிடிக்க இங்கே ஆராயுங்கள்:
// - பக்கங்கள், தொகுதிகள், பொழிப்புரைகள், கோடுகள், சொற்கள், எழுத்துக்கள்
// - பட ஏற்றுமதி, எழுத்துரு ஒருங்கிணைப்புகள், புள்ளிவிவர தரவு
}
using IronOcr;
using System.Drawing; //சட்டசபை குறிப்பைச் சேர்க்கவும்

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Tamil;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!முக்கியமான

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// மிகப்பெரிய, விரிவான API ஐக் கண்டுபிடிக்க இங்கே ஆராயுங்கள்:
// - பக்கங்கள், தொகுதிகள், பொழிப்புரைகள், கோடுகள், சொற்கள், எழுத்துக்கள்
// - பட ஏற்றுமதி, எழுத்துரு ஒருங்கிணைப்புகள், புள்ளிவிவர தரவு
}
Imports IronOcr
Imports System.Drawing 'சட்டசபை குறிப்பைச் சேர்க்கவும்

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Tamil
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '!முக்கியமான

Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages(0).Words
Dim Barcodes = Result.Barcodes
' மிகப்பெரிய, விரிவான API ஐக் கண்டுபிடிக்க இங்கே ஆராயுங்கள்:
' - பக்கங்கள், தொகுதிகள், பொழிப்புரைகள், கோடுகள், சொற்கள், எழுத்துக்கள்
' - பட ஏற்றுமதி, எழுத்துரு ஒருங்கிணைப்புகள், புள்ளிவிவர தரவு
End Using
VB   C#

செயல்திறன்

செயல்திறன் இசைக்கு அல்லது உள்ளீட்டு படங்களை பெரிதும் மாற்ற வேண்டிய அவசியமின்றி இரும்பு ஓ.சி.ஆர் பெட்டியிலிருந்து செயல்படுகிறது.

வேகம் எரியும்: IronOcr.2020 + 10 மடங்கு வேகமானது மற்றும் முந்தைய உருவாக்கங்களை விட 250% குறைவான பிழைகள் செய்கிறது.

மேலும் அறிக

சி #, வி.பி., எஃப் # அல்லது வேறு எந்த நெட் மொழியிலும் ஓ.சி.ஆர் பற்றி மேலும் அறிய, தயவுசெய்து எங்கள் சமூக பயிற்சிகளைப் படியுங்கள் , இது இரும்பு ஓ.சி.ஆர் எவ்வாறு பயன்படுத்தப்படலாம் என்பதற்கான உண்மையான உலக எடுத்துக்காட்டுகளைத் தருகிறது, மேலும் சிறந்ததை எவ்வாறு பெறுவது என்பதற்கான நுணுக்கங்களைக் காட்டக்கூடும் இந்த நூலகம்.

நெட் டெவலப்பர்களுக்கான முழு பொருள் குறிப்பும் கிடைக்கிறது.