Lao OCR ໃນ C#ແລະ .net

ສະບັບອື່ນໆຂອງເອກະສານນີ້:

IronOCR ແມ່ນສ່ວນປະກອບຂອງຊອບແວ C#ທີ່ອະນຸຍາດໃຫ້ .NET coders ສາມາດອ່ານຂໍ້ຄວາມຈາກຮູບພາບແລະເອກະສານ PDF ເປັນ 126 ພາສາ, ລວມທັງພາສາລາວ.

ມັນແມ່ນຄວາມຍາວຂອງສ້ອມທີ່ກ້າວ ໜ້າ ຂອງ Tesseract, ສ້າງສະເພາະ ສຳ ລັບນັກພັດທະນາ. ສຸດທິແລະເປັນເຄື່ອງຈັກ Tesseract ອື່ນໆທີ່ກ້າວ ໜ້າ ຂື້ນເລື້ອຍໆ ສຳ ລັບທັງຄວາມໄວແລະຄວາມຖືກຕ້ອງ.

ເນື້ອໃນຂອງ IronOcr.Languages.Lao

ຊຸດນີ້ມີ 90 ພາສາ OCR ສຳ ລັບ .NET:

  • ລາວ
  • LaoBest
  • LaoFast
  • LaoAlphabet
  • LaoAlphabetBest
  • LaoAlphabetFast

ດາວໂຫລດ

ຊຸດ ພາສາລາວ [ພາສາລາວ]
* Download as ຫັດໄປສະນີ
* Install with as
https://www.nuget.org/packages/IronOcr.Languages.Lao/'> NuGet

ການຕິດຕັ້ງ

ສິ່ງ ທຳ ອິດທີ່ພວກເຮົາຕ້ອງເຮັດແມ່ນຕິດຕັ້ງຊຸດ OCR Lao ຂອງພວກເຮົາເຂົ້າໃນໂຄງການ. ສຸດທິຂອງທ່ານ.

PM> Install-Package IronOCR.Languages.Lao

ຕົວຢ່າງລະຫັດ

ຕົວຢ່າງລະຫັດ C#ນີ້ອ່ານຕົວ ໜັງ ສືລາວຈາກເອກະສານ Image ຫຼື PDF.

//PM> Install-Package IronOcr.Languages.Lao
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Lao;
using (var Input = new OcrInput(@"images\Lao.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Lao
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Lao;
using (var Input = new OcrInput(@"images\Lao.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Lao
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Lao
Using Input = New OcrInput("images\Lao.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

ເປັນຫຍັງເລືອກ IronOCR?

Iron OCR ແມ່ນຫ້ອງສະຫມຸດຊອບແວທີ່ງ່າຍຕໍ່ການຕິດຕັ້ງ, ຄົບຖ້ວນແລະມີເອກະສານທີ່ດີ.

ເລືອກ IronOCR ເພື່ອບັນລຸ ຄວາມຖືກຕ້ອງ 99,8% + OCR ໂດຍບໍ່ຕ້ອງໃຊ້ບໍລິການເວັບນອກ, ຄ່າ ທຳ ນຽມຕໍ່ເນື່ອງຫຼືສົ່ງເອກະສານທີ່ເປັນຄວາມລັບຜ່ານອິນເຕີເນັດ.

ເປັນຫຍັງນັກພັດທະນາ C#ເລືອກ IronOCR ໃນໄລຍະ Vanilla Tesseract:

  • ຕິດຕັ້ງເປັນ DLL ຫຼື Nuget ດຽວ
  • ປະກອບມີ ສຳ ລັບເຄື່ອງຈັກໃນການຂົນສົ່ງເຄື່ອງຈັກ Tesseract 5, 4 ແລະ 3 ອອກຈາກຫ້ອງດັ່ງກ່າວ.
  • ຄວາມຖືກຕ້ອງ 99,8% ຫຼາຍກ່ວາຜົນໄດ້ຮັບທີ່ແທ້ຈິງ Tesseract.
  • ຄວາມໄວ Blazing ແລະ MultiThreading
  • MVC, WebApp, Desktop, Console & Server Application ເຂົ້າກັນໄດ້
  • ບໍ່ມີລະຫັດ Exes ຫຼື C ++ ເພື່ອເຮັດວຽກກັບ
  • ສະຫນັບສະຫນູນ PDF OCR ເຕັມຮູບແບບ
  • ເພື່ອປະຕິບັດ OCR ເກືອບທຸກເອກະສານຮູບພາບຫຼື PDF
  • ເຕັມ .net Core, ມາດຕະຖານແລະ FrameWork ສະຫນັບສະຫນູນ
  • ໃຊ້ງານເທິງ Windows, Mac, Linux, Azure, Docker, Lambda, AWS
  • ອ່ານລະຫັດບາໂຄດແລະ QR
  • ສົ່ງອອກ OCR ເປັນ XHTML
  • ສົ່ງອອກ OCR ເພື່ອຊອກຫາເອກະສານ PDF
  • ສະຫນັບສະຫນູນ Multithreading
  • 126 ພາສາສາກົນທີ່ຄຸ້ມຄອງໂດຍຜ່ານໄຟລ໌ Nuget ຫຼື OcrData
  • ສະກັດຮູບພາບ, ການປະສານງານ, ສະຖິຕິແລະຕົວອັກສອນ. ບໍ່ພຽງແຕ່ຂໍ້ຄວາມເທົ່ານັ້ນ.
  • ສາມາດຖືກ ນຳ ໃຊ້ເພື່ອແຈກຈ່າຍ Tesseract OCR ພາຍໃນ ຄຳ ຮ້ອງສະຫມັກດ້ານການຄ້າແລະເປັນເຈົ້າຂອງ.

ທາດເຫຼັກ OCR ເຫລື້ອມເມື່ອເຮັດວຽກກັບຮູບພາບຂອງໂລກແທ້ແລະເອກະສານທີ່ບໍ່ສົມບູນແບບເຊັ່ນ: ຮູບຖ່າຍ, ຫລືສະແກນຄວາມລະອຽດຕ່ ຳ ເຊິ່ງອາດຈະມີສຽງດັງຫລືບໍ່ສົມບູນແບບ.

ຫ້ອງສະຫມຸດ OCR ອື່ນໆທີ່ ບໍ່ເສຍຄ່າ ສຳ ລັບແພລະຕະຟອມສຸດທິ .NET ແລະການບໍລິການເວັບໄຊຕ໌ອື່ນໆ.

OCR ກັບ Tesseract 5 - ເລີ່ມຕົ້ນລະຫັດໃນ C #

ຕົວຢ່າງລະຫັດຂ້າງລຸ່ມນີ້ສະແດງໃຫ້ເຫັນວ່າມັນງ່າຍທີ່ຈະອ່ານຂໍ້ຄວາມຈາກຮູບໃດ ໜຶ່ງ ໂດຍໃຊ້ C#ຫຼື VB .NET.

OneLiner

string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
VB   C#

ຕັ້ງຄ່າສະບາຍດີໂລກ

// PM> Install-Package IronOCR.Languages.Lao
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Lao;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... ທ່ານສາມາດເພີ່ມ ຈຳ ນວນຮູບພາບໃດໆ
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Lao
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Lao;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... ທ່ານສາມາດເພີ່ມ ຈຳ ນວນຮູບພາບໃດໆ
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Lao
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Lao
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

C#PDF OCR

ວິທີການແບບດຽວກັນນີ້ສາມາດຖືກ ນຳ ໃຊ້ເພື່ອສະກັດຂໍ້ຄວາມຈາກເອກະສານ PDF ໃດໆ.

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Lao;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// ພວກເຮົາຍັງສາມາດເລືອກ ໝາຍ ເລກ ໜ້າ PDF ທີ່ແນ່ນອນໃຫ້ OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 ໜ້າ ສຳ ລັບທຸກໆ ໜ້າ ຂອງ PDF
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Lao;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// ພວກເຮົາຍັງສາມາດເລືອກ ໝາຍ ເລກ ໜ້າ PDF ທີ່ແນ່ນອນໃຫ້ OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 ໜ້າ ສຳ ລັບທຸກໆ ໜ້າ ຂອງ PDF
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Lao
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' ພວກເຮົາຍັງສາມາດເລືອກ ໝາຍ ເລກ ໜ້າ PDF ທີ່ແນ່ນອນໃຫ້ OCR

Dim Result = Ocr.Read(input)

Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' 1 ໜ້າ ສຳ ລັບທຸກໆ ໜ້າ ຂອງ PDF
End Using
VB   C#

OCR ສຳ ລັບ MultiPage TIFFs

OCR ອ່ານ TIFF ຮູບແບບເອກະສານລວມທັງເອກະສານຫຼາຍ ໜ້າ. TIFF ຍັງສາມາດປ່ຽນເປັນເອກະສານ PDF ໂດຍກົງດ້ວຍຂໍ້ຄວາມທີ່ສາມາດຄົ້ນຫາໄດ້.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Lao;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Lao;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Lao

Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

ລະຫັດບາໂຄດແລະ QR

ຄຸນລັກສະນະທີ່ເປັນເອກະລັກຂອງ Iron OCR ແມ່ນມັນສາມາດອ່ານລະຫັດແລະລະຫັດ QR ຈາກເອກະສານໃນຂະນະທີ່ມັນ ກຳ ລັງສະແກນຫາຕົວ ໜັງ ສື. ຕົວຢ່າງຂອງ OcrResult.OcrBarcode Class ໃຫ້ຂໍ້ມູນລະອຽດແກ່ນັກພັດທະນາກ່ຽວກັບແຕ່ລະ OcrResult.OcrBarcode ສະແກນ.

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// ປະເພດແລະຄຸນສົມບັດຂອງສະຖານທີ່ໄດ້ຮັບ
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// ປະເພດແລະຄຸນສົມບັດຂອງສະຖານທີ່ໄດ້ຮັບ
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True

Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' ປະເພດແລະຄຸນສົມບັດຂອງສະຖານທີ່ໄດ້ຮັບ
Next Barcode
End Using
VB   C#

OCR ກ່ຽວກັບພື້ນທີ່ສະເພາະຂອງຮູບພາບ

ທຸກໆວິທີການສະແກນແລະອ່ານຂອງ Iron OCR ໃຫ້ຄວາມສາມາດລະບຸຢ່າງແນ່ນອນວ່າພາກໃດຂອງ ໜ້າ ເວັບຫລື ໜ້າ ເວັບທີ່ພວກເຮົາຕ້ອງການອ່ານຂໍ້ຄວາມຈາກ. ນີ້ແມ່ນສິ່ງທີ່ມີປະໂຫຍດຫຼາຍເມື່ອພວກເຮົາ ກຳ ລັງຊອກຫາຮູບແບບທີ່ໄດ້ມາດຕະຖານແລະສາມາດປະຫຍັດເວລາແລະເຮັດໃຫ້ປະສິດຕິພາບດີຂື້ນ.

ເພື່ອໃຊ້ພື້ນທີ່ປູກພືດ, ພວກເຮົາຈະຕ້ອງເພີ່ມເອກະສານອ້າງອີງລະບົບເຂົ້າໃນ System.Drawing ເພື່ອໃຫ້ພວກເຮົາສາມາດ ນຳ ໃຊ້ວັດຖຸ System.Drawing.Rectangle .

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Lao;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// ຂະ ໜາດ ແມ່ນຢູ່ໃນ px

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Lao;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// ຂະ ໜາດ ແມ່ນຢູ່ໃນ px

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Lao

Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
	.X = 215,
	.Y = 1250,
	.Height = 280,
	.Width = 1335
}
' ຂະ ໜາດ ແມ່ນຢູ່ໃນ px

Input.Add("document.png", ContentArea)

Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR ສຳ ລັບການສະແກນຄຸນນະພາບຕ່ ຳ

ຫ້ອງຮຽນ Iron OCR OcrInput ສາມາດແກ້ໄຂການສະແກນທີ່ Tesseract ປົກກະຕິບໍ່ສາມາດອ່ານໄດ້.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Lao;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // ແກ້ໄຂສິ່ງລົບກວນດີຈີຕອນແລະການສະແກນບໍ່ດີ
Input.Deskew(); // ແກ້ໄຂການ ໝູນ ວຽນແລະທັດສະນະ
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Lao;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // ແກ້ໄຂສິ່ງລົບກວນດີຈີຕອນແລະການສະແກນບໍ່ດີ
Input.Deskew(); // ແກ້ໄຂການ ໝູນ ວຽນແລະທັດສະນະ
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Lao

Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' ແກ້ໄຂສິ່ງລົບກວນດີຈີຕອນແລະການສະແກນບໍ່ດີ
Input.Deskew() ' ແກ້ໄຂການ ໝູນ ວຽນແລະທັດສະນະ
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

ສົ່ງອອກຜົນ OCR ເປັນ PDF ທີ່ສາມາດຄົ້ນຫາໄດ້

ຮູບພາບເຖິງ PDF ດ້ວຍບັນດາຂໍ້ຄວາມທີ່ສາມາດຄັດລອກໄດ້. ສາມາດຖືກດັດສະນີໂດຍເຄື່ອງຈັກຊອກຫາແລະຖານຂໍ້ມູນ.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Lao;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Lao;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Lao

Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")

Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

TIFF ເພື່ອການຊອກຫາການປ່ຽນໃຈເຫລື້ອມໃສ PDF

COnvert ເອກະສານ TIFF (ຫຼືກຸ່ມຂອງເອກະສານຮູບພາບໃດ ໜຶ່ງ) ໂດຍກົງກັບເອກະສານ PDF ທີ່ສາມາດຄົ້ນຫາເຊິ່ງສາມາດຖືກດັດສະນີໂດຍອິນທະເນັດ, ເວັບໄຊທ໌ແລະເຄື່ອງຈັກຊອກຫາ google.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Lao;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Lao;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Lao

Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

ສົ່ງອອກຜົນ OCR ເປັນ HTML

ຮູບພາບ OCR ກັບ XHTML ປ່ຽນໃຈເຫລື້ອມໃສ.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Lao;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Lao;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Lao
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
VB   C#

ການກັ່ນຕອງການປັບປຸງຮູບພາບ OCR

IronOCR ໃຫ້ຕົວກອງທີ່ເປັນເອກະລັກ ສຳ ລັບວັດຖຸ OcrInput ເພື່ອປັບປຸງການເຮັດວຽກຂອງ OCR.

ຕົວຢ່າງລະຫັດເສີມສ້າງຮູບພາບ

ເຮັດໃຫ້ OCR ປະກອບຮູບພາບທີ່ມີຄຸນນະພາບສູງຂື້ນເພື່ອໃຫ້ຜົນໄດ້ຮັບທີ່ດີກວ່າແລະໄວກວ່າ OCR.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Lao;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // ແກ້ໄຂສິ່ງລົບກວນດີຈີຕອນແລະການສະແກນບໍ່ດີ
Input.Deskew(); // ແກ້ໄຂການ ໝູນ ວຽນແລະທັດສະນະ
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Lao;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // ແກ້ໄຂສິ່ງລົບກວນດີຈີຕອນແລະການສະແກນບໍ່ດີ
Input.Deskew(); // ແກ້ໄຂການ ໝູນ ວຽນແລະທັດສະນະ
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Lao

Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' ແກ້ໄຂສິ່ງລົບກວນດີຈີຕອນແລະການສະແກນບໍ່ດີ
Input.Deskew() ' ແກ້ໄຂການ ໝູນ ວຽນແລະທັດສະນະ
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

ລາຍຊື່ເຄື່ອງກັ່ນຕອງຮູບພາບ OCR

ການກັ່ນຕອງຂາເຂົ້າເພື່ອເພີ່ມປະສິດທິພາບ OCR ທີ່ຖືກສ້າງຂຶ້ນໃນ IronOCR ລວມມີ:

  • OcrInput.Rotate (ສອງອົງສາ) - ໝຸນ ຮູບພາບຕາມ ຈຳ ນວນຂອງອົງສາຕາມເຂັມໂມງ. ສຳ ລັບຕ້ານໂມງເຂັມໂມງ, ໃຊ້ເລກລົບ.
  • OcrInput.Binarize () - ຕົວກອງຮູບພາບນີ້ປ່ຽນທຸກສີແດງຫລືສີຂາວແລະບໍ່ມີພື້ນ. ອາດຈະປັບປຸງກໍລະນີການປະຕິບັດ OCR ຂອງກົງກັນຂ້າມຕ່ ຳ ຫຼາຍຂອງຂໍ້ຄວາມເຖິງພື້ນຫລັງ.
  • OcrInput.ToGrayScale () - ຕົວກອງຮູບພາບນີ້ເຮັດໃຫ້ທຸກໆ pixel ເປັນຮົ່ມຂອງສີຂີ້ເຖົ່າ. ບໍ່ຫນ້າຈະເປັນການປັບປຸງຄວາມຖືກຕ້ອງຂອງ OCR ແຕ່ອາດຈະປັບປຸງຄວາມໄວ
  • OcrInput.Contrast () - ເພີ່ມຄວາມກົງກັນຂ້າມໂດຍອັດຕະໂນມັດ. ການກັ່ນຕອງນີ້ມັກຈະປັບປຸງຄວາມໄວ OCR ແລະຄວາມຖືກຕ້ອງໃນການສະແກນກົງກັນຂ້າມຕ່ ຳ.
  • OcrInput.DeNoise () - ລົບສຽງລົບກວນດິຈິຕອລ. ການກັ່ນຕອງນີ້ຄວນຈະຖືກ ນຳ ໃຊ້ໃນບ່ອນທີ່ມີສຽງດັງ.
  • OcrInput.Invert () - ປ່ຽນທຸກສີ. ຕົວຢ່າງຂາວກາຍເປັນສີ ດຳ: ສີ ດຳ ກາຍເປັນສີຂາວ.
  • OcrInput.Dilate () - Advanced Morphology. Dilation ເພີ່ມ pixels ໃຫ້ເຂດແດນຂອງວັດຖຸໃນພາບ. ກົງກັນຂ້າມຂອງ Erode
  • OcrInput.Erode () - Advanced Morphology. ການເຊາະເຈື່ອນ ກຳ ຈັດ pixels ລວງໃນຂອບເຂດແດນວັດຖຸ .Pososite ຂອງ Dilate
  • OcrInput.Deskew () - ໝຸນ ຮູບພາບເພື່ອໃຫ້ມັນເປັນທາງຂື້ນແລະທາງຂວາ. ນີ້ແມ່ນມີປະໂຫຍດຫຼາຍ ສຳ ລັບ OCR ເພາະວ່າຄວາມອົດທົນຂອງເສັ້ນເລືອດ ສຳ ລັບການສະແກນສະເກັດຈະຢູ່ໃນລະດັບຕໍ່າເຖິງ 5 ອົງສາ.
  • OcrInput.DeepCleanBackgroundNoise () - ການ ກຳ ຈັດສິ່ງລົບກວນໃນພື້ນຫລັງຢ່າງ ໜັກ. ໃຊ້ພຽງແຕ່ຕົວກອງນີ້ໃນກໍລະນີທີ່ມີສຽງດັງໃນເບື້ອງຫລັງຂອງເອກະສານທີ່ເປັນທີ່ຮູ້ຈັກ, ເພາະວ່າຕົວກອງນີ້ຍັງຈະສ່ຽງຕໍ່ການຫຼຸດຜ່ອນຄວາມຖືກຕ້ອງຂອງ OCR ຂອງເອກະສານທີ່ສະອາດ, ແລະມີລາຄາແພງຫຼາຍຕໍ່ CPU.
  • OcrInput.EnhanceResolution - ຊ່ວຍເພີ່ມຄວາມລະອຽດຂອງພາບທີ່ມີຄຸນນະພາບຕ່ ຳ. ຕົວກອງນີ້ບໍ່ ຈຳ ເປັນຕ້ອງໃຊ້ເລື້ອຍໆເພາະວ່າ OcrInput.MinimumDPI ແລະ OcrInput.TargetDPI ຈະອັດຕະໂນມັດຈັບແລະແກ້ໄຂບັນຫາການ ນຳ ເຂົ້າທີ່ມີຄວາມລະອຽດຕ່ ຳ.

CleanBackgroundNoise. ນີ້ແມ່ນການຕັ້ງຄ່າທີ່ໃຊ້ເວລາຫລາຍສົມຄວນ; ເຖິງຢ່າງໃດກໍ່ຕາມ, ມັນຊ່ວຍໃຫ້ຫ້ອງສະ ໝຸດ ສາມາດອະນາໄມສິ່ງລົບກວນດິຈິຕອລ, ອັດເອກະສານເຈ້ຍແລະຂໍ້ບົກຜ່ອງອື່ນໆໂດຍອັດຕະໂນມັດພາຍໃນຮູບພາບດິຈິຕອນເຊິ່ງຖ້າບໍ່ດັ່ງນັ້ນມັນຈະບໍ່ສາມາດອ່ານໄດ້ຈາກຫ້ອງສະ ໝຸດ OCR ອື່ນໆ.

EnhanceContrast ແມ່ນການຕັ້ງຄ່າທີ່ເຮັດໃຫ້ Iron OCR ເພີ່ມຄວາມກົງກັນຂ້າມຂອງຂໍ້ຄວາມທຽບໃສ່ພື້ນຫລັງຂອງຮູບພາບ, ເພີ່ມຄວາມຖືກຕ້ອງຂອງ OCR ແລະໂດຍທົ່ວໄປຈະເພີ່ມປະສິດທິພາບແລະຄວາມໄວຂອງ OCR.

EnhanceResolution ແມ່ນການຕັ້ງຄ່າເຊິ່ງຈະກວດພົບຮູບພາບທີ່ມີຄວາມລະອຽດຕ່ ຳ ໂດຍອັດຕະໂນມັດ (ເຊິ່ງຢູ່ພາຍໃຕ້ 275 dpi) ແລະປັບປຸງຮູບພາບໂດຍອັດຕະໂນມັດແລະຫຼັງຈາກນັ້ນເຮັດໃຫ້ເນື້ອໃນທັງ ໝົດ ເລິກຂື້ນເພື່ອໃຫ້ມັນສາມາດອ່ານໄດ້ໂດຍຫ້ອງສະ ໝຸດ OCR. ເຖິງແມ່ນວ່າການປະຕິບັດງານນີ້ແມ່ນໃຊ້ເວລາໃນຕົວມັນເອງ, ມັນໂດຍທົ່ວໄປຊ່ວຍຫຼຸດຜ່ອນເວລາໂດຍລວມ ສຳ ລັບການປະຕິບັດງານຂອງ OCR ໃນພາບ.

Language Iron OCR ສະ ໜັບ ສະ ໜູນ 22 ຊອງພາສາສາກົນ, ແລະການຕັ້ງຄ່າພາສາສາມາດໃຊ້ເພື່ອເລືອກ ໜຶ່ງ ຫລືຫລາຍພາສາທີ່ຈະໃຊ້ເພື່ອປະຕິບັດງານ OCR.

ຍຸດທະສາດ Iron OCR ສະຫນັບສະຫນູນທັງສອງຍຸດທະສາດ. ພວກເຮົາອາດຈະເລືອກທີ່ຈະສະແກນເອກະສານໄດ້ໄວແລະບໍ່ຖືກຕ້ອງ, ຫລືໃຊ້ກົນລະຍຸດທີ່ກ້າວ ໜ້າ ເຊິ່ງໃຊ້ຮູບແບບທາງປັນຍາປະດິດບາງຢ່າງເພື່ອປັບປຸງຄວາມຖືກຕ້ອງຂອງຂໍ້ຄວາມ OCR ໂດຍອັດຕະໂນມັດໂດຍການເບິ່ງການພົວພັນທາງສະຖິຕິຂອງ ຄຳ ສັບກັບກັນແລະກັນໃນປະໂຫຍກ .

ColorSpace ແມ່ນການຕັ້ງຄ່າທີ່ພວກເຮົາສາມາດເລືອກທີ່ຈະເລືອກເອົາ OCR ດ້ວຍສີເທົາຫຼືສີ. ໂດຍທົ່ວໄປແລ້ວ, grayscale ແມ່ນຕົວເລືອກທີ່ດີທີ່ສຸດ. ເຖິງຢ່າງໃດກໍ່ຕາມ, ບາງຄັ້ງເມື່ອມີບົດເລື່ອງຫລືພື້ນຫລັງຂອງສີທີ່ຄ້າຍຄືກັນແຕ່ມີສີແຕກຕ່າງກັນຫຼາຍ, ພື້ນທີ່ສີເຕັມຮູບແບບຈະໃຫ້ຜົນໄດ້ຮັບທີ່ດີກວ່າ.

ກວດສອບWhiteTextOnDarkBackgrounds. ໂດຍທົ່ວໄປແລ້ວ, ຫ້ອງສະ ໝຸດ OCR ທັງ ໝົດ ຄາດວ່າຈະເຫັນຂໍ້ຄວາມສີ ດຳ ໃນພື້ນຖານສີຂາວ. ການຕັ້ງຄ່ານີ້ຊ່ວຍໃຫ້ Iron OCR ສາມາດກວດພົບຂໍ້ເສຍ, ຫຼື ໜ້າ ຊ້ ຳ ໂດຍອັດຕະໂນມັດດ້ວຍຂໍ້ຄວາມຂາວແລະອ່ານມັນ.

InputImageType. ການຕັ້ງຄ່ານີ້ຊ່ວຍໃຫ້ນັກພັດທະນາສາມາດ ນຳ ພາຫ້ອງສະມຸດ OCR ວ່າມັນ ກຳ ລັງເບິ່ງເອກະສານເຕັມຮູບແບບຫລື snippet ເຊັ່ນ screenshot.

RotateAndStraighten ແມ່ນການຕັ້ງຄ່າຂັ້ນສູງເຊິ່ງຊ່ວຍໃຫ້ Iron OCR ມີຄວາມສາມາດອ່ານເອກະສານທີ່ບໍ່ພຽງແຕ່ ໝູນ ວຽນເທົ່ານັ້ນ, ແຕ່ບາງທີອາດມີມຸມມອງເຊັ່ນການຖ່າຍຮູບເອກະສານຂໍ້ຄວາມ.

ReadBarcodes ແມ່ນຄຸນລັກສະນະທີ່ເປັນປະໂຫຍດເຊິ່ງຊ່ວຍໃຫ້ Iron OCR ສາມາດອ່ານລະຫັດແລະລະຫັດ QR ໂດຍອັດຕະໂນມັດໃນ ໜ້າ ຕ່າງໆເພາະມັນຍັງອ່ານຕົວ ໜັງ ສື, ໂດຍບໍ່ຕ້ອງເພີ່ມພາລະເວລາເພີ່ມເຕີມໃຫຍ່.

ColorDepth. ການຕັ້ງຄ່ານີ້ຈະ ກຳ ນົດ ຈຳ ນວນບິດຕໍ່ pixels ຂະ ໜາດ ໃດທີ່ຫໍສະ ໝຸດ OCR ຈະໃຊ້ເພື່ອ ກຳ ນົດຄວາມເລິກຂອງສີ. ຄວາມເລິກສີທີ່ສູງຂື້ນອາດຈະເຮັດໃຫ້ຄຸນນະພາບຂອງ OCR ເພີ່ມຂື້ນ, ແຕ່ຍັງຈະເຮັດໃຫ້ເວລາທີ່ ຈຳ ເປັນ ສຳ ລັບການ ດຳ ເນີນງານຂອງ OCR ສຳ ເລັດ.

126 ຊອງພາສາ

Iron OCR ສະ ໜັບ ສະ ໜູນ 126 ພາສາຕ່າງປະເທດ ຜ່ານແພັກພາສາເຊິ່ງແຈກຢາຍເປັນ DLL, ເຊິ່ງສາມາດ ດາວໂຫລດໄດ້ຈາກເວບໄຊທ໌ນີ້ , ຫຼືຈາກ ຜູ້ຈັດການ Package NuGet .

ພາສາຕ່າງໆປະກອບມີພາສາເຢຍລະມັນ, ຝຣັ່ງ, ອັງກິດ, ຈີນ, ຍີ່ປຸ່ນແລະອື່ນໆ. ຊອງພາສາພິເສດມີຢູ່ ສຳ ລັບ ໜັງ ສືຜ່ານແດນ MRZ, ໃບກວດສອບ MICR, ຂໍ້ມູນການເງິນ, ປ້າຍທະບຽນແລະອີກຫລາຍໆຢ່າງ. ທ່ານຍັງສາມາດໃຊ້ເອກະສານໃດກໍ່ໄດ້. ". traineddata" - ລວມທັງເອກະສານທີ່ທ່ານສ້າງເອງ.

ຕົວຢ່າງພາສາ

ການ ນຳ ໃຊ້ພາສາ OCR ອື່ນໆ.

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// ຕື່ມການກັ່ນຕອງຮູບພາບຖ້າ ຈຳ ເປັນ
// ໃນກໍລະນີດັ່ງກ່າວນີ້, ແມ່ນແຕ່ຄວາມຄິດທີ່ປ້ອນເຂົ້າແມ່ນມີຄຸນນະພາບຕໍ່າຫຼາຍ
// IronTesseract ສາມາດອ່ານສິ່ງທີ່ Tesseract ທຳ ມະດາບໍ່ສາມາດເຮັດໄດ້.

var Result = Ocr.Read(input);

// Console ບໍ່ສາມາດພິມພາສາອາຫລັບໃນ Windows ໄດ້ງ່າຍ.
// ໃຫ້ເຮົາເກັບຂໍ້ມູນໃສ່ແຜ່ນອື່ນແທນ.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// ຕື່ມການກັ່ນຕອງຮູບພາບຖ້າ ຈຳ ເປັນ
// ໃນກໍລະນີດັ່ງກ່າວນີ້, ແມ່ນແຕ່ຄວາມຄິດທີ່ປ້ອນເຂົ້າແມ່ນມີຄຸນນະພາບຕໍ່າຫຼາຍ
// IronTesseract ສາມາດອ່ານສິ່ງທີ່ Tesseract ທຳ ມະດາບໍ່ສາມາດເຮັດໄດ້.

var Result = Ocr.Read(input);

// Console ບໍ່ສາມາດພິມພາສາອາຫລັບໃນ Windows ໄດ້ງ່າຍ.
// ໃຫ້ເຮົາເກັບຂໍ້ມູນໃສ່ແຜ່ນອື່ນແທນ.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' ຕື່ມການກັ່ນຕອງຮູບພາບຖ້າ ຈຳ ເປັນ
' ໃນກໍລະນີດັ່ງກ່າວນີ້, ແມ່ນແຕ່ຄວາມຄິດທີ່ປ້ອນເຂົ້າແມ່ນມີຄຸນນະພາບຕໍ່າຫຼາຍ
' IronTesseract ສາມາດອ່ານສິ່ງທີ່ Tesseract ທຳ ມະດາບໍ່ສາມາດເຮັດໄດ້.

Dim Result = Ocr.Read(input)

' Console ບໍ່ສາມາດພິມພາສາອາຫລັບໃນ Windows ໄດ້ງ່າຍ.
' ໃຫ້ເຮົາເກັບຂໍ້ມູນໃສ່ແຜ່ນອື່ນແທນ.
Result.SaveAsTextFile("arabic.txt")
End Using
VB   C#

ຕົວຢ່າງຫລາຍພາສາ

ມັນຍັງເປັນໄປໄດ້ທີ່ OCR ໃຊ້ຫລາຍພາສາໃນເວລາດຽວກັນ. ສິ່ງນີ້ສາມາດຊ່ວຍໃຫ້ມີ metadata ແລະ url ທີ່ເປັນພາສາອັງກິດໃນເອກະສານ Unicode.

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Lao);

// ພວກເຮົາສາມາດເພີ່ມ ຈຳ ນວນພາສາໃດໆ

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Lao);

// ພວກເຮົາສາມາດເພີ່ມ ຈຳ ນວນພາສາໃດໆ

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Lao)

' ພວກເຮົາສາມາດເພີ່ມ ຈຳ ນວນພາສາໃດໆ

Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
VB   C#

ຈຸດປະສົງຜົນໄດ້ຮັບລະອຽດຂອງ OCR

ທາດເຫຼັກ OCR ສົ່ງຄືນວັດຖຸຜົນຂອງ OCR ສຳ ລັບການ ດຳ ເນີນງານແຕ່ລະ OCR. ໂດຍທົ່ວໄປ, ນັກພັດທະນາພຽງແຕ່ໃຊ້ຄຸນສົມບັດຕົວ ໜັງ ສືຂອງວັດຖຸນີ້ເພື່ອໃຫ້ຂໍ້ຄວາມສະແກນຈາກພາບ. ເຖິງຢ່າງໃດກໍ່ຕາມ, OCR ຜົນໄດ້ຮັບ DOM ແມ່ນກ້າວ ໜ້າ ຫຼາຍກ່ວານີ້.

using IronOcr;
using System.Drawing; //ເພີ່ມເອກະສານອ້າງອີງການປະຊຸມ

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Lao;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //ທີ່ ສຳ ຄັນ

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// ສຳ ຫຼວດທີ່ນີ້ເພື່ອຊອກຫາລາຍລະອຽດທີ່ໃຫຍ່ແລະ API:
// - ໜ້າ ຕ່າງໆ, ທ່ອນໄມ້, ພາສາ Paraphaphs, ເສັ້ນ, ຄຳ ສັບ, Chars
// - ການສົ່ງອອກຮູບພາບ, ການປະສານງານແບບອັກສອນ, ຂໍ້ມູນສະຖິຕິ
}
using IronOcr;
using System.Drawing; //ເພີ່ມເອກະສານອ້າງອີງການປະຊຸມ

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Lao;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //ທີ່ ສຳ ຄັນ

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// ສຳ ຫຼວດທີ່ນີ້ເພື່ອຊອກຫາລາຍລະອຽດທີ່ໃຫຍ່ແລະ API:
// - ໜ້າ ຕ່າງໆ, ທ່ອນໄມ້, ພາສາ Paraphaphs, ເສັ້ນ, ຄຳ ສັບ, Chars
// - ການສົ່ງອອກຮູບພາບ, ການປະສານງານແບບອັກສອນ, ຂໍ້ມູນສະຖິຕິ
}
Imports IronOcr
Imports System.Drawing 'ເພີ່ມເອກະສານອ້າງອີງການປະຊຸມ

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Lao
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True 'ທີ່ ສຳ ຄັນ

Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages(0).Words
Dim Barcodes = Result.Barcodes
' ສຳ ຫຼວດທີ່ນີ້ເພື່ອຊອກຫາລາຍລະອຽດທີ່ໃຫຍ່ແລະ API:
' - ໜ້າ ຕ່າງໆ, ທ່ອນໄມ້, ພາສາ Paraphaphs, ເສັ້ນ, ຄຳ ສັບ, Chars
' - ການສົ່ງອອກຮູບພາບ, ການປະສານງານແບບອັກສອນ, ຂໍ້ມູນສະຖິຕິ
End Using
VB   C#

ການປະຕິບັດ

IronOCR ເຮັດວຽກອອກຈາກຫ້ອງໂດຍບໍ່ ຈຳ ເປັນຕ້ອງປັບແຕ່ງການປະຕິບັດຫຼືດັດແປງຮູບພາບການປ້ອນຂໍ້ມູນເຂົ້າ.

ຄວາມໄວແມ່ນໄຟ ໄໝ້: IronOcr.2020 + ໄວກ່ວາ 10 ເທົ່າແລະເຮັດຜິດພາດຫລາຍກວ່າ 250% ໜ້ອຍ ກ່ວາການກໍ່ສ້າງທີ່ຜ່ານມາ.

ຮຽນຮູ້ເພີ່ມເຕີມ

ເພື່ອຮຽນຮູ້ເພີ່ມເຕີມກ່ຽວກັບ OCR ໃນພາສາ C #, VB, F #, ຫຼືພາສາອື່ນໆ. ກະລຸນາ ອ່ານການສອນຊຸມຊົນຂອງພວກເຮົາ , ເຊິ່ງໃຫ້ຕົວຢ່າງຕົວຈິງຂອງໂລກກ່ຽວກັບວິທີການໃຊ້ Iron OCR ແລະສາມາດສະແດງໃຫ້ເຫັນເຖິງວິທີການທີ່ດີທີ່ສຸດ. ຫ້ອງສະຫມຸດນີ້.

ການ ອ້າງອິງວັດຖຸ ເຕັມຮູບແບບ ສຳ ລັບນັກພັດທະນາ. ສຸດທິ .