ქართული OCR C#და .Net- ში

ამ დოკუმენტის სხვა ვერსიები:

IronOCR არის C#პროგრამული უზრუნველყოფის კომპონენტი, რომელიც საშუალებას აძლევს. NET კოდირებს წაიკითხონ ტექსტები სურათებიდან და PDF დოკუმენტებიდან 126 ენაზე, მათ შორის ქართულად.

ეს არის Tesseract- ის მოწინავე ჩანგალი, რომელიც შექმნილია მხოლოდ .NET დეველოპერებისთვის და რეგულარულად აღემატება Tesseract- ის სხვა ძრავებს როგორც სიჩქარით, ასევე სიზუსტით.

IronOcr. ენების შინაარსი. ქართული

ეს პაკეტი შეიცავს 176 OCR ენას .NET– ისთვის:

  • GeorgianAlphabet
  • GeorgianAlphabetBest
  • GeorgianAlphabetFast
  • ქართველი
  • GeorgianBest
  • GeorgianFast
  • GeorgianOld
  • GeorgianOldBest
  • GeorgianOldFast

გადმოწერა

ქართული ენის პაკეტი [ქართული]
* Download as Zip
* Install with as
https://www.nuget.org/packages/IronOcr.Languages.Georgian/'> NuGet

ინსტალაცია

პირველი, რაც უნდა გავაკეთოთ, არის დააყენოთ ჩვენი Georgian OCR პაკეტი თქვენი .NET პროექტი.

PM> Install-Package IronOCR.Languages.Georgian

კოდის მაგალითი

C#კოდის ეს მაგალითი კითხულობს ქართულ ტექსტს Image ან PDF დოკუმენტიდან.

//PM> Install-Package IronOcr.Languages.Georgian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Georgian;
using (var Input = new OcrInput(@"images\Georgian.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Georgian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Georgian;
using (var Input = new OcrInput(@"images\Georgian.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Georgian
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Georgian
Using Input = New OcrInput("images\Georgian.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

რატომ უნდა აირჩიოთ IronOCR?

Iron OCR არის მარტივი ინსტალაცია, სრული და კარგად დოკუმენტირებული. NET პროგრამული უზრუნველყოფის ბიბლიოთეკა.

შეარჩიეთ IronOCR 99.8% + OCR სიზუსტის მისაღწევად, ყოველგვარი გარე ვებ – სერვისების, მიმდინარე გადასახადების ან ინტერნეტით კონფიდენციალური დოკუმენტების გაგზავნის გარეშე.

რატომ ირჩევენ C#დეველოპერები IronOCR– ს ვიდრე Vanilla Tesseract– ს:

  • დააინსტალირეთ როგორც ერთი DLL ან Nuget
  • მოყვება Tesseract 5, 4 და 3 ძრავები ყუთში.
  • სიზუსტე 99.8% მნიშვნელოვნად აღემატება რეგულარულ Tesseract- ს.
  • Blazing სიჩქარე და MultiThreading
  • MVC, WebApp, Desktop, Console & Server Application თავსებადია
  • Exes ან C ++ კოდი არ მუშაობს
  • სრული PDF OCR მხარდაჭერა
  • OCR– ს შესასრულებლად თითქმის ნებისმიერი გამოსახულების ფაილი ან PDF
  • სრული. Net Core, Standard და FrameWork მხარდაჭერა
  • განათავსეთ Windows, Mac, Linux, Azure, Docker, Lambda, AWS
  • წაიკითხეთ შტრიხ-კოდები და QR კოდები
  • ექსპორტი OCR როგორც XHTML
  • ექსპორტი OCR საძიებო PDF დოკუმენტებზე
  • მრავალრიცხოვანი მხარდაჭერა
  • 126 საერთაშორისო ენა მართულია Nuget ან OcrData ფაილების საშუალებით
  • ამოიღეთ სურათები, კოორდინატები, სტატისტიკა და შრიფტები. არა მხოლოდ ტექსტი.
  • შეიძლება გამოყენებულ იქნას Tesseract OCR- ის გადანაწილება კომერციული და საკუთრების პროგრამებში.

რკინის OCR ანათებს რეალურ სამყაროს სურათებთან და არასრულყოფილ დოკუმენტებთან მუშაობისას, როგორიცაა ფოტოსურათები, ან დაბალი რეზოლუციის სკანირება, რომლებსაც შეიძლება ჰქონდეთ ციფრული ხმაური ან არასრულყოფილება.

სხვა უფასო OCR ბიბლიოთეკები .NET პლატფორმისთვის, როგორიცაა სხვა .net tesseract API და ვებ – სერვისები არც ისე კარგად მუშაობს ამ რეალურ სამყაროში გამოყენების შემთხვევებში.

OCR Tesseract 5 – ით - დაიწყეთ კოდირება C #– ით

ქვემოთ მოცემული კოდის ნიმუში გვიჩვენებს, თუ რამდენად ადვილია ტექსტის წაკითხვა სურათზე C#ან VB. NET გამოყენებით.

OneLiner

string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
VB   C#

კონფიგურირებადი Hello World

// PM> Install-Package IronOCR.Languages.Georgian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Georgian;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... შეგიძლიათ დაამატოთ ნებისმიერი რაოდენობის სურათი
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Georgian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Georgian;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... შეგიძლიათ დაამატოთ ნებისმიერი რაოდენობის სურათი
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Georgian
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Georgian
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

C#PDF OCR

იგივე მიდგომა შეიძლება გამოყენებულ იქნას ნებისმიერი PDF დოკუმენტიდან ტექსტის ამოსაღებად.

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Georgian;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// ჩვენ ასევე შეგვიძლია შევარჩიოთ PDF გვერდების კონკრეტული ნომრები OCR– სთვის

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 გვერდი PDF ყველა გვერდზე
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Georgian;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// ჩვენ ასევე შეგვიძლია შევარჩიოთ PDF გვერდების კონკრეტული ნომრები OCR– სთვის

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 გვერდი PDF ყველა გვერდზე
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Georgian
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' ჩვენ ასევე შეგვიძლია შევარჩიოთ PDF გვერდების კონკრეტული ნომრები OCR– სთვის

Dim Result = Ocr.Read(input)

Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' 1 გვერდი PDF ყველა გვერდზე
End Using
VB   C#

OCR MultiPage TIFF- ებისთვის

OCR კითხულობს TIFF ფაილის ფორმატს, მრავალჯერადი გვერდის დოკუმენტების ჩათვლით. TIFF ასევე შეიძლება გადაკეთდეს პირდაპირ PDF ფაილში, საძიებო ტექსტით.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Georgian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Georgian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Georgian

Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

შტრიხკოდები და QR

რკინის OCR– ის უნიკალური მახასიათებელია ის, რომ მას შეუძლია წაიკითხოს შტრიხ – კოდები და QR კოდები დოკუმენტებიდან, როდესაც იგი სკანირებს ტექსტს. OcrResult.OcrBarcode კლასის შემთხვევები დეველოპერს აძლევს დეტალურ ინფორმაციას თითოეული დასკანირებული შტრიხ- OcrResult.OcrBarcode შესახებ.

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// ასევე გამოვლენილია ტიპისა და მდებარეობის თვისებები
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// ასევე გამოვლენილია ტიპისა და მდებარეობის თვისებები
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True

Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' ასევე გამოვლენილია ტიპისა და მდებარეობის თვისებები
Next Barcode
End Using
VB   C#

OCR სურათების კონკრეტულ ადგილებში

რკინის OCR- ის სკანირებისა და კითხვის ყველა მეთოდი საშუალებას გაძლევთ ზუსტად განსაზღვროთ გვერდის რომელი გვერდის ან გვერდების ტექსტი. ეს ძალიან სასარგებლოა, როდესაც სტანდარტიზებულ ფორმებს ვუყურებთ და საშინელი დროის დაზოგვა და ეფექტურობის გაუმჯობესება შეგვიძლია.

მოსავლის რეგიონების გამოსაყენებლად, ჩვენ უნდა დავამატოთ სისტემის მითითება System.Drawing რათა გამოვიყენოთ System.Drawing.Rectangle ობიექტი.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Georgian;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// ზომები px- შია

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Georgian;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// ზომები px- შია

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Georgian

Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
	.X = 215,
	.Y = 1250,
	.Height = 280,
	.Width = 1335
}
' ზომები px- შია

Input.Add("document.png", ContentArea)

Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR დაბალი ხარისხის სკანირებისთვის

Iron OCR OcrInput კლასს შეუძლია დააფიქსიროს სკანირება, რომლის წაკითხვაც შეუძლებელია ნორმალურ Tesseract- ს.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Georgian;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // აფიქსირებს ციფრულ ხმაურს და ცუდ სკანირებას
Input.Deskew(); // აფიქსირებს როტაციას და პერსპექტივას
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Georgian;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // აფიქსირებს ციფრულ ხმაურს და ცუდ სკანირებას
Input.Deskew(); // აფიქსირებს როტაციას და პერსპექტივას
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Georgian

Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' აფიქსირებს ციფრულ ხმაურს და ცუდ სკანირებას
Input.Deskew() ' აფიქსირებს როტაციას და პერსპექტივას
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

ექსპორტის OCR შედეგები, როგორც საძიებო PDF

სურათი PDF- ში, ტექსტური ტექსტების დასაწერად. ინდექსირება შესაძლებელია საძიებო სისტემებისა და მონაცემთა ბაზების მიერ.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Georgian;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Georgian;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Georgian

Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")

Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

TIFF საძიებო PDF კონვერტაციისთვის

ჩართეთ TIFF დოკუმენტი (ან გამოსახულების ფაილების ნებისმიერი ჯგუფი) პირდაპირ საძიებო PDF ფორმატში, რომლის ინდექსაცია შესაძლებელია ინტრანეტის, ვებსაიტებისა და Google საძიებო სისტემების მიერ.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Georgian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Georgian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Georgian

Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

ექსპორტის OCR შედეგები HTML- ით

OCR გამოსახულების XHTML გარდაქმნა.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Georgian;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Georgian;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Georgian
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
VB   C#

OCR გამოსახულების გამაძლიერებელი ფილტრები

IronOCR გთავაზობთ უნიკალურ ფილტრებს OcrInput ობიექტებისთვის, OCR– ის მუშაობის გასაუმჯობესებლად.

სურათის გაუმჯობესების კოდის მაგალითი

OCR შეყვანის სურათებს უფრო მაღალ ხარისხს უკეთებს, უფრო სწრაფად OCR შედეგებს.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Georgian;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // აფიქსირებს ციფრულ ხმაურს და ცუდ სკანირებას
Input.Deskew(); // აფიქსირებს როტაციას და პერსპექტივას
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Georgian;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // აფიქსირებს ციფრულ ხმაურს და ცუდ სკანირებას
Input.Deskew(); // აფიქსირებს როტაციას და პერსპექტივას
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Georgian

Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' აფიქსირებს ციფრულ ხმაურს და ცუდ სკანირებას
Input.Deskew() ' აფიქსირებს როტაციას და პერსპექტივას
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR გამოსახულების ფილტრების სია

შეყვანის ფილტრები OCR– ის მუშაობის გასაუმჯობესებლად, რომლებიც ჩაშენებულია IronOCR– ში, მოიცავს:

  • OcrInput. როტაცია (ორმაგი გრადუსი) - ატრიალებს გამოსახულებებს საათის ისრის მიმართულებით. საათის ისრის საწინააღმდეგოდ გამოიყენეთ უარყოფითი რიცხვები.
  • OcrInput.Binarize () - ამ სურათის ფილტრი აქცევს ყველა პიქსელს შავ ან თეთრს, შუაგულის გარეშე. შეიძლება გაუმჯობესდეს OCR– ის შესრულების შემთხვევები, როდესაც ტექსტს უკავშირდება ფონის ძალიან დაბალი მაჩვენებლით.
  • OcrInput.ToGrayScale () - ეს გამოსახულების ფილტრი აქცევს ყველა პიქსელს ნაცრისფერ ჩრდილში. საეჭვოა გააუმჯობესოს OCR სიზუსტე, მაგრამ შეიძლება გააუმჯობესოს სიჩქარე
  • OcrInput.Contrast () - ავტომატურად ზრდის კონტრასტს. ეს ფილტრი ხშირად აუმჯობესებს OCR სიჩქარეს და სიზუსტეს დაბალი კონტრასტული სკანირების დროს.
  • OcrInput.DeNoise () - ხსნის ციფრულ ხმაურს. ეს ფილტრი უნდა იქნას გამოყენებული მხოლოდ იქ, სადაც მოსალოდნელია ხმაური.
  • OcrInput.Invert () - შებრუნებს ყველა ფერს. მაგალითად, თეთრი ხდება შავი: შავი ხდება თეთრი.
  • OcrInput.Dilate () - მოწინავე მორფოლოგია. დილატაცია სურათის ობიექტების საზღვრებს პიქსელებს უმატებს. ეროდეს მოპირდაპირე
  • OcrInput.Erode () - მოწინავე მორფოლოგია. ეროზია ხსნის პიქსელებს ობიექტის საზღვრებზე Dilate- ის საწინააღმდეგოდ
  • OcrInput.Deskew () - ატრიალებს გამოსახულებას, ასე რომ ეს არის სწორი აწევა და ორთოგონალური. ეს ძალიან სასარგებლოა OCR– სთვის, რადგან Tesseract– ის ტოლერანტობა დახრილი სკანირებისთვის შეიძლება იყოს 5 გრადუსამდეც კი.
  • OcrInput.DeepCleanBackgroundNoise () - ძლიერი ფონის ხმაურის ამოღება. გამოიყენეთ ეს ფილტრი მხოლოდ იმ შემთხვევაში, თუ ცნობილია უკიდურესი დოკუმენტის ფონის ხმაური, რადგან ეს ფილტრი ასევე საფრთხეს უქმნის სუფთა დოკუმენტების OCR სიზუსტის შემცირებას და ძალიან ძვირადღირებულია CPU- ზე.
  • OcrInput.EnhanceResolution - აძლიერებს დაბალი ხარისხის სურათების რეზოლუციას. ეს ფილტრი ხშირად არ არის საჭირო, რადგან OcrInput.MinimumDPI და OcrInput.TargetDPI ავტომატურად დაიჭერს და გადაწყვეტს დაბალი რეზოლუციის საშუალებებს.

CleanBackgroundNoise. ეს არის გარკვეულწილად შრომატევადი გარემო; ამასთან, ეს საშუალებას აძლევს ბიბლიოთეკას, ავტომატურად გაასუფთავოს ციფრული ხმაური, ქაღალდის ნაპრალები და სხვა ნაკლოვანებები ციფრული სურათის შიგნით, რაც სხვაგვარად გახდის მას სხვა OCR ბიბლიოთეკების წაკითხვის შეუძლებელს.

EnhanceContrast არის პარამეტრი, რომელიც იწვევს რკინის OCR– ს ავტომატურად გაზრდის ტექსტის კონტრასტს სურათის ფონზე, ზრდის OCR– ს სიზუსტეს და ზოგადად ზრდის OCR– ის მუშაობას და სიჩქარეს.

EnhanceResolution არის პარამეტრი, რომელიც ავტომატურად დააფიქსირებს დაბალი რეზოლუციის სურათებს (რომლებიც 275 dpi– ზე ნაკლებია) და ავტომატურად აამაღლებს სურათს და შემდეგ გაასწორებს მთელ ტექსტს, ასე რომ მისი სრულყოფილად წაკითხვა შესაძლებელია OCR ბიბლიოთეკაში. მიუხედავად იმისა, რომ ეს ოპერაცია თავისთავად შრომატევადია, ის ზოგადად ამცირებს სურათზე OCR ოპერაციის საერთო დროს.

Language Iron OCR მხარს უჭერს 22 საერთაშორისო ენის პაკეტს, ხოლო ენის საშუალებით შეგიძლიათ აირჩიოთ ერთი ან რამდენიმე ენა, რომელიც გამოყენებული იქნება OCR ოპერაციისთვის.

Strategy Iron OCR მხარს უჭერს ორ სტრატეგიას. ჩვენ შეგვიძლია ავირჩიოთ დოკუმენტის სწრაფი და ნაკლებად ზუსტი სკანირება, ან გამოვიყენოთ მოწინავე სტრატეგია, რომელიც იყენებს ზოგიერთ ხელოვნურ ინტელექტს, რომ ავტომატურად გავაუმჯობესოთ OCR ტექსტის სიზუსტე წინადადებებში სიტყვების ერთმანეთთან სტატისტიკური ურთიერთობების შესწავლით. .

ColorSpace არის პარამეტრი, რომლითაც ჩვენ შეგვიძლია აირჩიოთ OCR ნაცრისფერი ან ფერის. საერთოდ, ნაცრისფერი ფერი საუკეთესო ვარიანტია. ამასთან, ზოგჯერ, როდესაც არსებობს მსგავსი შეფერილობის, მაგრამ ძალიან განსხვავებული ფერის ტექსტები ან ფონი, სრულფასოვანი ფერის სივრცე უკეთეს შედეგებს მოგვცემს.

აღმოაჩინეთ WhiteTextOnDarkBackgrounds- ზე. საერთოდ, ყველა OCR ბიბლიოთეკა ელოდება, რომ ნახავთ შავ ტექსტს თეთრ ფონზე. ეს პარამეტრი საშუალებას აძლევს Iron OCR- ს ავტომატურად დაადგინოს ნეგატივები, ან ბნელი გვერდები თეთრი ტექსტით და წაიკითხოს ისინი.

InputImageType. ეს პარამეტრი საშუალებას აძლევს დეველოპერს, უხელმძღვანელოს OCR ბიბლიოთეკას იმის მიხედვით, ათვალიერებს თუ არა იგი სრულ დოკუმენტს, ან ნაწყვეტს, მაგალითად, სკრინშოტს.

RotateAndStraighten არის მოწინავე გარემო, რომელიც რკინის OCR- ს საშუალებას აძლევს უნიკალური შესაძლებლობა წაიკითხოს დოკუმენტები, რომლებიც არა მხოლოდ შემობრუნებულია, არამედ შეიძლება შეიცავდეს პერსპექტივას, მაგალითად, ტექსტური დოკუმენტების ფოტოებს.

ReadBarcodes არის სასარგებლო ფუნქცია, რომელიც რკინის OCR– ს საშუალებას აძლევს ავტომატურად წაიკითხოს შტრიხ – კოდები და QR კოდები გვერდებზე, რადგან ის ასევე კითხულობს ტექსტს, დიდი დამატებითი დროის დატვირთვის გარეშე.

ფერი სიღრმე. ეს პარამეტრი განსაზღვრავს რამდენ ბიტს თითო პიქსელზე გამოიყენებს OCR ბიბლიოთეკა ფერის სიღრმის დასადგენად. უფრო მაღალი ფერის სიღრმემ შეიძლება გაზარდოს OCR ხარისხი, მაგრამ ასევე გაზრდის OCR ოპერაციის დასრულებისთვის საჭირო დროს.

126 ენის პაკეტი

Iron OCR მხარს უჭერს 126 საერთაშორისო ენას ენათა პაკეტების საშუალებით, რომლებიც გადანაწილებულია DLL– ებად, რომელთა ჩამოტვირთვა შეგიძლიათ ამ ვებ – გვერდიდან , ან ასევე NuGet პაკეტის მენეჯერიდან .

ენებში შედის გერმანული, ფრანგული, ინგლისური, ჩინური, იაპონური და მრავალი სხვა. სპეციალურ ენათა პაკეტები არსებობს პასპორტის MRZ, MICR ჩეკებისთვის, ფინანსური მონაცემებისთვის, სანომრე ნიშნისთვის და მრავალი სხვა. ასევე შეგიძლიათ გამოიყენოთ ნებისმიერი tesseract ".traineddata" ფაილი - მათ შორის, ვინც თავად შექმენით.

ენის მაგალითი

სხვა OCR ენების გამოყენება.

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// საჭიროების შემთხვევაში დაამატეთ სურათის ფილტრები
// ამ შემთხვევაში, აზროვნების შეყვანაც კი ძალიან დაბალი ხარისხისაა
// IronTesseract- ს შეუძლია წაიკითხოს ის, რაც არ შეუძლია ჩვეულებრივი Tesseract- ს.

var Result = Ocr.Read(input);

// კონსოლს არ შეუძლია არაბული Windows- ზე დაბეჭდვა მარტივად.
// ამის ნაცვლად, შევინახოთ დისკზე.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// საჭიროების შემთხვევაში დაამატეთ სურათის ფილტრები
// ამ შემთხვევაში, აზროვნების შეყვანაც კი ძალიან დაბალი ხარისხისაა
// IronTesseract- ს შეუძლია წაიკითხოს ის, რაც არ შეუძლია ჩვეულებრივი Tesseract- ს.

var Result = Ocr.Read(input);

// კონსოლს არ შეუძლია არაბული Windows- ზე დაბეჭდვა მარტივად.
// ამის ნაცვლად, შევინახოთ დისკზე.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' საჭიროების შემთხვევაში დაამატეთ სურათის ფილტრები
' ამ შემთხვევაში, აზროვნების შეყვანაც კი ძალიან დაბალი ხარისხისაა
' IronTesseract- ს შეუძლია წაიკითხოს ის, რაც არ შეუძლია ჩვეულებრივი Tesseract- ს.

Dim Result = Ocr.Read(input)

' კონსოლს არ შეუძლია არაბული Windows- ზე დაბეჭდვა მარტივად.
' ამის ნაცვლად, შევინახოთ დისკზე.
Result.SaveAsTextFile("arabic.txt")
End Using
VB   C#

მრავალი ენის მაგალითი

ასევე შესაძლებელია OCR ერთდროულად მრავალი ენის გამოყენებით. ეს ნამდვილად დაგეხმარებათ ინგლისურენოვანი მეტადატისა და url– ების მიღება უნიკოდის დოკუმენტებში.

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Georgian);

// ჩვენ შეგვიძლია დავამატოთ ნებისმიერი რაოდენობის ენა

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Georgian);

// ჩვენ შეგვიძლია დავამატოთ ნებისმიერი რაოდენობის ენა

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Georgian)

' ჩვენ შეგვიძლია დავამატოთ ნებისმიერი რაოდენობის ენა

Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
VB   C#

დეტალური OCR შედეგების ობიექტები

Iron OCR აბრუნებს OCR შედეგის ობიექტს OCR თითოეული ოპერაციისთვის. საერთოდ, დეველოპერები მხოლოდ ამ ობიექტის ტექსტურ თვისებას იყენებენ სურათისგან დასკანირებული ტექსტის მისაღებად. ამასთან, OCR– ის შედეგების DOM გაცილებით უფრო თანამედროვეა, ვიდრე ეს.

using IronOcr;
using System.Drawing; //დაამატეთ ასამბლეის ცნობარი

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Georgian;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!Მნიშვნელოვანი

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// შეისწავლეთ აქ, რათა იპოვოთ მასიური, დეტალური API:
// - გვერდები, ბლოკები, პარაფაფები, ხაზები, სიტყვები, ნიშნები
// - გამოსახულების ექსპორტი, შრიფტების კოორდინატები, სტატისტიკური მონაცემები
}
using IronOcr;
using System.Drawing; //დაამატეთ ასამბლეის ცნობარი

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Georgian;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!Მნიშვნელოვანი

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// შეისწავლეთ აქ, რათა იპოვოთ მასიური, დეტალური API:
// - გვერდები, ბლოკები, პარაფაფები, ხაზები, სიტყვები, ნიშნები
// - გამოსახულების ექსპორტი, შრიფტების კოორდინატები, სტატისტიკური მონაცემები
}
Imports IronOcr
Imports System.Drawing 'დაამატეთ ასამბლეის ცნობარი

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Georgian
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '!Მნიშვნელოვანი

Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages(0).Words
Dim Barcodes = Result.Barcodes
' შეისწავლეთ აქ, რათა იპოვოთ მასიური, დეტალური API:
' - გვერდები, ბლოკები, პარაფაფები, ხაზები, სიტყვები, ნიშნები
' - გამოსახულების ექსპორტი, შრიფტების კოორდინატები, სტატისტიკური მონაცემები
End Using
VB   C#

Შესრულება

IronOCR მუშაობს ყუთში და არ საჭიროებს შეყვანის სურათების სრულყოფას ან მნიშვნელოვნად შეცვლას.

სიჩქარე იწვის: IronOcr.2020 + 10-ჯერ უფრო სწრაფია და 250% -ზე ნაკლებ შეცდომას უშვებს, ვიდრე წინა კონსტრუქციები.

Გაიგე მეტი

CCR, VB, F # ან სხვა .NET ენაზე OCR- ის შესახებ მეტი რომ შეიტყოთ, წაიკითხეთ ჩვენი საზოგადოების სახელმძღვანელოები , სადაც მოცემულია რკინის OCR- ის გამოყენების რეალურ სამყაროში მაგალითები და აჩვენებს ნიუანსებს, თუ როგორ უნდა მიიღოთ საუკეთესო ეს ბიბლიოთეკა.

ასევე ხელმისაწვდომია ობიექტის სრული მითითება .NET დეველოპერებისთვის .