Kiswahili OCR katika C#na .NET

Matoleo mengine ya waraka huu:

IronOCR ni sehemu ya programu ya C#inayoruhusu nambari za NET kusoma maandishi kutoka kwa picha na nyaraka za PDF kwa lugha 126, pamoja na Kiswahili.

Ni uma wa hali ya juu wa Tesseract, iliyojengwa peke kwa watengenezaji wa NET na inazidi kuzima injini zingine za Tesseract kwa kasi na usahihi.

Yaliyomo ya IronOcr.Lugha.Swahili

Kifurushi hiki kina lugha 46 za OCR za .NET:

  • Kiswahili
  • SwahiliBest
  • SwahiliFast

Pakua

Kifurushi cha Lugha ya Kiswahili [Kiswahili]
* Download as Zip
* Install with
https://www.nuget.org/packages/IronOcr.Languages.Swahili/'> NuGet

Ufungaji

Jambo la kwanza tunalopaswa kufanya ni kusanikisha kifurushi chetu cha Kiswahili OCR kwenye mradi wako wa .NET.

PM> Install-Package IronOCR.Languages.Swahili

Mfano wa Kanuni

Mfano huu wa C#unasoma maandishi ya Kiswahili kutoka hati au Picha ya PDF.

//PM> Install-Package IronOcr.Languages.Swahili
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Swahili;
using (var Input = new OcrInput(@"images\Swahili.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Swahili
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Swahili;
using (var Input = new OcrInput(@"images\Swahili.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Swahili
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Swahili
Using Input = New OcrInput("images\Swahili.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

Kwa nini Uchague IronOCR?

IronOCR ni maktaba rahisi ya kusanikisha, kamili na iliyoandikwa vizuri.

Chagua IronOCR kufikia 99.8% + usahihi wa OCR bila kutumia huduma yoyote ya nje ya wavuti, ada zinazoendelea au kutuma nyaraka za siri kwenye mtandao.

Kwa nini watengenezaji wa C#huchagua IronOCR juu ya Vanilla Tesseract:

  • Sakinisha kama DLL moja au NuGet
  • Inajumuisha kwa Tesseract 5, 4 na 3 Injini nje ya sanduku.
  • Usahihi 99.8% hushinda Tesseract ya kawaida.
  • Kasi ya Kuwaka na Kusindika Nyingi
  • MVC, WebApp, Desktop, Dashibodi na Maombi ya seva yanaoana
  • Hakuna nambari za Exes au C ++ za kufanya kazi
  • Usaidizi kamili wa PDF OCR
  • Kufanya OCR karibu faili yoyote ya Picha au PDF
  • Kamili .NET Core, Standard na FrameWork msaada
  • Tumia Windows, Mac, Linux, Azure, Docker, Lambda, AWS
  • Soma barcode na nambari za QR
  • Hamisha OCR kama XHTML
  • Hamisha OCR ili utafute hati za PDF
  • Msaada wa kusoma anuwai
  • Lugha 126 za kimataifa zote zinasimamiwa kupitia faili za NuGet au OcrData
  • Dondoa Picha, Uratibu, Takwimu na Fonti. Sio maandishi tu.
  • Inaweza kutumiwa kusambaza Tesseract OCR ndani ya matumizi ya biashara na wamiliki.

IronOCR inaangaza wakati wa kufanya kazi na picha halisi za ulimwengu na nyaraka zisizo kamilifu kama picha, au skanati za azimio la chini ambalo linaweza kuwa na kelele za dijiti au kutokamilika.

Maktaba mengine ya bure ya OCR ya jukwaa la .NET kama vile API zingine za kukomesha mtandao na huduma za wavuti hazifanyi vizuri sana kwenye kesi hizi za utumiaji wa ulimwengu.

OCR na Tesseract 5 - Anza kuweka Coding katika C #

Sampuli ya nambari hapa chini inaonyesha jinsi ilivyo rahisi kusoma maandishi kutoka kwa picha ukitumia C#au VB .NET.

OneLiner

string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
VB   C#

Dunia inayoweza kusanidiwa

// PM> Install-Package IronOCR.Languages.Swahili
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Swahili;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... unaweza kuongeza idadi yoyote ya picha
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Swahili
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Swahili;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... unaweza kuongeza idadi yoyote ya picha
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Swahili
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Swahili
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

C#PDF OCR

Njia hiyo hiyo pia inaweza kutumika kutoa maandishi kutoka kwa hati yoyote ya PDF.

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Swahili;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Tunaweza pia kuchagua majina maalum ya ukurasa wa PDF kwa OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// Ukurasa 1 kwa kila ukurasa wa PDF
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Swahili;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Tunaweza pia kuchagua majina maalum ya ukurasa wa PDF kwa OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// Ukurasa 1 kwa kila ukurasa wa PDF
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Swahili
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' Tunaweza pia kuchagua majina maalum ya ukurasa wa PDF kwa OCR

Dim Result = Ocr.Read(input)

Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' Ukurasa 1 kwa kila ukurasa wa PDF
End Using
VB   C#

OCR kwa MultiPage TIFFs

OCR ya kusoma faili ya faili ya TIFF pamoja na hati nyingi za ukurasa TIFF pia inaweza kubadilishwa moja kwa moja kuwa faili ya PDF na maandishi ya kutafutwa.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Swahili;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Swahili;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Swahili

Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Misimbo ya alama na QR

Kipengele cha kipekee cha IronOCR ni kwamba inaweza kusoma barcode na nambari za QR kutoka kwa hati wakati inatafuta maandishi. Matukio ya Darasa la OcrResult.OcrBarcode humpa msanidi programu maelezo ya kina juu ya kila OcrResult.OcrBarcode wa OcrResult.OcrBarcode .

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// aina na mali ya eneo pia imefunuliwa
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// aina na mali ya eneo pia imefunuliwa
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True

Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' aina na mali ya eneo pia imefunuliwa
Next Barcode
End Using
VB   C#

OCR kwenye Maeneo Maalum ya Picha

Njia zote za skena na kusoma za IronOCR hutoa uwezo wa kutaja ni sehemu gani ya ukurasa au kurasa tunataka kusoma maandishi kutoka. Hii ni muhimu sana wakati tunaangalia fomu zilizosanifiwa na inaweza kuokoa muda mwingi na kuboresha ufanisi.

Kutumia maeneo ya mazao, tutahitaji kuongeza rejeleo la mfumo kwa System.Drawing kwa Mfumo ili tuweze kutumia kitu cha System.Drawing.Rectangle

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Swahili;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Vipimo viko katika px

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Swahili;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Vipimo viko katika px

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Swahili

Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
	.X = 215,
	.Y = 1250,
	.Height = 280,
	.Width = 1335
}
' Vipimo viko katika px

Input.Add("document.png", ContentArea)

Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR kwa Skana za Ubora wa Chini

OcrInput la IronOCR OcrInput linaweza kurekebisha picha ambazo Tesseract ya kawaida haiwezi kusoma.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Swahili;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // hurekebisha kelele ya dijiti na skanning duni
Input.Deskew(); // hurekebisha mzunguko na mtazamo
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Swahili;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // hurekebisha kelele ya dijiti na skanning duni
Input.Deskew(); // hurekebisha mzunguko na mtazamo
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Swahili

Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' hurekebisha kelele ya dijiti na skanning duni
Input.Deskew() ' hurekebisha mzunguko na mtazamo
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Hamisha matokeo ya OCR kama PDF inayoweza kutafutwa

Picha kwa PDF na nyuzi za maandishi za kunakili. Inaweza kuorodheshwa na injini za utaftaji na hifadhidata.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Swahili;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Swahili;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Swahili

Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")

Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

TIFF kutafuta Uongofu wa PDF

Badili hati ya TIFF (au kikundi chochote cha faili za picha) moja kwa moja kwenye PDF inayoweza kutafutwa ambayo inaweza kuorodheshwa na intranet, wavuti na injini za utaftaji za google.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Swahili;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Swahili;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Swahili

Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

Hamisha matokeo ya OCR kama HTML

Picha ya OCR kwa uongofu wa XHTML.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Swahili;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Swahili;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Swahili
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
VB   C#

Vichungi vya Uboreshaji wa Picha ya OCR

IronOCR hutoa vichungi vya kipekee kwa vitu vya OcrInput ili kuboresha utendaji wa OCR.

Mfano wa Kuboresha Picha

Inafanya picha za kuingiza OCR ubora wa juu ili kutoa matokeo bora, ya haraka ya OCR.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Swahili;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // hurekebisha kelele ya dijiti na skanning duni
Input.Deskew(); // hurekebisha mzunguko na mtazamo
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Swahili;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // hurekebisha kelele ya dijiti na skanning duni
Input.Deskew(); // hurekebisha mzunguko na mtazamo
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Swahili

Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' hurekebisha kelele ya dijiti na skanning duni
Input.Deskew() ' hurekebisha mzunguko na mtazamo
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Orodha ya Vichungi vya Picha za OCR

Vichungi vya kuingiza ili kuongeza utendaji wa OCR ambao umejengwa katika IronOCR ni pamoja na:

  • OcrInput. Mzunguko (digrii mbili) - Inazunguka picha kwa idadi ya digrii saa moja kwa moja. Kwa kupambana na saa, tumia nambari hasi.
  • OcrInput.Binarize () - Kichujio hiki cha picha kinageuza kila pikseli kuwa nyeusi au nyeupe bila uwanja wa kati. Inaweza Kuboresha kesi za utendaji wa OCR za utofauti wa chini sana wa maandishi kwa msingi.
  • OcrInput.ToGrayScale () - Kichujio hiki cha picha kinageuza kila pikseli kuwa kivuli cha rangi ya kijivu. Haiwezekani kuboresha usahihi wa OCR lakini inaweza kuboresha kasi
  • OcrInput.Contrast () - Huongeza utofautishaji kiatomati. Kichujio hiki mara nyingi huboresha kasi ya OCR na usahihi katika skani tofautitofauti.
  • OcrInput.DeNoise () - Huondoa kelele za dijiti. Kichujio hiki kinapaswa kutumiwa tu pale ambapo kelele inatarajiwa.
  • OcrInput.Invert () - Inverts kila rangi. Mfano Nyeupe inakuwa nyeusi: nyeusi inakuwa nyeupe.
  • OcrInput.Dilate () - Morphology ya hali ya juu. Upungufu huongeza saizi kwenye mipaka ya vitu kwenye picha. Kinyume na Erode
  • OcrInput.Erode () - Morpholojia ya hali ya juu. Mmomonyoko huondoa saizi kwenye mipaka ya kituKinyume cha Dilate
  • OcrInput.Deskew () - Inazungusha picha kwa hivyo ni njia sahihi juu na orthogonal. Hii ni muhimu sana kwa OCR kwa sababu uvumilivu wa Tesseract kwa skani zilizopigwa inaweza kuwa chini ya digrii 5.
  • OcrInput.DeepCleanBackgroundNoise () - Kuondoa kelele nzito ya mandharinyuma. Tumia tu kichujio hiki ikiwa kelele ya hali ya juu ya hati inajulikana, kwa sababu kichujio hiki pia kitahatarisha kupunguza usahihi wa hati safi za OCR, na ni ghali sana kwa CPU.
  • OcrInput.EnhanceResolution - Huongeza utatuzi wa picha za hali ya chini. Kichungi hiki hakihitajiki mara nyingi kwa sababu OcrInput.MinimumDPI na OcrInput.TargetDPI itashika na kusuluhisha pembejeo za azimio la chini.

CleanBackgroundKelele. Huu ni mpangilio ambao unachukua muda mwingi; Walakini, inaruhusu maktaba kusafisha kelele za dijiti kiatomati, makombo ya karatasi, na kasoro zingine ndani ya picha ya dijiti ambayo ingefanya iweze kukosa kusoma na maktaba zingine za OCR.

EnhanceContrast ni mpangilio ambao husababisha IronOCR kuongeza kiotomatiki tofauti ya maandishi dhidi ya msingi wa picha, ikiongeza usahihi wa OCR na kuongeza utendaji kwa jumla na kasi ya OCR.

EnhanceResolution ni mpangilio ambao utagundua kiatomati picha zenye azimio la chini (ambazo ziko chini ya 275 dpi) na moja kwa moja inakuza picha na kisha kunoa maandishi yote ili iweze kusomwa kikamilifu na maktaba ya OCR. Ingawa operesheni hii yenyewe inachukua muda, kwa ujumla hupunguza wakati wote wa operesheni ya OCR kwenye picha.

Lugha IronOCR inasaidia pakiti 22 za lugha za kimataifa, na mpangilio wa lugha unaweza kutumiwa kuchagua lugha moja au zaidi ya kutumiwa kwa operesheni ya OCR.

Mkakati IronOCR inasaidia mikakati miwili. Tunaweza kuchagua kwenda kwa skana ya haraka na isiyo sahihi ya hati, au tumia mkakati wa hali ya juu ambao hutumia mifano fulani ya ujasusi wa bandia ili kuboresha moja kwa moja usahihi wa maandishi ya OCR kwa kutazama uhusiano wa kitakwimu wa maneno kwa kila mmoja kwa sentensi .

ColourSpace ni mipangilio ambayo tunaweza kuchagua OCR kwa kijivu au rangi. Kwa ujumla, kijivu ni chaguo bora. Walakini, wakati mwingine kuna maandishi au asili ya hue sawa lakini rangi tofauti sana, nafasi ya rangi kamili itatoa matokeo bora.

Gundua Viwanja Vyeupe vya NakalaOnDarkBackgrounds. Kwa ujumla, maktaba zote za OCR zinatarajia kuona maandishi meusi kwenye asili nyeupe. Mpangilio huu unaruhusu IronOCR kugundua kiatomati hasi, au kurasa nyeusi zenye maandishi meupe, na kuzisoma.

Aina ya InputImage. Mpangilio huu unamruhusu msanidi programu kuongoza maktaba ya OCR ikiwa inaangalia hati kamili au kijisehemu, kama picha ya skrini.

MzungukoAndStraighten ni mipangilio ya hali ya juu ambayo inaruhusu IronOCR uwezo wa kipekee wa kusoma nyaraka ambazo sio tu zinazungushwa, lakini labda zenye mtazamo, kama picha za hati za maandishi.

ReadBarcode ni huduma muhimu ambayo inaruhusu IronOCR kusoma kiotomatiki barcode na nambari za QR kwenye kurasa kwani pia inasoma maandishi, bila kuongeza mzigo mkubwa wa wakati.

Rangi ya kina. Mpangilio huu huamua ngapi pikseli maktaba ya OCR itatumia kuamua kina cha rangi. Kina cha juu cha rangi kinaweza kuongeza ubora wa OCR, lakini pia itaongeza muda unaohitajika kwa operesheni ya OCR kukamilisha.

Pakiti za Lugha 126

IronOCR inasaidia lugha 126 za kimataifa kupitia vifurushi vya lugha ambavyo vinasambazwa kama DLL, ambazo zinaweza kupakuliwa kutoka kwa wavuti hii , au pia kutoka kwa Meneja wa Kifurushi cha NuGet .

Lugha ni pamoja na Kijerumani, Kifaransa, Kiingereza, Kichina, Kijapani na zingine nyingi. Pakiti za lugha za wataalam zipo kwa pasipoti MRZ, hundi za MICR, Takwimu za Fedha, sahani za Leseni na zingine nyingi. Unaweza pia kutumia faili yoyote ya tesseract ".traineddata" - pamoja na zile unazounda mwenyewe.

Mfano wa Lugha

Kutumia lugha zingine za OCR.

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Ongeza vichungi vya picha ikiwa inahitajika
// Katika kesi hii, pembejeo hata inayofikiriwa ni ya hali ya chini sana
// IronTesseract inaweza kusoma kile Tesseract ya kawaida haiwezi.

var Result = Ocr.Read(input);

// Dashibodi haiwezi kuchapisha Kiarabu kwenye Windows kwa urahisi.
// Wacha tuhifadhi kwenye diski badala yake.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Ongeza vichungi vya picha ikiwa inahitajika
// Katika kesi hii, pembejeo hata inayofikiriwa ni ya hali ya chini sana
// IronTesseract inaweza kusoma kile Tesseract ya kawaida haiwezi.

var Result = Ocr.Read(input);

// Dashibodi haiwezi kuchapisha Kiarabu kwenye Windows kwa urahisi.
// Wacha tuhifadhi kwenye diski badala yake.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' Ongeza vichungi vya picha ikiwa inahitajika
' Katika kesi hii, pembejeo hata inayofikiriwa ni ya hali ya chini sana
' IronTesseract inaweza kusoma kile Tesseract ya kawaida haiwezi.

Dim Result = Ocr.Read(input)

' Dashibodi haiwezi kuchapisha Kiarabu kwenye Windows kwa urahisi.
' Wacha tuhifadhi kwenye diski badala yake.
Result.SaveAsTextFile("arabic.txt")
End Using
VB   C#

Mfano wa Lugha Nyingi

Inawezekana pia kwa OCR kutumia lugha nyingi kwa wakati mmoja. Hii inaweza kusaidia kupata metadata na urls za lugha ya kiingereza katika hati za Unicode.

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Swahili);

// Tunaweza kuongeza idadi yoyote ya lugha

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Swahili);

// Tunaweza kuongeza idadi yoyote ya lugha

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Swahili)

' Tunaweza kuongeza idadi yoyote ya lugha

Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
VB   C#

Vitu vya Kina vya Matokeo ya OCR

IronOCR inarudi kitu cha matokeo ya OCR kwa kila operesheni ya OCR. Kwa ujumla, watengenezaji hutumia tu mali ya maandishi ya kitu hiki kupata maandishi yaliyochanganuliwa kutoka kwenye picha. Walakini, matokeo ya OCR DOM ni ya hali ya juu zaidi kuliko hii.

using IronOcr;
using System.Drawing; //Ongeza Marejeo ya Bunge

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Swahili;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! Muhimu

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// Gundua hapa kupata API kubwa na ya kina:
// - Kurasa, Vitalu, Paraphaphs, Mistari, Maneno, Chars
// - Usafirishaji wa Picha, Kuratibu Fonti, Takwimu za Takwimu
}
using IronOcr;
using System.Drawing; //Ongeza Marejeo ya Bunge

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Swahili;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! Muhimu

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// Gundua hapa kupata API kubwa na ya kina:
// - Kurasa, Vitalu, Paraphaphs, Mistari, Maneno, Chars
// - Usafirishaji wa Picha, Kuratibu Fonti, Takwimu za Takwimu
}
Imports IronOcr
Imports System.Drawing 'Ongeza Marejeo ya Bunge

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Swahili
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '! Muhimu

Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages(0).Words
Dim Barcodes = Result.Barcodes
' Gundua hapa kupata API kubwa na ya kina:
' - Kurasa, Vitalu, Paraphaphs, Mistari, Maneno, Chars
' - Usafirishaji wa Picha, Kuratibu Fonti, Takwimu za Takwimu
End Using
VB   C#

Utendaji

IronOCR hufanya kazi nje ya sanduku bila hitaji la tune ya utendaji au kurekebisha sana picha za kuingiza.

Kasi ni Mkali: IronOcr.2020 + ni hadi mara 10 kwa kasi na hufanya makosa zaidi ya 250% kuliko ile ya awali.

Jifunze zaidi

Kujifunza zaidi juu ya OCR katika C #, VB, F #, au nyingine yoyote lugha .NET, tafadhali soma tutorials na jamii yetu , ambayo hutoa mifano halisi ya dunia ya jinsi IronOCR inaweza kutumika na linaweza kuonekana nuances ya jinsi ya kupata nje bora ya maktaba hii.

Rejeleo kamili ya kitu kwa watengenezaji wa NET inapatikana pia.