Íslenskur OCR í C#og .NET
Aðrar útgáfur af þessu skjali:
IronOCR er C#hugbúnaðarþáttur sem gerir .NET kóðara kleift að lesa texta úr myndum og PDF skjölum á 126 tungumálum, þar á meðal íslensku.
Það er háþróaður gaffall af Tesseract, smíðaður eingöngu fyrir .NET forritara og stendur sig betur en aðrar Tesseract vélar bæði hvað varðar hraða og nákvæmni.
Innihald IronOcr.Languages.Icelandic
Þessi pakki inniheldur 52 OCR tungumál fyrir .NET:
- Íslenska
- IcelandicBest
- IcelandicFast
Niðurhal
Íslenskur málpakki [Íslenska]
* Download as Rennilás
* Install with https://www.nuget.org/packages/IronOcr.Languages.Icelandic/'> NuGet
Uppsetning
The fyrstur hlutur sem við þurfum að gera er að setja okkar Icelandic OCR pakki til NET verkefni.
PM> Install-Package IronOCR.Languages.Icelandic
Kóðadæmi
Þetta C#kóða dæmi les íslenskan texta úr mynd eða PDF skjali.
//PM> Install-Package IronOcr.Languages.Icelandic
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput(@"images\Icelandic.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Icelandic
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput(@"images\Icelandic.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Icelandic
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Using Input = New OcrInput("images\Icelandic.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
Af hverju að velja IronOCR?
IronOCR er auðvelt í uppsetningu, heill og vel skjalfestur .NET hugbúnaðarsafn.
Veldu IronOCR til að ná 99,8% + OCR nákvæmni án þess að nota utanaðkomandi vefþjónustu, áframhaldandi gjöld eða senda trúnaðargögn um internetið.
Af hverju velja C#verktakar IronOCR fram yfir Vanilla Tesseract:
- Settu upp sem eina DLL eða NuGet
- Innifalið fyrir Tesseract 5, 4 og 3 vélar úr kassanum.
- Nákvæmni 99,8% er verulega betri en venjulegur Tesseract.
- Logandi hraði og fjölþráður
- MVC, WebApp, Desktop, Console & Server Application samhæft
- Engir Exes eða C ++ kóði til að vinna með
- Fullur PDF OCR stuðningur
- Til að framkvæma OCR næstum hvaða myndskrá eða PDF
- Fullur.NET Core, Standard og FrameWork stuðningur
- Dreifðu á Windows, Mac, Linux, Azure, Docker, Lambda, AWS
- Lestu strikamerki og QR kóða
- Flytja út OCR eins og í XHTML
- Flytja út OCR í PDF skjöl sem hægt er að leita í
- Multithreading stuðningur
- 126 alþjóðamál eru öll stjórnað með NuGet eða OcrData skrám
- Dragðu úr myndum, hnitum, tölfræði og leturgerðum. Ekki bara texta.
- Hægt að nota til að dreifa Tesseract OCR innan forrita og einkafyrirtækja.
IronOCR skín þegar unnið er með raunverulegar heimsmyndir og ófullkomnar skjöl eins og ljósmyndir, eða skannanir með litla upplausn sem geta haft stafrænan hávaða eða ófullkomleika.
Önnur ókeypis OCR- bókasöfn fyrir .NET vettvanginn svo sem önnur .net tesseract forritaskil og vefþjónusta skila ekki svo góðum árangri í þessum raunverulegu notkunartilvikum.
OCR með Tesseract 5 - Byrjaðu kóðun í C #
Kóðasýnið hér að neðan sýnir hversu auðvelt það er að lesa texta úr mynd með C#eða VB .NET.
OneLiner
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
Stillanlegur Hello World
// PM> Install-Package IronOCR.Languages.Icelandic
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... þú getur bætt við hvaða fjölda mynda sem er
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Icelandic
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... þú getur bætt við hvaða fjölda mynda sem er
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Icelandic
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
C#PDF OCR
Sama nálgun er á sama hátt hægt að nota til að draga texta úr hvaða PDF skjali sem er.
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Við getum líka valið sérstaka PDF blaðsíðunúmer fyrir OCR
var Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 blaðsíða fyrir hverja síðu PDF
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Við getum líka valið sérstaka PDF blaðsíðunúmer fyrir OCR
var Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 blaðsíða fyrir hverja síðu PDF
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' Við getum líka valið sérstaka PDF blaðsíðunúmer fyrir OCR
Dim Result = Ocr.Read(input)
Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' 1 blaðsíða fyrir hverja síðu PDF
End Using
OCR fyrir MultiPage TIFF
OCR Lestur TIFF skráarsnið þar á meðal skjöl á mörgum síðum. Einnig er hægt að breyta TIFF beint í PDF skjal með texta sem hægt er að leita í.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Strikamerki og QR
Sérstakur eiginleiki IronOCR er að það getur lesið strikamerki og QR kóða úr skjölum meðan það er að leita að texta. Dæmi um OcrResult.OcrBarcode
gefa verktaki ítarlegar upplýsingar um hvert skannað strikamerki.
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// gerð og staðsetningareiginleikar einnig útsettir
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// gerð og staðsetningareiginleikar einnig útsettir
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True
Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' gerð og staðsetningareiginleikar einnig útsettir
Next Barcode
End Using
OCR um sérstök svæði mynda
Allar skannunar- og lestraraðferðir IronOCR veita möguleika á að tilgreina nákvæmlega úr hvaða hluta af blaðsíðu eða síðum við viljum lesa texta. Þetta er mjög gagnlegt þegar við erum að skoða stöðluð eyðublöð og getur sparað óskaplega mikinn tíma og bætt skilvirkni.
Til að nota uppskerusvæði verðum við að bæta við System.Drawing
í System.Drawing
svo að við getum notað System.Drawing.Rectangle
hlutinn.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Mál eru í px
Input.Add("document.png", ContentArea);
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Mál eru í px
Input.Add("document.png", ContentArea);
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
.X = 215,
.Y = 1250,
.Height = 280,
.Width = 1335
}
' Mál eru í px
Input.Add("document.png", ContentArea)
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
OCR fyrir lágar gæðaskannanir
IronOCR OcrInput
bekkurinn getur lagað skannanir sem venjulegur Tesseract getur ekki lesið.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // lagar stafrænan hávaða og lélega skönnun
Input.Deskew(); // lagar snúning og sjónarhorn
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // lagar stafrænan hávaða og lélega skönnun
Input.Deskew(); // lagar snúning og sjónarhorn
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' lagar stafrænan hávaða og lélega skönnun
Input.Deskew() ' lagar snúning og sjónarhorn
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Flytja út OCR niðurstöður sem PDF sem hægt er að leita í
Mynd í PDF með afritanlegum textastrengjum. Hægt að verðtryggja með leitarvélum og gagnagrunnum.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");
var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");
var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")
Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
TIFF til að leita í PDF viðskiptum
Skiptu TIFF skjali (eða hvaða hópi myndaskrár sem er) beint í PDF sem hægt er að leita sem hægt er að verðtryggja með innra neti, vefsíðu og Google leitarvélum.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
Flytja út OCR niðurstöður sem HTML
OCR mynd í XHTML viðskipti.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
OCR myndaukandi síur
IronOCR veitir einstaka síur fyrir OcrInput
hluti til að bæta árangur OCR.
Dæmi um myndaukningarkóða
Gerir OCR innsláttarmyndir meiri gæði til að framleiða betri og hraðari OCR niðurstöður.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // lagar stafrænan hávaða og lélega skönnun
Input.Deskew(); // lagar snúning og sjónarhorn
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // lagar stafrænan hávaða og lélega skönnun
Input.Deskew(); // lagar snúning og sjónarhorn
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' lagar stafrænan hávaða og lélega skönnun
Input.Deskew() ' lagar snúning og sjónarhorn
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Listi yfir OCR myndasíur
Inntakssíur til að auka árangur OCR sem eru innbyggðar í IronOCR eru:
- OcrInput.Rotate (tvöfaldur gráður) - Snýst myndum um fjölda gráða réttsælis. Notaðu neikvæðar tölur fyrir rangsælis.
- OcrInput.Binarize () - Þessi myndasía gerir hverja pixlu svartan eða hvítan án millivegar . Getur bætt OCR árangur tilfelli af mjög litlum andstæða texta við bakgrunn.
- OcrInput.ToGrayScale () - Þessi myndsía breytir hverjum punkta í skugga gráskalans. Ólíklegt að bæta OCR nákvæmni en gæti bætt hraðann
- OcrInput.Contrast () - Eykur sjálfvirkt andstæða. Þessi sía bætir oft OCR hraða og nákvæmni í litlum skuggaefnum.
- OcrInput.DeNoise () - Fjarlægir stafrænan hávaða. Þessi sía ætti aðeins að nota þar sem búist er við hávaða.
- OcrInput.Invert () - Breytir hverjum lit. Td hvítur verður svartur: svartur verður hvítur.
- OcrInput.Dilate () - Ítarlegri formgerð. Útvíkkun bætir punktum við mörk hlutanna í mynd. Andstætt Erode
- OcrInput.Erode () - Ítarlegri formgerð. Rof fjarlægir punkta á hlutamörkum á móti Dilate
- OcrInput.Deskew () - Snýr mynd þannig að hún er rétta leiðin upp og réttrétt. Þetta er mjög gagnlegt fyrir OCR vegna þess að umburðarlyndi Tesseract fyrir skekktar skannanir getur verið allt að 5 gráður.
- OcrInput.DeepCleanBackgroundNoise () - Þungur bakgrunnur hávaði fjarlægður. Notaðu þessa síu aðeins ef vitað er um mikinn bakgrunnshljóð skjala, því þessi sía mun einnig hætta á að draga úr OCR nákvæmni hreinna skjala og er mjög örgjörvadýr.
- OcrInput.EnhanceResolution - Bætir upplausn mynda með litlum gæðum. Ekki er oft þörf á þessari síu vegna þess að OcrInput.MinimumDPI og OcrInput.TargetDPI grípur sjálfkrafa og leysir inntak með lága upplausn.
CleanBackgroundNoise. Þetta er stilling sem er nokkuð tímafrek; þó gerir það bókasafninu kleift að hreinsa sjálfkrafa stafrænan hávaða, pappírskreppur og aðra ófullkomleika innan stafrænnar myndar sem annars myndi gera það ófært um að vera lesið af öðrum OCR bókasöfnum.
EnhanceContrast er stilling sem veldur því að IronOCR eykur sjálfkrafa andstæða texta á bakgrunni myndar, eykur nákvæmni OCR og almennt eykur afköst og hraða OCR.
EnhanceResolution er stilling sem uppgötvar sjálfkrafa myndir í lágri upplausn (sem eru undir 275 pát) og hækkar sjálfkrafa myndina og skerpir síðan allan textann svo hægt sé að lesa hann fullkomlega af OCR bókasafni. Þó að þessi aðgerð sé í sjálfu sér tímafrek dregur hún almennt úr heildartíma fyrir OCR aðgerð á mynd.
Tungumál IronOCR styður 22 alþjóðlega tungumálapakka og hægt er að nota tungumálastillinguna til að velja eitt eða fleiri mörg tungumál sem nota á fyrir OCR aðgerð.
Strategy IronOCR styður tvær aðferðir. Við getum valið að fara annaðhvort í skjóta og minna nákvæma skönnun á skjali eða nota háþróaða stefnu sem notar nokkur gervigreindarlíkön til að bæta sjálfkrafa nákvæmni OCR-texta með því að skoða tölfræðilegt samband orðanna við hverja aðra í setningu .
ColorSpace er stilling þar sem við getum valið að OCR í gráskala eða lit. Almennt er gráskala besti kosturinn. Hins vegar, stundum þegar það eru textar eða bakgrunnur af svipuðum lit en mjög mismunandi litur, mun litrými í fullum lit skila betri árangri.
UppgötvaWhiteTextOnDarkBackgrounds. Yfirleitt búast öll OCR bókasöfn við að sjá svartan texta á hvítum bakgrunni. Þessi stilling gerir IronOCR kleift að greina sjálfkrafa neikvæða eða dökkar síður með hvítum texta og lesa þær.
InputImageType. Þessi stilling gerir verktaki kleift að leiðbeina OCR bókasafninu um hvort hann sé að skoða skjal eða bút, svo sem skjáskot.
RotateAndStraighten er háþróaður stilling sem gerir IronOCR kleift að fá einstaka hæfileika til að lesa skjöl sem eru ekki aðeins snúin heldur innihalda kannski sjónarhorn, svo sem ljósmyndir af textaskjölum.
ReadBarcodes er gagnlegur eiginleiki sem gerir IronOCR kleift að lesa sjálfkrafa strikamerki og QR kóða á síðum þar sem það les einnig texta án þess að bæta við meiri tímabyrði.
Litadýpt. Þessi stilling ákvarðar hversu marga bita á punkta OCR bókasafnið notar til að ákvarða dýpt litar. Meiri litadýpt getur aukið gæði OCR en mun einnig auka þann tíma sem OCR aðgerðinni lýkur.
126 tungumálapakkar
IronOCR styður 126 alþjóðleg tungumál með tungumálapökkum sem er dreift sem DLLs sem hægt er að hlaða niður af þessari vefsíðu eða einnig frá NuGet Package Manager .
Tungumál eru þýska, franska, enska, kínverska, japanska og margt fleira. Tungupakkar sérfræðinga eru til fyrir vegabréf MRZ, MICR eftirlit, fjárhagsleg gögn, númeraplötur og margt fleira. Þú getur líka notað hvaða ".traineddata" skjal sem er - - þar á meðal þær sem þú býrð til sjálfur.
Dæmi um tungumál
Notkun annarra OCR tungumála.
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Bættu við myndasíum ef þörf er á
// Í þessu tilfelli, jafnvel hugsað inntak er mjög lítil gæði
// IronTesseract getur lesið það sem hefðbundið Tesseract getur ekki.
var Result = Ocr.Read(input);
// Stjórnborðið getur ekki prentað arabísku á Windows auðveldlega.
// Við skulum vista á disk í staðinn.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Bættu við myndasíum ef þörf er á
// Í þessu tilfelli, jafnvel hugsað inntak er mjög lítil gæði
// IronTesseract getur lesið það sem hefðbundið Tesseract getur ekki.
var Result = Ocr.Read(input);
// Stjórnborðið getur ekki prentað arabísku á Windows auðveldlega.
// Við skulum vista á disk í staðinn.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic
Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' Bættu við myndasíum ef þörf er á
' Í þessu tilfelli, jafnvel hugsað inntak er mjög lítil gæði
' IronTesseract getur lesið það sem hefðbundið Tesseract getur ekki.
Dim Result = Ocr.Read(input)
' Stjórnborðið getur ekki prentað arabísku á Windows auðveldlega.
' Við skulum vista á disk í staðinn.
Result.SaveAsTextFile("arabic.txt")
End Using
Dæmi um mörg tungumál
Það er einnig mögulegt að nota OCR á mörgum tungumálum samtímis. Þetta getur virkilega hjálpað til við að fá lýsigögn og slóðir á ensku í Unicode skjölum.
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Icelandic);
// Við getum bætt við hvaða tungumáli sem er
using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Icelandic);
// Við getum bætt við hvaða tungumáli sem er
using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Icelandic)
' Við getum bætt við hvaða tungumáli sem er
Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
Ítarlegir hlutir OCR niðurstaðna
IronOCR skilar OCR niðurstöðu hlut fyrir hverja OCR aðgerð. Almennt nota forritarar aðeins textaeiginleika þessa hlutar til að fá textann skannaðan frá myndinni. OCR niðurstöður DOM eru þó miklu lengra komnar en þetta.
using IronOcr;
using System.Drawing; //Bæta við samkomutilvísun
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //Mikilvægt
using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Kannaðu hér til að finna gríðarlegt, ítarlegt forritaskil:
// - Síður, kubbar, paraphaphs, línur, orð, stafir
// - Útflutningur mynda, leturhnit, tölfræðileg gögn
}
using IronOcr;
using System.Drawing; //Bæta við samkomutilvísun
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //Mikilvægt
using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Kannaðu hér til að finna gríðarlegt, ítarlegt forritaskil:
// - Síður, kubbar, paraphaphs, línur, orð, stafir
// - Útflutningur mynda, leturhnit, tölfræðileg gögn
}
Imports IronOcr
Imports System.Drawing 'Bæta við samkomutilvísun
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True 'Mikilvægt
Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages (0).Words
Dim Barcodes = Result.Barcodes
' Kannaðu hér til að finna gríðarlegt, ítarlegt forritaskil:
' - Síður, kubbar, paraphaphs, línur, orð, stafir
' - Útflutningur mynda, leturhnit, tölfræðileg gögn
End Using
Frammistaða
IronOCR vinnur út úr kassanum án þess að þurfa að stilla flutning eða breyta verulega inntaksmyndum.
Hraði er að loga: IronOcr.2020 + er allt að 10 sinnum hraðari og gerir yfir 250% færri villur en fyrri smíði.
Læra meira
Til að læra meira um OCR í C #, VB, F # eða einhverju öðru .NET tungumáli, vinsamlegast lestu námskeið okkar í samfélaginu , sem gefa raunveruleg dæmi um heiminn um hvernig hægt er að nota IronOCR og geta sýnt blæbrigði hvernig á að fá sem best út úr þetta bókasafn.
Full tilvísun fyrir hluti fyrir .NET forritara er einnig fáanleg.