Íslenskur OCR í C#og .Net

Aðrar útgáfur af þessu skjali:

IronOCR er C#hugbúnaðarþáttur sem gerir .NET kóðara kleift að lesa texta úr myndum og PDF skjölum á 126 tungumálum, þar á meðal íslensku.

Það er háþróaður gaffall af Tesseract, smíðaður eingöngu fyrir .NET forritara og stendur sig betur en aðrar Tesseract vélar bæði hvað varðar hraða og nákvæmni.

Innihald IronOcr.Languages.Icelandic

Þessi pakki inniheldur 52 OCR tungumál fyrir .NET:

  • Íslenska
  • IcelandicBest
  • IcelandicFast

Niðurhal

Íslenskur málpakki [Íslenska]
* Download as Rennilás
* Install with as
https://www.nuget.org/packages/IronOcr.Languages.Icelandic/'> NuGet

Uppsetning

The fyrstur hlutur sem við þurfum að gera er að setja okkar Icelandic OCR pakki til NET verkefni.

PM> Install-Package IronOCR.Languages.Icelandic

Kóðadæmi

Þetta C#kóða dæmi les íslenskan texta úr mynd eða PDF skjali.

//PM> Install-Package IronOcr.Languages.Icelandic
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput(@"images\Icelandic.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Icelandic
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput(@"images\Icelandic.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Icelandic
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Using Input = New OcrInput("images\Icelandic.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

Af hverju að velja IronOCR?

Iron OCR er auðvelt í uppsetningu, heill og vel skjalfestur .NET hugbúnaðarsafn.

Veldu IronOCR til að ná 99,8% + OCR nákvæmni án þess að nota utanaðkomandi vefþjónustu, áframhaldandi gjöld eða senda trúnaðargögn um internetið.

Af hverju velja C#verktakar IronOCR fram yfir Vanilla Tesseract:

  • Settu upp sem eina DLL eða Nuget
  • Innifalið fyrir Tesseract 5, 4 og 3 vélar úr kassanum.
  • Nákvæmni 99,8% er verulega betri en venjulegur Tesseract.
  • Logandi hraði og fjölþráður
  • MVC, WebApp, Desktop, Console & Server Application samhæft
  • Engir Exes eða C ++ kóði til að vinna með
  • Fullur PDF OCR stuðningur
  • Til að framkvæma OCR næstum hvaða myndskrá eða PDF
  • Fullur. Net Core, Standard og FrameWork stuðningur
  • Dreifðu á Windows, Mac, Linux, Azure, Docker, Lambda, AWS
  • Lestu strikamerki og QR kóða
  • Flytja út OCR eins og í XHTML
  • Flytja út OCR í PDF skjöl sem hægt er að leita í
  • Multithreading stuðningur
  • 126 alþjóðamál eru öll stjórnað með Nuget eða OcrData skrám
  • Dragðu úr myndum, hnitum, tölfræði og leturgerðum. Ekki bara texta.
  • Hægt að nota til að dreifa Tesseract OCR innan forrita og einkafyrirtækja.

Iron OCR skín þegar unnið er með raunverulegar heimsmyndir og ófullkomnar skjöl eins og ljósmyndir, eða skannanir með litla upplausn sem geta haft stafrænan hávaða eða ófullkomleika.

Önnur ókeypis OCR- bókasöfn fyrir .NET vettvanginn svo sem önnur .net tesseract forritaskil og vefþjónusta skila ekki svo góðum árangri í þessum raunverulegu notkunartilvikum.

OCR með Tesseract 5 - Byrjaðu kóðun í C #

Kóðasýnið hér að neðan sýnir hversu auðvelt það er að lesa texta úr mynd með C#eða VB .NET.

OneLiner

string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
VB   C#

Stillanlegur Hello World

// PM> Install-Package IronOCR.Languages.Icelandic
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... þú getur bætt við hvaða fjölda mynda sem er
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Icelandic
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... þú getur bætt við hvaða fjölda mynda sem er
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Icelandic
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

C#PDF OCR

Sama nálgun er á sama hátt hægt að nota til að draga texta úr hvaða PDF skjali sem er.

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Við getum líka valið sérstaka PDF blaðsíðunúmer fyrir OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 blaðsíða fyrir hverja síðu PDF
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Við getum líka valið sérstaka PDF blaðsíðunúmer fyrir OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 blaðsíða fyrir hverja síðu PDF
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' Við getum líka valið sérstaka PDF blaðsíðunúmer fyrir OCR

Dim Result = Ocr.Read(input)

Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' 1 blaðsíða fyrir hverja síðu PDF
End Using
VB   C#

OCR fyrir MultiPage TIFF

OCR Lestur TIFF skráarsnið þar á meðal skjöl á mörgum síðum. Einnig er hægt að breyta TIFF beint í PDF skjal með texta sem hægt er að leita í.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic

Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Strikamerki og QR

Sérstakur eiginleiki Iron OCR er að það getur lesið strikamerki og QR kóða úr skjölum meðan það er að leita að texta. Dæmi um OcrResult.OcrBarcode gefa verktaki ítarlegar upplýsingar um hvert skannað strikamerki.

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// gerð og staðsetningareiginleikar einnig útsettir
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// gerð og staðsetningareiginleikar einnig útsettir
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True

Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' gerð og staðsetningareiginleikar einnig útsettir
Next Barcode
End Using
VB   C#

OCR um sérstök svæði mynda

Allar skannunar- og lestraraðferðir Iron OCR veita möguleika á að tilgreina nákvæmlega úr hvaða hluta af blaðsíðu eða síðum við viljum lesa texta. Þetta er mjög gagnlegt þegar við erum að skoða stöðluð eyðublöð og getur sparað óskaplega mikinn tíma og bætt skilvirkni.

Til að nota uppskerusvæði verðum við að bæta við System.Drawing í System.Drawing svo að við getum notað System.Drawing.Rectangle hlutinn.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Mál eru í px

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Mál eru í px

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic

Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
	.X = 215,
	.Y = 1250,
	.Height = 280,
	.Width = 1335
}
' Mál eru í px

Input.Add("document.png", ContentArea)

Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR fyrir lágar gæðaskannanir

Iron OCR OcrInput bekkurinn getur lagað skannanir sem venjulegur Tesseract getur ekki lesið.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // lagar stafrænan hávaða og lélega skönnun
Input.Deskew(); // lagar snúning og sjónarhorn
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // lagar stafrænan hávaða og lélega skönnun
Input.Deskew(); // lagar snúning og sjónarhorn
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic

Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' lagar stafrænan hávaða og lélega skönnun
Input.Deskew() ' lagar snúning og sjónarhorn
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Flytja út OCR niðurstöður sem PDF sem hægt er að leita í

Mynd í PDF með afritanlegum textastrengjum. Hægt að verðtryggja með leitarvélum og gagnagrunnum.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic

Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")

Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

TIFF til að leita í PDF viðskiptum

Skiptu TIFF skjali (eða hvaða hópi myndaskrár sem er) beint í PDF sem hægt er að leita sem hægt er að verðtryggja með innra neti, vefsíðu og Google leitarvélum.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic

Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

Flytja út OCR niðurstöður sem HTML

OCR mynd í XHTML viðskipti.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
VB   C#

OCR myndaukandi síur

IronOCR veitir einstaka síur fyrir OcrInput hluti til að bæta árangur OCR.

Dæmi um myndaukningarkóða

Gerir OCR innsláttarmyndir meiri gæði til að framleiða betri og hraðari OCR niðurstöður.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // lagar stafrænan hávaða og lélega skönnun
Input.Deskew(); // lagar snúning og sjónarhorn
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // lagar stafrænan hávaða og lélega skönnun
Input.Deskew(); // lagar snúning og sjónarhorn
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic

Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' lagar stafrænan hávaða og lélega skönnun
Input.Deskew() ' lagar snúning og sjónarhorn
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Listi yfir OCR myndasíur

Inntakssíur til að auka árangur OCR sem eru innbyggðar í IronOCR eru:

  • OcrInput.Rotate (tvöfaldur gráður) - Snýst myndum um fjölda gráða réttsælis. Notaðu neikvæðar tölur fyrir rangsælis.
  • OcrInput.Binarize () - Þessi myndasía gerir hverja pixlu svartan eða hvítan án millivegar . Getur bætt OCR árangur tilfelli af mjög litlum andstæða texta við bakgrunn.
  • OcrInput.ToGrayScale () - Þessi myndsía breytir hverjum punkta í skugga gráskalans. Ólíklegt að bæta OCR nákvæmni en gæti bætt hraðann
  • OcrInput.Contrast () - Eykur sjálfvirkt andstæða. Þessi sía bætir oft OCR hraða og nákvæmni í litlum skuggaefnum.
  • OcrInput.DeNoise () - Fjarlægir stafrænan hávaða. Þessi sía ætti aðeins að nota þar sem búist er við hávaða.
  • OcrInput.Invert () - Breytir hverjum lit. Td hvítur verður svartur: svartur verður hvítur.
  • OcrInput.Dilate () - Ítarlegri formgerð. Útvíkkun bætir punktum við mörk hlutanna í mynd. Andstætt Erode
  • OcrInput.Erode () - Ítarlegri formgerð. Rof fjarlægir punkta á hlutamörkum á móti Dilate
  • OcrInput.Deskew () - Snýr mynd þannig að hún er rétta leiðin upp og réttrétt. Þetta er mjög gagnlegt fyrir OCR vegna þess að umburðarlyndi Tesseract fyrir skekktar skannanir getur verið allt að 5 gráður.
  • OcrInput.DeepCleanBackgroundNoise () - Þungur bakgrunnur hávaði fjarlægður. Notaðu þessa síu aðeins ef vitað er um mikinn bakgrunnshljóð skjala, því þessi sía mun einnig hætta á að draga úr OCR nákvæmni hreinna skjala og er mjög örgjörvadýr.
  • OcrInput.EnhanceResolution - Bætir upplausn mynda með litlum gæðum. Ekki er oft þörf á þessari síu vegna þess að OcrInput.MinimumDPI og OcrInput.TargetDPI grípur sjálfkrafa og leysir inntak með lága upplausn.

CleanBackgroundNoise. Þetta er stilling sem er nokkuð tímafrek; þó gerir það bókasafninu kleift að hreinsa sjálfkrafa stafrænan hávaða, pappírskreppur og aðra ófullkomleika innan stafrænnar myndar sem annars myndi gera það ófært um að vera lesið af öðrum OCR bókasöfnum.

EnhanceContrast er stilling sem veldur því að Iron OCR eykur sjálfkrafa andstæða texta á bakgrunni myndar, eykur nákvæmni OCR og almennt eykur afköst og hraða OCR.

EnhanceResolution er stilling sem uppgötvar sjálfkrafa myndir í lágri upplausn (sem eru undir 275 pát) og hækkar sjálfkrafa myndina og skerpir síðan allan textann svo hægt sé að lesa hann fullkomlega af OCR bókasafni. Þó að þessi aðgerð sé í sjálfu sér tímafrek dregur hún almennt úr heildartíma fyrir OCR aðgerð á mynd.

Tungumál Iron OCR styður 22 alþjóðlega tungumálapakka og hægt er að nota tungumálastillinguna til að velja eitt eða fleiri mörg tungumál sem nota á fyrir OCR aðgerð.

Strategy Iron OCR styður tvær aðferðir. Við getum valið að fara annaðhvort í skjóta og minna nákvæma skönnun á skjali eða nota háþróaða stefnu sem notar nokkur gervigreindarlíkön til að bæta sjálfkrafa nákvæmni OCR-texta með því að skoða tölfræðilegt samband orðanna við hverja aðra í setningu .

ColorSpace er stilling þar sem við getum valið að OCR í gráskala eða lit. Almennt er gráskala besti kosturinn. Hins vegar, stundum þegar það eru textar eða bakgrunnur af svipuðum lit en mjög mismunandi litur, mun litrými í fullum lit skila betri árangri.

UppgötvaWhiteTextOnDarkBackgrounds. Yfirleitt búast öll OCR bókasöfn við að sjá svartan texta á hvítum bakgrunni. Þessi stilling gerir Iron OCR kleift að greina sjálfkrafa neikvæða eða dökkar síður með hvítum texta og lesa þær.

InputImageType. Þessi stilling gerir verktaki kleift að leiðbeina OCR bókasafninu um hvort hann sé að skoða skjal eða bút, svo sem skjáskot.

RotateAndStraighten er háþróaður stilling sem gerir Iron OCR kleift að fá einstaka hæfileika til að lesa skjöl sem eru ekki aðeins snúin heldur innihalda kannski sjónarhorn, svo sem ljósmyndir af textaskjölum.

ReadBarcodes er gagnlegur eiginleiki sem gerir Iron OCR kleift að lesa sjálfkrafa strikamerki og QR kóða á síðum þar sem það les einnig texta án þess að bæta við meiri tímabyrði.

Litadýpt. Þessi stilling ákvarðar hversu marga bita á punkta OCR bókasafnið notar til að ákvarða dýpt litar. Meiri litadýpt getur aukið gæði OCR en mun einnig auka þann tíma sem OCR aðgerðinni lýkur.

126 tungumálapakkar

Iron OCR styður 126 alþjóðleg tungumál með tungumálapökkum sem er dreift sem DLLs sem hægt er að hlaða niður af þessari vefsíðu eða einnig frá NuGet Package Manager .

Tungumál eru þýska, franska, enska, kínverska, japanska og margt fleira. Tungupakkar sérfræðinga eru til fyrir vegabréf MRZ, MICR eftirlit, fjárhagsleg gögn, númeraplötur og margt fleira. Þú getur líka notað hvaða ".traineddata" skjal sem er - - þar á meðal þær sem þú býrð til sjálfur.

Dæmi um tungumál

Notkun annarra OCR tungumála.

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Bættu við myndasíum ef þörf er á
// Í þessu tilfelli, jafnvel hugsað inntak er mjög lítil gæði
// IronTesseract getur lesið það sem hefðbundið Tesseract getur ekki.

var Result = Ocr.Read(input);

// Stjórnborðið getur ekki prentað arabísku á Windows auðveldlega.
// Við skulum vista á disk í staðinn.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Bættu við myndasíum ef þörf er á
// Í þessu tilfelli, jafnvel hugsað inntak er mjög lítil gæði
// IronTesseract getur lesið það sem hefðbundið Tesseract getur ekki.

var Result = Ocr.Read(input);

// Stjórnborðið getur ekki prentað arabísku á Windows auðveldlega.
// Við skulum vista á disk í staðinn.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' Bættu við myndasíum ef þörf er á
' Í þessu tilfelli, jafnvel hugsað inntak er mjög lítil gæði
' IronTesseract getur lesið það sem hefðbundið Tesseract getur ekki.

Dim Result = Ocr.Read(input)

' Stjórnborðið getur ekki prentað arabísku á Windows auðveldlega.
' Við skulum vista á disk í staðinn.
Result.SaveAsTextFile("arabic.txt")
End Using
VB   C#

Dæmi um mörg tungumál

Það er einnig mögulegt að nota OCR á mörgum tungumálum samtímis. Þetta getur virkilega hjálpað til við að fá lýsigögn og slóðir á ensku í Unicode skjölum.

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Icelandic);

// Við getum bætt við hvaða tungumáli sem er

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Icelandic);

// Við getum bætt við hvaða tungumáli sem er

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Icelandic)

' Við getum bætt við hvaða tungumáli sem er

Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
VB   C#

Ítarlegir hlutir OCR niðurstaðna

Iron OCR skilar OCR niðurstöðu hlut fyrir hverja OCR aðgerð. Almennt nota forritarar aðeins textaeiginleika þessa hlutar til að fá textann skannaðan frá myndinni. OCR niðurstöður DOM eru þó miklu lengra komnar en þetta.

using IronOcr;
using System.Drawing; //Bæta við samkomutilvísun

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //Mikilvægt

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// Kannaðu hér til að finna gríðarlegt, ítarlegt forritaskil:
// - Síður, kubbar, paraphaphs, línur, orð, stafir
// - Útflutningur mynda, leturhnit, tölfræðileg gögn
}
using IronOcr;
using System.Drawing; //Bæta við samkomutilvísun

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //Mikilvægt

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// Kannaðu hér til að finna gríðarlegt, ítarlegt forritaskil:
// - Síður, kubbar, paraphaphs, línur, orð, stafir
// - Útflutningur mynda, leturhnit, tölfræðileg gögn
}
Imports IronOcr
Imports System.Drawing 'Bæta við samkomutilvísun

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True 'Mikilvægt

Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages(0).Words
Dim Barcodes = Result.Barcodes
' Kannaðu hér til að finna gríðarlegt, ítarlegt forritaskil:
' - Síður, kubbar, paraphaphs, línur, orð, stafir
' - Útflutningur mynda, leturhnit, tölfræðileg gögn
End Using
VB   C#

Frammistaða

IronOCR vinnur út úr kassanum án þess að þurfa að stilla flutning eða breyta verulega inntaksmyndum.

Hraði er að loga: IronOcr.2020 + er allt að 10 sinnum hraðari og gerir yfir 250% færri villur en fyrri smíði.

Læra meira

Til að læra meira um OCR í C #, VB, F # eða einhverju öðru .NET tungumáli, vinsamlegast lestu námskeið okkar í samfélaginu , sem gefa raunveruleg dæmi um heiminn um hvernig hægt er að nota Iron OCR og geta sýnt blæbrigði hvernig á að fá sem best út úr þetta bókasafn.

Full tilvísun fyrir hluti fyrir .NET forritara er einnig fáanleg.