Íslenskur OCR í C# og .NET
Aðrar útgáfur af þessu skjali:
IronOCR er C# hugbúnaðarþáttur sem gerir .NET kóðara kleift að lesa texta úr myndum og PDF skjölum á 126 tungumálum, þar á meðal íslensku.
Það er háþróaður gaffall af Tesseract, smíðaður eingöngu fyrir .NET forritara og stendur sig betur en aðrar Tesseract vélar bæði hvað varðar hraða og nákvæmni.
Innihald IronOcr.Languages.Icelandic
Þessi pakki inniheldur 52 OCR tungumál fyrir .NET:
- Íslenska
- IcelandicBest
- IcelandicFast
Niðurhal
Íslenskur málpakki [Íslenska]
* Download as Rennilás
* Install with https://www.nuget.org/packages/IronOcr.Languages.Icelandic/'> NuGet
Uppsetning
Fyrsti viðfangsliðurinn er að setja upp Icelandic OCR pakka í .NET verkefni.
PM> Install-Package IronOCR.Languages.Icelandic
Kóðadæmi
Þetta C# kóðadæmi les íslenskan texta úr mynd eða PDF skjali.
// Þú þarft að setja IronOcr.Languages.Icelandic upp í verkefnið með NuGet
using IronOcr;
var Ocr = new IronTesseract();
// Setur tungumálið sem á að nota til að vera Íslenska
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput(@"images\Icelandic.png"))
{
// Les myndina og skilar niðurstöðu.
var Result = Ocr.Read(Input);
// Prentar allann textann sem fannst í PDF eða mynd
var AllText = Result.Text;
Console.WriteLine(AllText);
}
// Þú þarft að setja IronOcr.Languages.Icelandic upp í verkefnið með NuGet
using IronOcr;
var Ocr = new IronTesseract();
// Setur tungumálið sem á að nota til að vera Íslenska
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput(@"images\Icelandic.png"))
{
// Les myndina og skilar niðurstöðu.
var Result = Ocr.Read(Input);
// Prentar allann textann sem fannst í PDF eða mynd
var AllText = Result.Text;
Console.WriteLine(AllText);
}
' Þú þarft að setja IronOcr.Languages.Icelandic upp í verkefnið með NuGet
Imports IronOcr
Private Ocr = New IronTesseract()
' Setur tungumálið sem á að nota til að vera Íslenska
Ocr.Language = OcrLanguage.Icelandic
Using Input = New OcrInput("images\Icelandic.png")
' Les myndina og skilar niðurstöðu.
Dim Result = Ocr.Read(Input)
' Prentar allann textann sem fannst í PDF eða mynd
Dim AllText = Result.Text
Console.WriteLine(AllText)
End Using
Af hverju að velja IronOCR?
IronOCR er auðvelt í uppsetningu, heill og vel skjalfestur .NET hugbúnaðarsafn.
Veldu IronOCR til að ná 99,8% + OCR nákvæmni án þess að nota utanaðkomandi vefþjónustu, áframhaldandi gjöld eða senda trúnaðargögn um internetið.
Af hverju velja C# verktakar IronOCR fram yfir hefðbundinn Tesseract:
- Settu upp sem eina DLL eða NuGet
- Innifalið fyrir Tesseract 5, 4 og 3 vélar úr kassanum.
- Nákvæmni 99,8% er verulega betri en venjulegur Tesseract.
- Logandi hraði og fjölþráður
- MVC, WebApp, Desktop, Console & Server Application samhæft
- Engir Exes eða C++ kóði til að vinna með
- Fullur PDF OCR stuðningur
- Til að framkvæma OCR næstum hvaða myndskrá eða PDF
- Fullur .NET Core, Standard og FrameWork stuðningur
- Dreifðu á Windows, Mac, Linux, Azure, Docker, Lambda, AWS
- Lestu strikamerki og QR kóða
- Flytðu út OCR niðurstöður í XHTML
- Flytðu út OCR í PDF skjöl sem hægt er að leita í
- Multithreading stuðningur
- 126 alþjóðamál eru öll stjórnað með NuGet eða OcrData skrám
- Dragðu úr myndum, hnitum, tölfræði og leturgerðum. Ekki bara texta.
- Hægt að nota til að dreifa Tesseract OCR innan forrita og einkafyrirtækja.
IronOCR skín þegar unnið er með raunverulegar heimsmyndir og ófullkomnar skjöl eins og ljósmyndir eða skannanir með litla upplausn sem geta haft stafrænan hávaða eða ófullkomleika.
Önnur ókeypis OCR- bókasöfn fyrir .NET vettvanginn svo sem önnur .NET Tesseract forritaskil og vefþjónusta skila ekki svo góðum árangri í þessum raunverulegu notkunartilvikum.
OCR með Tesseract 5 - Byrjaðu kóðun í C#
Kóðasýnið hér að neðan sýnir hversu auðvelt það er að lesa texta úr mynd með C# eða VB .NET.
OneLiner
// Les textann úr myndinni og skilar honum sem streng
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Console.WriteLine(Text);
// Les textann úr myndinni og skilar honum sem streng
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Console.WriteLine(Text);
' Les textann úr myndinni og skilar honum sem streng
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
Console.WriteLine(Text)
Stillanlegur Hello World
// Þú þarft að setja IronOcr.Languages.Icelandic upp í verkefnið með NuGet
using IronOcr;
// Býr til nýtt OCR fyrirbæri
var Ocr = new IronTesseract();
// Setur tungumálið sem á að nota
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput())
{
// Bætir mynd við OCR inntak
Input.AddImage("images/sample.jpeg");
// Þú getur bætt við hvaða fjölda mynda sem er
var Result = Ocr.Read(Input);
// Prenta textann fundin á myndinni
Console.WriteLine(Result.Text);
}
// Þú þarft að setja IronOcr.Languages.Icelandic upp í verkefnið með NuGet
using IronOcr;
// Býr til nýtt OCR fyrirbæri
var Ocr = new IronTesseract();
// Setur tungumálið sem á að nota
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput())
{
// Bætir mynd við OCR inntak
Input.AddImage("images/sample.jpeg");
// Þú getur bætt við hvaða fjölda mynda sem er
var Result = Ocr.Read(Input);
// Prenta textann fundin á myndinni
Console.WriteLine(Result.Text);
}
' Þú þarft að setja IronOcr.Languages.Icelandic upp í verkefnið með NuGet
Imports IronOcr
' Býr til nýtt OCR fyrirbæri
Private Ocr = New IronTesseract()
' Setur tungumálið sem á að nota
Ocr.Language = OcrLanguage.Icelandic
Using Input = New OcrInput()
' Bætir mynd við OCR inntak
Input.AddImage("images/sample.jpeg")
' Þú getur bætt við hvaða fjölda mynda sem er
Dim Result = Ocr.Read(Input)
' Prenta textann fundin á myndinni
Console.WriteLine(Result.Text)
End Using
C# PDF OCR
Sama nálgun er á sama hátt hægt að nota til að draga texta úr hvaða PDF skjali sem er.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var input = new OcrInput())
{
// Bætir PDF skjali við OCR inntak. "password" er lykilorðið ef skjalið er varið
input.AddPdf("example.pdf", "password");
// Við getum líka valið sérstök PDF blaðsíðunúmer fyrir OCR
var Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 blaðsíða fyrir hverja síðu í PDF
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var input = new OcrInput())
{
// Bætir PDF skjali við OCR inntak. "password" er lykilorðið ef skjalið er varið
input.AddPdf("example.pdf", "password");
// Við getum líka valið sérstök PDF blaðsíðunúmer fyrir OCR
var Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 blaðsíða fyrir hverja síðu í PDF
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Using input = New OcrInput()
' Bætir PDF skjali við OCR inntak. "password" er lykilorðið ef skjalið er varið
input.AddPdf("example.pdf", "password")
' Við getum líka valið sérstök PDF blaðsíðunúmer fyrir OCR
Dim Result = Ocr.Read(input)
Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' 1 blaðsíða fyrir hverja síðu í PDF
End Using
OCR fyrir MultiPage TIFF
OCR lestur TIFF skráarsnið þar á meðal skjöl á mörgum síðum. Einnig er hægt að breyta TIFF beint í PDF skjal með texta sem hægt er að leita í.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput())
{
// Bætir við fjölramma TIFF skrá
Input.AddMultiFrameTiff("multi-frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput())
{
// Bætir við fjölramma TIFF skrá
Input.AddMultiFrameTiff("multi-frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Using Input = New OcrInput()
' Bætir við fjölramma TIFF skrá
Input.AddMultiFrameTiff("multi-frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Strikamerki og QR
Sérstakur eiginleiki IronOCR er að það getur lesið strikamerki og QR kóða úr skjölum meðan það er að leita að texta. Dæmi um OcrResult.OcrBarcode
gefur verktaki ítarlegar upplýsingar um hvert skannað strikamerki.
using IronOcr;
var Ocr = new IronTesseract();
// Leyfir lestur á strikamerkjum
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
// Prentar gildi strikamerkisins
Console.WriteLine(Barcode.Value);
// Gerð og staðsetningareiginleikar einnig útsettir
}
}
using IronOcr;
var Ocr = new IronTesseract();
// Leyfir lestur á strikamerkjum
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
// Prentar gildi strikamerkisins
Console.WriteLine(Barcode.Value);
// Gerð og staðsetningareiginleikar einnig útsettir
}
}
Imports IronOcr
Private Ocr = New IronTesseract()
' Leyfir lestur á strikamerkjum
Ocr.Configuration.ReadBarCodes = True
Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
' Prentar gildi strikamerkisins
Console.WriteLine(Barcode.Value)
' Gerð og staðsetningareiginleikar einnig útsettir
Next Barcode
End Using
OCR um sérstök svæði mynda
Allar skannunar- og lestraraðferðir IronOCR veita möguleika á að tilgreina nákvæmlega úr hvaða hluta af blaðsíðu eða síðum við viljum lesa texta. Þetta er mjög gagnlegt þegar við erum að skoða stöðluð eyðublöð og getur sparað óskaplega mikinn tíma og bætt skilvirkni.
Til að nota uppskerusvæði verðum við að bæta við System.Drawing
í System.Drawing
svo að við getum notað System.Drawing.Rectangle
hlutinn.
using IronOcr;
using System.Drawing; // Bætir við kerfisritunar samkomu sem það er notað í kóðanum
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput())
{
// Býr til ferhyrning sem táknar það efni sem við viljum lesa úr myndinni
var ContentArea = new Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Bætir við mynd og tilgreitir svæði fyrir OCR vinnslu
Input.Add("document.png", ContentArea);
var Result = Ocr.Read(Input);
// Prentar úrkominn texta
Console.WriteLine(Result.Text);
}
using IronOcr;
using System.Drawing; // Bætir við kerfisritunar samkomu sem það er notað í kóðanum
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput())
{
// Býr til ferhyrning sem táknar það efni sem við viljum lesa úr myndinni
var ContentArea = new Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Bætir við mynd og tilgreitir svæði fyrir OCR vinnslu
Input.Add("document.png", ContentArea);
var Result = Ocr.Read(Input);
// Prentar úrkominn texta
Console.WriteLine(Result.Text);
}
Imports IronOcr
Imports System.Drawing ' Bætir við kerfisritunar samkomu sem það er notað í kóðanum
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Using Input = New OcrInput()
' Býr til ferhyrning sem táknar það efni sem við viljum lesa úr myndinni
Dim ContentArea = New Rectangle() With {
.X = 215,
.Y = 1250,
.Height = 280,
.Width = 1335
}
' Bætir við mynd og tilgreitir svæði fyrir OCR vinnslu
Input.Add("document.png", ContentArea)
Dim Result = Ocr.Read(Input)
' Prentar úrkominn texta
Console.WriteLine(Result.Text)
End Using
OCR fyrir lágar gæðaskannanir
IronOCR OcrInput
bekkurinn getur lagað skannanir sem venjulegur Tesseract getur ekki lesið.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
// Lagfærir stafrænan hávaða og lélega skönnun
Input.DeNoise();
// Lagfærir snúning og sjónarhorn
Input.Deskew();
var Result = Ocr.Read(Input);
// Prentar úrkominn texta
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
// Lagfærir stafrænan hávaða og lélega skönnun
Input.DeNoise();
// Lagfærir snúning og sjónarhorn
Input.Deskew();
var Result = Ocr.Read(Input);
// Prentar úrkominn texta
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Using Input = New OcrInput("img\Potter.LowQuality.tiff")
' Lagfærir stafrænan hávaða og lélega skönnun
Input.DeNoise()
' Lagfærir snúning og sjónarhorn
Input.Deskew()
Dim Result = Ocr.Read(Input)
' Prentar úrkominn texta
Console.WriteLine(Result.Text)
End Using
Flytja út OCR niðurstöður sem PDF sem hægt er að leita í
Mynd í PDF með afritanlegum textastrengjum. Hægt að verðtryggja með leitarvélum og gagnagrunnum.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput())
{
// Tilgreinir titil PDFs
Input.Title = "Quarterly Report";
// Bætir við myndum í innslátt
Input.AddImage("image1.jpeg");
Input.AddImage("image2.png");
Input.AddImage("image3.gif");
var Result = Ocr.Read(Input);
// Geymir niðurstöðuna sem PDF skjalhægt að leita í
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput())
{
// Tilgreinir titil PDFs
Input.Title = "Quarterly Report";
// Bætir við myndum í innslátt
Input.AddImage("image1.jpeg");
Input.AddImage("image2.png");
Input.AddImage("image3.gif");
var Result = Ocr.Read(Input);
// Geymir niðurstöðuna sem PDF skjalhægt að leita í
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Using Input = New OcrInput()
' Tilgreinir titil PDFs
Input.Title = "Quarterly Report"
' Bætir við myndum í innslátt
Input.AddImage("image1.jpeg")
Input.AddImage("image2.png")
Input.AddImage("image3.gif")
Dim Result = Ocr.Read(Input)
' Geymir niðurstöðuna sem PDF skjalhægt að leita í
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
TIFF til að leita í PDF viðskiptum
Skiptu TIFF skjali (eða hvaða hópi myndaskrár sem er) beint í PDF sem hægt er að leita í sem hægt er að verðtryggja með innra neti, vefsíðu og Google leitarvélum.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput())
{
// Bætir við fjölramma TIFF skrá
Input.AddMultiFrameTiff("example.tiff");
// Les inntakið og geymir sem PDF skjalhægt að leita í
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput())
{
// Bætir við fjölramma TIFF skrá
Input.AddMultiFrameTiff("example.tiff");
// Les inntakið og geymir sem PDF skjalhægt að leita í
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Using Input = New OcrInput()
' Bætir við fjölramma TIFF skrá
Input.AddMultiFrameTiff("example.tiff")
' Les inntakið og geymir sem PDF skjalhægt að leita í
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
Flytja út OCR niðurstöður sem HTML
OCR mynd í XHTML viðskipti.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput())
{
// Setur HTML titil
Input.Title = "Html Title";
// Bætir við mynd við inntak
Input.AddImage("image1.jpeg");
var Result = Ocr.Read(Input);
// Geymir niðurstöður sem hocr skjal
Result.SaveAsHocrFile("results.html");
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput())
{
// Setur HTML titil
Input.Title = "Html Title";
// Bætir við mynd við inntak
Input.AddImage("image1.jpeg");
var Result = Ocr.Read(Input);
// Geymir niðurstöður sem hocr skjal
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Using Input = New OcrInput()
' Setur HTML titil
Input.Title = "Html Title"
' Bætir við mynd við inntak
Input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(Input)
' Geymir niðurstöður sem hocr skjal
Result.SaveAsHocrFile("results.html")
End Using
OCR myndaukandi síur
IronOCR veitir einstaka síur fyrir OcrInput
hluti til að bæta árangur OCR.
Dæmi um myndaukningarkóða
Gerir OCR innsláttarmyndir meiri gæði til að framleiða betri og hraðari OCR niðurstöður.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
// Lagfærir hljóð og léleika í inntakshopnum
Input.DeNoise();
Input.Deskew();
var Result = Ocr.Read(Input);
// Prentar úrkominn texta
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
// Lagfærir hljóð og léleika í inntakshopnum
Input.DeNoise();
Input.Deskew();
var Result = Ocr.Read(Input);
// Prentar úrkominn texta
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
Using Input = New OcrInput("LowQuality.jpeg")
' Lagfærir hljóð og léleika í inntakshopnum
Input.DeNoise()
Input.Deskew()
Dim Result = Ocr.Read(Input)
' Prentar úrkominn texta
Console.WriteLine(Result.Text)
End Using
Listi yfir OCR myndasíur
Inntakssíur til að auka árangur OCR sem eru innbyggðar í IronOCR eru:
- OcrInput.Rotate (tvöfaldar gráður) - Snýst myndum um fjölda gráða réttsælis. Notaðu neikvæðar tölur fyrir rangsælis.
- OcrInput.Binarize () - Þessi myndasía gerir hverja pixlu svartan eða hvítan án millivegar. Getur bætt OCR árangur í tilfelli af mjög litlum andstæða texta við bakgrunn.
- OcrInput.ToGrayScale () - Þessi myndsía breytir hverjum punkta í skugga gráskalans. Ólíklegt til að bæta OCR nákvæmni en gæti bætt hraðann.
- OcrInput.Contrast () - Eykur sjálfvirkt andstæða. Þessi sía bætir oft OCR hraða og nákvæmni í litlum skuggaefnum.
- OcrInput.DeNoise () - Fjarlægir stafrænan hávaða. Þessi sía ætti aðeins að nota þar sem búist er við hávaða.
- OcrInput.Invert () - Breytir hverjum lit. Td hvítur verður svartur: svartur verður hvítur.
- OcrInput.Dilate () - Ítarlegri formgerð. Útvíkkun bætir punktum við mörk hlutanna í mynd. Andstætt Erode.
- OcrInput.Erode () - Ítarlegri formgerð. Rof fjarlægir punkta á hlutamörkum á móti Dilate.
- OcrInput.Deskew () - Snýr mynd þannig að hún er rétta leiðin upp og réttlógruð. Þetta er mjög gagnlegt fyrir OCR vegna þess að umburðarlyndi Tesseract fyrir skekktar skannanir getur verið allt að 5 gráður.
- OcrInput.DeepCleanBackgroundNoise () - Þungur bakgrunnur hávaði fjarlægður. Notaðu þessa síu ef vitað er um mikinn bakgrunnshljóð skjala, af því að þessi sía dregur einnig úr OCR nákvæmni hreinna skjala og er vaxtöflurit.
- OcrInput.EnhanceResolution - Bætir upplausn mynda með litlum gæðum. Ekki er oft þörf á þessari síu vegna þess að OcrInput.MinimumDPI og OcrInput.TargetDPI grípur sjálfkrafa og leysir inntak með lága upplausn.
CleanBackgroundNoise. Þetta er stilling sem er nokkuð tímafrek; þó gerir það bókasafninu kleift að hreinsa sjálfkrafa stafrænan hávaða, pappírskreppur og aðra ófullkomleika innan stafrænnar myndar sem annars myndu gera það ófært um að vera lesið af öðrum OCR bókasöfnum.
EnhanceContrast er stilling sem veldur því að IronOCR eykur sjálfkrafa andstæða texta á bakgrunni myndar, eykur nákvæmni OCR og almennt eykur afköst og hraða OCR.
EnhanceResolution er stilling sem uppgötvar sjálfkrafa myndir í lágri upplausn (sem eru undir 275 pátum) og hækkar sjálfkrafa myndina og skerpir síðan allan textann svo hægt sé að lesa hann fullkomlega af OCR bókasafni. Þó að þessi aðgerð sé í sjálfu sér tímafrek, dregur hún almennt úr heildartíma fyrir OCR aðgerð á mynd.
Tungumál IronOCR styður 22 alþjóðlega tungumálapakka og hægt er að nota tungumálastillinguna til að velja eitt eða fleiri mörg tungumál sem nota á fyrir OCR aðgerð.
Strategy IronOCR styður tvær aðferðir. Við getum valið að fara annaðhvort í skjóta og minna nákvæma skönnun á skjali eða nota háþróaða aðferð sem notar nokkur gervigreindarlíkön til að bæta sjálfkrafa nákvæmni OCR-texta með því að skoða tölfræðilegt samband orðanna við hvert annað í setningu.
ColorSpace er stilling þar sem við getum valið að OCR í gráskala eða lit. Almennt er gráskala besti kosturinn. Hins vegar stundum þegar það eru textar eða bakgrunnur af svipuðum lit en mjög mismunandi litur, mun litrými í fullum lit skila betri árangri.
UppgötvaWhiteTextOnDarkBackgrounds. Yfirleitt búast öll OCR bókasöfn við að sjá svartan texta á hvítum bakgrunni. Þessi stilling gerir IronOCR kleift að greina sjálfkrafa neikvæða eða dökkar síður með hvítum texta og lesa þær.
InputImageType. Þessi stilling gerir verktaki kleift að leiðbeina OCR bókasafninu um hvort hann sé að skoða skjal eða bút, svo sem skjáskot.
RotateAndStraighten er háþróaður stilling sem gerir IronOCR kleift að fá einstaka hæfileika til að lesa skjöl sem eru ekki aðeins snúin heldur innihalda kannski sjónarhorn, svo sem ljósmyndir af textaskjölum.
ReadBarcodes er gagnlegur eiginleiki sem gerir IronOCR kleift að lesa sjálfkrafa strikamerki og QR kóða á síðum þar sem það les einnig texta án þess að bæta við meiri tímabyrði.
Litadýpt. Þessi stilling ákvarðar hversu marga bita á punkta OCR bókasafnið notar til að ákvarða dýpt litar. Meiri litadýpt getur aukið gæði OCR en mun einnig auka þann tíma sem OCR aðgerðinni lýkur.
126 tungumálapakkar
IronOCR styður 126 alþjóðleg tungumál með tungumálapökkum sem er dreift sem DLLs sem hægt er að hlaða niður af þessari vefsíðu eða einnig frá NuGet Package Manager .
Tungumál eru þýska, franska, enska, kínverska, japanska og margt fleira. Tungumálapakkar sérfræðinga eru til fyrir vegabréf MRZ, MICR eftirlit, fjárhagsleg gögn, númeraplötur og margt fleira. Þú getur líka notað hvaða ".traineddata" skjal sem er - - þar á meðal þær sem þú býrð til sjálfur.
Dæmi um tungumál
Notkun annarra OCR tungumála.
using IronOcr;
// Þú þarft að setja IronOcr.Languages.Arabic upp í verkefnið með NuGet
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
// Bætir við arabísku myndinni í inntak
input.AddImage("img/arabic.gif");
// Bættu við myndasíum ef þörf er á
// Jafnvel þótt inntak sé lítil gæði þá getur IronTesseract lesið það
var Result = Ocr.Read(input);
// Stjórnborðið getur ekki prentað arabísku á Windows auðveldlega.
// Vista í skrá í staðinn.
Result.SaveAsTextFile("arabic.txt");
}
using IronOcr;
// Þú þarft að setja IronOcr.Languages.Arabic upp í verkefnið með NuGet
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
// Bætir við arabísku myndinni í inntak
input.AddImage("img/arabic.gif");
// Bættu við myndasíum ef þörf er á
// Jafnvel þótt inntak sé lítil gæði þá getur IronTesseract lesið það
var Result = Ocr.Read(input);
// Stjórnborðið getur ekki prentað arabísku á Windows auðveldlega.
// Vista í skrá í staðinn.
Result.SaveAsTextFile("arabic.txt");
}
Imports IronOcr
' Þú þarft að setja IronOcr.Languages.Arabic upp í verkefnið með NuGet
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic
Using input = New OcrInput()
' Bætir við arabísku myndinni í inntak
input.AddImage("img/arabic.gif")
' Bættu við myndasíum ef þörf er á
' Jafnvel þótt inntak sé lítil gæði þá getur IronTesseract lesið það
Dim Result = Ocr.Read(input)
' Stjórnborðið getur ekki prentað arabísku á Windows auðveldlega.
' Vista í skrá í staðinn.
Result.SaveAsTextFile("arabic.txt")
End Using
Dæmi um mörg tungumál
Það er einnig mögulegt að nota OCR á mörgum tungumálum samtímis. Þetta getur virkilega hjálpað til við að fá lýsigögn og slóðir á ensku í Unicode skjölum.
using IronOcr;
// Þú þarft að setja IronOcr.Languages.ChineseSimplified upp í verkefnið með NuGet
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Icelandic);
// Við getum bætt við hvaða tungumáli sem er
using (var input = new OcrInput())
{
input.Add("multi-language.pdf");
var Result = Ocr.Read(input);
// Geymir niðurstöðurnar sem textaskrá
Result.SaveAsTextFile("results.txt");
}
using IronOcr;
// Þú þarft að setja IronOcr.Languages.ChineseSimplified upp í verkefnið með NuGet
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Icelandic);
// Við getum bætt við hvaða tungumáli sem er
using (var input = new OcrInput())
{
input.Add("multi-language.pdf");
var Result = Ocr.Read(input);
// Geymir niðurstöðurnar sem textaskrá
Result.SaveAsTextFile("results.txt");
}
Imports IronOcr
' Þú þarft að setja IronOcr.Languages.ChineseSimplified upp í verkefnið með NuGet
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Icelandic)
' Við getum bætt við hvaða tungumáli sem er
Using input = New OcrInput()
input.Add("multi-language.pdf")
Dim Result = Ocr.Read(input)
' Geymir niðurstöðurnar sem textaskrá
Result.SaveAsTextFile("results.txt")
End Using
Ítarlegir hlutir OCR niðurstaðna
IronOCR skilar OCR niðurstöðu hlut fyrir hverja OCR aðgerð. Almennt nota forritarar aðeins textaeiginleika þessa hlutar til að fá textann skannaðan frá myndinni. OCR niðurstöður DOM eru þó miklu lengra komnar en þetta.
using IronOcr;
using System.Drawing; // Bætir við kerfisritunar samkomutilvísun
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
// Velur vélarstillingu fyrir Tesseract
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; // Mikilvægt að lesa strikamerki
using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// Kannaðu hér til að finna gríðarlegt, ítarlegt forritaskil:
// - Síður, kubbar, paraphaphs, línur, orð, stafir
// - Útflutningur mynda, leturhnit, tölfræðileg gögn
}
using IronOcr;
using System.Drawing; // Bætir við kerfisritunar samkomutilvísun
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Icelandic;
// Velur vélarstillingu fyrir Tesseract
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; // Mikilvægt að lesa strikamerki
using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// Kannaðu hér til að finna gríðarlegt, ítarlegt forritaskil:
// - Síður, kubbar, paraphaphs, línur, orð, stafir
// - Útflutningur mynda, leturhnit, tölfræðileg gögn
}
Imports IronOcr
Imports System.Drawing ' Bætir við kerfisritunar samkomutilvísun
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Icelandic
' Velur vélarstillingu fyrir Tesseract
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True ' Mikilvægt að lesa strikamerki
Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages(0).Words
Dim Barcodes = Result.Barcodes
' Kannaðu hér til að finna gríðarlegt, ítarlegt forritaskil:
' - Síður, kubbar, paraphaphs, línur, orð, stafir
' - Útflutningur mynda, leturhnit, tölfræðileg gögn
End Using
Frammistaða
IronOCR vinnur út úr kassanum án þess að þurfa að stilla flutning eða breyta verulega inntaksmyndum.
Hraði er að loga: IronOcr.2020+ er allt að 10 sinnum hraðari og gerir yfir 250% færri villur en fyrri smíði.
Læra meira
Til að læra meira um OCR í C#, VB, F# eða einhverju öðru .NET tungumáli, vinsamlegast lestu námskeið okkar í samfélaginu, sem gefa raunveruleg dæmi um heiminn um hvernig hægt er að nota IronOCR og geta sýnt blæbrigði hvernig á að fá sem best út úr þetta bókasafn.
Full tilvísun fyrir hluti fyrir .NET forritara er einnig fáanleg.