Euskal OCR C#eta .NET-es
Dokumentu honen beste bertsio batzuk:
IronOCR C#softwarearen osagaia da .NET kodetzaileek 126 hizkuntzatako irudien eta PDF dokumentuen testua irakurtzea 126 hizkuntzatan, euskara barne.
Tesseract-en sardexka aurreratua da, .NET garatzaileentzat soilik eraikia eta aldian-aldian beste Tesseract motorrak gainditzen ditu abiadura eta zehaztasunagatik.
IronOcr.Hizkuntzak.Euskara-ren edukia
Pakete honek .NETerako 43 OCR hizkuntza ditu:
- Euskara
- EuskaraMejor
- BasqueFast
Deskargatu
Pack Euskara [euskara]
* Descargar como Código postal
* Instalar con como https://www.nuget.org/packages/IronOcr.Languages.Basque/'> NuGet
Instalazioa
Egin behar dugun lehenengo gauza gure euskal El paquete OCR se instala en un entorno .NET.
PM> Install-Package IronOCR.Languages.Basque
Kodearen adibidea
C#kode adibide honek Image edo PDF dokumentu bateko euskarazko testua irakurtzen du.
```cs //PM> Install-Package IronOcr.Languages.Basque using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Basque; using (var Input = new OcrInput(@"images\Basque.png")) { var Result = Ocr.Read(Input); Var AllText = Result.Text } ```¿Qué te parece IronOCR?
El software IronOCR for .NET se instala fácilmente, sin necesidad de documentación.
Aukeratu IronOCR % 99,8 + OCR zehaztasuna lortzeko kanpoko web zerbitzurik, etengabeko tasarik edo Internet bidez isilpeko dokumentuak bidali gabe.
¿Garatzaileek Zergatik dute C# IronOCR Vanilla Tesseract baino?
- Instalar DLL en NuGet
- Tesseract 5, 4 y 3 motorretarako sartzen da kutxatik kanpora.
- Zehaztasunak % 99,8k ohiko Tesseract gainditzen du.
- Velocidad de vértigo eta MultiThreading
- MVC, WebApp, Desktop, Console & Server Application bateragarriak dira
- Ez dago Exes edo C ++ koderik lan egiteko
- OCR en PDF
- OCR para PDF en formato PDF de alta calidad
- .NET Core, Estándar y FrameWork en la nube
- Implementación en Windows, Mac, Linux, Azure, Docker, Lambda y AWS
- Irakurri barra-kodeak eta QR kodeak
- Esportatu OCR XHTML gisa
- Esportatu OCR bilatzeko PDF dokumentuetara
- Multihilo euskarria
- 126 usuarios de NuGet y OcrData se han unido para crear un nuevo producto
- Atera irudiak, koordenatuak, estatistikak eta letra tipoak. Ez bakarrik testua.
- Tesseract OCR es un programa de reconocimiento óptico de caracteres que permite a los usuarios realizar copias de seguridad de sus documentos.
Burdinazko OCR distirak distira ematen du mundu errealeko irudiekin eta dokumentu inperfektuekin lan egitean, hala nola argazkiekin edo bereizmen txikiko eskanerrak, zarata digitala edo akatsak izan ditzaketenak.
.NET plataformarako doako beste OCR liburutegi batzuek .net tesseract APIak eta web zerbitzuek ez dute hain ondo funtzionatzen mundu errealeko erabilera kasu hauetan.
OCR Tesseract 5-rekin - Hasi kodeketa C#-ean
Si desea obtener más información sobre C# y VB .NET, póngase en contacto con nosotros.
OneLiner
```cs string Text = new IronTesseract().Read(@"img\Screenshot.png").Text; ```Konfiguratu Hola Mundo
```cs // PM> Install-Package IronOCR.Languages.Basque using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Basque; using (var Input = new OcrInput()){ Input.AddImage("images/sample.jpeg") //... edozein irudi gehitu dezakezu var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```C#PDF OCR
Ikuspegi bera erabil daiteke era berean PDF edozein dokumentutatik testua ateratzeko.
```cs var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Basque; using (var input = new OcrInput()) { input.AddPdf("example.pdf", "password"); // OCRrako PDF orrialde zehatzak ere hauta ditzakegu var Result = Ocr.Read(input); Console.WriteLine(Result.Text); Console.WriteLine($"{Result.Pages.Count()} Pages"); // PDF orrialde bakoitzeko orrialde bat } ```OCR MultiPágina TIFFetarako
OCR irakurketa TIFF fitxategi formatua orrialde anitzeko dokumentuak barne. TIFF y PDF en formato PDF daiteke bilaketan bilatu daitekeen testuarekin.
```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Basque; using (var Input = new OcrInput()){ input.AddMultiFrameTiff("multi - frame.tiff"); var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```Barra-kodeak eta QR
IronOCR-ren ezaugarri berezia dokumentuen barra-kodeak eta QR kodeak irakur ditzake testua bilatzen ari den bitartean. OcrResult.OcrBarcode
klaseko instantziek garatzaileari eskaneatutako barra-kode bakoitzari buruzko informazio zehatza ematen diote.
Irudi-arlo espezifikoei buruzko OCR
IronOCRren eskaneatze- eta irakurketa-metodo guztiek testua irakurri nahi dugun orrialde edo orrialdeetako zein atal zehatz zehazteko aukera ematen dute. Hori oso erabilgarria da inprimaki normalizatuak aztertzen ari garenean eta denbora asko aurrez dezakegu eta eraginkortasuna hobetu.
Laborantza eskualdeak erabiltzeko, Sistema.Dibujo
sistemaren erreferentzia bat gehitu beharko dugu System.Drawing.Rectangle
objektua erabili ahal izateko.
OCR en la pantalla de su ordenador
IronOCR OcrInput
klaseak Tesseract normalak irakurri ezin dituen OcrInput
konpon ditzake.
Esportatu OCR emaitzak bilatzeko PDF moduan
Irudia PDF formatuan kopiatzeko testu kateekin. Se puede indexar en formato PDF o en formato de base de datos.
```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Basque; using (var Input = new OcrInput()){ input.Title = "Quarterly Report" input.AddImage("image1.jpeg"); input.AddImage("image2.png"); input.AddImage("image3.gif"); var Result = Ocr.Read(input); Result.SaveAsSearchablePdf("searchable.pdf") } ```PDF en formato TIFF
COAktibatu TIFF dokumentu bat (edo edozein irudi-fitxategi talde) zuzenean bilatzeko PDF batean, intranet, webgune eta google bilatzaileek indexatu ahal izateko.
```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Basque; using (var Input = new OcrInput()){ input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf") } ```Esportatu OCR emaitzak HTML gisa
OCR para XHTML.
```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Basque; using (var Input = new OcrInput()){ input.Title = "Html Title" input.AddImage("image1.jpeg"); var Result = Ocr.Read(input); Result.SaveAsHocrFile("results.html"); } ```OCR irudiak hobetzeko iragazkiak
IronOCR-k OcrInput
objektuentzako iragazki bakarrak eskaintzen ditu OCR errendimendua hobetzeko.
Irudia hobetzeko kodearen adibidea
OCR sarrerako irudiak kalitate handiagoa lortzen ditu OCR emaitza hobeak eta azkarragoak lortzeko.
```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Basque; using (var Input = new OcrInput(@"LowQuality.jpeg")) { Input.DeNoise(); // zarata digitala eta eskaneatze eskasa konpontzen ditu Input.Deskew(); // biraketa eta perspektiba finkatzen ditu var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```OCR irudi iragazkien zerrenda
El programa IronOCR integra el reconocimiento óptico de caracteres (OCR):
- OcrInput.Rotate (graduado bikoitza) - Irudiak erlojuaren norabidean biratzen ditu. Erlojuaren aurkako norabidean, erabili zenbaki negatiboak.
- OcrInput.Binarizar () - Irudi-iragazki honek pixel guztiak beltz edo zuri bihurtzen ditu bide ertainik gabe. El sistema de reconocimiento óptico de caracteres (OCR) se utiliza en la mayoría de los países ditzake.
- OcrInput.ToGrayEscala () - Irudi-iragazki honek pixel bakoitza gris- tonuko tonu bihurtzen du. Nekez hobetuko du OCR zehaztasuna, baina abiadura hobe dezake
- OcrInput.Contraste () - Kontrastea automatikoki handitzen du. Iragazki honek askotan OCR abiadura eta zehaztasuna hobetzen ditu kontraste baxuko miaketetan.
- OcrInput.DeNoise () - Zarata digitala kentzen du. Iragazki hau zarata espero den tokian soilik erabili behar da.
- OcrInput.Invertir () - Kolore guztiak alderantzikatzen ditu. Adibidez, zuria beltz bihurtzen da: beltza zuri bihurtzen da.
- OcrInput.Dilate () - Morfologia aurreratua. Dilatazioak pixelak gehitzen ditu irudi bateko objektuen mugetan. Erodearen aurkakoa
- OcrInput.Erode () - Morfologia aurreratua. Higadurak objetivo pixelak mugetan kentzen ditu Dilate of Opposite
- OcrInput.Deskew () - Irudi bat biratzen du, beraz, modu egokian gora eta ortogonala da. Hau oso erabilgarria da OCRrako, Tesseract-en tolerantzia okerreko miaketetan 5 gradu artekoa izan baitaiteke.
- OcrInput.DeepCleanRuido de fondo () - Atzeko planoko zarata kentzea. Erabili iragazki hau soilik dokumentu muturreko atzeko zarata ezagutzen bada, iragazki honek dokumentu garbien OCR zehaztasuna murrizteko arriskua izango duelako eta CPU oso garestia delako.
- OcrInput.MejorarResolución - Kalitate baxuko irudien bereizmena hobetzen du. Iragazki hau ez da askotan behar OcrInput.MinimumDPI eta OcrInput.TargetDPI bereizmen txikiko sarrerak automatikoki harrapatu eta ebatziko dituztelako .
GarbiketaHondoa. Hau denbora gutxi behar duen ezarpena da; hala ere, liburutegiak irudi digital baten barruan zarata digitala, papera xehatu eta bestelako akatsak automatikoki garbitzeko aukera ematen du, bestela beste OCR liburutegi batzuek irakurtzeko gaitasuna izango lukete.
MejorarContraste IronOCR-k es un sistema de control automático de la velocidad de los motores de combustión interna duen ezarpena da, OCRren zehaztasuna handituz eta, oro har, errendimendua eta OCR abiadura handituz.
MejorarResolución bereizmen txikiko irudiak (275 dpi baino gutxiagokoak) automatikoki detektatuko dituen ezarpena da eta automatikoki irudia handitu eta testu guztia zorroztuko du, OCR liburutegi batek irakurri ahal izateko. Eragiketa honek berez denbora asko eskatzen duen arren, orokorrean irudi batean OCR eragiketa egiteko denbora orokorra murrizten du.
Idioma IronOCR-k está disponible en 22 idiomas y es compatible con OCR eragiketa batean aplikatu beharreko hizkuntza bat edo gehiago hautatzeko erabil daiteke.
Estrategia IronOCR-k bi estrategia onartzen ditu. Aukeratu dezakegu dokumentu baten eskaneatze azkarra eta hain zehatza ez egitea edo adimen artifizialeko eredu batzuk erabiltzen dituen estrategia aurreratua erabiltzea OCR testuaren zehaztasuna automatikoki hobetzeko esaldi bateko hitzek elkarren artean duten erlazio estatistikoa aztertuz. .
Espacio de color ezarpena da, grisen eskalan edo koloretan OCR aukeratu ahal izateko. Oro har, grisen eskala da aukerarik onena. Hala ere, zenbaitetan antzeko tonua duten baina oso kolore desberdineko testuak edo atzeko planoak daudenean, kolore osoko espazio batek emaitza hobeak emango ditu.
DetectarTextoBlancoEnFondosOscuros. Oro har, OCR liburutegi guztiek testu beltza atzealde zurietan ikustea espero dute. IronOCR-k es un sistema automático de gestión de la información que no funciona correctamente detektatu eta irakurri ditzake.
InputImageType. Ezarpen horri esker, garatzaileak OCR liburutegia gidatu dezake dokumentu osoa edo zatitxo bat aztertzen ari den, pantaila-argazkia adibidez.
Girar y enderezar ezarpen aurreratua da eta Iron OCRri biratu ez ezik, agian la perspectiva de la sociedad de la información en Iron OCRri , testu dokumentuen argazkiak adibidez.
LeerCódigos funtzio erabilgarria da eta IronOCR-k orrialdeetako barra-kodeak eta QR kodeak automatikoki irakurtzeko aukera ematen du testua ere irakurtzen baitu, denbora gehigarri handirik gehitu gabe.
KoloreSakonera. Ezarpen honek OCR liburutegiak kolore bakoitzeko sakonera zehazteko pixeleko zenbat bit erabiliko dituen zehazten du. Si desea obtener más información sobre el OCR, póngase en contacto con nosotros burutzeko behar den denbora ere handituko da.
126 hizkuntza pakete
IronOCR-k nazioarteko 126 hizkuntza onartzen ditu DLL gisa banatzen diren hizkuntza paketeen bidez, webgune honetatik deskargatu daitezkeenak edo Gestor de paquetes NuGet- etik ere.
Hizkuntzen artean, alemana, frantsesa, ingelesa, txinera, japoniera eta beste asko daude. Hizkuntza pakete espezializatuak daude MRZ pasaportea, MICR egiaztapenak, datu ekonomikoak, matrikulak eta askoz gehiago. Tesseract ".traineddata" fitxategia ere erabil dezakezu - zuk zeuk sortutakoak barne.
Hizkuntza adibidea
El mejor OCR del mercado.
```cs // using IronOcr; // PM> Install IronOcr.Languages.Arabic var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Arabic; using (var input = new OcrInput()) { input.AddImage("img/arabic.gif"); // Gehitu irudi iragazkiak behar izanez gero // Kasu honetan, pentsatutako sarrera ere oso kalitate txikikoa da // IronTesseract-ek ohiko Tesseract-ek ezin duena irakur dezake. var Result = Ocr.Read(input); // Kontsolak ezin du arabiera Windows-en erraz inprimatu. // Gorde dezagun horren ordez diskoan. Result.SaveAsTextFile("arabic.txt"); } ```Hizkuntza anitzeko adibidea
OCR ere posible da hainbat hizkuntza aldi berean erabiliz. Honek Unicode dokumentuetan ingelesezko metadatuak eta URLak lortzen lagun dezake.
```cs // using IronOcr; // PM> Install IronOcr.Languages.ChineseSimplified var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.ChineseSimplified; Ocr.AddSecondaryLanguage(OcrLanguage.Basque); // Edozein hizkuntza kopuru gehi dezakegu using (var input = new OcrInput()) { input.Add("multi - language.pdf"); var Result = Ocr.Read(input); Result.SaveAsTextFile("results.txt"); } ```OCR emaitzen xehetasunak
IronOCR-k OCR emaitza objektu bat itzultzen du OCR eragiketa bakoitzerako. Orokorrean, garatzaileek objektu honen testuaren propietatea soilik erabiltzen dute iruditik eskaneatutako testua lortzeko. Hala ere, OCR emaitzen DOM hau baino askoz aurreratuagoa da.
```cs using IronOcr; using System.Drawing; //Gehitu muntaiaren erreferentzia var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Basque; Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm; Ocr.Configuration.ReadBarCodes = true; //! Garrantzitsua using (var Input = new OcrInput(@"images\sample.tiff")) { OcrResult Result = Ocr.Read(Input); var Pages = Result.Pages; var Words = Pages [0].Words; var Barcodes = Result.Barcodes; // Arakatu hemen API masibo eta zehatza aurkitzeko: // - Orriak, Blokeak, Parafafoak, Lerroak, Hitzak, Letrak // - Irudia esportatzea, letra-tipoen koordenatuak, datu estatistikoak } ```Emanaldia
IronOCR se ha convertido en una de las principales fuentes de información para los usuarios de Internet.
Speed is Blazing: IronOcr.2020 + 10 aldiz azkarragoa da eta aurreko eraikuntzek baino% 250 baino gutxiago akats gutxiago egiten ditu.
Gehiago ikasi
C#, VB, F# .NET es el mejor software de reconocimiento óptico de caracteres del mercado, cómo-leer-un-texto-de-una-imagen-en-csharp-net/">cómo-comunicarse tutorialak , IronOCR nola erabil daitekeen erakusten duten benetako adibideak ematen dituztenak eta ahalik eta etekin onena ateratzeko ñabardurak erakusten dituztenak. liburutegi hau.
.NET garatzaileentzako objektuen erreferentzia osoa ere eskuragarri dago.