Euskal OCR C#eta .NET-es

Dokumentu honen beste bertsio batzuk:

IronOCR C#softwarearen osagaia da .NET kodetzaileek 126 hizkuntzatako irudien eta PDF dokumentuen testua irakurtzea 126 hizkuntzatan, euskara barne.

Tesseract-en sardexka aurreratua da, .NET garatzaileentzat soilik eraikia eta aldian-aldian beste Tesseract motorrak gainditzen ditu abiadura eta zehaztasunagatik.

IronOcr.Hizkuntzak.Euskara-ren edukia

Pakete honek .NETerako 43 OCR hizkuntza ditu:

  • Euskara
  • EuskaraMejor
  • BasqueFast

Deskargatu

Pack Euskara [euskara]
* Descargar como Código postal
* Instalar con como
https://www.nuget.org/packages/IronOcr.Languages.Basque/'> NuGet

Instalazioa

Egin behar dugun lehenengo gauza gure euskal El paquete OCR se instala en un entorno .NET.

PM> Install-Package IronOCR.Languages.Basque

Kodearen adibidea

C#kode adibide honek Image edo PDF dokumentu bateko euskarazko testua irakurtzen du.

```cs //PM> Install-Package IronOcr.Languages.Basque using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Basque; using (var Input = new OcrInput(@"images\Basque.png")) { var Result = Ocr.Read(Input); Var AllText = Result.Text } ```

¿Qué te parece IronOCR?

El software IronOCR for .NET se instala fácilmente, sin necesidad de documentación.

Aukeratu IronOCR % 99,8 + OCR zehaztasuna lortzeko kanpoko web zerbitzurik, etengabeko tasarik edo Internet bidez isilpeko dokumentuak bidali gabe.

¿Garatzaileek Zergatik dute C# IronOCR Vanilla Tesseract baino?

  • Instalar DLL en NuGet
  • Tesseract 5, 4 y 3 motorretarako sartzen da kutxatik kanpora.
  • Zehaztasunak % 99,8k ohiko Tesseract gainditzen du.
  • Velocidad de vértigo eta MultiThreading
  • MVC, WebApp, Desktop, Console & Server Application bateragarriak dira
  • Ez dago Exes edo C ++ koderik lan egiteko
  • OCR en PDF
  • OCR para PDF en formato PDF de alta calidad
  • .NET Core, Estándar y FrameWork en la nube
  • Implementación en Windows, Mac, Linux, Azure, Docker, Lambda y AWS
  • Irakurri barra-kodeak eta QR kodeak
  • Esportatu OCR XHTML gisa
  • Esportatu OCR bilatzeko PDF dokumentuetara
  • Multihilo euskarria
  • 126 usuarios de NuGet y OcrData se han unido para crear un nuevo producto
  • Atera irudiak, koordenatuak, estatistikak eta letra tipoak. Ez bakarrik testua.
  • Tesseract OCR es un programa de reconocimiento óptico de caracteres que permite a los usuarios realizar copias de seguridad de sus documentos.

Burdinazko OCR distirak distira ematen du mundu errealeko irudiekin eta dokumentu inperfektuekin lan egitean, hala nola argazkiekin edo bereizmen txikiko eskanerrak, zarata digitala edo akatsak izan ditzaketenak.

.NET plataformarako doako beste OCR liburutegi batzuek .net tesseract APIak eta web zerbitzuek ez dute hain ondo funtzionatzen mundu errealeko erabilera kasu hauetan.

OCR Tesseract 5-rekin - Hasi kodeketa C#-ean

Si desea obtener más información sobre C# y VB .NET, póngase en contacto con nosotros.

OneLiner

```cs string Text = new IronTesseract().Read(@"img\Screenshot.png").Text; ```

Konfiguratu Hola Mundo

```cs // PM> Install-Package IronOCR.Languages.Basque using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Basque; using (var Input = new OcrInput()){ Input.AddImage("images/sample.jpeg") //... edozein irudi gehitu dezakezu var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

C#PDF OCR

Ikuspegi bera erabil daiteke era berean PDF edozein dokumentutatik testua ateratzeko.

```cs var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Basque; using (var input = new OcrInput()) { input.AddPdf("example.pdf", "password"); // OCRrako PDF orrialde zehatzak ere hauta ditzakegu var Result = Ocr.Read(input); Console.WriteLine(Result.Text); Console.WriteLine($"{Result.Pages.Count()} Pages"); // PDF orrialde bakoitzeko orrialde bat } ```

OCR MultiPágina TIFFetarako

OCR irakurketa TIFF fitxategi formatua orrialde anitzeko dokumentuak barne. TIFF y PDF en formato PDF daiteke bilaketan bilatu daitekeen testuarekin.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Basque; using (var Input = new OcrInput()){ input.AddMultiFrameTiff("multi - frame.tiff"); var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

Barra-kodeak eta QR

IronOCR-ren ezaugarri berezia dokumentuen barra-kodeak eta QR kodeak irakur ditzake testua bilatzen ari den bitartean. OcrResult.OcrBarcode klaseko instantziek garatzaileari eskaneatutako barra-kode bakoitzari buruzko informazio zehatza ematen diote.

```cs // using IronOcr; var Ocr = new IronTesseract(); Ocr.Configuration.ReadBarCodes = true; using (var input = new OcrInput()) { input.AddImage("img/Barcode.png"); var Result = Ocr.Read(input); foreach (var Barcode in Result.Barcodes) { Console.WriteLine(Barcode.Value); // mota eta kokapen propietateak ere agerian } } ```

Irudi-arlo espezifikoei buruzko OCR

IronOCRren eskaneatze- eta irakurketa-metodo guztiek testua irakurri nahi dugun orrialde edo orrialdeetako zein atal zehatz zehazteko aukera ematen dute. Hori oso erabilgarria da inprimaki normalizatuak aztertzen ari garenean eta denbora asko aurrez dezakegu eta eraginkortasuna hobetu.

Laborantza eskualdeak erabiltzeko, Sistema.Dibujo sistemaren erreferentzia bat gehitu beharko dugu System.Drawing.Rectangle objektua erabili ahal izateko.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Basque; using (var Input = new OcrInput()) { var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 }; // Neurriak px-tan daude Input.Add("document.png", ContentArea); var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

OCR en la pantalla de su ordenador

IronOCR OcrInput klaseak Tesseract normalak irakurri ezin dituen OcrInput konpon ditzake.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Basque; using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff")) { Input.DeNoise(); // zarata digitala eta eskaneatze eskasa konpontzen ditu Input.Deskew(); // biraketa eta perspektiba finkatzen ditu var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

Esportatu OCR emaitzak bilatzeko PDF moduan

Irudia PDF formatuan kopiatzeko testu kateekin. Se puede indexar en formato PDF o en formato de base de datos.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Basque; using (var Input = new OcrInput()){ input.Title = "Quarterly Report" input.AddImage("image1.jpeg"); input.AddImage("image2.png"); input.AddImage("image3.gif"); var Result = Ocr.Read(input); Result.SaveAsSearchablePdf("searchable.pdf") } ```

PDF en formato TIFF

COAktibatu TIFF dokumentu bat (edo edozein irudi-fitxategi talde) zuzenean bilatzeko PDF batean, intranet, webgune eta google bilatzaileek indexatu ahal izateko.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Basque; using (var Input = new OcrInput()){ input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf") } ```

Esportatu OCR emaitzak HTML gisa

OCR para XHTML.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Basque; using (var Input = new OcrInput()){ input.Title = "Html Title" input.AddImage("image1.jpeg"); var Result = Ocr.Read(input); Result.SaveAsHocrFile("results.html"); } ```

OCR irudiak hobetzeko iragazkiak

IronOCR-k OcrInput objektuentzako iragazki bakarrak eskaintzen ditu OCR errendimendua hobetzeko.

Irudia hobetzeko kodearen adibidea

OCR sarrerako irudiak kalitate handiagoa lortzen ditu OCR emaitza hobeak eta azkarragoak lortzeko.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Basque; using (var Input = new OcrInput(@"LowQuality.jpeg")) { Input.DeNoise(); // zarata digitala eta eskaneatze eskasa konpontzen ditu Input.Deskew(); // biraketa eta perspektiba finkatzen ditu var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

OCR irudi iragazkien zerrenda

El programa IronOCR integra el reconocimiento óptico de caracteres (OCR):

  • OcrInput.Rotate (graduado bikoitza) - Irudiak erlojuaren norabidean biratzen ditu. Erlojuaren aurkako norabidean, erabili zenbaki negatiboak.
  • OcrInput.Binarizar () - Irudi-iragazki honek pixel guztiak beltz edo zuri bihurtzen ditu bide ertainik gabe. El sistema de reconocimiento óptico de caracteres (OCR) se utiliza en la mayoría de los países ditzake.
  • OcrInput.ToGrayEscala () - Irudi-iragazki honek pixel bakoitza gris- tonuko tonu bihurtzen du. Nekez hobetuko du OCR zehaztasuna, baina abiadura hobe dezake
  • OcrInput.Contraste () - Kontrastea automatikoki handitzen du. Iragazki honek askotan OCR abiadura eta zehaztasuna hobetzen ditu kontraste baxuko miaketetan.
  • OcrInput.DeNoise () - Zarata digitala kentzen du. Iragazki hau zarata espero den tokian soilik erabili behar da.
  • OcrInput.Invertir () - Kolore guztiak alderantzikatzen ditu. Adibidez, zuria beltz bihurtzen da: beltza zuri bihurtzen da.
  • OcrInput.Dilate () - Morfologia aurreratua. Dilatazioak pixelak gehitzen ditu irudi bateko objektuen mugetan. Erodearen aurkakoa
  • OcrInput.Erode () - Morfologia aurreratua. Higadurak objetivo pixelak mugetan kentzen ditu Dilate of Opposite
  • OcrInput.Deskew () - Irudi bat biratzen du, beraz, modu egokian gora eta ortogonala da. Hau oso erabilgarria da OCRrako, Tesseract-en tolerantzia okerreko miaketetan 5 gradu artekoa izan baitaiteke.
  • OcrInput.DeepCleanRuido de fondo () - Atzeko planoko zarata kentzea. Erabili iragazki hau soilik dokumentu muturreko atzeko zarata ezagutzen bada, iragazki honek dokumentu garbien OCR zehaztasuna murrizteko arriskua izango duelako eta CPU oso garestia delako.
  • OcrInput.MejorarResolución - Kalitate baxuko irudien bereizmena hobetzen du. Iragazki hau ez da askotan behar OcrInput.MinimumDPI eta OcrInput.TargetDPI bereizmen txikiko sarrerak automatikoki harrapatu eta ebatziko dituztelako .

GarbiketaHondoa. Hau denbora gutxi behar duen ezarpena da; hala ere, liburutegiak irudi digital baten barruan zarata digitala, papera xehatu eta bestelako akatsak automatikoki garbitzeko aukera ematen du, bestela beste OCR liburutegi batzuek irakurtzeko gaitasuna izango lukete.

MejorarContraste IronOCR-k es un sistema de control automático de la velocidad de los motores de combustión interna duen ezarpena da, OCRren zehaztasuna handituz eta, oro har, errendimendua eta OCR abiadura handituz.

MejorarResolución bereizmen txikiko irudiak (275 dpi baino gutxiagokoak) automatikoki detektatuko dituen ezarpena da eta automatikoki irudia handitu eta testu guztia zorroztuko du, OCR liburutegi batek irakurri ahal izateko. Eragiketa honek berez denbora asko eskatzen duen arren, orokorrean irudi batean OCR eragiketa egiteko denbora orokorra murrizten du.

Idioma IronOCR-k está disponible en 22 idiomas y es compatible con OCR eragiketa batean aplikatu beharreko hizkuntza bat edo gehiago hautatzeko erabil daiteke.

Estrategia IronOCR-k bi estrategia onartzen ditu. Aukeratu dezakegu dokumentu baten eskaneatze azkarra eta hain zehatza ez egitea edo adimen artifizialeko eredu batzuk erabiltzen dituen estrategia aurreratua erabiltzea OCR testuaren zehaztasuna automatikoki hobetzeko esaldi bateko hitzek elkarren artean duten erlazio estatistikoa aztertuz. .

Espacio de color ezarpena da, grisen eskalan edo koloretan OCR aukeratu ahal izateko. Oro har, grisen eskala da aukerarik onena. Hala ere, zenbaitetan antzeko tonua duten baina oso kolore desberdineko testuak edo atzeko planoak daudenean, kolore osoko espazio batek emaitza hobeak emango ditu.

DetectarTextoBlancoEnFondosOscuros. Oro har, OCR liburutegi guztiek testu beltza atzealde zurietan ikustea espero dute. IronOCR-k es un sistema automático de gestión de la información que no funciona correctamente detektatu eta irakurri ditzake.

InputImageType. Ezarpen horri esker, garatzaileak OCR liburutegia gidatu dezake dokumentu osoa edo zatitxo bat aztertzen ari den, pantaila-argazkia adibidez.

Girar y enderezar ezarpen aurreratua da eta Iron OCRri biratu ez ezik, agian la perspectiva de la sociedad de la información en Iron OCRri , testu dokumentuen argazkiak adibidez.

LeerCódigos funtzio erabilgarria da eta IronOCR-k orrialdeetako barra-kodeak eta QR kodeak automatikoki irakurtzeko aukera ematen du testua ere irakurtzen baitu, denbora gehigarri handirik gehitu gabe.

KoloreSakonera. Ezarpen honek OCR liburutegiak kolore bakoitzeko sakonera zehazteko pixeleko zenbat bit erabiliko dituen zehazten du. Si desea obtener más información sobre el OCR, póngase en contacto con nosotros burutzeko behar den denbora ere handituko da.

126 hizkuntza pakete

IronOCR-k nazioarteko 126 hizkuntza onartzen ditu DLL gisa banatzen diren hizkuntza paketeen bidez, webgune honetatik deskargatu daitezkeenak edo Gestor de paquetes NuGet- etik ere.

Hizkuntzen artean, alemana, frantsesa, ingelesa, txinera, japoniera eta beste asko daude. Hizkuntza pakete espezializatuak daude MRZ pasaportea, MICR egiaztapenak, datu ekonomikoak, matrikulak eta askoz gehiago. Tesseract ".traineddata" fitxategia ere erabil dezakezu - zuk zeuk sortutakoak barne.

Hizkuntza adibidea

El mejor OCR del mercado.

```cs // using IronOcr; // PM> Install IronOcr.Languages.Arabic var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Arabic; using (var input = new OcrInput()) { input.AddImage("img/arabic.gif"); // Gehitu irudi iragazkiak behar izanez gero // Kasu honetan, pentsatutako sarrera ere oso kalitate txikikoa da // IronTesseract-ek ohiko Tesseract-ek ezin duena irakur dezake. var Result = Ocr.Read(input); // Kontsolak ezin du arabiera Windows-en erraz inprimatu. // Gorde dezagun horren ordez diskoan. Result.SaveAsTextFile("arabic.txt"); } ```

Hizkuntza anitzeko adibidea

OCR ere posible da hainbat hizkuntza aldi berean erabiliz. Honek Unicode dokumentuetan ingelesezko metadatuak eta URLak lortzen lagun dezake.

```cs // using IronOcr; // PM> Install IronOcr.Languages.ChineseSimplified var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.ChineseSimplified; Ocr.AddSecondaryLanguage(OcrLanguage.Basque); // Edozein hizkuntza kopuru gehi dezakegu using (var input = new OcrInput()) { input.Add("multi - language.pdf"); var Result = Ocr.Read(input); Result.SaveAsTextFile("results.txt"); } ```

OCR emaitzen xehetasunak

IronOCR-k OCR emaitza objektu bat itzultzen du OCR eragiketa bakoitzerako. Orokorrean, garatzaileek objektu honen testuaren propietatea soilik erabiltzen dute iruditik eskaneatutako testua lortzeko. Hala ere, OCR emaitzen DOM hau baino askoz aurreratuagoa da.

```cs using IronOcr; using System.Drawing; //Gehitu muntaiaren erreferentzia var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Basque; Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm; Ocr.Configuration.ReadBarCodes = true; //! Garrantzitsua using (var Input = new OcrInput(@"images\sample.tiff")) { OcrResult Result = Ocr.Read(Input); var Pages = Result.Pages; var Words = Pages [0].Words; var Barcodes = Result.Barcodes; // Arakatu hemen API masibo eta zehatza aurkitzeko: // - Orriak, Blokeak, Parafafoak, Lerroak, Hitzak, Letrak // - Irudia esportatzea, letra-tipoen koordenatuak, datu estatistikoak } ```

Emanaldia

IronOCR se ha convertido en una de las principales fuentes de información para los usuarios de Internet.

Speed is Blazing: IronOcr.2020 + 10 aldiz azkarragoa da eta aurreko eraikuntzek baino% 250 baino gutxiago akats gutxiago egiten ditu.

Gehiago ikasi

C#, VB, F# .NET es el mejor software de reconocimiento óptico de caracteres del mercado, cómo-leer-un-texto-de-una-imagen-en-csharp-net/">cómo-comunicarse tutorialak , IronOCR nola erabil daitekeen erakusten duten benetako adibideak ematen dituztenak eta ahalik eta etekin onena ateratzeko ñabardurak erakusten dituztenak. liburutegi hau.

.NET garatzaileentzako objektuen erreferentzia osoa ere eskuragarri dago.