OCR en C# y .NET

Ostale verzije ovog dokumenta:

IronOCR es un paquete de programas para C# que proporciona a los usuarios de .NET acceso a archivos de texto y PDF en 126 idiomas jezika, uključujući hrvatski.

To je napredna vilica Tesseract, napravljena isključivo za .NET programere i redovito nadmašuje ostale Tesseract motore i brzinom i točnošću.

Sadržaj IronOcr.Languages.Hrvatski

Más de 49 juegos de OCR para .NET:

  • Hrvatski
  • CroataMejor
  • CroataRápido

preuzimanje datoteka

Paquete de viaje a Croacia [hrvatski jezik]
* Descargar como Zip
* Instalar con
https://www.nuget.org/packages/IronOcr.Languages.Croatian/'> NuGet

Montaža

Prvo što moramo učiniti je instalirati naš hrvatski Paquete OCR para cualquier proyecto .NET.

PM> Install-Package IronOCR.Languages.Croatian

Primer piso

Ovaj primjer C#koda čita hrvatski tekst iz slikovnog ili PDF dokumenta.

```cs //PM> Install-Package IronOcr.Languages.Croatian using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Croatian; using (var Input = new OcrInput(@"images\Croatian.png")) { var Result = Ocr.Read(Input); Var AllText = Result.Text } ```

¿Qué es IronOCR?

IronOCR es una herramienta de instalación, gestión y documentación de programas .NET.

Odaberita IronOCR da biste postigli točnost 99,8% + OCR bez upotrebe bilo kakvih vanjskih web usluga, trajnih naknada ili slanja povjerljivih dokumenata putem Interneta.

Para programar en C# IronOCR utiliza Vanilla Tesseract:

  • Instalar DLL y NuGet
  • Utiliza los motores Tesseract 5, 4 y 3.
  • Točnost 99,8% no te olvides de utilizar Tesseract.
  • La carretera de circunvalación y la navegación de alta velocidad
  • Compatibilidad con MVC, aplicaciones web, redes de área local, redes de área local y redes de área local
  • Ne postoji Exes ili C ++ kôd za rad
  • Puna podrška za OCR PDF
  • Cómo aplicar OCR a los archivos PDF y a los datos confidenciales
  • Más información sobre .NET Core, Standard y FrameWork
  • Primijeniti na Windows, Mac, Linux, Azure, Docker, Lambda, AWS
  • Čitajte crtične kodove i QR kodove
  • OCR y XHTML
  • Reconocimiento óptico de caracteres (OCR) de documentos PDF que deben guardarse
  • Podrška za višenitke
  • 126 međunarodnih jezika kojima se upravlja putem datoteka NuGet ili OcrData
  • Con el fin de mejorar la coordinación, las estadísticas y los datos. No se preocupe.
  • No dude en ponerse en contacto con Tesseract OCR para obtener más información.

Optički prepoznavač željeza sjaji pri radu sa slikama iz stvarnog svijeta i nesavršenim dokumentima poput fotografija ili skeniranja niske razlučivosti koji mogu imati digitalne šume ili nedostatke.

Druge oCR a medida biblioteke za .NET platformu, poput ostalih .net tesseract API-ja i web usluga, nemaju tako dobru izvedbu u ovim stvarnim slučajevima korištenja.

OCR s Tesseract 5 - a la vanguardia en C#

En la parte inferior de la página, encontrará una lista de las herramientas que puede utilizar en C# y VB .NET.

OneLiner

```cs string Text = new IronTesseract().Read(@"img\Screenshot.png").Text; ```

Podesivi Hola Mundo

```cs // PM> Install-Package IronOCR.Languages.Croatian using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Croatian; using (var Input = new OcrInput()){ Input.AddImage("images/sample.jpeg") //... možete dodati bilo koji broj slika var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

C#PDF OCR

Si lo prefiere, puede descargar el archivo PDF de forma gratuita.

```cs var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Croatian; using (var input = new OcrInput()) { input.AddPdf("example.pdf", "password"); // Također možemo odabrati određene brojeve PDF stranica za OCR var Result = Ocr.Read(input); Console.WriteLine(Result.Text); Console.WriteLine($"{Result.Pages.Count()} Pages"); // 1 stranica za svaku stranicu PDF-a } ```

OCR y TIFF multipágina

OCR čitanje TIFF formata datateke, uključujući dokumente s više stranica. TIFF se također može pretvoriti izravno u PDF datoteku s tekstom koji se može pretraživati.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Croatian; using (var Input = new OcrInput()){ input.AddMultiFrameTiff("multi - frame.tiff"); var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

Barkodovi i QR

La solución IronOCR le permite utilizar códigos de barras y códigos QR en su ordenador. OcrResult.OcrBarcode klase OcrResult.OcrBarcode daju programeru detaljne informacije o svakom skeniranom OcrResult.OcrBarcode kodu.

```cs // using IronOcr; var Ocr = new IronTesseract(); Ocr.Configuration.ReadBarCodes = true; using (var input = new OcrInput()) { input.AddImage("img/Barcode.png"); var Result = Ocr.Read(input); foreach (var Barcode in Result.Barcodes) { Console.WriteLine(Barcode.Value); // vrsta i položaj svojstva također izloženi } } ```

OCR en la pantalla del ordenador

Sve metode skeniranja i čitanja OCR-a željeza pružaju mogućnost preciznog određivanja s kojeg dijela stranice ili stranica želimo čitati tekst. Ovo je vrlo korisno kada gledamo standardizirane obrasce i možemo uštedjeti jako puno vremena i poboljšati učinkovitost.

Da bismo koristili obrezne regije, morat ćemo dodati referencu sustava na Sistema.Dibujo kako bismo mogli koristiti System.Drawing.Rectangle objekt.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Croatian; using (var Input = new OcrInput()) { var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 }; // Dimenzije su u px Input.Add("document.png", ContentArea); var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

Reconocimiento óptico de caracteres (OCR) para la lectura de documentos en papel

Klasa HierroOCR OcrInput es posible que los usuarios normales de Tesseract no puedan utilizarlo.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Croatian; using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff")) { Input.DeNoise(); // popravlja digitalni šum i loše skeniranje Input.Deskew(); // popravlja rotaciju i perspektivu var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

Obtenga los resultados de OCR en PDF que desee

Descargar PDF en formato de archivo de texto que desee. Mogu se indeksirati putem pretraživača i baza podataka.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Croatian; using (var Input = new OcrInput()){ input.Title = "Quarterly Report" input.AddImage("image1.jpeg"); input.AddImage("image2.png"); input.AddImage("image3.gif"); var Result = Ocr.Read(input); Result.SaveAsSearchablePdf("searchable.pdf") } ```

TIFF en formato PDF

Documento TIFF previo (ili bilo koju skupinu slikovnih datoteka) izravno u PDF koji se može pretraživati, a koji se mogu indeksirati putem intraneta, web stranica i Googleovih tražilica.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Croatian; using (var Input = new OcrInput()){ input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf") } ```

Obtener resultados OCR y HTML

OCR en XHTML.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Croatian; using (var Input = new OcrInput()){ input.Title = "Html Title" input.AddImage("image1.jpeg"); var Result = Ocr.Read(input); Result.SaveAsHocrFile("results.html"); } ```

Filtros OCR para lectura óptica

IronOCR no es el único filtro OcrInput objetivos de rendimiento OCR.

Primjer koda za poboljšanje slike

Utilice un OCR de alta calidad para publicar sus resultados de OCR.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Croatian; using (var Input = new OcrInput(@"LowQuality.jpeg")) { Input.DeNoise(); // popravlja digitalni šum i loše skeniranje Input.Deskew(); // popravlja rotaciju i perspektivu var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

Popis OCR filtara slike

Filtros para el reconocimiento óptico de caracteres (OCR) en IronOCR:

  • OcrInput.Rotate (dupli stupnjevi) - Rotira slike za određeni broj stupnjeva u smjeru kazaljke na satu. Za suprotno od kazaljke na satu koristite negativne brojeve.
  • OcrInput.Binarizar () - Ovaj filtar slike svaki piksel pretvara u crno ili bijelo bez sredine. Može poboljšati slučajeve izvedbe OCR-a s vrlo malim kontrastom teksta u pozadinu.
  • OcrInput.ToGrayEscala () - ovaj filtar slike svaki piksel pretvara u nijansu sivih tonova. Malo je vjerojatno da će poboljšati točnost OCR-a, ali može poboljšati brzinu
  • OcrInput.Contraste () - Automatski povećava kontrast. Ovaj filtar često poboljšava brzinu i preciznost OCR u skeniranjima s niskim kontrastom.
  • OcrInput.DeNoise () - Uklanja digitalni šum. Ovaj se filtar smije koristiti samo tamo gdje se očekuje buka.
  • OcrInput.Invertir () - Invertira svaku boju. Npr. Bijela postaje crna: crna postaje bijela.
  • OcrInput.Dilate () - Napredna morfologija. Dilatacija dodaje piksele granicama objekata na slici. Nasuprot Erode
  • OcrInput.Erode () - Napredna morfologija. Erozija uklanja piksele na granicama predmeta Suprotno Dilateu
  • OcrInput.Deskew () - Rotira sliku tako da je pravi put prema gore i pravokutna. Ovo je vrlo korisno za OCR jer tolerancija Tesseract-a na iskrivljena skeniranja može biti i do 5 stupnjeva.
  • OcrInput.DeepCleanRuido de fondo () - Uklanjanje jake pozadinske buke. Filtros de aire samo u slučaju da je poznata ekstremna pozadinska buka dokumenata, jer će ovaj filtar također riskirati smanjenje OCR preciznosti čistih dokumenata i vrlo je skup CPU.
  • OcrInput.MejorarResolución - Poboljšava razlučivost slika niske kvalitete. Ovaj filtar nije često potreban jer će OcrInput.MinimumDPI i OcrInput.TargetDPI automatizaciones y actualizaciones ulaze niske razlučivosti.

LimpiarRuido de Fondo. Ovo je postavka koja donekle oduzima vrijeme; međutim, omogućuje knjižnici da automatismos digitales, control de la humedad y control de la humedad para una mayor seguridad digital nesposobnom za čitanje u drugim OCR knjižnicama.

MejorarContraste es un programa de reconocimiento óptico de caracteres (OCR) automático de caracteres de contraste pozadini slike, povećavajući točnost OCR-a i općenito povećavajući performanse i brzinu OCR-a.

MejorarResolución es posible que los robots no funcionen correctamente (manje od 275 ppp) i automatski povećati sliku, a zatim izoštriti sav tekst kako bi ga OCR biblioteka mogla savršeno pročitati. Iako je ova operacija sama po sebi dugotrajna, općenito smanjuje ukupno vrijeme za OCR operaciju na slici.

Idioma IronOCR ha recibido 22 millones de euros en efectivo, y el resto se ha distribuido entre los países de la UE odabir jednog ili više jezika koji će se primijeniti na OCR operaciju.

Estrategia IronOCR es una estrategia de futuro. Le ayudamos a mejorar su rendimiento y precisión la estrategia de la Unión Europea para mejorar la inteligencia de la Unión Europea automatsko poboljšanje točnosti OCR teksta gledajući statistički odnos riječi jedne prema drugoj u rečenici .

Espacio de color es una aplicación que permite realizar OCR en varios tonos y en varios idiomas. Općenito je siva skala najbolja opcija. Međutim, ponekad kada postoje tekstovi ili pozadine slične nijanse, ali vrlo različite boje, prostor u boji u boji pružit će bolje rezultate.

DetectarTextoBlancoEnFondosOscuros. Općenito, sve OCR knjižnice očekuju da vide crni tekst na bijeloj pozadini. Ova postavka omogućuje željezni OCR da automatski prepozna negative ili tamne stranice s bijelim tekstom i pročita ih.

InputImageType. Ova postavka omogućuje programeru da vodi OCR biblioteku da li gleda čitav dokument ili isječak, poput snimke zaslona.

Girar y enderezar es un enlace que permite a IronOCR acceder a la página web de la Comisión dokumenata koji se ne samo rotiraju, već možda sadrže i perspektivu, poput fotografija tekstualnih dokumenata.

LeerCódigo Postal es un programa de reconocimiento óptico de caracteres (OCR) que permite a los usuarios crear automáticamente sus propios archivos y carpetas QR kodove na stranicama jer također čita tekst, bez dodavanja velikog dodatnog vremenskog opterećenja.

Dubina boje. Ova postavka određuje koliko bitova po pikselu će OCR biblioteka koristiti za određivanje dubine boje. Si desea obtener más información sobre el reconocimiento óptico de caracteres, póngase en contacto con nosotros završetak OCR operacije.

126 Jezični paketi

IronOCR podržava 126 međunarodnih jezika el paquete que se distribuye a través de DLL, a koji se mogu preuzeti s ove web stranice ili iz NuGet Package Managera .

Jezici uključuju njemački, francuski, engleski, kineski, japanski i mnoge druge. Posteje specijalni jezični paketi za putovnice MRZ, MICR čekove, financijske podatke, registarske tablice i mnoge druge. No se olvide de hacer clic aquí koju datoteku tesseract ".traineddata" - uključujući one koje sami napravite.

Inicio

Gestión de archivos OCR.

```cs // using IronOcr; // PM> Install IronOcr.Languages.Arabic var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Arabic; using (var input = new OcrInput()) { input.AddImage("img/arabic.gif"); // Po potrebi dodajte filtre za slike // U ovom je slučaju čak i misaoni unos vrlo nekvalitetan // IronTesseract može pročitati ono što konvencionalni Tesseract ne može. var Result = Ocr.Read(input); // Konzola ne može lako ispisivati arapski na sustavu Windows. // Umjesto toga spremimo na disk. Result.SaveAsTextFile("arabic.txt"); } ```

Primjer više jezika

Također je moguće OCR koristiti više jezika istovremeno. Ovo stvarno može pomoći u dobivanju metapodataka i URL-ova na engleskom jeziku u Unicode dokumentima.

```cs // using IronOcr; // PM> Install IronOcr.Languages.ChineseSimplified var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.ChineseSimplified; Ocr.AddSecondaryLanguage(OcrLanguage.Croatian); // Možemo dodati bilo koji broj jezika using (var input = new OcrInput()) { input.Add("multi - language.pdf"); var Result = Ocr.Read(input); Result.SaveAsTextFile("results.txt"); } ```

Resultados detallados OCR-a

IronOCR es un objetivo de OCR para operaciones de OCR. Općenito, programeri koriste samo svojstvo teksta ovog objekta da bi skenirali tekst sa slike. Međutim, DOM rezultata OCR-a mnogo je napredniji od ovog.

```cs using IronOcr; using System.Drawing; //Dodajte referencu sklopa var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Croatian; Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm; Ocr.Configuration.ReadBarCodes = true; //!Važno using (var Input = new OcrInput(@"images\sample.tiff")) { OcrResult Result = Ocr.Read(Input); var Pages = Result.Pages; var Words = Pages [0].Words; var Barcodes = Result.Barcodes; // Istražite ovdje kako biste pronašli masivan, detaljan API: // - Stranice, blokovi, parafafi, crte, riječi, znakovi // - Izvoz slika, koordinate fontova, statistički podaci } ```

Izvođenje

IronOCR se ha convertido en un referente en el sector, tanto por su rendimiento como por su calidad.

Esta es la última actualización: IronOcr.2020 + tiene 10 puntos de bonificación y un descuento del 250% sobre el precio de mercado.

Saznajte više

Puede utilizar OCR en C#, VB, F# y en cualquier entorno .NET, proceda a leer el texto de una imagen en csharp-net zajednici koji daju stvarne primjere kako se OCR Iron može koristiti i mogu pokazati nijanse kako izvući najbolje iz ovu knjižnicu.

Dostupna je i puna objetivo de referencia del programa .NET .