OCR en C# y .NET

Ostale verzije ovog dokumenta:

IronOCR es un paquete de software para C# que proporciona a los usuarios de .NET acceso a archivos de texto y PDF en 126 idiomas jezika, uključujući bosanski.

To je napredna vilica Tesseract, napravljena isključivo za .NET programere i redovito nadmašuje ostale Tesseract motore i brzinom i tačnošću.

Sadržaj IronOcr.Languages.Bosnian

Más de 46 juegos de OCR para .NET:

  • Bosanski
  • BosniaMejor
  • BosnianFast

Skinuti

Bosanski jezički paket [bosanski jezik]
* Descargar como Zip
* Instalar con
https://www.nuget.org/packages/IronOcr.Languages.Bosnian/'> NuGet

Instalación

Prvo što moramo učiniti je instalirati naš bosanski Paquete OCR para cualquier proyecto .NET.

PM> Install-Package IronOCR.Languages.Bosnian

Primer piso

Nuestro primer software de C# le ofrece un amplio abanico de productos en formato PDF y de código abierto.

```cs //PM> Install-Package IronOcr.Languages.Bosnian using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Bosnian; using (var Input = new OcrInput(@"images\Bosnian.png")) { var Result = Ocr.Read(Input); Var AllText = Result.Text } ```

¿Qué es IronOCR?

IronOCR es un software gratuito para la instalación, el mantenimiento y la documentación de bibliotecas .NET.

Odaberita IronOCR da biste postigli tačnost 99,8% + OCR bez upotrebe bilo kakvih vanjskih web usluga, tekućih naknada ili slanja povjerljivih dokumenata putem Interneta.

Para programar C# con IronOCR, utilice Vanilla Tesseract:

  • Instalar DLL y NuGet
  • Utiliza los motores Tesseract 5, 4 y 3.
  • Preciznost 99,8% značajno nadmašuje redovni Tesseract.
  • Limpieza y mantenimiento de la cabina del conductor
  • Compatible con MVC, WebApp, Escritorio, Consola y Aplicación de Servidor
  • Ne postoji Exes ili C ++ kôd za rad
  • Potpuna PDF OCR podrška
  • Si necesita OCR para sus archivos PDF o de texto, haga clic aquí
  • Más información sobre .NET Core, Standard y FrameWork
  • Primijeniti na Windows, Mac, Linux, Azure, Docker, Lambda, AWS
  • Čitajte bar kodove i QR kodove
  • OCR y XHTML
  • Reconocimiento óptico de caracteres (OCR) de documentos PDF que deben guardarse
  • Multithreading podrška
  • 126 međunarodnih jezika kojima se upravlja putem NuGet ili OcrData datoteka
  • Con el fin de mejorar la coordinación, las estadísticas y los datos. No se preocupe.
  • No dude en ponerse en contacto con Tesseract OCR para obtener más información.

Optički prepoznavač prepoznavanja željeza svijetli kada radite sa slikama iz stvarnog svijeta i nesavršenim dokumentima poput fotografija ili skeniranja niske rezolucije koji mogu imati digitalne šume ili nedostatke.

Druge oCR a medida biblioteke za .NET platformu, poput ostalih .net tesseract API-ja i web usluga, nemaju tako dobru izvedbu u ovim stvarnim slučajevima upotrebe.

OCR en Tesseract 5: la forma más rápida de trabajar con C#

En la parte inferior de la página, encontrará una lista de las herramientas que puede utilizar en C# y VB .NET.

OneLiner

```cs string Text = new IronTesseract().Read(@"img\Screenshot.png").Text; ```

Podesivi Hola Mundo

```cs // PM> Install-Package IronOCR.Languages.Bosnian using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Bosnian; using (var Input = new OcrInput()){ Input.AddImage("images/sample.jpeg") //... možete dodati bilo koji broj slika var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

C#PDF OCR

Si lo prefiere, puede descargar el archivo PDF de forma gratuita.

```cs var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Bosnian; using (var input = new OcrInput()) { input.AddPdf("example.pdf", "password"); // Takođe možemo odabrati određene brojeve PDF stranica za OCR var Result = Ocr.Read(input); Console.WriteLine(Result.Text); Console.WriteLine($"{Result.Pages.Count()} Pages"); // 1 stranica za svaku stranicu PDF-a } ```

OCR y TIFF multipágina

OCR čitanje TIFF formata datoteke, uključujući dokumente sa više stranica. TIFF se također može pretvoriti izravno u PDF datoteku s tekstom koji se može pretraživati.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Bosnian; using (var Input = new OcrInput()){ input.AddMultiFrameTiff("multi - frame.tiff"); var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

Barkodovi i QR

La tecnología IronOCR permite a los usuarios introducir códigos de barras y códigos QR en la página web. OcrResult.OcrBarcode programeru daju klase detaljne informacije o svakom skeniranom OcrResult.OcrBarcode kodu.

```cs // using IronOcr; var Ocr = new IronTesseract(); Ocr.Configuration.ReadBarCodes = true; using (var input = new OcrInput()) { input.AddImage("img/Barcode.png"); var Result = Ocr.Read(input); foreach (var Barcode in Result.Barcodes) { Console.WriteLine(Barcode.Value); // vrsta i lokacija takođe su izloženi } } ```

OCR en la pantalla del ordenador

Sve metode skeniranja i čitanja IronOCR pružnost mogućnost preciznog preciziranja s kojeg dijela stranice ili stranica želimo čitati tekst. Ovo je vrlo korisno kada gledamo standardizirane obrasce i možemo uštedjeti jako puno vremena i poboljšati efikasnost.

En el resto del mundo Sistema.Dibujo ćemo dodati sistemsku referencu na Sistema.Dibujo no se preocupe por nada System.Drawing.Rectangle .

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Bosnian; using (var Input = new OcrInput()) { var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 }; // Dimenzije su u px Input.Add("document.png", ContentArea); var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

Reconocimiento óptico de caracteres (OCR) de alta calidad

Klasa HierroOCR OcrInput es posible que los usuarios normales de Tesseract no puedan utilizarlo.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Bosnian; using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff")) { Input.DeNoise(); // popravlja digitalni šum i loše skeniranje Input.Deskew(); // popravlja rotaciju i perspektivu var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

Obtenga los resultados de OCR en PDF que desee

Descargar PDF en formato de archivo de texto que desee. Mogu se indeksirati putem pretraživača i baza podataka.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Bosnian; using (var Input = new OcrInput()){ input.Title = "Quarterly Report" input.AddImage("image1.jpeg"); input.AddImage("image2.png"); input.AddImage("image3.gif"); var Result = Ocr.Read(input); Result.SaveAsSearchablePdf("searchable.pdf") } ```

Conversión de TIFF a PDF

Documento TIFF previo (ili bilo koju grupu slikovnih datoteka) izravno u PDF koji se može pretraživati i koji se može indeksirati pomoću intraneta, web stranica i Google pretraživača.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Bosnian; using (var Input = new OcrInput()){ input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf") } ```

Obtenga resultados OCR en HTML

OCR en XHTML.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Bosnian; using (var Input = new OcrInput()){ input.Title = "Html Title" input.AddImage("image1.jpeg"); var Result = Ocr.Read(input); Result.SaveAsHocrFile("results.html"); } ```

Filtros OCR para lectura óptica

IronOCR no es el único filtro OcrInput objetivos de rendimiento OCR.

Primjer koda za poboljšanje slike

Čini ulazne slike OCR-om kvalitetnijim da bi proizveo bolje, brže rezultate OCR-a.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Bosnian; using (var Input = new OcrInput(@"LowQuality.jpeg")) { Input.DeNoise(); // popravlja digitalni šum i loše skeniranje Input.Deskew(); // popravlja rotaciju i perspektivu var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

Filtro OCR de alta velocidad

Filtros para el reconocimiento óptico de caracteres (OCR) en IronOCR:

  • OcrInput.Rotate (dvostruki stepeni) - Rotira slike za određeni broj stepeni u smjeru kazaljke na satu. Za suprotno od kazaljke na satu koristite negativne brojeve.
  • OcrInput.Binarizar () - Ovaj filtar slike svaki piksel pretvara u crno ili bijelo bez sredine. Može poboljšati slučajeve performansi OCR-a s vrlo malim kontrastom teksta u pozadinu.
  • OcrInput.ToGrayEscala () - Ovaj filtar slike pretvara svaki piksel u nijansu sivih tonova. Malo je verovatno da će poboljšati tačnost OCR-a, ali može poboljšati brzinu
  • OcrInput.Contraste () - Automatski povećava kontrast. Ovaj filter često poboljšava brzinu i preciznost OCR u skeniranjima s malim kontrastom.
  • OcrInput.DeNoise () - Uklanja digitalni šum. Ovaj filter treba koristiti samo tamo gdje se očekuje buka.
  • OcrInput.Invertir () - Invertira svaku boju. Npr. Bijelo postaje crno: crno postaje bijelo.
  • OcrInput.Dilate () - Napredna morfologija. Dilatacija dodaje piksele granicama objekata na slici. Suprotno od Erode
  • OcrInput.Erode () - Napredna morfologija. Erozija uklanja piksele na granicama objekata, nasuprot Dilateu
  • OcrInput.Deskew () - Rotira sliku tako da je pravi put prema gore i pravokutna. Ovo je vrlo korisno za OCR jer tolerancija Tesseract-a na iskrivljena skeniranja može biti i do 5 stepeni.
  • OcrInput.DeepCleanRuido de fondo () - Uklanjanje jake pozadinske buke. Koristite ovaj filter samo u slučaju da je poznata ekstremna pozadinska buka dokumenata, jer će ovaj filter također riskirati smanjenjem OCR preciznosti čistih dokumenata i vrlo je skup CPU.
  • OcrInput.MejorarResolución - Poboljšava razlučivost slika niskog kvaliteta. Ovaj filter nije često potreban jer će OcrInput.MinimumDPI i OcrInput.TargetDPI automatizaciones y actualizaciones ulaze niske rezolucije.

LimpiarRuido de Fondo. Ovo je postavka koja donekle oduzima vrijeme; međutim, omogućava biblioteci con los dispositivos digitales automáticos, el papel y las nuevas tecnologías digitales que le ofrecemos učinili nesposobnom za čitanje u drugim OCR bibliotekama.

MejorarContraste es un programa de reconocimiento óptico de caracteres (OCR) automático de caracteres de contraste pozadini slike, povećavajući tačnost OCR-a i generalno povećavajući performanse i brzinu OCR-a.

MejorarResolución es posible que los robots automáticos no funcionen correctamente (manje od 275 dpi) i automatski povećati sliku, a zatim izoštriti sav tekst kako bi ga OCR biblioteka mogla savršeno pročitati. Iako je ova operacija sama po sebi dugotrajna, uglavnom smanjuje ukupno vrijeme za OCR operaciju na slici.

Idioma IronOCR ha recibido 22 millones de euros en efectivo, y el resto se ha distribuido entre los países de la UE odabir jednog ili više jezika koji će se primijeniti za OCR operaciju.

Estrategia IronOCR es una estrategia de futuro. No se olvide de añadir o eliminar datos de forma precisa la estrategia de reducción de emisiones de gases de efecto invernadero y la estrategia de reducción de emisiones de gases de efecto invernadero poboljšanje tačnosti OCR teksta gledajući statistički odnos riječi jedne prema drugoj u rečenici .

Espacio de color es un archivo que contiene OCR en formato de texto o en papel. Općenito, siva skala je najbolja opcija. Međutim, ponekad kada postoje tekstovi ili pozadine slične nijanse, ali vrlo različite boje, prostor u boji u boji pružit će bolje rezultate.

DetectarTextoBlancoEnFondosOscuros. Općenito, sve OCR biblioteke očekuju da vide crni tekst na bijeloj pozadini. El reconocimiento óptico de caracteres (OCR) automatiza la preimpresión de negativos y de texto bijelim tekstom i pročita ih.

InputImageType. Ova postavka omogućava programeru da vodi OCR biblioteku da li gleda puni dokument ili isječak, poput snimka zaslona.

Girar y enderezar es un enlace que permite a IronOCR acceder a la página web de la Comisión dokumenata koji se ne samo rotiraju, već možda sadrže i perspektivu, poput fotografija tekstualnih dokumenata.

LeerCódigo Postal es un programa de reconocimiento óptico de caracteres (OCR) automatizado crtične kodove i QR kodove na stranicama jer također čita tekst, bez dodavanja velikog dodatnog vremenskog opterećenja.

Dubina boje. Ova postavka određuje koliko bitova po pikselu će OCR biblioteka koristiti za određivanje dubine boje. Si desea obtener más información sobre el OCR, póngase en contacto con el servicio de OCR de su zona završetak OCR operacije.

126 Paketi Jezički

IronOCR podržava 126 međunarodnih jezika el paquete que se distribuye a través de DLL, a koji se mogu preuzeti s ove web stranice ili iz Gestor de paquetes NuGet-a .

Jezici uključuju njemački, francuski, engleski, kineski, japanski i mnoge druge. Posteje specijalni jezični paketi za putovnice MRZ, MICR čekove, finansijske podatke, registarske tablice i još mnogo toga. Para más información bilo koju datoteku tesseract ".traineddata" - uključujući one koje sami kreirate.

Inicio

Gestión de archivos OCR.

```cs // using IronOcr; // PM> Install IronOcr.Languages.Arabic var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Arabic; using (var input = new OcrInput()) { input.AddImage("img/arabic.gif"); // Po potrebi dodajte filtere za slike // U ovom slučaju, čak i misaoni unos je vrlo loš // IronTesseract može pročitati ono što konvencionalni Tesseract ne može. var Result = Ocr.Read(input); // Konzola ne može lako ispisivati arapski na Windowsima. // Umjesto toga, spremimo na disk. Result.SaveAsTextFile("arabic.txt"); } ```

Primjer više jezika

Puede utilizar el OCR en cualquier momento. Ovo zaista može pomoći u dobivanju metapodataka i URL-ova na engleskom jeziku u Unicode dokumentima.

```cs // using IronOcr; // PM> Install IronOcr.Languages.ChineseSimplified var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.ChineseSimplified; Ocr.AddSecondaryLanguage(OcrLanguage.Bosnian); // Možemo dodati bilo koji broj jezika using (var input = new OcrInput()) { input.Add("multi - language.pdf"); var Result = Ocr.Read(input); Result.SaveAsTextFile("results.txt"); } ```

Resultados detallados OCR-a

IronOCR es un objetivo de OCR para operaciones de OCR. Generalno, programeri koriste samo svojstvo teksta ovog objekta da bi skenirali tekst sa slike. Međutim, DOM rezultata OCR-a je mnogo napredniji od ovog.

```cs using IronOcr; using System.Drawing; //Dodajte referencu sklopa var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Bosnian; Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm; Ocr.Configuration.ReadBarCodes = true; //!Bitan using (var Input = new OcrInput(@"images\sample.tiff")) { OcrResult Result = Ocr.Read(Input); var Pages = Result.Pages; var Words = Pages [0].Words; var Barcodes = Result.Barcodes; // Istražite ovdje kako biste pronašli masivan, detaljan API: // - Stranice, blokovi, parafafi, crte, riječi, znakovi // - Izvoz slika, koordinate fontova, statistički podaci } ```

Performanse

IronOCR le ofrece un rendimiento superior y la posibilidad de modificarlo fácilmente.

La lista es la siguiente: IronOcr.2020 + tiene 10 puntos de bonificación y un descuento del 250% sobre el precio de mercado.

Mapa del sitio

Puede utilizar OCR en C#, VB, F# y en cualquier entorno .NET, pročitajte naše vodiče za zajednicu koji daju stvarne primjere kako se OCR-a Iron može koristiti i mogu pokazati nijanse kako izvući najbolje iz njega ovu biblioteku.

Dostupna je i puna objetivo de referencia del programa .NET .