OCR corsu en C#è .NET

Otras versiones de este documento:

IronOCR es un complemento de software C# que permite a los codificadores .NET leer pruebas de imágenes y dibujos PDF in 126 lingue, cumpresu u corsu.

La avanzada solución de Tesseract, creada para desarrolladores .NET, supera a las demás soluciones de regulación mutori Tesseract sia per a velocità sia per a precisione.

Cuntenutu di IronOcr.Languages.Corsican

Este paquete contiene 49 idiomas OCR para .NET:

  • Corsu
  • CorsuMiglior
  • CorsicanFast

Scaricà

Pack de langue corse [corsu]
* Descargar como Código postal
* Instalar con como
https://www.nuget.org/packages/IronOcr.Languages.Corsican/'> NuGet

Stallazione

A prima cosa avemu à fà hè fatta in u nostru pacchettu Córcega ICT à u vostru prughjettu .com.

PM> Install-Package IronOCR.Languages.Córcega

Esempiu di Codice

Este ejemplo de código C# contiene un documento de imagen o PDF.

```cs //PM> Install-Package IronOcr.Languages.Corsican using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Corsican; using (var Input = new OcrInput(@"images\Corsican.png")) { var Result = Ocr.Read(Input); Var AllText = Result.Text } ```

¿Por qué elegir IronOCR?

IronOCR es una librería de software .NET fácil de instalar, cumplida y bien documentada.

Sceglite IronOCR per uttene 99,8% + precisión OCR sin añadir ningún servicio web externo, por ejemplo in corsu o inviu di documenti cunfidenziali nantu à Internet.

¿Por qué los desarrolladores de C# han incluido IronOCR en Vanilla Tesseract?

  • Instala cum'è una sola DLL o NuGet
  • Incluido para los motores Tesseract 5, 4 y 3 ranuras.
  • Una precisión 99,8% supera significativamente a u Tesseract regulare.
  • Velocidad abrasadora y multihilo
  • Compatible con MVC, WebApp, escritorio, consola y servidor
  • Sin código Exes o C ++ para viajar
  • Soporte PDF OCR completo
  • Para hacer OCR a cualquier imagen fugaz o PDF
  • Soporte completo .NET Core, Standard è FrameWork
  • Distribuido en Windows, Mac, Linux, Azure, Docker, Lambda, AWS
  • Leghje i codici a barre è i codici QR
  • Esporta OCR in quantu à XHTML
  • Aplicación de OCR en documentos PDF de consulta
  • Soporte multihilo
  • 126 idiomas internacionales gestionados por los programas NuGet y OcrData
  • Estrae Immagini, Coordinate, Statistiche è Caratteri. Micca solu testu.
  • Cualquier uso de Tesseract OCR en aplicaciones comerciales es propiedad de Tesseract.

OCR de Ferru brilla dondequiera que viajen imágenes de u mundo real es documentos imperfectos cume y fotografías, o scans di bassa risoluzione chì pò avè rumore digitale o imperfezzioni.

Otras bibliotecas OCR gratuitas para plataformas .NET y similares API .net tesseract è servizii web ùn si comportanu micca bè in questi casi d'usu di u mondu reale.

OCR cù Tesseract 5 - Avvia a Codificazione in C #

Un ejemplo de código que muestra cómo leerlo desde una máquina en C# o VB .NET.

OneLiner

```cs string Text = new IronTesseract().Read(@"img\Screenshot.png").Text; ```

Configurabile Hola Mundo

```cs // PM> Install-Package IronOCR.Languages.Corsican using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Corsican; using (var Input = new OcrInput()){ Input.AddImage("images/sample.jpeg") //... pudete aghjunghje un numeru numeru di immagini var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

C#PDF OCR

U listessu approcciu pò esse adupratu anguaño per estrarre testu da qualsiasi documentu PDF.

```cs var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Corsican; using (var input = new OcrInput()) { input.AddPdf("example.pdf", "password"); // Pudemu ancu selezziunà numeri di pagine PDF specifici à OCR var Result = Ocr.Read(input); Console.WriteLine(Result.Text); Console.WriteLine($"{Result.Pages.Count()} Pages"); // 1 pagina per ogni pagina di u PDF } ```

OCR por TIFF Multipágina

Lectura OCR Formato TIFF fugaz para documentos de varias páginas. U TIFF pò ancu esse cunvertitu direttamente in un schedariu PDF cù testu ricercabile.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Corsican; using (var Input = new OcrInput()){ input.AddMultiFrameTiff("multi - frame.tiff"); var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

Códigos de barras y QR

Una característica única de IronOCR es que los códigos de barras son códigos QR de documentos, mientras que los códigos de usuario se escanean testu. Istanze di a Classe OcrResult.OcrBarcode danu à u sviluppatore informazioni dettagliate nantu à ogni codice à OcrResult.OcrBarcode .

```cs // using IronOcr; var Ocr = new IronTesseract(); Ocr.Configuration.ReadBarCodes = true; using (var input = new OcrInput()) { input.AddImage("img/Barcode.png"); var Result = Ocr.Read(input); foreach (var Barcode in Result.Barcodes) { Console.WriteLine(Barcode.Value); // pruprietà di tippu è di situazione ancu esposte } } ```

OCR nantu à Aree Specifiche di Immagini

Todos los métodos de escaneado se basan en la capacidad de IronOCR para proporcionar datos específicos de forma automática desde cualquier parte del mundo pagina o pagine vulemu leghje testu. Esto es muy útil cuando se guardan formas estandarizadas y se ponen a prueba assai tempu è migliurà l'efficienza.

Por región Sistema.Dibujo aghjunghje un riferimentu di sistema à Sistema.Dibujo modu da pudè aduprà l'ughjettu Sistema.Dibujo.Rectangle

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Corsican; using (var Input = new OcrInput()) { var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 }; // E dimensioni sò in px Input.Add("document.png", ContentArea); var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

OCR para escaneados de baja calidad

A classa IronOCR OcrInput pò risolve scans chì Tesseract normale ùn pò micca leghje.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Corsican; using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff")) { Input.DeNoise(); // risolve u rumore digitale è a scansione scarsa Input.Deskew(); // ripara a rotazione è a perspettiva var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

Esporta resultados OCR a PDF ricercabile

Imagen en PDF de las cadenas de testu copiadas. Pò esse indiziatu da i motori di ricerca è e basi di dati.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Corsican; using (var Input = new OcrInput()){ input.Title = "Quarterly Report" input.AddImage("image1.jpeg"); input.AddImage("image2.png"); input.AddImage("image3.gif"); var Result = Ocr.Read(input); Result.SaveAsSearchablePdf("searchable.pdf") } ```

TIFF a conversión PDF accesible

Descargar un documento TIFF (o qualsiasi gruppu di fugliali d'imagine) directamente en un PDF ricercabile chì pò esse indiziatu da intranet, situ web è motori di ricerca google.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Corsican; using (var Input = new OcrInput()){ input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf") } ```

Esporta resultados OCR cum'è HTML

Conversión Imagen OCR en XHTML.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Corsican; using (var Input = new OcrInput()){ input.Title = "Html Title" input.AddImage("image1.jpeg"); var Result = Ocr.Read(input); Result.SaveAsHocrFile("results.html"); } ```

Filtros de migración de imágenes OCR

IronOCR furnisce filtri unichi per OcrInput oggetti OcrInput para mejoras y prestaciones OCR.

Esempiu di Codice di Migliurazione di l'Imagine

Rende l'imagine input OCR di qualità superiore per prudurre risultati OCR megliu più veloci.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Corsican; using (var Input = new OcrInput(@"LowQuality.jpeg")) { Input.DeNoise(); // risolve u rumore digitale è a scansione scarsa Input.Deskew(); // ripara a rotazione è a perspettiva var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

Elencu di Filtri Image OCR

Los filtros de entrada para mejora y rendimiento OCR se integran en IronOCR:

  • OcrInput.Rotate (doppia gradu) - Gira l'imaghjini da un numeru di gradi in sensu urariu. Per u sensu antiurariu, aduprate numeri negativi.
  • OcrInput.Binarizar () - Stu filtru di l'immagine trasforma ogni pixel in neru o biancu senza nisun mezu. Puderà Migliurà i casi di prestazione OCR di cuntrastu assai bassu di u testu à u fondu.
  • OcrInput.ToGrayEscala () - Stu filtru d'imaghjini trasforma ogni pixel in un ombra di scala di grisgiu. Improbabile di migliurà a precisione OCR ma pò migliurà a velocità
  • OcrInput.Contraste () - Aumenta u cuntrastu automaticamente. El filtro que mejor se adapta a sus necesidades velocità è a precisione OCR in scans à bassu cuntrastu.
  • OcrInput.DeNoise () - Elimina u rumore digitale. El filtro debe ser una solución adecuada para cada caso prevede rumore.
  • OcrInput.Invertir () - Inverte ogni culore. Es. Biancu diventa neru: u neru diventa biancu.
  • OcrInput.Dilate () - Morfologia Avanzata. A dilatazione aghjusta pixel à i cunfini di l'uggetti in una maghjina. Oppostu di Erode
  • OcrInput.Erode () - Morfologia Avanzata. L'erosione elimina i pixel nantu à i limiti di l'ughjettu Opposite di Dilate
  • OcrInput.Deskew () - Gira una maghjina per chì sia a strada ghjusta è ortogonale. Questu hè assai utile per OCR perchè a tolleranza Tesseract per scans distorsioni pò esse bassu 5 gradi.
  • OcrInput.DeepCleanRuido de fondo () - Rimozione di rumore di fondu pesante. Aduprate solu stu filtru in casu chì u rumore di fondu di u documentu estremu sia cunnisciutu, perchè stu filtru risicherà ancu di riduce a precisione OCR di documenti puliti, è hè assai caru in CPU.
  • OcrInput.MejorarResolución - Migliora a risoluzione di l'imagine di bassa qualità. Stu filtru ùn hè micca spessu necessariu perchè OcrInput.MinimumDPI è OcrInput.TargetDPI catturerà è risolverà automaticamente input di bassa risoluzione.

LimpiarRuido de Fondo. Questu hè un ambiente chì cunsuma un pocu di tempu; en cualquier modo, permite a biblioteca di pulisce automaticamente u rumore digitale, a carta sgretolata, è altre imperfezzioni in una maghjina digitale chì altrimente a renderebbe incapace di esse letta da altre biblioteche OCR.

MejorarContraste un parámetro de la cara de IronOCR aumentará automáticamente en función de su tamaño testu nantu à u fondu di una maghjina, aumentendu a precisióne di OCR è generalmente aumentendu e prestazioni è a velocità di OCR.

MejorarResolución hè un paràmetru chì hà da rilevà automaticamente e immagini a bassa risoluzione (chì sò menu di 275 dpi) la imagen se muestra automáticamente y después se muestra en todos los modos posibles leghje perfettamente una libreria OCR. Benchì questa operazione sia di per sé lunga, riduce generalmente u tempu generale per un'operazione OCR nantu à una maghjina.

Idioma IronOCR admite 22 paquetes de idiomas internacionales, es la imposición lingüística pò esse aduprata per selezziunà una o più lingue multiple da applicà per un'operazione OCR.

Estrategia IronOCR sustenta su estrategia. Puderemu sceglie di andà per una scansione rapida è menu precisa de un documento, o aplica una estrategia avanzada que utiliza algunas herramientas de inteligencia artificial para mejorar automáticamente la precisión de u testu OCR en relación con las estadísticas de palabras y párrafos de una frase. .

Espacio de color hè un paràmetru induve pudemu sceglie OCR in scala di grisgiu o culore. Generalmente, a scala di grisgiu hè a megliu opzione. Sin embargo, a veces se oyen testimonios o sonidos de tonalidades similares, pero de tonalidades diferentes culore assai diversu, un spaziu di culore à pienu culore darà risultati megliu.

DetectarTextoBlancoEnFondosOscuros. Por lo general, todas las bibliotecas OCR tienen acceso a los datos neru nantu à sfondi bianchi. Esta imposición permite a IronOCR corregir automáticamente los mensajes negativos o las páginas scure cun testu biancu, è leghje li.

InputImageType. Esta imposición permite a los desarrolladores guiar a las bibliotecas OCR a través de las herramientas de OCR stà guardendu un documentu cumpletu o un frammentu, cum'è una screenshot.

Girar y enderezar un parámetro avanzado que permite a IronOCR una capacidad de lectura única documenti chì ùn sò micca soluti rotati, ma forse cuntenenu perspettiva, cum'è e fotografie di documenti di testu.

LeerCódigos es una característica útil que permite a IronOCR leer automáticamente los códigos a barre è i codici QR in pagine cume leghje ancu testu, senza aghjunghje un grande pesu di tempu addizionale.

CuloreProfundità. Esta imposición determina cuántos bits por píxel utilizará la biblioteca OCR para determinà a profondità di un culore. Una mayor productividad culinaria aumentará la calidad OCR, pero también aumentará la productividad tempu necessariu per l'operazione OCR per compie.

126 Pacchetti di Lingua

IronOCR apoya 126 lenguas internacionales por vía de paquetes lingüísticos así distribuidos cum'è DLL, chì ponu esse scaricati da stu situ web , o ancu da u Gestor de paquetes NuGet .

E lingue includenu Tedescu, Francese, Inglese, Cinese, Giapponese è assai altri. Pacchetti linguistici specializati esistenu per passaporti MRZ, cuntrolli MICR, Dati Finanziarii, Ticchette è assai altri. Pudete ancu aduprà qualsiasi fugliale tesseract ".traineddata" - ancu quelli chì create da voi stessu.

Esempiu di lingua

Usendu altre lingue OCR.

```cs // using IronOcr; // PM> Install IronOcr.Languages.Arabic var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Arabic; using (var input = new OcrInput()) { input.AddImage("img/arabic.gif"); // Aghjunghjite filtri d'immagine se necessariu // In questu casu, ancu l'input pensatu hè di qualità assai bassa // IronTesseract pò leghje ciò chì Tesseract convenzionale ùn pò micca. var Result = Ocr.Read(input); // A Consola ùn pò micca stampà l'arabu in Windows facilmente. // Salvemu nant'à u discu invece. Result.SaveAsTextFile("arabic.txt"); } ```

Esempiu di Lingua Multipla

También puede utilizar el OCR para leer idiomas en tiempo real. Esta es una verdadera ayuda para los metadatos URL in lingua inglese in documenti Unicode.

```cs // using IronOcr; // PM> Install IronOcr.Languages.ChineseSimplified var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.ChineseSimplified; Ocr.AddSecondaryLanguage(OcrLanguage.Corsican); // Pudemu aghjunghje un numeru numeru di lingue using (var input = new OcrInput()) { input.Add("multi - language.pdf"); var Result = Ocr.Read(input); Result.SaveAsTextFile("results.txt"); } ```

Oggetti Risultti OCR Risultti

IronOCR devuelve un flujo de resultados OCR para cada operación OCR. Por lo general, los desarrolladores utilizan solu a pruprietà di u testu di questu oggettu per uttene u testu scansitu da l'imaghjina. Sin embargo, los resultados OCR DOM hè assai più avanzatu di questu.

```cs using IronOcr; using System.Drawing; //Aghjunghje Riferimentu di l'Assemblea var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Corsican; Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm; Ocr.Configuration.ReadBarCodes = true; //! Impurtante using (var Input = new OcrInput(@"images\sample.tiff")) { OcrResult Result = Ocr.Read(Input); var Pages = Result.Pages; var Words = Pages [0].Words; var Barcodes = Result.Barcodes; // Esplora quì per truvà una API massiccia, dettagliata: // - Pagine, Blocchi, Paraphaphs, Linee, Parolle, Chars // - Esportazione di l'immagine, Coordinate di caratteri, Dati statistichi } ```

Rendimentu

IronOCR funciona a pleno rendimiento sin necesidad de poner en marcha prestaciones o de mudanzas pesadas immagini di input.

A gran velocidad: IronOcr.2020 + es 10 veces más rápido y se enfrenta a más de un 250% de errores de fabricación precedenti.

Sapè ne di più

Para ampliar aún más el OCR en C#, VB, F#, o cualquier otro lenguaje .NET, por favor leghjite i nostri tutoriali di a cumunità , chì danu esempi di u mondu reale di cume IronOCR pò esse adupratu è pò mostrà e sfumature di cume uttene u megliu da sta biblioteca.

Una riferenza d'ughjettu cumpleta para desarrolladores .NET hè ancu dispunibile.