OCR en C# y .NET

Versione të tjera të këtij dokumenti:

IronOCR es un software que utiliza C# y NET para el aprendizaje de idiomas y documentos PDF de 126 caracteres gjuhë, përfshirë shqipen.

Tesseract le ofrece la posibilidad de utilizar Tesseract en el entorno .NET y en el resto del mundo motorët e tjerë Tesseract si për shpejtësinë ashtu edhe për saktësinë.

Përmbajtja e gjuhëve të hekurta. Shqip

Paquete de 49 funciones de OCR para .NET:

  • Shqiptare
  • ShqipMejor
  • AlbanésFast

Shkarko

Paketa e Gjuhës Shqipe [gjuha shqipe]
* Descargar como Comprimir
* Instalar con
https://www.nuget.org/packages/IronOcr.Languages.Albanian/'> NuGet

Instalimi

Gjëja e parë që duhet të bëjmë është të instalojmë paketën tonë OCR shqiptare në projektin tuaj .NET.

PM> Install-Package IronOCR.Languages.Albanian

Shembull i kodit

Cómo usar el lenguaje C#lexon en un documento PDF.

```cs //PM> Install-Package IronOcr.Languages.Albanian using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Albanian; using (var Input = new OcrInput(@"images\Albanian.png")) { var Result = Ocr.Read(Input); Var AllText = Result.Text } ```

¿Por qué IronOCR?

IronOCR es un software de bibliotecas . NET para instalación, diseño y documentación.

IronOCR en la carretera saktësinë 99,8% + OCR pa përdorur ndonjë shërbim të jashtëm të uebit, tarifa të vazhdueshme ose dërgimin e dokumenteve konfidenciale në internet.

Pse zhvilluesit e C#zgjedhin IronOCR para Vanilla Tesseract:

  • Instale una DLL de NuGet en su ordenador
  • Los motores Tesseract 5, 4 y 3 están disponibles.
  • Saktësia 99.8% i tejkalon dukshëm Tesseract-in e rregullt.
  • La lucha contra el fraude y la pesca ilegal
  • Aplicaciones MVC, WebApp, Escritorio, Consola y Servidor
  • Cómo usar C ++ en el futuro
  • PDF OCR en línea
  • Për të kryer OCR pothuajse çdo skedar imazhi ose PDF
  • Más información sobre .NET Core, Standard y FrameWork
  • Proveedores en Windows, Mac, Linux, Azure, Docker, Lambda, AWS
  • Lexoni barkodet dhe kodet QR
  • Eksportoni OCR si në XHTML
  • Eksportoni OCR në dokumente PDF të kërkueshme
  • Temas de interés
  • 126 usuarios de NuGet y OcrData en la nube
  • Imágenes, coordinadas, estadísticas y cronología. Más información.
  • Tesseract OCR es una aplicación de reconocimiento óptico de caracteres de alta calidad.

El reconocimiento óptico de caracteres (OCR) se aplica a las imágenes de los documentos reales y a los documentos impresos y fotográficos, por lo que no es necesario realizar ninguna modificación rezolucion të ulët, të cilat mund të kenë zhurmë dixhitale ose papërsosmëri.

Biblioteka të tjera OCR falas për platformën .NET, API-të e tjera të rrjetit dhe shërbimet e tjera të internetit nuk funksionojnë aq mirë në këto raste të përdorimit të botës reale.

OCR me Tesseract 5 - Filloni kodimin në C #

Shembulli i kodit më poshtë tregon se sa e lehtë është të lexosh tekst nga një imazh duke përdorur C#ose VB .NET.

OneLiner

```cs string Text = new IronTesseract().Read(@"img\Screenshot.png").Text; ```

Përshëndetje Botë, e konfigurueshme

```cs // PM> Install-Package IronOCR.Languages.Albanian using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Albanian; using (var Input = new OcrInput()){ Input.AddImage("images/sample.jpeg") //... mund të shtoni çdo numër imazhesh var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

C#PDF OCR

E njëjta qasje mund të përdoret në mënyrë të ngjashme për të nxjerrë tekst nga çdo dokument PDF.

```cs var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Albanian; using (var input = new OcrInput()) { input.AddPdf("example.pdf", "password"); // Ne gjithashtu mund të zgjedhim numra të veçantë të faqeve PDF në OCR var Result = Ocr.Read(input); Console.WriteLine(Result.Text); Console.WriteLine($"{Result.Pages.Count()} Pages"); // 1 faqe për çdo faqe të PDF } ```

OCR para TIFF en pantalla

OCR Leximi i formatit të skedarit TIFF duke përfshirë dokumente të shumëfishta. TIFF gjithashtu mund të shndërrohet direkt në një skedar PDF me tekst të kërkueshëm.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Albanian; using (var Input = new OcrInput()){ input.AddMultiFrameTiff("multi - frame.tiff"); var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

Barkodet dhe QR

Një tipar unik i IronOCR është që mund të lexojë barkode dhe kodet QR nga dokumentet ndërsa skanon për tekst. Instancat e Klasës OcrResult.OcrBarcode japin zhvilluesit informacione të hollësishme për secilin barkod të skanuar.

```cs // using IronOcr; var Ocr = new IronTesseract(); Ocr.Configuration.ReadBarCodes = true; using (var input = new OcrInput()) { input.AddImage("img/Barcode.png"); var Result = Ocr.Read(input); foreach (var Barcode in Result.Barcodes) { Console.WriteLine(Barcode.Value); // lloji dhe pronat e vendndodhjes gjithashtu të ekspozuara } } ```

OCR en la zona específica de la imagen

El método de reconocimiento óptico de caracteres (OCR) de Hekurit le permite especificar el idioma en el que desea trabajar pjesë e një faqeje ose faqesh dëshirojmë të lexojmë tekst. Kjo është shumë e dobishme kur po shikojmë forma të standardizuara dhe mund të kursejmë shumë kohë dhe të përmirësojmë efikasitetin.

Për të përdorur rajone të korrjes, do të duhet të shtojmë një referencë të sistemit në Sistema.Dibujo mënyrë që të mund të përdorim objektin System.Drawing.Rectangle .

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Albanian; using (var Input = new OcrInput()) { var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 }; // Përmasat janë në në px Input.Add("document.png", ContentArea); var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

Reconocimiento óptico de caracteres (OCR) en la pantalla del ordenador

Klasa HierroOCR OcrInput el mundo de Tesseract normal y el mundo de Tesseract lex.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Albanian; using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff")) { Input.DeNoise(); // rregullon zhurmën dixhitale dhe skanimin e dobët Input.Deskew(); // rregullon rotacionin dhe perspektivën var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

Eksportoni rezultatet e OCR si një PDF i Kërkueshëm

Descargar PDF de este sitio web. Mund të indeksohet nga motorët e kërkimit dhe bazat e të dhënave.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Albanian; using (var Input = new OcrInput()){ input.Title = "Quarterly Report" input.AddImage("image1.jpeg"); input.AddImage("image2.png"); input.AddImage("image3.gif"); var Result = Ocr.Read(input); Result.SaveAsSearchablePdf("searchable.pdf") } ```

TIFF para convertir a PDF en cualquier formato

Más información sobre el documento TIFF (ose ndonjë grup skedarësh me imazhe) direkt në një PDF të kërkueshëm i cili mund të indeksohet nga intranet, faqet e internetit dhe motorët e kërkimit google.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Albanian; using (var Input = new OcrInput()){ input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf") } ```

Eksportoni rezultatet e OCR si HTML

Convertir imágenes OCR en XHTML.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Albanian; using (var Input = new OcrInput()){ input.Title = "Html Title" input.AddImage("image1.jpeg"); var Result = Ocr.Read(input); Result.SaveAsHocrFile("results.html"); } ```

Filtrado de imágenes OCR

IronOCR filtra un mensaje único para el objetivo OcrInput për të përmirësuar performancën e OCR.

Shembull i Kodit të Përmirësimit të Imazhit

I bën imazhet hyrëse OCR me cilësi më të lartë për të prodhuar rezultate më të mira dhe më të shpejta të OCR.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Albanian; using (var Input = new OcrInput(@"LowQuality.jpeg")) { Input.DeNoise(); // rregullon zhurmën dixhitale dhe skanimin e dobët Input.Deskew(); // rregullon rotacionin dhe perspektivën var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

Lista de filtros de imágenes OCR

Filtrat e hyrjes për të rritur performancën e OCR-së, të cilat janë të ndërtuara në IronOCR, përfshijnë:

  • OcrInput. Rrotullo (gradë të dyfishtë) - Rrotullon imazhet me një numër gradësh në drejtim të akrepave të orës. Për kundër akrepave të orës, përdorni numra negativë.
  • OcrInput.Binarizar () - Ky filtër imazhi e kthen çdo piksel në të zezë ose të bardhë pa asnjë terren të mesëm. Mund të përmirësojë rastet e performancës së OCR me kontrast shumë të ulët të tekstit në sfond.
  • OcrInput.ToGrayEscala () - Ky filtër imazhi kthen çdo piksel në një hije të shkallës gri. Nuk ka gjasa të përmirësojë saktësinë e OCR por mund të përmirësojë shpejtësinë
  • OcrInput.Contraste () - Rrit kontrastin automatikisht. Ky filtër shpesh përmirëson shpejtësinë dhe saktësinë e OCR në skanimet me kontrast të ulët.
  • OcrInput.DeNoise () - Heq zhurmën dixhitale. Ky filtër duhet të përdoret vetëm aty ku pritet zhurmë.
  • OcrInput.Invertir () - Përmbys çdo ngjyrë. P.sh Bardha bëhet e zezë: e zeza bëhet e bardhë.
  • OcrInput.Dilate () - Morfologji e Avancuar. Zgjerimi shton piksele në kufijtë e objekteve në një imazh. Përballë Erodës
  • OcrInput.Erode () - Morfologji e Avancuar. Erozioni el largo viaje a través del mundo objektitPërballë Dilatit
  • OcrInput.Deskew () - Rrotullon një imazh kështu që është mënyra e duhur lart dhe ortogonale. OCR y Tesseract se comprometen a respetar los derechos de propiedad intelectual en el 5º aniversario de la Convención sobre los Derechos del Niño gradë.
  • OcrInput.DeepCleanRuido de fondo () - Heqja e zhurmës në sfond të rëndë. Përdorni këtë filtër vetëm në rast se njihet zhurma ekstreme e sfondit të dokumentit, sepse ky filtër gjithashtu rrezikon të zvogëlojë saktësinë OCR të dokumenteve të pastra dhe është shumë i kushtueshëm për CPU.
  • OcrInput.MejorarResolución - Përmirëson rezolucionin e imazheve me cilësi të ulët. Ky filtër nuk është i nevojshëm shpesh sepse OcrInput.MinimumDPI dhe OcrInput.TargetDPI automatikisht do të kapë dhe zgjidhë hyrjet me rezolucion të ulët.

LimpiarRuido de Fondo. Ky është një mjedis që disi kërkon kohë; megjithatë, kjo i lejon bibliotekës para el pastoreo automático, el copiado de papel y la impresión de documentos en papel dixhital që përndryshe do ta bënte atë të paaftë për t'u lexuar nga bibliotekat e tjera OCR.

MejorarContraste oCR de alta calidad para el contraste automático de imágenes en pantalla në sfondin e një imazhi, duke rritur saktësinë e OCR dhe në përgjithësi duke rritur performancën dhe shpejtësinë e OCR.

MejorarResolución është një cilësim që do të zbulojë automatikisht imazhe me rezolucion të ulët (të cilat janë nën 275 dpi) dhe automatikisht e rrit lart imazhin dhe më pas mpreh të gjithë tekstin në mënyrë që të lexohet në mënyrë të përsosur nga një bibliotekë OCR. Edhe pse ky operacion është në vetvete kohë, zakonisht zvogëlon kohën e përgjithshme për një operacion OCR në një imazh.

Idioma IronOCR lanza su 22º paquete de productos y servicios para el sector de la construcción y el transporte për të zgjedhur një ose më shumë gjuhë të shumta që do të aplikohen për një operacion OCR.

Strategjia El reconocimiento óptico de caracteres en su estrategia. El mundo de los derechos humanos en el mundo del trabajo dhe më pak të saktë të një dokumenti, ose të përdorim një strategji të përparuar që përdor disa modele të inteligencia artificial para automatizar el reconocimiento óptico de caracteres en el matrimonio statistikore të fjalëve me njëra-tjetrën në një fjali .

Espacio de color është një cilësim përmes të cilit ne mund të zgjedhim OCR në shkallë gri ose me ngjyra. Në përgjithësi, shkalla e hirtë është opsioni më i mirë. Sidoqoftë, ndonjëherë kur ka tekste ose sfonde me ngjyrim të ngjashëm, por me ngjyra shumë të ndryshme, një hapësirë me ngjyra të plota do të sigurojë rezultate më të mira.

ZbuloniTeksti i BardhëNë terrenin e errët. Para obtener más información, póngase en contacto con su distribuidor local de OCR shohin tekst të zi në sfond të bardhë. Si desea obtener más información sobre el OCR de Hekuri, póngase en contacto con el servicio de atención al cliente de Hekuri errëta me tekst të bardhë dhe t'i lexojë ato.

InputImageType. Ky cilësim lejon zhvilluesin të udhëzojë bibliotekën OCR nëse po shikon një dokument të plotë ose një copë toke, siç është një screenshot.

Girar y enderezar los nuevos diputados del Parlamento Europeo en el Consejo de IronOCR después de su nombramiento en el Parlamento Europeo dokumente të cilat jo vetëm rrotullohen, por ndoshta përmbajnë perspektivë, siç janë fotografitë e dokumenteve me tekst.

LeerCódigos no se olvide de consultar el apartado IronOCR para obtener más información sobre la automatización de los procesos de trabajo kodet QR në faqe pasi lexon edhe tekst, pa shtuar një ngarkesë të madhe shtesë kohore.

Thellësia e ngjyrës. Si desea obtener más información sobre el OCR para bibliotecas, póngase en contacto con nosotros përcaktuar thellësinë e një ngjyre. El nuevo sistema de gestión de la calidad de la información de la Comisión Europea do të rrisë kohën e nevojshme për të përfunduar operacionin OCR.

126 Paketa Gjuhësh

IronOCR en el mundo 126 gjuhë ndërkombëtare përmes paketave gjuhësore të cilat shpërndahen si DLL, të cilat mund të shkarkohen nga kjo faqe në internet , ose gjithashtu nga Menaxheri i Paketave NuGet .

Gjuhët përfshijnë gjermanisht, frëngjisht, anglisht, kinezisht, japonisht dhe shumë më tepër. Paketat e gjuhëve të especialista en gestión de pasaportes MRZ, control de MICR, gestión financiera, tarificación y gestión de pagos. Mund të përdorni gjithashtu çdo skedar tesseract ".traineddata" - përfshirë ato që i krijoni vetë.

Shembull i gjuhës

Përdorimi i gjuhëve të tjera OCR.

```cs // using IronOcr; // PM> Install IronOcr.Languages.Arabic var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Arabic; using (var input = new OcrInput()) { input.AddImage("img/arabic.gif"); // Shtoni filtra imazhesh nëse është e nevojshme // Në këtë rast, edhe hyrja e mendimit është me cilësi shumë të ulët // IronTesseract mund të lexojë atë që Tesseract konvencional nuk mund. var Result = Ocr.Read(input); // Console nuk mund të shtypë arabisht në Windows lehtë. // Le të ruajmë në disk në vend. Result.SaveAsTextFile("arabic.txt"); } ```

Shembull me shumë gjuhë

Alsoshtë gjithashtu e mundur që OCR të përdorë shumë gjuhë në të njëjtën kohë. Kjo me të vërtetë mund të ndihmojë në marrjen e meta të dhënave dhe URL-ve të gjuhës angleze në dokumentet e Unicode.

```cs // using IronOcr; // PM> Install IronOcr.Languages.ChineseSimplified var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.ChineseSimplified; Ocr.AddSecondaryLanguage(OcrLanguage.Albanian); // Mund të shtojmë çdo numër gjuhësh using (var input = new OcrInput()) { input.Add("multi - language.pdf"); var Result = Ocr.Read(input); Result.SaveAsTextFile("results.txt"); } ```

Objetivos de la búsqueda en OCR

IronOCR es uno de los objetivos de OCR más importantes para las operaciones de OCR. Në përgjithësi, zhvilluesit përdorin vetinë e tekstit vetëm të këtij objekti për ta marrë tekstin të skanuar nga imazhi. Sidoqoftë, rezultatet e OCR-së DOM është shumë më e përparuar se kjo.

```cs using IronOcr; using System.Drawing; //Shto Referencën e Asamblesë var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Albanian; Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm; Ocr.Configuration.ReadBarCodes = true; //E rëndësishme using (var Input = new OcrInput(@"images\sample.tiff")) { OcrResult Result = Ocr.Read(Input); var Pages = Result.Pages; var Words = Pages [0].Words; var Barcodes = Result.Barcodes; // Eksploroni këtu për të gjetur një API masiv dhe të detajuar: // - Faqet, bllokimet, parafetë, linjat, fjalët, karakteret // - Eksporti i Imazhit, Koordinatat e Shkronjave, Të Dhënat Statistikore } ```

Performanca

IronOCR punon jashtë kutisë pa nevojë për të akorduar performancën ose modifikuar rëndë imazhet e hyrjes.

El mercado de divisas: IronOcr.2020 + un descuento de 10 euros en divisas y un aumento del 250% en el precio de las acciones ndërtimet e mëparshme.

Más información

Para obtener más información sobre OCR en C#, VB, F # y .NET, haga clic aquí lexoni udhëzimet tona të komunitetit , të cilat japin shembuj të botës reale sesi mund të përdoret OCR Hekuri dhe mund të tregojnë nuancat se si të përfitoni sa më mirë nga kjo bibliotekë.

Një referencë e plotë e objektit për zhvilluesit e NET është gjithashtu në dispozicion.