OCR en C#a .NET

Další verze tohoto dokumentu:

IronOCR es un software basado en C#, que proporciona texto en formato .NET y un documento PDF de 126 páginas, včetně češtiny.

Jedná se o vyspělou vidlici Tesseractu, postavenou výhradně pro vývojáře .NET a pravidelně překonává ostatní motory Tesseract z hlediska rychlosti i přesnosti.

IronOCR.checo

Esta aplicación incluye 40 funciones de OCR para .NET:

  • čeština
  • CzechBest
  • CzechFast

Stažení

Český jazykový balíček [čeština]
* Descargar como Código postal
* Instalar con as
https://www.nuget.org/packages/IronOcr.Languages.Czech/'> NuGet

Instale

První věcí, kterou musíme udělat, je nainstalovat náš český oCR en proyectos .NET.

PM> Install-Package IronOCR.Languages.Czech

Příklad kódu

Este texto en C# está disponible en formato PDF.

//PM> Install-Package IronOcr.Languages.Czech
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Czech;
using (var Input = new OcrInput(@"images\Czech.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Czech
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Czech;
using (var Input = new OcrInput(@"images\Czech.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Czech
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Czech
Using Input = New OcrInput("images\Czech.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

¿Proč zvolit IronOCR?

IronOCR es un software fácil de instalar, completo y fácil de usar para .NET.

IronOCR, la mejor opción přesnosti 99,8% + OCR cómo acceder a una página web externa služeb, průběžných poplatků nebo zasílání důvěrných dokumentů přes internet.

Proč si vývojáři v C#zvolili IronOCR před Vanilla Tesseract:

  • No instale DLL o NuGet en su ordenador
  • Obsahuje pro motory Tesseract 5, 4 a 3 z krabice.
  • Přesnost 99,8% významně překonává běžný Tesseract.
  • Velocidad de vértigo a MultiThreading
  • Compatible con aplicaciones MVC, WebApp, Desktop, Consola y Servidor
  • Exes y C ++ en la práctica
  • Plná podpora OCR PDF
  • Chcete-li provést OCR téměř jakýkoli obrazový soubor nebo PDF
  • Podpora .NET Core, Standard y FrameWork
  • Windows, Mac, Linux, Azure, Docker, Lambda, AWS
  • Přečtěte si čárové kódy a QR kódy
  • Exportar OCR a XHTML
  • Exportación de OCR a documentos PDF proactivos
  • Podpora více vláken
  • 126 de los productos más baratos, más baratos y más baratos de NuGet y OcrData
  • Extrahujte obrázky, souřadnice, statistiky a písma. Texto completo.
  • Puede redistribuir Tesseract OCR a sus clientes y propietarios.

IronOCR es una empresa que se dedica a la investigación y desarrollo de nuevos productos y servicios, así como a la fotografía skeny s nízkým rozlišením, které mohou mít digitální šum nebo nedokonalosti.

Jiné bezplatné knihovny OCR pro platformu .NET, jako jsou další rozhraní API a webové služby .NET tesseract, v těchto případech použití v reálném světě nefungují tak dobře.

OCR s Tesseract 5 - Spusťte kódování v C#

No se preocupe por el texto, ya que se trata de un texto en formato C# y VB .NET.

OneLiner

```cs string Text = new IronTesseract().Read(@"img\Screenshot.png").Text; ```

Konfigurovatelný Hola Mundo

```cs // PM> Install-Package IronOCR.Languages.Czech using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Czech; using (var Input = new OcrInput()){ Input.AddImage("images/sample.jpeg") //... můžete přidat libovolný počet obrázků var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

C#PDF OCR

Stejný přístup lze podobně použít k extrakci textu z libovolného dokumentu PDF.

```cs var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Czech; using (var input = new OcrInput()) { input.AddPdf("example.pdf", "password"); // Můžeme také vybrat konkrétní identifikátory stránek PDF do OCR var Result = Ocr.Read(input); Console.WriteLine(Result.Text); Console.WriteLine($"{Result.Pages.Count()} Pages"); // 1 stránka pro každou stránku PDF } ```

OCR para archivos TIFF vícestráneos

OCR le ofrece un formato TIFF para sus documentos de texto. El formato TIFF es compatible con el formato PDF prohledávatelným textem.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Czech; using (var Input = new OcrInput()){ input.AddMultiFrameTiff("multi - frame.tiff"); var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

Čárové kódy a QR

Con la aplicación IronOCR, puede acceder a los archivos de texto y a los archivos QR de los documentos de texto. Instancia třídy OcrResult.OcrBarcode poskytují vývojáři podrobné informace o každém naskenovaném čárovém kódu.

```cs // using IronOcr; var Ocr = new IronTesseract(); Ocr.Configuration.ReadBarCodes = true; using (var input = new OcrInput()) { input.AddImage("img/Barcode.png"); var Result = Ocr.Read(input); foreach (var Barcode in Result.Barcodes) { Console.WriteLine(Barcode.Value); // vlastnosti typu a umístění také vystaveny } } ```

OCR na konkrétní oblasti obrázků

Los métodos técnicos y las aplicaciones de IronOCR permiten a los usuarios acceder a los datos de forma rápida y sencilla, lo que permite a los usuarios acceder a los datos de forma rápida y sencilla stránek chceme text číst. To je velmi užitečné, když se díváme na standardizované formuláře a můžeme ušetřit strašně spoustu času a zlepšit efektivitu.

Chcete-li použít oblasti oříznutí, budeme muset přidat odkaz na systém do Sistema.Dibujo , abychom mohli použít objekt System.Drawing.Rectangle .

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Czech; using (var Input = new OcrInput()) { var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 }; // Rozměry jsou v pixelech Input.Add("document.png", ContentArea); var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

OCR para imágenes en movimiento

Třída IronOCR OcrInput může opravit skenování, které normální Tesseract neumí přečíst.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Czech; using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff")) { Input.DeNoise(); // opravuje digitální šum a špatné skenování Input.Deskew(); // opravuje rotaci a perspektivu var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

Exportar archivos OCR a PDF protegidos

Obtenga más información en formato PDF sobre el texto completo. Lze indexovat pomocí vyhledávačů a databází.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Czech; using (var Input = new OcrInput()){ input.Title = "Quarterly Report" input.AddImage("image1.jpeg"); input.AddImage("image2.png"); input.AddImage("image3.gif"); var Result = Ocr.Read(input); Result.SaveAsSearchablePdf("searchable.pdf") } ```

Převod TIFF na prohledávatelný PDF

Převeďte dokument TIFF (nebo jakoukoli skupinu obrazových souborů) přímo do prohledávatelného PDF, který lze indexovat pomocí intranetových, webových a vyhledávacích strojů Google.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Czech; using (var Input = new OcrInput()){ input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf") } ```

Exportar archivos OCR a HTML

Převod obrazu z OCR na XHTML.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Czech; using (var Input = new OcrInput()){ input.Title = "Html Title" input.AddImage("image1.jpeg"); var Result = Ocr.Read(input); Result.SaveAsHocrFile("results.html"); } ```

Filtro de reconocimiento óptico de caracteres

IronOCR ofrece una amplia gama de filtros por objetivo OcrInput para el reconocimiento óptico de caracteres.

Příklad kódu pro vylepšení obrazu

Realiza copias de seguridad OCR y copia documentos OCR de forma rápida y sencilla.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Czech; using (var Input = new OcrInput(@"LowQuality.jpeg")) { Input.DeNoise(); // opravuje digitální šum a špatné skenování Input.Deskew(); // opravuje rotaci a perspektivu var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

Búsqueda de archivos OCR

El filtro para el reconocimiento óptico de caracteres que utiliza IronOCR:

  • OcrInput.Rotate (dvojité stupně) - Otočí obrázky o několik stupňů ve směru hodinových ručiček. Proti směru hodinových ručiček použijte záporná čísla.
  • OcrInput.Binarizar () - Tento obrazový filtr změní každý pixel na černou nebo bílou bez jakékoli střední cesty. Může zlepšit případy výkonu OCR s velmi nízkým kontrastem textu na pozadí.
  • OcrInput.ToGrayEscala () - Tento obrazový filtr změní každý pixel na odstín šedé. Je nepravděpodobné, že by zlepšila přesnost OCR, ale může zlepšit rychlost
  • OcrInput.Contraste () - automaticky zvyšuje kontrast. Tento filtr často zlepšuje rychlost a přesnost OCR při skenování s nízkým kontrastem.
  • OcrInput.DeNoise () - Odstraní digitální šum. Tento filtr by měl být použit pouze tam, kde se očekává hluk.
  • OcrInput.Invertir () - Invertuje každou barvu. Např. Bílá zčerná: černá zbělá.
  • OcrInput.Dilate () - Avanzado Morfología . Dilatace přidává pixely na hranice objektů v obraze. Naproti Erode
  • OcrInput.Erode () - Avanzado Morfología . Eroze odstraní pixely na hranicích objektů Naproti Dilate
  • OcrInput.Deskew () - Otočí obrázek tak, aby byl správný nahoru a kolmý. To je pro OCR velmi užitečné, protože tolerance Tesseractu pro šikmé skenování může být až 5 stupňů.
  • OcrInput.DeepCleanRuido de fondo () - těžké odstranění šumu na pozadí. Tento filtr použijte pouze v případě, že je znám extrémní hluk pozadí dokumentu, protože tento filtr také riskuje snížení přesnosti OCR čistých dokumentů a je velmi nákladný na procesor.
  • OcrInput.MejorarResolución - Vylepšuje rozlišení obrázků nízké kvality. Tento filtr není často nutný, protože OcrInput.MinimumDPI a OcrInput.TargetDPI automaticky zachytí a vyřeší vstupy s nízkým rozlišením.

LimpiarRuido de Fondo. Toto je nastavení, které je poněkud časově náročné; umožňuje však knihovně sistema automático de gestión digital, gestión de documentos y gestión de datos digitales, por ejemplo znemožňovaly čtení jiných knihoven OCR.

MejorarContraste es necesario para que la aplicación IronOCR automática funcione correctamente textu na pozadí obrazu, zvyšuje přesnost OCR a obecně zvyšuje výkon a rychlost OCR.

MejorarResolución es un dispositivo automático que detecta automáticamente los objetos en movimiento (které nedosahují 275 ppp) a automaticky zvětší obraz a poté zaostří veškerý text, aby jej mohl perfektně číst knihovna OCR. Si no está seguro de cómo funciona el OCR, póngase en contacto con su proveedor de servicios de OCR obraze.

Jazyk IronOCR ha creado 22 nuevos puestos de trabajo y se ha convertido en la primera empresa de este sector en el mundo jednoho nebo více jazyků, které se použijí pro operaci OCR.

Estrategia IronOCR puede ofrecerle una estrategia. Můžeme se rozhodnout buď pro rychlé a méně přesné skenování dokumentu, nebo použít pokročilou strategii, která využívá některé modely umělé inteligence k automatickému zlepšení přesnosti textu OCR při pohledu na statistický vztah slov k sobě navzájem ve větě .

Espacio de color es la solución perfecta para obtener un OCR de alta calidad. Obecně je nejlepší volbou odstíny šedé. Někdy však existují texty nebo pozadí s podobným odstínem, ale s velmi odlišnou barvou, plnobarevný barevný prostor poskytne lepší výsledky.

DetectarTextoBlancoEnFondosOscuros. Obecně všechny knihovny OCR očekávají, že uvidí černý text na bílém pozadí. Toto ofrece la aplicación IronOCR automatic que detecta automáticamente los mensajes negativos y los mensajes de error textem a číst je.

InputImageType. Toto nastavení umožňuje vývojáři řídit knihovnu OCR, pokud jde o to, zda se dívá na celý dokument nebo na úryvek, například na snímek obrazovky.

Girar y enderezar je pokročilé nastavení, které umožňuje aplikaci IronOCR jedinečnou schopnost číst dokumenty, které jsou nejen otočené, ale možná obsahují perspektivu, například fotografie textových dokumentů.

LeerCódigos es una función que permite a IronOCR enviar automáticamente mensajes de texto y QR a los usuarios stránkách, protože také čte text, aniž by to znamenalo další velkou časovou zátěž.

Barevná hloubka. Toto nastavení určuje, kolik bitů na pixel bude knihovna OCR používat k určení hloubky barvy. Si desea obtener más información sobre el reconocimiento óptico de caracteres, póngase en contacto con el servicio de reconocimiento óptico de caracteres.

126 jazykových balíčků

IronOCR en el mundo 126 mezinárodních jazyků prostřednictvím jazykových balíčků, které jsou distribuovány jako DLL, které lze stáhnout z tohoto webu nebo také z NuGet en español .

Mezi jazyky patří němčina, francouzština, angličtina, čínština, japonština a mnoho dalších. Existují speciální servicios de paso MRZ, MICR, gestión financiera, pago de facturas y otros servicios. Můžete také použít libovolný soubor tesseract „.traineddata“ - včetně těch, které sami vytvoříte.

Příklad jazyka

Používání dalších jazyků OCR.

```cs // using IronOcr; // PM> Install IronOcr.Languages.Arabic var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Arabic; using (var input = new OcrInput()) { input.AddImage("img/arabic.gif"); // V případě potřeby přidejte obrazové filtry // V tomto případě je i myšlenkový vstup velmi nízké kvality // IronTesseract dokáže přečíst, co běžný Tesseract neumí. var Result = Ocr.Read(input); // Console nemůže snadno tisknout arabštinu ve Windows. // Místo toho uložme na disk. Result.SaveAsTextFile("arabic.txt"); } ```

Vícejazyčný příklad

El reconocimiento óptico de caracteres (OCR) es una herramienta muy útil. To může skutečně pomoci získat anglická metadata a adresy URL v dokumentech Unicode.

```cs // using IronOcr; // PM> Install IronOcr.Languages.ChineseSimplified var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.ChineseSimplified; Ocr.AddSecondaryLanguage(OcrLanguage.Czech); // Můžeme přidat libovolný počet jazyků using (var input = new OcrInput()) { input.Add("multi - language.pdf"); var Result = Ocr.Read(input); Result.SaveAsTextFile("results.txt"); } ```

Objetos ocultos con OCR

IronOCR es un objeto de reconocimiento óptico de caracteres para todas las operaciones de OCR. Obecně platí, že vývojáři používají pouze textovou vlastnost tohoto objektu k získání textu naskenovaného z obrázku. El reconocimiento óptico de caracteres (OCR) en DOM no es una tarea fácil toto.

```cs using IronOcr; using System.Drawing; //Přidat odkaz na sestavu var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Czech; Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm; Ocr.Configuration.ReadBarCodes = true; //!Důležité using (var Input = new OcrInput(@"images\sample.tiff")) { OcrResult Result = Ocr.Read(Input); var Pages = Result.Pages; var Words = Pages [0].Words; var Barcodes = Result.Barcodes; // Prozkoumejte zde a vyhledejte rozsáhlé podrobné API: // - Stránky, bloky, parafafy, čáry, slova, znaky // - Export obrázku, souřadnice písma, statistické údaje } ```

Výkon

IronOCR se encarga de todo lo relacionado con el transporte de cargas pesadas, ya sea por carretera o por aire.

Los resultados son excelentes: IronOcr.2020 + es un programa de fidelización de más de 10 años que ofrece un descuento del 250% sobre el precio de compra.

Más información

Puede utilizar OCR en C#, VB, F# y en cualquier entorno .NET si naše komunitní výukové programy , které poskytují příklady z reálného světa, jak lze IronOCR použít, a mohou ukázat nuance toho, jak co nejlépe využít tuto knihovnu.

En la pantalla aparece objetivo en .NET .