OCR portugiesisch in C#e .NET

Andere Versionen dieses Dokuments:

IronOCR ist eine C#-Softwarekomponente, die es Codierern in .NET ermöglicht, Bildtexte und PDF-Dokumente in 126 Sprachen zu lesen, darunter auch in Portugiesisch.

Es handelt sich um einen modernen Fork von Tesseract, der ausschließlich für .NET-Entwickler entwickelt wurde und regelmäßig die anderen Tesseract-Engines in puncto Geschwindigkeit und Präzision übertrifft.

Conteúdo de IronOcr.Languages.Portuguese

Dieses Paket enthält 55 OCR-Identitäten für .NET:

  • Portugiesisch
  • Melhor português
  • PortugiesischSchnell

Baixar

Pacote de Língua Portuguesa [português]
* Herunterladen als Fecho Eclair
* Installieren mit
https://www.nuget.org/packages/IronOcr.Languages.Portuguese/'> NuGet

Instalação

Der erste Schritt, den wir tun müssen, ist die Installation unseres OCR-Pakets unter português no seu projeto .NET.

PM> Install-Package IronOCR.Languages.Portuguese

Exemplo de Código

Dieses C#-Beispiel enthält den Text eines Bildes oder eines PDF-Dokuments in Portugiesisch.

```cs //PM> Install-Package IronOcr.Languages.Portuguese using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Portuguese; using (var Input = new OcrInput(@"images\Portuguese.png")) { var Result = Ocr.Read(Input); var AllText = Result.Text; } ```

Warum sollten Sie IronOCR kaufen?

IronOCR ist eine einfach zu installierende, vollständige und gut dokumentierte Software-Bibliotek für .NET.

Escolha IronOCR para atingir 99,8% + OCR-Genauigkeit sem usar nenhum serviço externo da web, taxas contínuas ou envio de documentos confidenciais pela Internet.

Weil die Entwickler von C# IronOCR anstelle von Vanilla Tesseract verwenden:

  • Installiert als eine einzige DLL oder NuGet
  • Enthält für Tesseract 5, 4 und 3 Motoren für das Gehäuse.
  • A precisão de 99,8% supera significativamente o Tesseract normal.
  • Höchste Geschwindigkeit und MultiThreading
  • Kompatibel mit MVC, WebApp, Desktop, Konsole und Serveranwendung
  • Nenhum código Exes ou C ++ para trabalhar
  • Komplettes Zubehör für PDF OCR
  • Zur Durchführung von OCR in fast allen Bild- oder PDF-Dokumenten
  • Komplettes Handbuch für .NET Core, Standard und FrameWork
  • Geplant kein Windows, Mac, Linux, Azure, Docker, Lambda, AWS
  • Leia códigos de barras e códigos QR
  • OCR für XHTML exportieren
  • Exportieren von OCR für PDF-Dokumente in der Recherche
  • Suporte-Multithreading
  • 126 internationale Sprachen, die alle mit Hilfe von NuGet- oder OcrData-Arzneimitteln bereitgestellt werden
  • Extraia imagens, coordenadas, estatísticas e fontes. Não apenas texto.
  • Kann für die Weitergabe von Tesseract OCR innerhalb von kommerziellen und proprietären Anwendungen verwendet werden.

O OCR de ferro eignet sich hervorragend für die Arbeit mit Bildern aus der realen Welt und unvollständigen Dokumenten, wie Fotos oder Digitalisaten mit geringer Auflösung, die digitale Fehler oder Unvollständigkeiten aufweisen können.

Outras bibliotecas OCR kostenlos für die .NET-Plattform, wie auch für andere APIs, .net tesseract und Web-Services, funktionieren in realen Anwendungsfällen nicht so gut.

OCR mit Tesseract 5 - Kodierung in C#

Das folgende Beispiel zeigt, wie einfach es ist, den Text eines Bildes mit C# oder VB .NET zu erstellen.

OneLiner

```cs string Text = new IronTesseract().Read(@"img\Screenshot.png").Text; ```

Hallo Welt konfigurierbar

```cs // PM> Install-Package IronOCR.Languages.Portuguese using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Portuguese; using (var Input = new OcrInput()){ Input.AddImage("images/sample.jpeg") //... você pode adicionar qualquer número de imagens var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

C#PDF OCR

Die gleiche Vorgehensweise kann auch verwendet werden, um Text aus einem beliebigen PDF-Dokument zu extrahieren.

```cs var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Portuguese; using (var input = new OcrInput()) { input.AddPdf("example.pdf", "password"); // Também podemos selecionar números específicos de páginas PDF para OCR var Result = Ocr.Read(input); Console.WriteLine(Result.Text); Console.WriteLine($"{Result.Pages.Count()} Pages"); // 1 página para cada página do PDF } ```

OCR für TIFFs MultiPage

TIFF-Format mit OCR-Leitung, einschließlich mehrseitiger Dokumente. Das TIFF kann auch direkt in ein PDF-Dokument mit lesbarem Text konvertiert werden.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Portuguese; using (var Input = new OcrInput()){ input.AddMultiFrameTiff("multi - frame.tiff"); var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

Barcodes und QR-Codes

Eine Besonderheit von IronOCR ist, dass es sowohl Barcodes als auch QR-Codes von Dokumenten lesen kann, während es gleichzeitig den Text digitalisiert. Die Institute der Klasse OcrResult.OcrBarcode fornecem ao desenvolvedor informações detalhadas sobre cada código de barras lido.

```cs // using IronOcr; var Ocr = new IronTesseract(); Ocr.Configuration.ReadBarCodes = true; using (var input = new OcrInput()) { input.AddImage("img/Barcode.png"); var Result = Ocr.Read(input); foreach (var Barcode in Result.Barcodes) { Console.WriteLine(Barcode.Value); // propriedades de tipo e localização também expostas } } ```

OCR in speziellen Bildbereichen

Alle Leitungs- und Digitalisierungsmethoden von IronOCR ermöglichen es, genau zu bestimmen, welchen Teil einer Seite wir lesen möchten. Dies ist sehr nützlich, wenn wir eine vorgegebene Formulierung prüfen und kann viel Zeit sparen und die Effizienz verbessern.

Für die Verwendung von Korridorregionen ist es erforderlich, eine Systemreferenz hinzuzufügen System.Zeichnung damit wir das Objekt nutzen können System.Zeichnung.Rectangle .

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Portuguese; using (var Input = new OcrInput()) { var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 }; // As dimensões estão em px Input.Add("document.png", ContentArea); var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

OCR für Digitalisierungen von hoher Qualität

A-Klasse IronOCR OcrInput können Fehler korrigiert werden, die Tesseract normal nicht beheben kann.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Portuguese; using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff")) { Input.DeNoise(); // corrige ruído digital e digitalização deficiente Input.Deskew(); // corrige rotação e perspectiva var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

Exportieren von OCR-Ergebnissen in eine PDF-Datei

Imagem em PDF com strings de texto copiáveis. Kann durch Suchmechanismen und Datenbanken indiziert werden.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Portuguese; using (var Input = new OcrInput()){ input.Title = "Quarterly Report" input.AddImage("image1.jpeg"); input.AddImage("image2.png"); input.AddImage("image3.gif"); var Result = Ocr.Read(input); Result.SaveAsSearchablePdf("searchable.pdf") } ```

Konversation von TIFF zu PDF auf höchstem Niveau

Konvertiert ein TIFF-Dokument (oder eine beliebige Gruppe von Bilddateien) direkt in eine PDF-Datei, die im Intranet, im Web und in den Suchfunktionen von Google indexiert werden kann.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Portuguese; using (var Input = new OcrInput()){ input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf") } ```

OCR-Ergebnisse im HTML-Format exportieren

Imagem OCR para conversão XHTML.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Portuguese; using (var Input = new OcrInput()){ input.Title = "Html Title" input.AddImage("image1.jpeg"); var Result = Ocr.Read(input); Result.SaveAsHocrFile("results.html"); } ```

OCR-Bildverarbeitungsfilter

IronOCR bietet Exklusivfilter für Objekte an OcrInput um die Leistung der OCR zu verbessern.

Beispiel für einen Bildbearbeitungsdatensatz

Tornieren Sie Ihre OCR-Eingabebilder in höchster Qualität, um schnellere und bessere OCR-Ergebnisse zu erzielen.

```cs using IronOcr; var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Portuguese; using (var Input = new OcrInput(@"LowQuality.jpeg")) { Input.DeNoise(); // corrige ruído digital e digitalização deficiente Input.Deskew(); // corrige rotação e perspectiva var Result = Ocr.Read(Input); Console.WriteLine(Result.Text); } ```

Liste der OCR-Bildfilter

Zu den in IronOCR integrierten Eingangsfiltern zur Verbesserung des OCR-Ergebnisses gehören:

  • OcrInput.Rotate (graus duplos) - Gira as imagens em vários graus no sentido horário. Für Anti-Horario, verwenden Sie números negativos.
  • OcrInput.Binarize () - Dieser Bildfilter dreht jedes einzelne Pixel vor oder hinter dem Bild, ohne dass es zu einer Verzögerung kommt. Sie kann die Leistung der OCR in Fällen mit einem sehr geringen Kontrast zwischen Text und Hintergrund verbessern.
  • OcrInput.ToGrayScale () - Dieser Bildfilter wandelt jedes Pixel in einen Farbton um. Er verbessert die Genauigkeit der OCR, kann aber auch die Geschwindigkeit erhöhen
  • OcrInput.Contrast () - Erhöht automatisch den Kontrast. Dieser Filter verbessert in der Regel die Geschwindigkeit und die Genauigkeit der OCR bei Digitalisierungen mit geringem Kontrast.
  • OcrInput.DeNoise () - Entfernen Sie den digitalen Schmutz. Este filtro deve ser usado apenas onde houver expectativa de ruído.
  • OcrInput.Invertieren () - Inverte todas as cores. Por exemplo, o branco torna-se preto: o preto torna-se branco.
  • OcrInput.Dilate () - Morfologia Avançada. Eine Dilatação addiciona pixels aos limites dos objetos em uma imagem. Oposto de Erode
  • OcrInput.Erode () - Morfologia Avançada. Eine Erosão pixel innerhalb der Grenzen des Objekts entfernenOpósito de dilato
  • OcrInput.Deskew () - Geben Sie ein Bild ein, damit es von der einen Seite nach oben und von der anderen Seite nach unten fließt. Dies ist für OCR sehr nützlich, da die Toleranz von Tesseract für verzerrte Digitalisierungen bis zu 5 Graustufen betragen kann.
  • OcrInput.DeepCleanBackgroundNoise () - Beseitigung von Tiefenfehlern. Verwenden Sie diesen Filter nur dann, wenn Sie einen extremen Fundus im Dokument gefunden haben, denn er kann auch die OCR-Präzision von dünnen Dokumenten verringern und ist sehr CPU-lastig.
  • OcrInput.EnhanceResolution - verbessert die Auflösung von Bildern mit hoher Qualität. Este filtro não é frequentemente necessário porque OcrInput.MinimumDPI e OcrInput.TargetDPI irão capturar e resolver automaticamente entradas de baixa resolução.

CleanBackgroundNoise. Es handelt sich um eine Konfiguration, die um ein Vielfaches schlechter ist; sie ermöglicht es der Bibliothek, automatisch den digitalen Schmutz, Papierreste und andere Fehler aus einem digitalen Bild zu entfernen, das von anderen OCR-Bibliotheken nicht mehr gelesen werden kann.

EnhanceContrast é uma configuração que faz com que o IronOCR aumente automaticamente o contraste do texto contra o fundo de uma imagem, aumentando a precisão do OCR e g generalmente aumentando o desempenho e a velocidade do OCR.

EnhanceResolution ist eine Konfiguration, die automatisch Bilder mit geringer Auflösung erkennt (die über 275 dpi liegen) und das Bild automatisch komprimiert und dann den Text so umwandelt, dass er von einer OCR-Bibliotek einwandfrei gelesen werden kann. Auch wenn dieser Vorgang sehr viel Zeit in Anspruch nimmt, wird die allgemeine Zeit für eine OCR-Bearbeitung eines Bildes reduziert.

Idioma O IronOCR unterstützt 22 internationale Sprachpakete, und die Sprachkonfiguration kann verwendet werden, um mehrere Sprachen auszuwählen, die bei einer OCR-Operation angewendet werden sollen.

Estratégia IronOCR unterstützt zwei Vorgehensweisen. Wir können uns für eine schnelle und weniger genaue Digitalisierung eines Dokuments entscheiden oder eine fortschrittliche Strategie nutzen, die einige Modelle der künstlichen Intelligenz verwendet, um die OCR-Präzision eines Textes automatisch zu verbessern, indem sie die Beziehung zwischen den einzelnen Wörtern in einem Satz berücksichtigt.

Farbraum é uma configuração pela qual podemos escolher o OCR em tons de cinza ou em cores. Im Allgemeinen ist eine kleine Tonne die beste Wahl. Allerdings kann es vorkommen, dass bei halbwegs gleichmäßigen Texten oder Plänen mit sehr unterschiedlichen Kernen ein Bereich mit vollständig farbigen Kernen zu besseren Ergebnissen führt.

DetectWhiteTextOnDarkBackgrounds. In der Regel erwarten alle OCR-Bibliotheken, dass der Text vor dem Hintergrund der Branche gelesen wird. Diese Konfiguration ermöglicht es, dass IronOCR automatisch Negativtexte oder Seiten mit Schwarzweißtexten erkennt und sie liest.

EingabeBildTyp. Diese Konfiguration ermöglicht es dem Benutzer, sich an der OCR-Bibliotek zu orientieren, wenn er ein komplettes Dokument oder einen Ausschnitt, wie z. B. ein Capture de tela, lesen möchte.

RotateAndStraighten ist eine moderne Konfiguration, die dem IronOCR die einzigartige Fähigkeit verleiht, Dokumente zu lesen, die nicht immer nur geteilt sind, sondern auch eine Perspektive enthalten, wie z.B. Fotos von Textdokumenten.

ReadBarcodes ist eine nützliche Funktion, die es dem IronOCR ermöglicht, Barcodes und QR-Codes automatisch in die Seiten einzufügen, aber auch Text zu lesen, ohne dass ein großer Zeitaufwand erforderlich ist.

Profundidade de cor. Diese Konfiguration bestimmt die Anzahl der Bits pro Pixel, die eine OCR-Biblioteca zur Bestimmung der Farbtiefe eines Bildes verwendet. Eine größere Korbtiefe kann die OCR-Qualität verbessern, erhöht aber auch die Zeit, die für den Abschluss der OCR-Operation erforderlich ist.

126 Pacotes de Idiomas

O IronOCR oferece suporte a 126 internationale Sprachen mit Hilfe von Sprachpaketen, die als DLLs vertrieben werden, können baixados deste site ou também do Gerenciador de pacotes NuGet .

Os idiomas incluem alemão, francês, inglês, chinês, japonês e muitos mais. Es gibt spezielle Sprachpakete für MRZ-Pässe, MICR-Schecks, Finanzdaten, Fahrzeugpapiere und vieles mehr. Sie können auch jede andere Datei ".traineddata" von Tesseract verwenden - auch solche, die Sie selbst erstellt haben.

Exemplo de linguagem

Verwendung anderer OCR-Identitäten.

```cs // using IronOcr; // PM> Install IronOcr.Languages.Arabic var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Arabic; using (var input = new OcrInput()) { input.AddImage("img/arabic.gif"); // Adicione filtros de imagem se necessário // Neste caso, mesmo a entrada de pensamento é de qualidade muito baixa // IronTesseract pode ler o que o Tesseract convencional não pode. var Result = Ocr.Read(input); // O console não imprime árabe no Windows com facilidade. // Em vez disso, vamos salvar no disco. Result.SaveAsTextFile("arabic.txt"); } ```

Beispiel für mehrere Idiome

Es ist auch möglich, die OCR mit mehreren Sprachen gleichzeitig durchzuführen. Dies kann wirklich helfen, Metadaten und URLs der englischen Sprache in Unicode-Dokumenten zu finden.

```cs // using IronOcr; // PM> Install IronOcr.Languages.ChineseSimplified var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.ChineseSimplified; Ocr.AddSecondaryLanguage(OcrLanguage.Portuguese); // Podemos adicionar qualquer número de idiomas using (var input = new OcrInput()) { input.Add("multi - language.pdf"); var Result = Ocr.Read(input); Result.SaveAsTextFile("results.txt"); } ```

Detaillierte Objekte der OCR-Ergebnisse

IronOCR gibt für jede OCR-Operation ein OCR-Ergebnisobjekt zurück. Im Allgemeinen verwenden die Entwickler nur den Textanteil dieses Objekts, um den digitalisierten Text des Bildes zu erhalten. Deshalb ist der DOM der OCR-Ergebnisse viel fortschrittlicher als dieser.

```cs using IronOcr; using System.Drawing; //Adicionar Referência de Montagem var Ocr = new IronTesseract(); Ocr.Language = OcrLanguage.Portuguese; Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm; Ocr.Configuration.ReadBarCodes = true; //!Importante using (var Input = new OcrInput(@"images\sample.tiff")) { OcrResult Result = Ocr.Read(Input); var Pages = Result.Pages; var Words = Pages [0].Words; var Barcodes = Result.Barcodes; // Explore aqui para encontrar uma API enorme e detalhada: // - Páginas, blocos, parafáforos, linhas, palavras, caracteres // - Exportação de imagens, coordenadas de fontes, dados estatísticos } ```

atuação

IronOCR funktioniert auch außerhalb des Computers, ohne dass die Notwendigkeit besteht, die Leistung einzustellen oder die Bilder für die Eingabe stark zu verändern.

Die Geschwindigkeit ist beeindruckend: IronOcr.2020 + ist um 10 Mal schneller und verursacht 250 % weniger Fehler als die Vorgängerversionen.

Saber mais

Um mehr über OCR in C#, VB, F# oder einer anderen .NET-Sprache zu erfahren, lesen Sie unsere Tutorials der Gemeinschaft die Beispiele aus der realen Welt zeigen, wie IronOCR genutzt werden kann, und die Nuancen aufzeigen, wie man das Beste aus der Bibliothek herausholen kann.

Uma referência komplett de objetos para desenvolvedores .NET também está disponível.