OCR italiano in C#e .NET

Altre versioni di questo documento:

IronOCR è un componente software C#che consente ai programmatori .NET di leggere testo da immagini e documenti PDF in 126 lingue, incluso l'italiano.

È un fork avanzato di Tesseract, costruito esclusivamente per gli sviluppatori .NET e supera regolarmente gli altri motori Tesseract sia per velocità che per precisione.

Inhalt von IronOcr.Languages.Italian

Dieses Paket enthält 99 OCR-Sprachen für .NET:

  • italienisch
  • ItalienischBeste
  • ItalienischSchnell
  • ItalianoVecchio
  • ItalienischOldBest
  • ItalienischOldFast

Scarica

Pacchetto lingua italiana [italienisch]
* Herunterladen als Cerniera lampo
* Installieren mit
https://www.nuget.org/packages/IronOcr.Languages.Italian/'> NuGet

Installazione

Die erste Aufgabe, die wir erfüllen müssen, ist die Installation unseres OCR-Pakets italienisch nel tuo progetto .NET.

PM> Install-Package IronOCR.Languages.Italian

Beispiel für einen Code

Dieses Beispiel eines C#-Codes legt den Text in italienischer Sprache auf ein Bild oder ein PDF-Dokument.

//PM> Install-Package IronOcr.Languages.Italian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput(@"images\Italian.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Italian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput(@"images\Italian.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Italian
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Italian
Using Input = New OcrInput("images\Italian.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

Perché scegliere IronOCR?

IronOCR ist eine leicht zu installierende, vollständige und gut dokumentierte Softwarebibliothek für .NET.

Scegli IronOCR per ottenere una präzise OCR superiore al 99,8% senza utilizzare servizi Web esterni, tariffe correnti o inviare documenti riservati su Internet.

Perché gli sviluppatori C#scelgono IronOCR su Vanilla Tesseract:

  • Installieren Sie eine einzelne DLL oder NuGet
  • Inklusive für Tesseract 5, 4 und 3 Motoren außerhalb des Bildschirms.
  • Die Präzision der 99,8% übertrifft in signifikanter Weise das normale Tesseract.
  • Unglaubliche Geschwindigkeit und MultiThreading
  • Kompatibel mit MVC, WebApp, Desktop, Konsole und Serveranwendungen
  • Nessun codice Exes o C ++ con cui lavorare
  • Umfassende Unterstützung für PDF OCR
  • Per eseguire l'OCR quasi tutti i file immagine o PDF
  • Vollständige Unterstützung von .NET Core, Standard und FrameWork
  • Vertrieb für Windows, Mac, Linux, Azure, Docker, Lambda, AWS
  • Leggi codici a barre e codici QR
  • Esporta OCR kommt XHTML
  • Esporta OCR in PDF-Dokumenten ricercabili
  • Unterstützung von Multithreading
  • 126 internationale Sprachen, die mit der NuGet- oder OcrData-Datei bearbeitet werden
  • Estrai immagini, coordinate, statistiche e caratteri. Non solo testo.
  • Sie können Tesseract OCR innerhalb kommerzieller und kommerziell genutzter Anwendungen einsetzen proprietarie.

IronOCR glänzt bei der Arbeit mit echten Bildern und unscheinbaren Dokumenten wie Fotos oder Skizzen a bassa risoluzione che possono presentare disturbi o imperfezioni digitali.

Andere Bibliotheken OCR gratuite für die .NET-Phase, aber auch für andere API .net tesseract e servizi web, non funzionano così bene in questi casi d'uso del mondo reale.

OCR mit Tesseract 5 - Inizia la codifica in C #

L'esempio di codice riportato di seguito mostra quanto sia facile leggere il testo da un'immagine utilizzando C#o VB .NET.

OneLiner

string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
VB   C#

Hallo Welt konfigurierbar

// PM> Install-Package IronOCR.Languages.Italian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... puoi aggiungere un numero qualsiasi di immagini
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Italian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... puoi aggiungere un numero qualsiasi di immagini
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Italian
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Italian
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR PDF in C#

Der gleiche Ansatz kann auf ähnliche Weise verwendet werden, um den Text aus einem beliebigen PDF-Dokument zu entfernen.

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Possiamo anche selezionare numeri di pagina PDF specifici per l'OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 pagina per ogni pagina del PDF
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Possiamo anche selezionare numeri di pagina PDF specifici per l'OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 pagina per ogni pagina del PDF
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Italian
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' Possiamo anche selezionare numeri di pagina PDF specifici per l'OCR

Dim Result = Ocr.Read(input)

Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' 1 pagina per ogni pagina del PDF
End Using
VB   C#

OCR per TIFF-Multifagina

OCR Lettura del formato di file TIFF che include documenti a più pagine. TIFF kann auch konvertiert werden direttamente in un file PDF con testo ricercabile.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Italian

Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Codici a barre e QR

Eine Besonderheit von IronOCR ist die Möglichkeit, während des Scannens Barcodes und QR-Codes aus Dokumenten zu lesen del testo. Le istanze della classe OcrResult.OcrBarcode forniscono allo sviluppatore informazioni dettagliate su ogni codice a barre scansionato.

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// tipologia e posizione anche immobili esposti
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// tipologia e posizione anche immobili esposti
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True

Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' tipologia e posizione anche immobili esposti
Next Barcode
End Using
VB   C#

OCR für bestimmte Bereiche der Bilder

Tutti i metodi di scansione e lettura di IronOCR forniscono la capacità di specificare esattamente da quale parte di una pagina o pagine desideriamo leggere il testo. Dies ist sehr nützlich, wenn wir Module untersuchen standardizzati e può far risparmiare un sacco di tempo e migliorare l'efficienza.

Für die Nutzung des Ritaglio-Bereichs ist es erforderlich, einen Systemadressaten hinzuzufügen System.Zeichnung art und Weise, wie das Produkt genutzt werden kann System.Zeichnung.Rectangle .

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Le dimensioni sono in px

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Le dimensioni sono in px

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Italian

Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
	.X = 215,
	.Y = 1250,
	.Height = 280,
	.Width = 1335
}
' Le dimensioni sono in px

Input.Add("document.png", ContentArea)

Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR für qualitativ minderwertige Scans

La classe IronOCR OcrInput können Skalierungen korrigiert werden, die das normale Tesseract nicht in der Lage ist leggere.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // risolve il rumore digitale e la scarsa scansione
Input.Deskew(); // risolve la rotazione e la prospettiva
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // risolve il rumore digitale e la scarsa scansione
Input.Deskew(); // risolve la rotazione e la prospettiva
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Italian

Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' risolve il rumore digitale e la scarsa scansione
Input.Deskew() ' risolve la rotazione e la prospettiva
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Esporta i risultati dell'OCR come PDF ricercabile

Bilder im PDF-Format mit kopierfähigen Textsträngen. Kann von Suchmotoren und Datenbanken angezeigt werden.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Italian

Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")

Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

Konvertierung von TIFF in PDF ricercabile

Konvertieren eines TIFF-Dokuments (oder eine beliebige Gruppe von Bilddateien) direkt in ein recherchierbares PDF, das auch als indicizzato da intranet, sito web e motori di ricerca Google.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Italian

Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

Esporta i risultati dell'OCR come HTML

Konvertierung von OCR-Bildern in XHTML.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Italian
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
VB   C#

Filtri di miglioramento delle immagini OCR

IronOCR bietet einheitliche Filtermaterialien für OcrInput oggetti OcrInput zur Verbesserung der Leistungen OCR.

Beispiel für einen Migrationscode zur Verbesserung des Bildes

Render le immagini in ingresso OCR di qualità superiore per produrre risultati OCR migliori e più veloci.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // risolve il rumore digitale e la scarsa scansione
Input.Deskew(); // risolve la rotazione e la prospettiva
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // risolve il rumore digitale e la scarsa scansione
Input.Deskew(); // risolve la rotazione e la prospettiva
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Italian

Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' risolve il rumore digitale e la scarsa scansione
Input.Deskew() ' risolve la rotazione e la prospettiva
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Elenco dei filtri immagine OCR

Zu den in IronOCR integrierten Eingabefiltern zur Verbesserung der OCR-Leistung gehören:

  • OcrInput.Rotate (doppi gradi) - Ruota le immagini di un numero di gradi in senso orario. Per il senso antiorario, usa numeri negativi.
  • OcrInput.Binarize () - Questo filtro immagine trasforma ogni pixel in bianco o nero senza una via di mezzo. Può migliorare le prestazioni dell'OCR nei casi di contrasto molto basso del testo con lo sfondo.
  • OcrInput.ToGrayScale () - Questo filtro immagine trasforma ogni pixel in una sfumatura di scala di grigi. È improbabile che migliori la precisione dell'OCR, ma può aumentare la velocità
  • OcrInput.Contrast () - Aumenta automaticamente il contrasto. Questo filtro spesso migliora la velocità e la precisione dell'OCR nelle scansioni a basso contrasto.
  • OcrInput.DeNoise () - Rimuove il rumore digitale. Questo filtro deve essere utilizzato solo dove è previsto il rumore.
  • OcrInput.Invert () - Inverte ogni colore. Ad esempio, il bianco diventa nero: il nero diventa bianco.
  • OcrInput.Dilate () - Morfologia avanzata. Die Dilatazione aggiunge pixel ai bordi degli oggetti in un'immagine. Opposto di Erode
  • OcrInput.Erode () - Morfologia avanzata. L'erosione rimuove i pixel sui contorni dell'oggetto opposto a Dilata
  • OcrInput.Deskew () - Ruota un'immagine in modo che sia verso l'alto e ortogonale. Ciò è molto utile per l'OCR perché la tolleranza di Tesseract per le scansioni oblique può essere di soli 5 gradi.
  • OcrInput.DeepCleanBackgroundNoise () - Rimozione del rumore di fondo pesante. Utilizzare questo filtro solo nel caso in cui sia noto un rumore di fondo eccessivo del documento, poiché questo filtro rischierà anche di ridurre l'accuratezza dell'OCR dei documenti puliti ed è molto costoso per la CPU.
  • OcrInput.EnhanceResolution : Migliora la risoluzione delle immagini di bassa qualità. Questo filtro spesso non è necessario perché OcrInput.MinimumDPI e OcrInput.TargetDPI rileveranno e risolveranno automaticamente gli input a bassa risoluzione.

CleanBackgroundNoise. Questa è un'impostazione che richiede un po 'di tempo; tuttavia, ermöglicht es der Bibliothek, automatisch den digitalen Speicher, die Seiten der Karte und andere Unregelmäßigkeiten zu löschen innerhalb eines digitalen Bildes, das unter Umständen nicht von anderen gelesen werden kann librerie OCR.

EnhanceContrast è un'impostazione che fa sì che IronOCR aumenti automaticamente il contrasto des Textes am Bildrand, die Erhöhung der OCR-Präzision und generell die Erhöhung der prestazioni e la velocità dell'OCR.

EnhanceResolution è un'impostazione che rileva automaticamente le immagini a bassa risoluzione (die weniger als 275 dpi aufweisen) e migliora automaticamente l'immagine e quindi affina tutto il testo in modo che possa essere perfettamente da una libreria OCR. Sebbene questa operazione richieda di per sé molto tempo, generalmente riduce il tempo complessivo per un'operazione OCR su un'immagine.

Lingua IronOCR unterstützt 22 internationale Sprachpakete und die Einführung der Sprache può essere utilizzata per selezionare una o più lingue multiple da applicare per un'operazione OCR.

Strategia IronOCR unterstützt eine angemessene Strategie. Es besteht die Möglichkeit, einen schnellen Scan durchzuführen und weniger genau als ein Dokument zu sein oder eine moderne Strategie zu verwenden, die einige Intelligenzmodelle nutzt künstlich zur automatischen Verbesserung der OCR-Testgenauigkeit unter Berücksichtigung der statistischen Beziehung zwischen den parole in una frase .

Farbraum è un'impostazione in base alla quale possiamo scegliere di eseguire l'OCR in scala di grigi o a colori. Im Allgemeinen ist die Grillskala die beste Wahl. Tuttavia, a volte quando sono bei ähnlichen, aber farblich sehr unterschiedlichen Tonarten und -tönen führt ein Farbbereich mit Farben zu Ergebnissen migliori.

DetectWhiteTextOnDarkBackgrounds. Generell streben alle OCR-Bibliotheken danach, die testo nero su sfondo bianco. Diese Maßnahme ermöglicht es dem IronOCR, automatisch die negativen oder die pagine scure con testo bianco e di leggerli.

EingabeBildTyp. Diese Maßnahme ermöglicht es dem Entwickler, die OCR-Bibliothek zu leiten, um verificare se sta guardando un documento completo o uno snippet, come uno screenshot.

RotateAndStraighten è un'impostazione avanzata che consente a IronOCR la capacità unica di dokumente zu lesen, die nicht nur ruiniert werden, sondern auch einen Nutzen haben, wie z. B. Fotos von Dokumenten, die testo.

ReadBarcodes è una funzione utile che consente a IronOCR di leggere automaticamente codici a barre e codici QR sulle pagine mentre legge anche il testo, senza aggiungere un grande onere di tempo aggiuntivo.

Profondità di colore. Diese Einstellung bestimmt die Anzahl der Bits pro Pixel, die die OCR-Bibliothek benötigt utilizzerà per determinare la profondità di un colore. Eine größere Farbintensität kann die Qualität erhöhen OCR, ma aumenterà anche il tempo necessario per il completamento dell'operazione OCR.

126 Sprachpaket

IronOCR Unterstützung 126 internationale Sprachen mit Sprachpaketen, die als DLL verteilt werden, können essere scaricati da questo sito Web oder auch durch NuGet-Paketmanager .

Le lingue includono tedesco, francese, inglese, cinese, giapponese e molte altre. Esistono Sprachpaket specialistici per passaporto MRZ, assegni MICR, dati finanziari, targhe e molti altri. Puoi anche utilizzare qualsiasi file tesseract ".traineddata", inclusi quelli creati da te.

Beispiel einer Sprache

Verwendung von OCR in anderen Sprachen.

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Aggiungi filtri immagine se necessario
// In questo caso, anche l'input del pensiero è di qualità molto bassa
// IronTesseract può leggere ciò che Tesseract convenzionale non può.

var Result = Ocr.Read(input);

// La console non può stampare facilmente l'arabo su Windows.
// Salviamo invece su disco.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Aggiungi filtri immagine se necessario
// In questo caso, anche l'input del pensiero è di qualità molto bassa
// IronTesseract può leggere ciò che Tesseract convenzionale non può.

var Result = Ocr.Read(input);

// La console non può stampare facilmente l'arabo su Windows.
// Salviamo invece su disco.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' Aggiungi filtri immagine se necessario
' In questo caso, anche l'input del pensiero è di qualità molto bassa
' IronTesseract può leggere ciò che Tesseract convenzionale non può.

Dim Result = Ocr.Read(input)

' La console non può stampare facilmente l'arabo su Windows.
' Salviamo invece su disco.
Result.SaveAsTextFile("arabic.txt")
End Using
VB   C#

Beispiel in mehreren Sprachen

È anche possibile eseguire l'OCR utilizzando più lingue contemporaneamente. Questo può davvero aiutare a ottenere metadati e URL in lingua inglese nei documenti Unicode.

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Italian);

// Possiamo aggiungere un numero qualsiasi di lingue

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Italian);

// Possiamo aggiungere un numero qualsiasi di lingue

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Italian)

' Possiamo aggiungere un numero qualsiasi di lingue

Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
VB   C#

Detaillierte OCR-Resultate

IronOCR stellt ein OCR-Resultat für jede OCR-Operation wieder her. Im Allgemeinen nutzen die Entwickler nur der Text dieses Objekts ist für das Scannen des Textes und des Bildes freigegeben. Trotzdem, i risultati dell'OCR DOM sono molto più avanzati di così.

using IronOcr;
using System.Drawing; //Aggiungi riferimento all'assieme

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!Importante

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Esplora qui per trovare un'API massiccia e dettagliata:
// - Pagine, Blocchi, Paraphaph, Linee, Parole, Caratteri
// - Esportazione di immagini, coordinate dei caratteri, dati statistici
}
using IronOcr;
using System.Drawing; //Aggiungi riferimento all'assieme

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!Importante

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Esplora qui per trovare un'API massiccia e dettagliata:
// - Pagine, Blocchi, Paraphaph, Linee, Parole, Caratteri
// - Esportazione di immagini, coordinate dei caratteri, dati statistici
}
Imports IronOcr
Imports System.Drawing 'Aggiungi riferimento all'assieme

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Italian
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '!Importante

Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages (0).Words
Dim Barcodes = Result.Barcodes
' Esplora qui per trovare un'API massiccia e dettagliata:
' - Pagine, Blocchi, Paraphaph, Linee, Parole, Caratteri
' - Esportazione di immagini, coordinate dei caratteri, dati statistici
End Using
VB   C#

Prestazione

IronOCR funktioniert außerhalb der Schemata, ohne dass die Notwendigkeit besteht, die Leistung zu verbessern oder die immagini di input.

La velocità è incredibile: IronOCR.2020 + ist bis zu 10 Mal schneller und macht mehr als 250 % der Fehler in weniger als der Hälfte der Zeit alle build precedenti.

Per saperne di più

Per saperne di più sull'OCR in C #, VB, F # o qualsiasi altro linguaggio .NET, leggi i nostri tutorial della community , che forniscono esempi reali di come IronOCR può essere utilizzato e possono mostrare le sfumature di come ottenere il meglio da questa libreria.

È inoltre disponibile un riferimento vollständig für hilfsmittel für Entwickler von .NET .