OCR italiano in C#e .NET
Altre versioni di questo documento:
IronOCR è un componente software C#che consente ai programmatori .NET di leggere testo da immagini e documenti PDF in 126 lingue, incluso l'italiano.
È un fork avanzato di Tesseract, costruito esclusivamente per gli sviluppatori .NET e supera regolarmente gli altri motori Tesseract sia per velocità che per precisione.
Inhalt von IronOcr.Languages.Italian
Dieses Paket enthält 99 OCR-Sprachen für .NET:
- italienisch
- ItalienischBeste
- ItalienischSchnell
- ItalianoVecchio
- ItalienischOldBest
- ItalienischOldFast
Scarica
Pacchetto lingua italiana [italienisch]
* Herunterladen als Cerniera lampo
* Installieren mit https://www.nuget.org/packages/IronOcr.Languages.Italian/'> NuGet
Installazione
Die erste Aufgabe, die wir erfüllen müssen, ist die Installation unseres OCR-Pakets italienisch nel tuo progetto .NET.
PM> Install-Package IronOCR.Languages.Italian
Beispiel für einen Code
Dieses Beispiel eines C#-Codes legt den Text in italienischer Sprache auf ein Bild oder ein PDF-Dokument.
//PM> Install-Package IronOcr.Languages.Italian
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput(@"images\Italian.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Italian
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput(@"images\Italian.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Italian
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Italian
Using Input = New OcrInput("images\Italian.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
Perché scegliere IronOCR?
IronOCR ist eine leicht zu installierende, vollständige und gut dokumentierte Softwarebibliothek für .NET.
Scegli IronOCR per ottenere una präzise OCR superiore al 99,8% senza utilizzare servizi Web esterni, tariffe correnti o inviare documenti riservati su Internet.
Perché gli sviluppatori C#scelgono IronOCR su Vanilla Tesseract:
- Installieren Sie eine einzelne DLL oder NuGet
- Inklusive für Tesseract 5, 4 und 3 Motoren außerhalb des Bildschirms.
- Die Präzision der 99,8% übertrifft in signifikanter Weise das normale Tesseract.
- Unglaubliche Geschwindigkeit und MultiThreading
- Kompatibel mit MVC, WebApp, Desktop, Konsole und Serveranwendungen
- Nessun codice Exes o C ++ con cui lavorare
- Umfassende Unterstützung für PDF OCR
- Per eseguire l'OCR quasi tutti i file immagine o PDF
- Vollständige Unterstützung von .NET Core, Standard und FrameWork
- Vertrieb für Windows, Mac, Linux, Azure, Docker, Lambda, AWS
- Leggi codici a barre e codici QR
- Esporta OCR kommt XHTML
- Esporta OCR in PDF-Dokumenten ricercabili
- Unterstützung von Multithreading
- 126 internationale Sprachen, die mit der NuGet- oder OcrData-Datei bearbeitet werden
- Estrai immagini, coordinate, statistiche e caratteri. Non solo testo.
- Sie können Tesseract OCR innerhalb kommerzieller und kommerziell genutzter Anwendungen einsetzen proprietarie.
IronOCR glänzt bei der Arbeit mit echten Bildern und unscheinbaren Dokumenten wie Fotos oder Skizzen a bassa risoluzione che possono presentare disturbi o imperfezioni digitali.
Andere Bibliotheken OCR gratuite für die .NET-Phase, aber auch für andere API .net tesseract e servizi web, non funzionano così bene in questi casi d'uso del mondo reale.
OCR mit Tesseract 5 - Inizia la codifica in C #
L'esempio di codice riportato di seguito mostra quanto sia facile leggere il testo da un'immagine utilizzando C#o VB .NET.
OneLiner
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
Hallo Welt konfigurierbar
// PM> Install-Package IronOCR.Languages.Italian
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... puoi aggiungere un numero qualsiasi di immagini
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Italian
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... puoi aggiungere un numero qualsiasi di immagini
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Italian
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Italian
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
OCR PDF in C#
Der gleiche Ansatz kann auf ähnliche Weise verwendet werden, um den Text aus einem beliebigen PDF-Dokument zu entfernen.
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Possiamo anche selezionare numeri di pagina PDF specifici per l'OCR
var Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 pagina per ogni pagina del PDF
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Possiamo anche selezionare numeri di pagina PDF specifici per l'OCR
var Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 pagina per ogni pagina del PDF
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Italian
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' Possiamo anche selezionare numeri di pagina PDF specifici per l'OCR
Dim Result = Ocr.Read(input)
Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' 1 pagina per ogni pagina del PDF
End Using
OCR per TIFF-Multifagina
OCR Lettura del formato di file TIFF che include documenti a più pagine. TIFF kann auch konvertiert werden direttamente in un file PDF con testo ricercabile.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Italian
Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Codici a barre e QR
Eine Besonderheit von IronOCR ist die Möglichkeit, während des Scannens Barcodes und QR-Codes aus Dokumenten zu lesen del testo. Le istanze della classe OcrResult.OcrBarcode
forniscono allo sviluppatore informazioni dettagliate su ogni codice a barre scansionato.
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// tipologia e posizione anche immobili esposti
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// tipologia e posizione anche immobili esposti
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True
Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' tipologia e posizione anche immobili esposti
Next Barcode
End Using
OCR für bestimmte Bereiche der Bilder
Tutti i metodi di scansione e lettura di IronOCR forniscono la capacità di specificare esattamente da quale parte di una pagina o pagine desideriamo leggere il testo. Dies ist sehr nützlich, wenn wir Module untersuchen standardizzati e può far risparmiare un sacco di tempo e migliorare l'efficienza.
Für die Nutzung des Ritaglio-Bereichs ist es erforderlich, einen Systemadressaten hinzuzufügen System.Zeichnung
art und Weise, wie das Produkt genutzt werden kann System.Zeichnung.Rectangle
.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Le dimensioni sono in px
Input.Add("document.png", ContentArea);
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Le dimensioni sono in px
Input.Add("document.png", ContentArea);
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Italian
Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
.X = 215,
.Y = 1250,
.Height = 280,
.Width = 1335
}
' Le dimensioni sono in px
Input.Add("document.png", ContentArea)
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
OCR für qualitativ minderwertige Scans
La classe IronOCR OcrInput
können Skalierungen korrigiert werden, die das normale Tesseract nicht in der Lage ist leggere.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // risolve il rumore digitale e la scarsa scansione
Input.Deskew(); // risolve la rotazione e la prospettiva
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // risolve il rumore digitale e la scarsa scansione
Input.Deskew(); // risolve la rotazione e la prospettiva
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Italian
Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' risolve il rumore digitale e la scarsa scansione
Input.Deskew() ' risolve la rotazione e la prospettiva
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Esporta i risultati dell'OCR come PDF ricercabile
Bilder im PDF-Format mit kopierfähigen Textsträngen. Kann von Suchmotoren und Datenbanken angezeigt werden.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");
var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");
var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Italian
Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")
Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
Konvertierung von TIFF in PDF ricercabile
Konvertieren eines TIFF-Dokuments (oder eine beliebige Gruppe von Bilddateien) direkt in ein recherchierbares PDF, das auch als indicizzato da intranet, sito web e motori di ricerca Google.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Italian
Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
Esporta i risultati dell'OCR come HTML
Konvertierung von OCR-Bildern in XHTML.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Italian
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
Filtri di miglioramento delle immagini OCR
IronOCR bietet einheitliche Filtermaterialien für OcrInput
oggetti OcrInput
zur Verbesserung der Leistungen OCR.
Beispiel für einen Migrationscode zur Verbesserung des Bildes
Render le immagini in ingresso OCR di qualità superiore per produrre risultati OCR migliori e più veloci.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // risolve il rumore digitale e la scarsa scansione
Input.Deskew(); // risolve la rotazione e la prospettiva
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // risolve il rumore digitale e la scarsa scansione
Input.Deskew(); // risolve la rotazione e la prospettiva
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Italian
Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' risolve il rumore digitale e la scarsa scansione
Input.Deskew() ' risolve la rotazione e la prospettiva
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Elenco dei filtri immagine OCR
Zu den in IronOCR integrierten Eingabefiltern zur Verbesserung der OCR-Leistung gehören:
- OcrInput.Rotate (doppi gradi) - Ruota le immagini di un numero di gradi in senso orario. Per il senso antiorario, usa numeri negativi.
- OcrInput.Binarize () - Questo filtro immagine trasforma ogni pixel in bianco o nero senza una via di mezzo. Può migliorare le prestazioni dell'OCR nei casi di contrasto molto basso del testo con lo sfondo.
- OcrInput.ToGrayScale () - Questo filtro immagine trasforma ogni pixel in una sfumatura di scala di grigi. È improbabile che migliori la precisione dell'OCR, ma può aumentare la velocità
- OcrInput.Contrast () - Aumenta automaticamente il contrasto. Questo filtro spesso migliora la velocità e la precisione dell'OCR nelle scansioni a basso contrasto.
- OcrInput.DeNoise () - Rimuove il rumore digitale. Questo filtro deve essere utilizzato solo dove è previsto il rumore.
- OcrInput.Invert () - Inverte ogni colore. Ad esempio, il bianco diventa nero: il nero diventa bianco.
- OcrInput.Dilate () - Morfologia avanzata. Die Dilatazione aggiunge pixel ai bordi degli oggetti in un'immagine. Opposto di Erode
- OcrInput.Erode () - Morfologia avanzata. L'erosione rimuove i pixel sui contorni dell'oggetto opposto a Dilata
- OcrInput.Deskew () - Ruota un'immagine in modo che sia verso l'alto e ortogonale. Ciò è molto utile per l'OCR perché la tolleranza di Tesseract per le scansioni oblique può essere di soli 5 gradi.
- OcrInput.DeepCleanBackgroundNoise () - Rimozione del rumore di fondo pesante. Utilizzare questo filtro solo nel caso in cui sia noto un rumore di fondo eccessivo del documento, poiché questo filtro rischierà anche di ridurre l'accuratezza dell'OCR dei documenti puliti ed è molto costoso per la CPU.
- OcrInput.EnhanceResolution : Migliora la risoluzione delle immagini di bassa qualità. Questo filtro spesso non è necessario perché OcrInput.MinimumDPI e OcrInput.TargetDPI rileveranno e risolveranno automaticamente gli input a bassa risoluzione.
CleanBackgroundNoise. Questa è un'impostazione che richiede un po 'di tempo; tuttavia, ermöglicht es der Bibliothek, automatisch den digitalen Speicher, die Seiten der Karte und andere Unregelmäßigkeiten zu löschen innerhalb eines digitalen Bildes, das unter Umständen nicht von anderen gelesen werden kann librerie OCR.
EnhanceContrast è un'impostazione che fa sì che IronOCR aumenti automaticamente il contrasto des Textes am Bildrand, die Erhöhung der OCR-Präzision und generell die Erhöhung der prestazioni e la velocità dell'OCR.
EnhanceResolution è un'impostazione che rileva automaticamente le immagini a bassa risoluzione (die weniger als 275 dpi aufweisen) e migliora automaticamente l'immagine e quindi affina tutto il testo in modo che possa essere perfettamente da una libreria OCR. Sebbene questa operazione richieda di per sé molto tempo, generalmente riduce il tempo complessivo per un'operazione OCR su un'immagine.
Lingua IronOCR unterstützt 22 internationale Sprachpakete und die Einführung der Sprache può essere utilizzata per selezionare una o più lingue multiple da applicare per un'operazione OCR.
Strategia IronOCR unterstützt eine angemessene Strategie. Es besteht die Möglichkeit, einen schnellen Scan durchzuführen und weniger genau als ein Dokument zu sein oder eine moderne Strategie zu verwenden, die einige Intelligenzmodelle nutzt künstlich zur automatischen Verbesserung der OCR-Testgenauigkeit unter Berücksichtigung der statistischen Beziehung zwischen den parole in una frase .
Farbraum è un'impostazione in base alla quale possiamo scegliere di eseguire l'OCR in scala di grigi o a colori. Im Allgemeinen ist die Grillskala die beste Wahl. Tuttavia, a volte quando sono bei ähnlichen, aber farblich sehr unterschiedlichen Tonarten und -tönen führt ein Farbbereich mit Farben zu Ergebnissen migliori.
DetectWhiteTextOnDarkBackgrounds. Generell streben alle OCR-Bibliotheken danach, die testo nero su sfondo bianco. Diese Maßnahme ermöglicht es dem IronOCR, automatisch die negativen oder die pagine scure con testo bianco e di leggerli.
EingabeBildTyp. Diese Maßnahme ermöglicht es dem Entwickler, die OCR-Bibliothek zu leiten, um verificare se sta guardando un documento completo o uno snippet, come uno screenshot.
RotateAndStraighten è un'impostazione avanzata che consente a IronOCR la capacità unica di dokumente zu lesen, die nicht nur ruiniert werden, sondern auch einen Nutzen haben, wie z. B. Fotos von Dokumenten, die testo.
ReadBarcodes è una funzione utile che consente a IronOCR di leggere automaticamente codici a barre e codici QR sulle pagine mentre legge anche il testo, senza aggiungere un grande onere di tempo aggiuntivo.
Profondità di colore. Diese Einstellung bestimmt die Anzahl der Bits pro Pixel, die die OCR-Bibliothek benötigt utilizzerà per determinare la profondità di un colore. Eine größere Farbintensität kann die Qualität erhöhen OCR, ma aumenterà anche il tempo necessario per il completamento dell'operazione OCR.
126 Sprachpaket
IronOCR Unterstützung 126 internationale Sprachen mit Sprachpaketen, die als DLL verteilt werden, können essere scaricati da questo sito Web oder auch durch NuGet-Paketmanager .
Le lingue includono tedesco, francese, inglese, cinese, giapponese e molte altre. Esistono Sprachpaket specialistici per passaporto MRZ, assegni MICR, dati finanziari, targhe e molti altri. Puoi anche utilizzare qualsiasi file tesseract ".traineddata", inclusi quelli creati da te.
Beispiel einer Sprache
Verwendung von OCR in anderen Sprachen.
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Aggiungi filtri immagine se necessario
// In questo caso, anche l'input del pensiero è di qualità molto bassa
// IronTesseract può leggere ciò che Tesseract convenzionale non può.
var Result = Ocr.Read(input);
// La console non può stampare facilmente l'arabo su Windows.
// Salviamo invece su disco.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Aggiungi filtri immagine se necessario
// In questo caso, anche l'input del pensiero è di qualità molto bassa
// IronTesseract può leggere ciò che Tesseract convenzionale non può.
var Result = Ocr.Read(input);
// La console non può stampare facilmente l'arabo su Windows.
// Salviamo invece su disco.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic
Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' Aggiungi filtri immagine se necessario
' In questo caso, anche l'input del pensiero è di qualità molto bassa
' IronTesseract può leggere ciò che Tesseract convenzionale non può.
Dim Result = Ocr.Read(input)
' La console non può stampare facilmente l'arabo su Windows.
' Salviamo invece su disco.
Result.SaveAsTextFile("arabic.txt")
End Using
Beispiel in mehreren Sprachen
È anche possibile eseguire l'OCR utilizzando più lingue contemporaneamente. Questo può davvero aiutare a ottenere metadati e URL in lingua inglese nei documenti Unicode.
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Italian);
// Possiamo aggiungere un numero qualsiasi di lingue
using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Italian);
// Possiamo aggiungere un numero qualsiasi di lingue
using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Italian)
' Possiamo aggiungere un numero qualsiasi di lingue
Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
Detaillierte OCR-Resultate
IronOCR stellt ein OCR-Resultat für jede OCR-Operation wieder her. Im Allgemeinen nutzen die Entwickler nur der Text dieses Objekts ist für das Scannen des Textes und des Bildes freigegeben. Trotzdem, i risultati dell'OCR DOM sono molto più avanzati di così.
using IronOcr;
using System.Drawing; //Aggiungi riferimento all'assieme
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!Importante
using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Esplora qui per trovare un'API massiccia e dettagliata:
// - Pagine, Blocchi, Paraphaph, Linee, Parole, Caratteri
// - Esportazione di immagini, coordinate dei caratteri, dati statistici
}
using IronOcr;
using System.Drawing; //Aggiungi riferimento all'assieme
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Italian;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!Importante
using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Esplora qui per trovare un'API massiccia e dettagliata:
// - Pagine, Blocchi, Paraphaph, Linee, Parole, Caratteri
// - Esportazione di immagini, coordinate dei caratteri, dati statistici
}
Imports IronOcr
Imports System.Drawing 'Aggiungi riferimento all'assieme
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Italian
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '!Importante
Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages (0).Words
Dim Barcodes = Result.Barcodes
' Esplora qui per trovare un'API massiccia e dettagliata:
' - Pagine, Blocchi, Paraphaph, Linee, Parole, Caratteri
' - Esportazione di immagini, coordinate dei caratteri, dati statistici
End Using
Prestazione
IronOCR funktioniert außerhalb der Schemata, ohne dass die Notwendigkeit besteht, die Leistung zu verbessern oder die immagini di input.
La velocità è incredibile: IronOCR.2020 + ist bis zu 10 Mal schneller und macht mehr als 250 % der Fehler in weniger als der Hälfte der Zeit alle build precedenti.
Per saperne di più
Per saperne di più sull'OCR in C #, VB, F # o qualsiasi altro linguaggio .NET, leggi i nostri tutorial della community , che forniscono esempi reali di come IronOCR può essere utilizzato e possono mostrare le sfumature di come ottenere il meglio da questa libreria.
È inoltre disponibile un riferimento vollständig für hilfsmittel für Entwickler von .NET .