OCR français en C#et .NET

Autres versions de ce document:

IronOCR est un composant logiciel C#permettant aux codeurs .NET de lire du texte à partir d'images et de documents PDF en 126 langues, dont le français.

Il s'agit d'un fork avancé de Tesseract, conçu exclusivement pour les développeurs .NET et surpasse régulièrement les autres moteurs Tesseract en termes de vitesse et de précision.

Contenu de IronOcr.Languages.French

Ce package contient 43 langues OCR pour .NET:

  • français
  • Français
  • Français rapide

Télécharger

Pack de langue française [français]
* Download as Zip *: français
* Install with
https://www.nuget.org/packages/IronOcr.Languages.French/'> NuGet

Installation

La première chose que nous devons faire est d'installer notre package OCR français dans votre projet .NET.

PM> Install-Package IronOCR.Languages.French

Exemple de code

Cet exemple de code C#lit le texte français à partir d'une image ou d'un document PDF.

//PM> Install-Package IronOcr.Languages.French
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.French;
using (var Input = new OcrInput(@"images\French.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.French
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.French;
using (var Input = new OcrInput(@"images\French.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.French
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.French
Using Input = New OcrInput("images\French.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

Pourquoi choisir IronOCR?

IronOCR est une bibliothèque de logiciels .NET facile à installer, complète et bien documentée.

Choisissez IronOCR pour obtenir une précision de 99,8% + OCR sans utiliser de services Web externes, de frais courants ou d'envoyer des documents confidentiels sur Internet.

Pourquoi les développeurs C#choisissent IronOCR plutôt que Vanilla Tesseract:

  • Installer en tant que DLL ou NuGet unique
  • Comprend les moteurs Tesseract 5, 4 et 3 prêts à l'emploi.
  • La précision 99,8% surpasse considérablement le Tesseract régulier.
  • Vitesse fulgurante et multithreading
  • Compatible MVC, WebApp, bureau, console et application serveur
  • Aucun code Exes ou C ++ avec lequel travailler
  • Prise en charge complète de l'OCR PDF
  • Pour effectuer l'OCR sur presque n'importe quel fichier image ou PDF
  • Prise en charge complète de .NET Core, Standard et FrameWork
  • Déployer sur Windows, Mac, Linux, Azure, Docker, Lambda, AWS
  • Lire les codes-barres et les codes QR
  • Exporter l'OCR en XHTML
  • Exporter l'OCR vers des documents PDF interrogeables
  • Prise en charge du multithreading
  • 126 langues internationales toutes gérées via des fichiers NuGet ou OcrData
  • Extraire des images, des coordonnées, des statistiques et des polices. Pas seulement du texte.
  • Peut être utilisé pour redistribuer Tesseract OCR dans des applications commerciales et propriétaires.

IronOCR brille lorsque vous travaillez avec des images du monde réel et des documents imparfaits tels que des photographies ou des numérisations de faible résolution pouvant présenter des bruits numériques ou des imperfections.

D'autres bibliothèques OCR gratuites pour la plate-forme .NET, telles que d'autres API et services Web tesseract .net, ne fonctionnent pas aussi bien dans ces cas d'utilisation réels.

OCR avec Tesseract 5 - Commencer le codage en C #

L'exemple de code ci-dessous montre à quel point il est facile de lire du texte à partir d'une image à l'aide de C#ou VB .NET.

Bon mot

string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
VB   C#

Hello World configurable

// PM> Install-Package IronOCR.Languages.French
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.French;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... vous pouvez ajouter n'importe quel nombre d'images
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.French
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.French;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... vous pouvez ajouter n'importe quel nombre d'images
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.French
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.French
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR C#PDF

La même approche peut également être utilisée pour extraire du texte de n'importe quel document PDF.

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.French;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Nous pouvons également sélectionner des numéros de page PDF spécifiques à l'OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 page pour chaque page du PDF
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.French;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Nous pouvons également sélectionner des numéros de page PDF spécifiques à l'OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 page pour chaque page du PDF
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.French
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' Nous pouvons également sélectionner des numéros de page PDF spécifiques à l'OCR

Dim Result = Ocr.Read(input)

Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' 1 page pour chaque page du PDF
End Using
VB   C#

OCR pour les TIFF MultiPage

OCR Lecture au format de fichier TIFF, y compris les documents de plusieurs pages Le TIFF peut également être converti directement en un fichier PDF avec un texte interrogeable.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.French;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.French;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.French

Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Codes à barres et QR

Une caractéristique unique d'IronOCR est qu'il peut lire les codes à barres et les codes QR des documents pendant qu'il numérise du texte. Les instances de la classe OcrResult.OcrBarcode fournissent au développeur des informations détaillées sur chaque code-barres numérisé.

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// propriétés de type et d'emplacement également exposées
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// propriétés de type et d'emplacement également exposées
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True

Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' propriétés de type et d'emplacement également exposées
Next Barcode
End Using
VB   C#

OCR sur des zones spécifiques d'images

Toutes les méthodes de numérisation et de lecture d'IronOCR offrent la possibilité de spécifier exactement la partie de la ou des pages à partir de laquelle nous souhaitons lire le texte. Ceci est très utile lorsque nous examinons des formulaires standardisés et peut gagner énormément de temps et améliorer l'efficacité.

Pour utiliser les régions cadrées, nous devrons ajouter une référence système à System.Drawing afin de pouvoir utiliser l'objet System.Drawing.Rectangle .

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.French;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Les dimensions sont en px

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.French;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Les dimensions sont en px

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.French

Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
	.X = 215,
	.Y = 1250,
	.Height = 280,
	.Width = 1335
}
' Les dimensions sont en px

Input.Add("document.png", ContentArea)

Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR pour les numérisations de faible qualité

La classe IronOCR OcrInput peut corriger les scans que Tesseract normal ne peut pas lire.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.French;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // corrige le bruit numérique et une mauvaise numérisation
Input.Deskew(); // corrige la rotation et la perspective
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.French;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // corrige le bruit numérique et une mauvaise numérisation
Input.Deskew(); // corrige la rotation et la perspective
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.French

Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' corrige le bruit numérique et une mauvaise numérisation
Input.Deskew() ' corrige la rotation et la perspective
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Exporter les résultats OCR sous forme de PDF interrogeable

Image au format PDF avec des chaînes de texte copiables. Peut être indexé par les moteurs de recherche et les bases de données.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.French;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.French;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.French

Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")

Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

Conversion de TIFF en PDF avec recherche

COnversez un document TIFF (ou tout groupe de fichiers image) directement en un PDF interrogeable qui peut être indexé par les moteurs de recherche intranet, site Web et Google.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.French;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.French;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.French

Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

Exporter les résultats OCR au format HTML

Conversion d'image OCR en XHTML.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.French;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.French;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.French
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
VB   C#

Filtres d'amélioration de l'image OCR

IronOCR fournit des filtres uniques pour les objets OcrInput afin d'améliorer les performances de l'OCR.

Exemple de code d'amélioration d'image

Rend les images d'entrée OCR de meilleure qualité pour produire de meilleurs résultats OCR plus rapides.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.French;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // corrige le bruit numérique et une mauvaise numérisation
Input.Deskew(); // corrige la rotation et la perspective
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.French;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // corrige le bruit numérique et une mauvaise numérisation
Input.Deskew(); // corrige la rotation et la perspective
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.French

Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' corrige le bruit numérique et une mauvaise numérisation
Input.Deskew() ' corrige la rotation et la perspective
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Liste des filtres d'image OCR

Les filtres d'entrée pour améliorer les performances OCR intégrés à IronOCR comprennent:

  • OcrInput.Rotate (double degrés) - Fait pivoter les images d'un certain nombre de degrés dans le sens des aiguilles d'une montre. Pour le sens anti-horaire, utilisez des nombres négatifs.
  • OcrInput.Binarize () - Ce filtre d'image transforme chaque pixel en noir ou blanc sans milieu. Peut améliorer les performances de l'OCR dans les cas de très faible contraste entre le texte et l'arrière-plan.
  • OcrInput.ToGrayScale () - Ce filtre d'image transforme chaque pixel en une nuance de gris. Peu susceptible d'améliorer la précision de l'OCR mais peut améliorer la vitesse
  • OcrInput.Contrast () - Augmente automatiquement le contraste. Ce filtre améliore souvent la vitesse et la précision de l'OCR dans les numérisations à faible contraste.
  • OcrInput.DeNoise () - Supprime le bruit numérique. Ce filtre ne doit être utilisé que là où du bruit est attendu.
  • OcrInput.Invert () - Inverse chaque couleur. Par exemple, le blanc devient noir: le noir devient blanc.
  • OcrInput.Dilate () - Morphologie avancée. La dilatation ajoute des pixels aux limites des objets dans une image. Face à Erode
  • OcrInput.Erode () - Morphologie avancée. L'érosion supprime les pixels sur les limites des objets
  • OcrInput.Deskew () - Fait pivoter une image pour qu'elle soit dans le bon sens et orthogonale. Ceci est très utile pour l'OCR car la tolérance Tesseract pour les numérisations asymétriques peut être aussi basse que 5 degrés.
  • OcrInput.DeepCleanBackgroundNoise () - Suppression du bruit de fond lourd. N'utilisez ce filtre que dans le cas où un bruit de fond extrême du document est connu, car ce filtre risque également de réduire la précision de l'OCR des documents propres et est très coûteux en CPU.
  • OcrInput.EnhanceResolution - Améliore la résolution des images de faible qualité. Ce filtre n'est pas souvent nécessaire car OcrInput.MinimumDPI et OcrInput.TargetDPI captureront et résoudront automatiquement les entrées basse résolution.

CleanBackgroundNoise. C'est un paramètre qui prend un peu de temps; cependant, il permet à la bibliothèque de nettoyer automatiquement le bruit numérique, les froissements de papier et d'autres imperfections dans une image numérique qui, autrement, la rendraient incapable d'être lue par d'autres bibliothèques OCR.

EnhanceContrast est un paramètre qui oblige IronOCR à augmenter automatiquement le contraste du texte par rapport à l'arrière-plan d'une image, augmentant la précision de l'OCR et augmentant généralement les performances et la vitesse de l'OCR.

EnhanceResolution est un paramètre qui détecte automatiquement les images basse résolution (inférieures à 275 dpi) et met automatiquement à l'échelle l'image, puis accentue tout le texte afin qu'il puisse être lu parfaitement par une bibliothèque OCR. Bien que cette opération soit en elle-même chronophage, elle réduit généralement le temps global d'une opération OCR sur une image.

Langue IronOCR prend en charge 22 modules linguistiques internationaux et le paramètre de langue peut être utilisé pour sélectionner une ou plusieurs langues à appliquer pour une opération OCR.

Stratégie IronOCR prend en charge deux stratégies. Nous pouvons choisir soit d'opter pour une numérisation rapide et moins précise d'un document, soit d'utiliser une stratégie avancée qui utilise certains modèles d'intelligence artificielle pour améliorer automatiquement la précision du texte OCR en examinant la relation statistique des mots les uns aux autres dans une phrase. .

ColorSpace est un paramètre par lequel nous pouvons choisir la reconnaissance optique de caractères en niveaux de gris ou en couleur. En règle générale, l'échelle de gris est la meilleure option. Cependant, parfois, lorsqu'il existe des textes ou des arrière-plans de teinte similaire mais de couleur très différente, un espace colorimétrique en couleur donnera de meilleurs résultats.

DetectWhiteTextOnDarkBackgrounds. En général, toutes les bibliothèques OCR s'attendent à voir du texte noir sur fond blanc. Ce paramètre permet à IronOCR de détecter automatiquement les négatifs ou les pages sombres avec du texte blanc et de les lire.

InputImageType. Ce paramètre permet au développeur de guider la bibliothèque OCR pour savoir si elle regarde un document complet ou un extrait de code, comme une capture d'écran.

RotateAndStraighten est un paramètre avancé qui donne à IronOCR la capacité unique de lire des documents qui ne sont pas seulement pivotés, mais qui contiennent peut-être une perspective, comme des photographies de documents texte.

ReadBarcodes est une fonctionnalité utile qui permet à IronOCR de lire automatiquement les codes à barres et les codes QR sur les pages tout en lisant également le texte, sans ajouter de temps supplémentaire.

La profondeur de la couleur. Ce paramètre détermine le nombre de bits par pixel que la bibliothèque OCR utilisera pour déterminer la profondeur d'une couleur. Une profondeur de couleur plus élevée peut augmenter la qualité de l'OCR, mais augmentera également le temps nécessaire à l'exécution de l'OCR.

126 packs linguistiques

IronOCR prend en charge 126 langues internationales via des modules linguistiques qui sont distribués sous forme de DLL, qui peuvent être téléchargés à partir de ce site Web , ou également à partir du gestionnaire de packages NuGet .

Les langues comprennent l'allemand, le français, l'anglais, le chinois, le japonais et bien d'autres. Des packs linguistiques spécialisés existent pour les passeports MRZ, les chèques MICR, les données financières, les plaques d'immatriculation et bien d'autres. Vous pouvez également utiliser n'importe quel fichier tesseract ".traineddata", y compris ceux que vous créez vous-même.

Exemple de langage

Utilisation d'autres langages OCR.

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Ajoutez des filtres d'image si nécessaire
// Dans ce cas, même si l'entrée est de très mauvaise qualité
// IronTesseract peut lire ce que le Tesseract conventionnel ne peut pas.

var Result = Ocr.Read(input);

// La console ne peut pas imprimer facilement l'arabe sous Windows.
// Sauvegardons plutôt sur le disque.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Ajoutez des filtres d'image si nécessaire
// Dans ce cas, même si l'entrée est de très mauvaise qualité
// IronTesseract peut lire ce que le Tesseract conventionnel ne peut pas.

var Result = Ocr.Read(input);

// La console ne peut pas imprimer facilement l'arabe sous Windows.
// Sauvegardons plutôt sur le disque.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' Ajoutez des filtres d'image si nécessaire
' Dans ce cas, même si l'entrée est de très mauvaise qualité
' IronTesseract peut lire ce que le Tesseract conventionnel ne peut pas.

Dim Result = Ocr.Read(input)

' La console ne peut pas imprimer facilement l'arabe sous Windows.
' Sauvegardons plutôt sur le disque.
Result.SaveAsTextFile("arabic.txt")
End Using
VB   C#

Exemple de plusieurs langues

Il est également possible d'utiliser l'OCR en utilisant plusieurs langues en même temps. Cela peut vraiment aider à obtenir des métadonnées et des URL en anglais dans les documents Unicode.

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.French);

// Nous pouvons ajouter n'importe quel nombre de langues

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.French);

// Nous pouvons ajouter n'importe quel nombre de langues

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.French)

' Nous pouvons ajouter n'importe quel nombre de langues

Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
VB   C#

Objets de résultats OCR détaillés

IronOCR renvoie un objet de résultat OCR pour chaque opération OCR. En règle générale, les développeurs utilisent uniquement la propriété text de cet objet pour obtenir le texte numérisé à partir de l'image. Cependant, le DOM des résultats OCR est beaucoup plus avancé que cela.

using IronOcr;
using System.Drawing; //Ajouter une référence d'assemblage

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.French;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!Important

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// Explorez ici pour trouver une API massive et détaillée:
// - Pages, blocs, paraphaphes, lignes, mots, caractères
// - Exportation d'images, coordonnées des polices, données statistiques
}
using IronOcr;
using System.Drawing; //Ajouter une référence d'assemblage

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.French;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!Important

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// Explorez ici pour trouver une API massive et détaillée:
// - Pages, blocs, paraphaphes, lignes, mots, caractères
// - Exportation d'images, coordonnées des polices, données statistiques
}
Imports IronOcr
Imports System.Drawing 'Ajouter une référence d'assemblage

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.French
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '!Important

Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages(0).Words
Dim Barcodes = Result.Barcodes
' Explorez ici pour trouver une API massive et détaillée:
' - Pages, blocs, paraphaphes, lignes, mots, caractères
' - Exportation d'images, coordonnées des polices, données statistiques
End Using
VB   C#

Performance

IronOCR fonctionne hors de la boîte sans avoir besoin de régler les performances ou de modifier fortement les images d'entrée.

La vitesse est fulgurante: IronOcr.2020 + est jusqu'à 10 fois plus rapide et fait plus de 250% d'erreurs en moins que les versions précédentes.

Apprendre encore plus

Pour en savoir plus sur l'OCR en C #, VB, F # ou tout autre langage .NET, veuillez lire nos didacticiels communautaires , qui donnent des exemples concrets de la façon dont IronOCR peut être utilisé et peuvent montrer les nuances sur la façon de tirer le meilleur parti de cette bibliothèque.

Une référence d'objet complète pour les développeurs .NET est également disponible.