Une comparaison entre IronOCR et Asprise OCR
Lorsqu'on parle de OCR, on se réfère à la reconnaissance optique des caractères. Le terme est souvent utilisé dans le monde des affaires pour désigner le processus de conversion d'une image ou d'une représentation graphique de tout document textuel (par exemple, une page scannée ou faxée) en un format de document modifiable ou un document au format texte consultable à l'aide d'un logiciel informatique.
L'acronyme OCR signifie Optical Character Recognition, une tâche effectuée par un logiciel informatique spécialement conçu à cet effet. Ce type de logiciel analyse la page et reconnaît toutes les informations textuelles qui s'y trouvent, en les convertissant en une forme numérique afin qu'elles puissent être éditées et reproduites numériquement sans perte de qualité.
Il existe de nombreuses applications pour le OCR, mais l'utilisation la plus populaire est de convertir des documents scannés en fichiers numériques qui peuvent être formatés et indexés dans des bases de données et analysés.
Dans cet article, nous allons comparer deux des bibliothèques et applications les plus courantes pour le OCR et les images de documents PDF. Ceux-ci sont :
- Asprise OCR
- IronOCR
1.0 Introduction
1.1 Introduction et Caractéristiques d'Asprise OCR
Le SDK Asprise C# .NET OCR (reconnaissance optique de caractères) et reconnaissance de codes-barres offre une bibliothèque API haute performance pour équiper vos applications C# .NET (applications Windows, Silverlight, applications de service web ASP.NET, contrôles ActiveX, etc.) avec la fonctionnalité d'extraction d'informations textuelles et de codes-barres à partir de documents scannés.
Vous pouvez convertir des images (dans divers formats comme JPEG, PNG, TIFF, PDF, etc.) en formats de documents modifiables (Word, XML, PDF consultables, etc.). Aux côtés d'autres offres telles que le SDK de numérisation d'images Asprise (qui capture des documents à partir de scanners), vous pouvez facilement mettre en œuvre des solutions complètes de gestion de documents.
Les Caractéristiques d'Asprise OCR
Reconnaissance de Texte Précise
Avec des algorithmes de traitement d'image et de détection de texte améliorés, Asprise OCR peut facilement reconnaître des documents difficiles avec une qualité d'image médiocre. Des paramètres peuvent être utilisés pour privilégier légèrement la précision plutôt que la rapidité.
Moteur OCR à Grande Vitesse
Asprise OCR utilise un moteur OCR optimisé pour effectuer une excellente reconnaissance en un temps réduit. La vitesse peut être encore améliorée grâce au multithreading et à l'accélération GPU optionnelle.
Support de 20+ Langues
Asprise OCR reconnaît plus de 20 langues telles que l'anglais, l'espagnol, le français, l'allemand, l'italien, le hongrois, le finnois, le suédois, le roumain, le polonais, le malais, l'arabe, l'indonésien et le russe.
Tous les Formats de Codes-Barres Populaires
Tous les formats de codes-barres populaires sont supportés : EAN-8, EAN-13, UPC-A, UPC-E, ISBN-10, ISBN-13, Interleaved 2 of 5, Code 39, Code 128, PDF417 et QR Code.
Images en PDF Consultable
Avec quelques lignes de code, vous pouvez convertir divers formats d'images tels que JPEG, PNG, TIFF et PDF en fichiers PDF consultables.
Déploiement Facile
Aucun dongle de protection logiciel, aucun serveur de licence n'est requis. Le déploiement du SDK Asprise OCR est aussi simple que le développement avec celui-ci.
Agrémentable pour le Budget, Sans Redevances
Sans redevance signifie que vous payez lorsque vous commandez une licence de développement, mais vous n'avez pas à payer de nouveau lorsque vous déployez votre logiciel sur des milliers de serveurs ou à des milliers d'utilisateurs finaux.
Support Primé
Leur équipe est non seulement amicale mais aussi capable de vous fournir un support technique de premier ordre.
1.2 IronOCR — Introduction et Fonctionnalités
IronOCR fournit des logiciels pour les ingénieurs qui utilisent IronOCR for .NET pour lire le contenu textuel à partir de photos et de PDF dans des applications et sites web .NET. Il analyse les photos pour rechercher du texte et des codes-barres et prend en charge de nombreuses langues mondiales; il peut ensuite fournir une sortie soit en texte brut, soit en données structurées. La bibliothèque OCR d'Iron Software peut être utilisée dans des applications .NET MVC, Web, console et de bureau. Pour les déploiements commerciaux, une licence est fournie avec l'assistance directe de l'équipe de développement.
- Utilisant le dernier moteur Tesseract 5, IronOCR lit le texte, les codes-barres, et les QR codes à partir de n'importe quelle image ou format PDF. Cette bibliothèque ajoute rapidement de l'OCR aux applications de bureau, console, et web.
- IronOCR prend en charge 125 langues internationales. Il prend également en charge des listes de langues et de mots personnalisés.
- IronOCR est capable de lire plus de 20 formats de codes-barres et QR codes.
- IronOCR supporte les formats d'image GIF et TIFF multipages.
- IronOCR fournit une correction pour les images scannées de faible qualité.
- IronOCR prend en charge le multithreading — il exécute un ou plusieurs processus à la fois.
- IronOCR peut fournir une sortie de données structurées pour les pages, paragraphes, lignes, mots, caractères, etc.
- IronOCR prend en charge une variété de systèmes d'exploitation tels que Windows, Linux, macOS, etc.
2.0 Créer un Nouveau Projet dans Visual Studio
Ouvrez le logiciel Visual Studio et allez dans le 'menu fichier'. Sélectionnez 'nouveau projet', puis sélectionnez 'Application console'.
Entrez le nom du projet et sélectionnez le chemin du fichier dans la zone de texte appropriée. Ensuite, cliquez sur le bouton créer et sélectionnez le .NET Framework requis, comme dans la capture d'écran ci-dessous.
Le projet Visual Studio va maintenant générer la structure de l'application sélectionnée, et si vous avez sélectionné l'application console, Windows et Web, il ouvrira maintenant le fichier Program.cs dans lequel vous pourrez entrer le code et compiler/exécuter l'application.
Ensuite, nous pouvons ajouter la bibliothèque pour tester le code.
3.0 Installer
3.1 Installer Asprise OCR
We can download the Asprise OCR here.
There are two options: install using NuGet or manually download the SDK from asprise.com.
Option 1 : NuGet PM> Install-Package asprise-ocr-api
Tout d'abord, créez un nouveau projet d'application Windows Form en Visual C#/Visual Basic ou utilisez un projet existant. With this solution opened, open the NuGet Package Manager Console and type the following command:
Install-Package asprise-ocr-api
Une fois cela fait, vous pouvez appeler le formulaire de démonstration OCR en copiant le code suivant dans Program.cs (pour C#) :
using System;
using System.Windows.Forms;
using asprise_ocr_api;
static class Program
{
// Main application entry point
[STAThread]
static void Main()
{
// Enable visual styles and set text rendering mode
Application.EnableVisualStyles();
Application.SetCompatibleTextRenderingDefault(false);
// Launch the OCR sample form
Application.Run(new asprise_ocr_api.OcrSampleForm());
}
}
using System;
using System.Windows.Forms;
using asprise_ocr_api;
static class Program
{
// Main application entry point
[STAThread]
static void Main()
{
// Enable visual styles and set text rendering mode
Application.EnableVisualStyles();
Application.SetCompatibleTextRenderingDefault(false);
// Launch the OCR sample form
Application.Run(new asprise_ocr_api.OcrSampleForm());
}
}
Imports System
Imports System.Windows.Forms
Imports asprise_ocr_api
Friend Module Program
' Main application entry point
<STAThread>
Sub Main()
' Enable visual styles and set text rendering mode
Application.EnableVisualStyles()
Application.SetCompatibleTextRenderingDefault(False)
' Launch the OCR sample form
Application.Run(New asprise_ocr_api.OcrSampleForm())
End Sub
End Module
Option 2 : Téléchargez le SDK OCR depuis Asprise.com
Download a copy of the Asprise SDK OCR from www.asprise.com/product/ocr. Dézippez-le simplement dans un dossier vide.
L'organisation des fichiers de la distribution du SDK Asprise OCR est la suivante :
SDK OCR
|--- aocr.dll, aocr_x64.dll [DLL requis]
|--- sample-projects [API .NET et projet d'exemple]
+--- images [Images d'exemple]
Accédez au dossier sample-projects et ouvrez la solution : ocr-samples-vs.sln. Il y a deux projets :
- asprise-ocr-api : l'API OCR .NET
- asprise-ocr-api-sample : programme de démonstration
Faites un clic droit sur le projet asprise-ocr-api-sample et sélectionnez " Définir comme projet de démarrage ", puis cliquez sur le bouton " Démarrer " ou appuyez sur F5 et vous verrez la même interface utilisateur que celle affichée.
3.2 Installer IronOCR
La bibliothèque IronOCR peut être téléchargée et installée de quatre manières.
Ceux-ci sont :
- Utilisation de Visual Studio
- Utilisation de la ligne de commande Visual Studio
- Téléchargement direct depuis le site NuGet
- Téléchargement direct depuis le site IronPDF
3.2.1 Utilisation de Visual Studio
Le logiciel Visual Studio offre l'option Gestionnaire de packages NuGet pour installer le package directement dans la solution. La capture d'écran ci-dessous montre comment ouvrir le Package Manager NuGet.
Il fournit une boîte de recherche pour afficher la liste des packages du site NuGet. Dans le gestionnaire de packages, nous devons rechercher le mot-clé IronOCR, comme dans la capture d'écran ci-dessous :
À partir de l'image ci-dessus, nous obtiendrons la liste des éléments de recherche relatifs. Nous devons sélectionner l'option requise pour installer le paquet dans la solution.
3.2.2 Utilisation de la ligne de commande de Visual Studio
Dans Visual Studio, allez dans Outils -> Gestionnaire de packages NuGet -> Console du Package Manager
Entrez la ligne suivante dans l'onglet Console du gestionnaire de packages :
Install-Package IronOcr
Ensuite, le package sera téléchargé/installé dans le projet actuel et prêt à être utilisé.
3.2.3 Téléchargement direct depuis le site NuGet
La troisième façon est de télécharger directement le package NuGet depuis le site Web.
- Navigate to the Link.
- Sélectionnez l'option de téléchargement de paquet dans le menu à droite.
- Double-cliquez sur le paquet téléchargé. Il s'installera automatiquement.
- Ensuite, rechargez la solution et commencez à l'utiliser dans le projet.
3.2.4 Téléchargement direct depuis le site IronOCR
Click the link here to download the latest package direct from the website. Once downloaded, follow the steps below to add the package to the project.
- Clic-droit sur le projet dans la fenêtre de solution.
- Ensuite, sélectionnez l'option de référence et parcourez l'emplacement de la référence téléchargée.
- Ensuite, cliquez sur OK pour ajouter la référence.
4.0 Image OCR
IronOCR et Asprise OCR ont tous deux une technologie OCR qui va convertir les images en texte consultable.
4.1 Utiliser Asprise
Le code suivant démontre l'utilisation basique du Asprise OCR.
using System;
using asprise_ocr_api;
class Example
{
static void Main()
{
// Set up OCR engine
AspriseOCR.SetUp();
AspriseOCR ocr = new AspriseOCR();
ocr.StartEngine("eng", AspriseOCR.SPEED_FASTEST);
// Recognize text from the given image
string s = ocr.Recognize("C:\\path\\img.jpg", -1, -1, -1, -1, -1,
AspriseOCR.RECOGNIZE_TYPE_ALL, AspriseOCR.OUTPUT_FORMAT_PLAINTEXT);
// Output the recognized text to the console
Console.WriteLine("OCR Result: " + s);
// Stop the OCR engine
ocr.StopEngine();
}
}
using System;
using asprise_ocr_api;
class Example
{
static void Main()
{
// Set up OCR engine
AspriseOCR.SetUp();
AspriseOCR ocr = new AspriseOCR();
ocr.StartEngine("eng", AspriseOCR.SPEED_FASTEST);
// Recognize text from the given image
string s = ocr.Recognize("C:\\path\\img.jpg", -1, -1, -1, -1, -1,
AspriseOCR.RECOGNIZE_TYPE_ALL, AspriseOCR.OUTPUT_FORMAT_PLAINTEXT);
// Output the recognized text to the console
Console.WriteLine("OCR Result: " + s);
// Stop the OCR engine
ocr.StopEngine();
}
}
Imports System
Imports asprise_ocr_api
Friend Class Example
Shared Sub Main()
' Set up OCR engine
AspriseOCR.SetUp()
Dim ocr As New AspriseOCR()
ocr.StartEngine("eng", AspriseOCR.SPEED_FASTEST)
' Recognize text from the given image
Dim s As String = ocr.Recognize("C:\path\img.jpg", -1, -1, -1, -1, -1, AspriseOCR.RECOGNIZE_TYPE_ALL, AspriseOCR.OUTPUT_FORMAT_PLAINTEXT)
' Output the recognized text to the console
Console.WriteLine("OCR Result: " & s)
' Stop the OCR engine
ocr.StopEngine()
End Sub
End Class
Asprise OCR prend en charge les formats d'images suivants : GIF, PNG, JPEG, TIFF et PDF. Pour le code OCR d'exemple dans la section ci-dessus, l'entrée ressemble à ce qui suit :
La sortie OCR sera au format Texte Brut :
Reconnaissance de Caractères et Codes-Barres Asprise
Haute performance, reconnaissance OCR et de codes-barres sans redevance sur Windows,
...
ISBN-13, Interleaved 2 of 5, Code 39, Code 128, PDF417 et Code QR.
[[QR-Code : www.asprise.com]]
[[CODE-128 : Asprise]].
Les deux dernières lignes représentent l'extraction d'informations de codes-barres. Note : le format et le contenu du code-barres sont tous deux encadrés par des paires '[[ ]]'.
4.2 Utilisation de IronOCR
using System;
using IronOcr;
class Example
{
static void Main()
{
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.EnglishBest;
// Specify to use Tesseract 5 engine
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
// Create OcrInput to hold the images
using (var Input = new OcrInput())
{
// Add an image to the OcrInput
Input.AddImage(@"3.png");
// Perform OCR on the input image
var Result = Ocr.Read(Input);
// Output the recognized text to the console
Console.WriteLine(Result.Text);
Console.ReadKey();
}
}
}
using System;
using IronOcr;
class Example
{
static void Main()
{
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.EnglishBest;
// Specify to use Tesseract 5 engine
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
// Create OcrInput to hold the images
using (var Input = new OcrInput())
{
// Add an image to the OcrInput
Input.AddImage(@"3.png");
// Perform OCR on the input image
var Result = Ocr.Read(Input);
// Output the recognized text to the console
Console.WriteLine(Result.Text);
Console.ReadKey();
}
}
}
Imports System
Imports IronOcr
Friend Class Example
Shared Sub Main()
' Create an instance of IronTesseract
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.EnglishBest
' Specify to use Tesseract 5 engine
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
' Create OcrInput to hold the images
Using Input = New OcrInput()
' Add an image to the OcrInput
Input.AddImage("3.png")
' Perform OCR on the input image
Dim Result = Ocr.Read(Input)
' Output the recognized text to the console
Console.WriteLine(Result.Text)
Console.ReadKey()
End Using
End Sub
End Class
L'API Tesseract 5, qui nous permet de convertir des fichiers image en texte, est démontrée ci-dessus. Nous créons un objet pour Iron Tesseract dans la ligne de code ci-dessus. Nous sommes également en train de créer un objet OcrInput qui nous permettra d'ajouter un ou plusieurs fichiers image. Nous devrons peut-être indiquer le chemin d'accès à l'image disponible dans le code lors de l'utilisation de la méthode d'objet add OcrInput. N'importe quel nombre d'images peut être ajouté. La fonction Read dans l'objet IronTesseract que nous avons construit précédemment peut être utilisée pour obtenir les images en analysant le fichier image et en extrayant le résultat dans le résultat OCR. Elle est capable d'extraire du texte des photos et de le convertir en chaîne.
Nous pouvons également utiliser Tesseract pour ajouter des images mutli-frame. "AddMultiFrameTiff" est une méthode différente pour cette opération. La bibliothèque Tesseract lit chaque frame dans l'image, et chaque frame est traitée comme une page distincte. Le processus va lire le premier cadre de l'image, puis passer au cadre suivant, et ainsi de suite jusqu'à ce que tous les cadres de l'image aient été numérisés. Seul le format d'image TIFF est pris en charge par cette méthode.
L'image ci-dessus est la sortie du résultat IronOCR, qui a converti avec précision les données en texte modifiable.
5.0 Fichiers PDF OCR
IronOCR et Asprise OCR convertissent les fichiers PDF en texte modifiable. Asprise OCR fournit une liste d'options à l'utilisateur comme sauvegarder la page, éditer l'image, reconnaître la page, etc. Il propose également des options de sauvegarde telles que texte, document, format HTML, etc. IronOCR nous permet également de sauvegarder le fichier OCR converti en HTML, texte, PDF, etc.
5.1 Utiliser Asprise OCR
Si vous définissez le format de sortie comme OUTPUT_FORMAT_PDF, vous devez spécifier le fichier de sortie PDF cible comme suit :
ocr.Recognize("C:\\test-image.png", -1, -1, -1, -1, -1,
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_PDF,
"PROP_PDF_OUTPUT_FILE=ocr-result.pdf|PROP_PDF_OUTPUT_TEXT_VISIBLE=true");
ocr.Recognize("C:\\test-image.png", -1, -1, -1, -1, -1,
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_PDF,
"PROP_PDF_OUTPUT_FILE=ocr-result.pdf|PROP_PDF_OUTPUT_TEXT_VISIBLE=true");
ocr.Recognize("C:\test-image.png", -1, -1, -1, -1, -1, Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_PDF, "PROP_PDF_OUTPUT_FILE=ocr-result.pdf|PROP_PDF_OUTPUT_TEXT_VISIBLE=true")
Dans le code ci-dessus, les propriétés sont spécifiées dans une seule chaîne de caractères séparée par |(avec clé et valeur séparées par =). Alternativement, vous pouvez spécifier les propriétés séparément en paires :
ocr.Recognize("C:\\test-image.png", -1, -1, -1, -1, -1,
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_PDF,
AspriseOCR.PROP_PDF_OUTPUT_FILE, "ocr-result.pdf",
AspriseOCR.PROP_PDF_OUTPUT_TEXT_VISIBLE, true);
ocr.Recognize("C:\\test-image.png", -1, -1, -1, -1, -1,
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_PDF,
AspriseOCR.PROP_PDF_OUTPUT_FILE, "ocr-result.pdf",
AspriseOCR.PROP_PDF_OUTPUT_TEXT_VISIBLE, true);
ocr.Recognize("C:\test-image.png", -1, -1, -1, -1, -1, Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_PDF, AspriseOCR.PROP_PDF_OUTPUT_FILE, "ocr-result.pdf", AspriseOCR.PROP_PDF_OUTPUT_TEXT_VISIBLE, True)
Pour rendre le texte invisible ou transparent, il vous suffit de définir PROP_PDF_OUTPUT_TEXT_VISIBLE sur "false". Les PDF normaux et PDF/A sont pris en charge. Veuillez vous référer au Résumé des Propriétés d'Asprise OCR. Définissez le format de sortie sur OUTPUT_FORMAT_RTF. Vous pouvez ensuite produire des fichiers .rtf pouvant être édités dans la plupart des traitements de texte (Microsoft Word, Libre Office, TextEdit, etc.).
ocr.Recognize("C:\\test-image.png", -1, -1, -1, -1, -1,
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_RTF,
"PROP_RTF_OUTPUT_FILE=ocr-result.rtf");
ocr.Recognize("C:\\test-image.png", -1, -1, -1, -1, -1,
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_RTF,
"PROP_RTF_OUTPUT_FILE=ocr-result.rtf");
ocr.Recognize("C:\test-image.png", -1, -1, -1, -1, -1, Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_RTF, "PROP_RTF_OUTPUT_FILE=ocr-result.rtf")
Une fois que l'OCR est terminé, vous pouvez afficher ou éditer le fichier RTF avec un traitement de texte :
Pour effectuer une OCR sur un fichier d'entrée PDF, utilisez la méthode suivante :
5.2 Utilisation de IronOCR
Nous pouvons également utiliser OCRInput pour gérer les fichiers PDF. Chaque page des documents sera lue par la classe Iron Tesseract. Le texte sera ensuite extrait des pages. Nous pouvons également ouvrir des documents protégés à l'aide d'une deuxième fonction appelée AddPdf, qui nous permet d'ajouter des PDF à notre liste de documents (mot de passe si le document est protégé). Le code suivant montre comment ouvrir un document PDF protégé par mot de passe :
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Add a password protected PDF
Input.AddPdf("example.pdf", "password");
// Read the PDF document
var Result = Ocr.Read(Input);
// Output the recognized text to the console
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Add a password protected PDF
Input.AddPdf("example.pdf", "password");
// Read the PDF document
var Result = Ocr.Read(Input);
// Output the recognized text to the console
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' Add a password protected PDF
Input.AddPdf("example.pdf", "password")
' Read the PDF document
Dim Result = Ocr.Read(Input)
' Output the recognized text to the console
Console.WriteLine(Result.Text)
End Using
Nous pouvons lire et extraire le contenu d'une seule page d'un document PDF en utilisant AddpdfPage. Seul le numéro de la page dont nous voulons extraire le texte doit être spécifié. AddPdfPage nous permet d'extraire du texte de nombreuses pages que nous spécifions. Dans IEnumerable<int>, nous pouvons facilement spécifier plusieurs pages. Nous devons également inclure l'emplacement du fichier ainsi que l'extension du fichier. Cela est démontré dans l'exemple de code suivant :
using IronOcr;
using System.Collections.Generic;
IEnumerable<int> numbers = new List<int> {2, 8, 10};
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Extract single page
Input.AddPdfPage("example.pdf", 10);
// Extract multiple pages
Input.AddPdfPages("example.pdf", numbers);
// Read the pages and extract content
var Result = Ocr.Read(Input);
// Output the recognized text and save to a text file
Console.WriteLine(Result.Text);
Result.SaveAsTextFile("ocrtext.txt");
}
using IronOcr;
using System.Collections.Generic;
IEnumerable<int> numbers = new List<int> {2, 8, 10};
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Extract single page
Input.AddPdfPage("example.pdf", 10);
// Extract multiple pages
Input.AddPdfPages("example.pdf", numbers);
// Read the pages and extract content
var Result = Ocr.Read(Input);
// Output the recognized text and save to a text file
Console.WriteLine(Result.Text);
Result.SaveAsTextFile("ocrtext.txt");
}
Imports IronOcr
Imports System.Collections.Generic
Private numbers As IEnumerable(Of Integer) = New List(Of Integer) From {2, 8, 10}
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' Extract single page
Input.AddPdfPage("example.pdf", 10)
' Extract multiple pages
Input.AddPdfPages("example.pdf", numbers)
' Read the pages and extract content
Dim Result = Ocr.Read(Input)
' Output the recognized text and save to a text file
Console.WriteLine(Result.Text)
Result.SaveAsTextFile("ocrtext.txt")
End Using
En utilisant la fonction SaveAsTextFile, nous pouvons stocker le résultat sous forme de fichier texte, ce qui nous permet de télécharger le fichier dans le chemin du répertoire de sortie. De plus, nous pouvons enregistrer le fichier dans un fichier HTML en utilisant SaveAsHocrFile.
6.0 Autres fonctionnalités
6.1 Utiliser Asprise OCR
Asprise OCR a des options supplémentaires telles que Dessiner la Zone de Texte, Dessiner la Zone d'Image, Dessiner la Zone de Table, Dessiner la Zone à Reconnaître, etc. Toutes ces options permettent à l'utilisateur d'améliorer la performance de l'OCR. Non seulement l'application effectue l'OCR, mais nous pouvons aussi faire des opérations telles que combiner des PDFs, diviser des PDFs, éditer des PDFs, etc...
6.2 Utilisation de IronOCR
IronOCR a des fonctionnalités uniques qui nous permettent de lire les codes-barres et QR codes à partir de documents scannés. Les codes ci-dessous montrent comment nous pouvons lire un code-barres à partir d'une image ou d'un document donné.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.ReadBarCodes = true;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())
{
// Add an image containing a barcode
Input.AddImage("barcode.gif");
// Read the image to recognize text and barcodes
var Result = Ocr.Read(Input);
// Loop through barcodes and output the value
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
}
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.ReadBarCodes = true;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())
{
// Add an image containing a barcode
Input.AddImage("barcode.gif");
// Read the image to recognize text and barcodes
var Result = Ocr.Read(Input);
// Loop through barcodes and output the value
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
}
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.ReadBarCodes = True
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
Using Input = New OcrInput()
' Add an image containing a barcode
Input.AddImage("barcode.gif")
' Read the image to recognize text and barcodes
Dim Result = Ocr.Read(Input)
' Loop through barcodes and output the value
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
Next Barcode
End Using
Ce qui précède est le code qui aide à lire un code-barres à partir d'une image ou d'un document PDF donné. Il peut lire plus d'un code-barres sur une page/image. Pour lire un code-barres, IronOCR dispose d'un paramètre unique, Ocr.Configuration.ReadBarCodes, qui permet de lire un code-barres. La valeur par défaut est définie sur false.
Après la lecture des données d'entrée, celles-ci seront enregistrées dans l'objet appelé OCRResult. Cela a une propriété appelée Barcodes, et elle contiendra toutes les données de codes-barres disponibles dans une liste. En utilisant la boucle for-each, nous pouvons obtenir tous les détails de codes-barres un par un. De plus, il scanne le code-barres et lit la valeur du code-barres — deux opérations réalisées en un seul processus.
Cela supportera également les options de threading. Nous pouvons effectuer plusieurs processus OCR en même temps. IronOCR est également capable de reconnaître une zone spécifique d'une région spécifiée.
using IronOcr;
using System.Drawing;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Define the area to recognize text
var ContentArea = new Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Add the document with the specified content area
Input.Add("document.png", ContentArea);
// Perform OCR on the specified region
var Result = Ocr.Read(Input);
// Output the recognized text to the console
Console.WriteLine(Result.Text);
}
using IronOcr;
using System.Drawing;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Define the area to recognize text
var ContentArea = new Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Add the document with the specified content area
Input.Add("document.png", ContentArea);
// Perform OCR on the specified region
var Result = Ocr.Read(Input);
// Output the recognized text to the console
Console.WriteLine(Result.Text);
}
Imports IronOcr
Imports System.Drawing
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' Define the area to recognize text
Dim ContentArea = New Rectangle() With {
.X = 215,
.Y = 1250,
.Height = 280,
.Width = 1335
}
' Add the document with the specified content area
Input.Add("document.png", ContentArea)
' Perform OCR on the specified region
Dim Result = Ocr.Read(Input)
' Output the recognized text to the console
Console.WriteLine(Result.Text)
End Using
Ce qui précède est un exemple de code pour effectuer l'OCR sur une région spécifique. Nous devons seulement spécifier la région rectangulaire dans l'image ou le PDF. Le moteur Tesseract dans IronOCR nous aide à reconnaître le texte.
7.0 Modèles de Licence et Tarification de IronOCR et Asprise OCR
Modèles de Licence et Prix de IronOCR
Garantie de remboursement de 30 jours : lors de l'achat de la licence, vous bénéficiez d'un remboursement intégral sous 30 jours si celle-ci ne fonctionne pas.
Intégration facile : l'intégration d' IronOCR à un projet et à un environnement est si simple qu'elle se fait en écrivant une seule ligne de code et en l'ajoutant à partir du package NuGet . Ou, nous pouvons le télécharger depuis le web et l'intégrer à notre environnement de cette manière.
Licence perpétuelle : chaque licence est achetée une seule fois et ne nécessite aucun renouvellement.
Support gratuit et mises à jour de produits : chaque licence est livrée avec une année gratuite de mises à jour de produits et de support de l'équipe derrière le produit. Il est possible d'acheter des extensions à tout moment. Les extensions peuvent être consultées.
Licences immédiates : les clés de licence enregistrées sont envoyées dès réception du paiement.
Toutes les licences sont perpétuelles et s'appliquent au développement, à la mise en scène et à la production.
La Licence Lite :
- 1 développeur
- 1 emplacement
- 1 projet
- Licence perpétuelle
Ce package permet à un développeur logiciel unique dans une organisation d'utiliser Iron Software en un seul endroit. Le logiciel Iron peut être utilisé dans une seule application web, application intranet ou programme logiciel de bureau. Les licences sont non transférables et ne peuvent pas être partagées en dehors d'une organisation ou d'une relation agence/client. Ce type de licence, comme tous les autres types de licence, exclut expressément tous les droits non expressément accordés aux termes de l'Accord, sans redistribution OEM et en utilisant le logiciel Iron en tant que SaaS sans achat de couverture supplémentaire.
Tarification : À partir de $799 par an.
La Licence Professionnelle :
- 10 développeurs
- 10 emplacements
- 10 projets
- Licence perpétuelle
Ce package permet à un nombre prédéfini de développeurs logiciels dans une organisation d'utiliser Iron Software en un seul endroit, jusqu'à un maximum de dix. Le logiciel Iron peut être utilisé dans autant de sites Web, d'applications intranet, ou d'applications logicielles de bureau que vous le souhaitez. Les licences sont non transférables, et elles ne peuvent pas être partagées en dehors d'une organisation ou d'une relation agence/client. Ce type de licence, comme tous les autres types de licences, exclut expressément tous les droits non expressément accordés par l'Accord, y compris la redistribution OEM et utilisant le logiciel Iron en tant que SaaS sans acheter de couverture supplémentaire. Cette licence peut être intégrée à un seul projet jusqu'à un maximum de 10.
Tarification : Commence à partir de $999 par an.
La Licence Illimitée :
- Développeurs illimités
- Emplacements illimités
- Projets illimités
- Licence perpétuelle
Cela permet à un nombre illimité de développeurs de logiciels dans une organisation d'utiliser le logiciel Iron dans un nombre illimité d'emplacements. Le logiciel Iron peut être utilisé dans autant de sites Web, d'applications intranet, ou d'applications logicielles de bureau que vous le souhaitez. Les licences sont non transférables, et elles ne peuvent pas être partagées en dehors d'une organisation ou d'une relation agence/client. Ce type de licence, comme tous les autres types de licences, exclut expressément tous les droits non expressément accordés par l'Accord, y compris la redistribution OEM et utilisant le logiciel Iron en tant que SaaS sans acheter de couverture supplémentaire.
Tarification : Commence à partir de $2,999 par an.
Redistribution sans redevances : cela vous permet de distribuer le Iron Software dans le cadre de différents produits commerciaux (sans avoir à payer de redevances) en fonction du nombre de projets couverts par la licence de base. Il permet le déploiement du logiciel Iron au sein des services logiciels SaaS, en fonction du nombre de projets couverts par la licence de base.
Tarification : Commence à partir de $1,599 par an.
Modèles de Licence et Tarification de Asprise OCR
La Licence Lite :
- Utilisateurs finaux illimités
- Reconnaître le texte
- Lire les codes-barres 1D : UPC, EAN, Code39, Code128
- Sortie : Texte, XML et PDF
- Déploiement facile
- Support 2 OS seulement
- Sièges 1
- Support : Non
Tarification : À partir de $7998 par an.
La Licence Standard :
- Utilisateurs finaux illimités
- Entrée : BMP, GIF, PNG, JPEG, TIFF et PDF.
- Reconnaître le texte
- Lire les codes-barres 1D : UPC, EAN, Code39, Code128
- Lire certains 2D : QR et Data Matrix seulement
- Sortie : Texte, XML et PDF
- Déploiement facile
- Support : Non
Tarification : À partir de $7,998 par an.
La Licence Entreprise :
- Utilisateurs finaux illimités
- Entrée : BMP, GIF, PNG, JPEG, TIFF et PDF.
- Reconnaître le texte
- Lire les codes-barres 1D : UPC, EAN, Code39, Code128
- 2D : QR, PDF 417, Data Matrix & Aztec
- Sortie : Texte, XML et PDF
- Déploiement facile
- Multithreading, multiprocessement
Tarification : À partir de $12,998.
IronOCR Lite, incluant un package pour un développeur avec un an de support, coûte environ $799, tandis qu'Asprise Lite, incluant un package pour un développeur, coûte $7998 sans support technique, et $6,296 avec un support technique payant. La licence professionnelle de IronOCR incluant un package 10 développeurs avec un an de support technique coûte $999, tandis que la licence équivalente d'Asprise incluant un package 10 développeurs coûte $37,998 par an sans support technique, mais avec des releases et mises à jour payantes ainsi qu'un support pour un an coûte $46,999.00.
Les packages Lite et Professional d'IronOCR ont un service SaaS ou OEM et une option de support de 5 ans. La version Lite, incluant un package développeur unique avec 5 ans de support et service SaaS et OEM, coûte 2897USD, tandis que Asprise propose un service SaaS ou OEM et une option de support personnalisé. La version Professionnelle de IronOCR comprend un package pour 10 développeurs avec un an de support payant et un service SaaS et OEM coûte 3397USD, tandis que la version Asprise avec un package pour 10 développeurs sans support d'un an et avec service SaaS et OEM coûte $59,996.
8.0 Conclusion
IronOCR dans le contexte .NET Framework fournit Tesseract qui est simple et facile à utiliser. Il prend en charge des photos et des documents PDF de différentes manières. Il fournit également un certain nombre de paramètres pour améliorer les performances de la bibliothèque Tesseract OCR. Différentes langues sont prises en charge, ainsi que de nombreuses langues dans une seule opération. Pour en savoir plus sur Tesseract OCR, visitez leur site Web.
Asprise est une application logicielle qui utilise un moteur d'intelligence artificielle pour reconnaître des images et des documents PDF. Il fournit également divers paramètres pour améliorer les performances du processus OCR. De plus, il offre la possibilité de sélectionner plusieurs langues. Asprise a des limitations concernant l'utilisation des conversions de page. Elle a également un prix différent selon les systèmes d'exploitation.
Les offres IronOCR proposent une licence et un support plus avantageux que ceux d'Asprise. Asprise OCR propose des offres personnalisées et fixes plus onéreuses. IronOCR est disponible à partir de $799, tandis qu'Asprise OCR est disponible à partir de $7994 par an. Notre produit est donc plus économique et offre davantage de fonctionnalités qu'Aspire. De plus, il est compatible avec plusieurs plateformes pour un prix unique.
Alors, qu'attendez-vous ? L'essai gratuit est ouvert à tous. You can obtain the License here and begin straightaway.
Questions Fréquemment Posées
Qu'est-ce que la reconnaissance optique de caractères ?
La reconnaissance optique de caractères (OCR) est la technologie utilisée pour convertir différents types de documents, tels que des documents papier numérisés, des PDF ou des images capturées par un appareil photo numérique, en données éditables et consultables. Des outils comme IronOCR sont utilisés pour effectuer l'OCR en convertissant des images de texte en véritables données textuelles.
Comment puis-je convertir des images en texte à l'aide de C# ?
IronOCR propose une solution robuste pour convertir des images en texte en C#. Vous pouvez utiliser ses puissantes capacités OCR pour traiter des fichiers image et extraire du texte, même à partir d'images de mauvaise qualité, en utilisant le moteur Tesseract 5.
Quels formats IronOCR prend-il en charge pour les opérations OCR ?
IronOCR prend en charge une large gamme de formats pour les opérations OCR, notamment JPEG, PNG, GIF, BMP, TIFF et PDF. Il peut également gérer des documents multipages et des PDF protégés par mot de passe.
Comment installer IronOCR dans mon projet C# ?
Vous pouvez installer IronOCR dans votre projet C# à l'aide de NuGet Package Manager dans Visual Studio. Alternativement, vous pouvez utiliser la ligne de commande avec Install-Package IronOCR ou le télécharger directement depuis le site Web d'IronOCR.
Quels sont les avantages d'utiliser IronOCR par rapport à d'autres bibliothèques OCR ?
IronOCR offre un support linguistique étendu, d'excellentes performances avec des images de mauvaise qualité et des fonctionnalités telles que la reconnaissance des codes barres et QR. Il offre des licences économiques et prend en charge plusieurs plateformes à un seul prix, ce qui en fait un choix polyvalent pour les développeurs.
IronOCR peut-il gérer des documents multipages ?
Oui, IronOCR peut traiter des documents multipages, y compris les TIFF et PDF, en extrayant efficacement le texte de chaque page. Cela est particulièrement utile pour traiter de grands documents ou pour le traitement par lots.
Quelles options de licences sont disponibles pour IronOCR ?
IronOCR propose des options de licences perpétuelles flexibles, y compris les licences Lite, Professional et Unlimited. Ces licences sont sans redevance et prennent en charge les services SaaS et OEM, ce qui les rend adaptées à divers scénarios de déploiement.
Comment IronOCR gère-t-il l'extraction de texte d'images de mauvaise qualité ?
IronOCR excelle dans l'extraction de texte à partir d'images de mauvaise qualité en utilisant des techniques de prétraitement avancées pour améliorer la qualité des images avant d'effectuer l'OCR. Cela améliore considérablement la précision de la reconnaissance de texte.


