Passer au contenu du pied de page
COMPARER à D'AUTRES COMPOSANTS

Une comparaison entre IronOCR et PDFTRON OCR

L'OCR signifie "Reconnaissance Optique de Caractères". C'est le processus de conversion de documents papier ou d'images en texte lisible. Diverses méthodes existent pour cela, telles que le scan ou la saisie manuelle via un clavier. Cela est fait pour convertir tout fichier scanné et PDF en leur format de texte original. Ce processus s'est avéré inestimable dans les affaires criminelles où les documents sont trop endommagés pour une transcription manuelle mais peuvent être scannés et interprétés par un logiciel OCR.

Avec l'avancement de la technologie et l'adoption omniprésente des outils numériques, l'OCR a également été implémenté dans d'autres domaines tels que la conversion de documents sur des applications comme Google Docs, ainsi que dans le milieu académique et le monde des affaires. Il existe deux types principaux d'OCR, "statique" et "dynamique". Le type le plus courant est l'OCR statique dans lequel l'intégralité du document est scannée d'un coup. L'OCR dynamique, en revanche, scanne une ligne à la fois et peut traiter des mises en page plus sophistiquées telles que les données tabulaires.

Cet article discutera de la comparaison entre deux des applications et bibliothèques de documents les plus répandues pour l'OCR et le PDF. Ce sont :

  • PDFTron OCR
  • IronOCR

1.0 Introduction

1.1 Introduction et Caractéristiques de PDFTron OCR

Pour utiliser l'OCR avec PDFTron SDK, nous devons installer un utilitaire de module OCR additionnel. Cela aide le SDK à détecter le texte des documents. Il peut rendre le texte sélectionnable et consultable. Le SDK PDFTron prend en charge jusqu'à 100 langues. Le moteur d'OCR PDFTron est supporté par un réseau neuronal LSTM open-source de Tesseract. PDFTron OCR prend en charge plusieurs types de formats d'image pour la détection de texte. Les fichiers PDF contenant uniquement des images raster sont également acceptés pour l'OCR avec une qualité de sortie dépendante de l'image d'entrée. Les meilleures images pour l'OCR sont des images en niveaux de gris avec une résolution de 300 DPI.

Les caractéristiques de PDFTron OCR

  • Rendre les images consultables dans les documents imprimés.
  • Convertir un PDF simple en un PDF consultable.
  • Détecter les informations importantes des documents commerciaux.
  • Faciliter la numérisation de livres.
  • Détection des numéros de véhicules à partir d'images de véhicules.
  • Aider les utilisateurs malvoyants.
  • Il devient facile d'effectuer la saisie de données dans plusieurs documents à partir de fichiers à l'aide de l'OCR.
  • Transférer facilement les informations des cartes de visite vers des listes de données de contact.

1.2 IronOCR — Introduction et fonctionnalités

Iron Software fournit aux ingénieurs logiciels IronOCR pour .NET afin de lire le contenu textuel des photos et des PDFs dans des applications et sites web .NET. Le logiciel aide à scanner les photos pour le texte et les codes-barres, prend en charge de nombreuses langues dans le monde, et fournit une sortie sous forme de texte brut ou de données structurées. La bibliothèque OCR d'Iron Software peut être utilisée dans les applications Web, console, MVC, et de bureau .NET. Dans le cas d'un déploiement commercial, une assistance directe de l'équipe de développement est fournie avec les licences achetées.

  • IronOCR utilise le dernier moteur Tesseract 5 qui lit le texte, les codes QR, et les codes-barres à partir de n'importe quel format PDF. Ajouter l'OCR aux applications de bureau, web et console avec cette bibliothèque assure une intégration rapide.
  • IronOCR prend en charge 125 langues internationales. Elle prend également en charge les langues et les listes de mots personnalisés.
  • IronOCR peut lire plus de 20 formats de codes-barres et de QR codes.
  • Prend en charge les formats d'image GIF et TIFF multi-pages.
  • Corrige les scans et images de mauvaise qualité.
  • Prend en charge le multithreading. Elle peut exécuter un ou plusieurs processus en même temps.
  • IronOCR peut fournir une sortie de données structurées à des pages, paragraphes, lignes, mots, caractères, etc.
  • IronOCR prend en charge des systèmes d'exploitation tels que Windows, Linux, macOS, etc.

2. Création d'un nouveau projet dans Visual Studio

Ouvrez Visual Studio et localisez le menu Fichier. Sélectionnez un nouveau projet, puis sélectionnez Application Console. Pour générer des documents PDF, nous allons utiliser l'application Console dans cet article.

Pdftron Ocr Alternatives 1 related to 2. Création d'un nouveau projet dans Visual Studio

Entrez le nom du projet et sélectionnez le chemin d'accès dans la zone de texte appropriée. Ensuite, cliquez sur le bouton Créer. Également, sélectionnez le .NET Framework requis.

Le projet Visual Studio générera maintenant la structure pour l'application sélectionnée.

La structure du projet sera maintenant générée par Visual Studio. Le fichier program.cs s'ouvrira si vous avez sélectionné Windows, console, et application web pour que vous puissiez entrer le code et construire/exécuter votre application.

Pdftron Ocr Alternatives 2 related to 2. Création d'un nouveau projet dans Visual Studio

Pour l'étape suivante, nous devons ajouter la bibliothèque pour tester le code.

3.0 Installation

3.1 Installer PDFtron OCR

The PDFTron OCR installation is completed manually and can be downloaded as a zip from the given link. Décompressez et configurez-le avec le projet. Le guide vous aidera à exécuter les exemples PDFTron en utilisant l'essai intégré gratuit du SDK PDFTron dans une application .NET Framework utilisant Windows. Le soutien des ingénieurs de solutions et l'utilisation illimitée de l'essai sont inclus dans l'essai gratuit.

Prérequis

Visual Studio : Assurez-vous que la charge de travail .NET Desktop Development et les outils de développement .NET Framework 4.5.1+ font partie de votre installation. Ce guide utilisera Visual Studio 2017 et la bibliothèque PDFTron C# .NET pour Windows. Download the library using this link, .NET PDF SDK Download.

Configuration initiale

Extrayez le dossier du fichier .zip. PDFNET_BASE est utilisé dans ce guide pour sélectionner le chemin dans le dossier que vous avez extrait.

// Set the base path where the extracted files are located
PDFNET_BASE = "path/to/extraction/folder/PDFNetDotNet4/";
// Set the base path where the extracted files are located
PDFNET_BASE = "path/to/extraction/folder/PDFNetDotNet4/";
' Set the base path where the extracted files are located
PDFNET_BASE = "path/to/extraction/folder/PDFNetDotNet4/"
$vbLabelText   $csharpLabel

Exécuter les exemples

Naviguez vers l'emplacement des contenus extraits. Trouvez et entrez le dossier Samples (PDFNET_BASE/Samples). Ce dossier contient de nombreux codes exemples pour les fonctionnalités prises en charge par le SDK PDFTron.

  1. Ouvrez Samples_20XX.sln dans Visual Studio. Choisissez une version appropriée pour votre installation Visual Studio.
  2. Select the sample code and set it as the Startup Project for the solution.
  3. Exécutez le projet.

Intégrer dans votre application

Ceci est appelé l'application "PDFTron Hello World". Il est facile d'intégrer le reste du SDK PDFTron si vous pouvez ouvrir, enregistrer et fermer un document PDF.

  1. Dans Visual Studio, créez un projet d'application console .NET Framework dans votre langage préféré. Vous pouvez les trouver sous la catégorie Visual C# ou Visual Basic.
  2. Naviguez dans le dossier de votre projet. Par défaut, le chemin devrait être similaire à : C:/Users/User_Name/source/repos/myApp
  3. De PDFNET_BASE à votre dossier de projet (ce dossier aura votre fichier .csproj ou .vbproj), copiez le dossier Lib.
  4. Trouvez l'Explorateur de Solutions sur le côté droit. Sélectionnez l'option Ajouter une référence en faisant un clic droit sur Références. Cela ouvre une boîte de dialogue Gestionnaire de Références.
  5. Située au bas de la boîte de dialogue, sélectionnez Parcourir. Localisez dans le dossier Lib copié pour ajouter PDFNetLoader.dll aux références
  6. En outre, depuis le dossier x86 ajoutez la version appropriée de PDFNet.dll comme autre référence (chemin/vers/votre/dossier de projet/Lib/PDFNet/x86/PDFNet.dll). Cela garantira que l'application fonctionnera sur les systèmes d'exploitation 32 bits et 64 bits.
  7. Cliquez sur PDFNet.dll. Assurez-vous de définir sa propriété de copie locale sur False.
Pdftron Ocr Alternatives 3 related to Intégrer dans votre application

3.2 Installer IronOCR

La bibliothèque IronOCR peut être installée de quatre manières.

Ce sont :

  • Utilisation de Visual Studio.
  • Utilisation de la ligne de commande Visual Studio.
  • Téléchargement direct depuis le site NuGet.
  • Téléchargement direct depuis le site IronOCR.

3.2.1 Utilisation de Visual Studio

Le logiciel Visual Studio fournit l'option du gestionnaire de paquet NuGet pour installer directement le paquet dans la solution. La capture d'écran montre comment ouvrir le gestionnaire de paquet NuGet.

Pdftron Ocr Alternatives 4 related to 3.2.1 Utilisation de Visual Studio

Cela fournira une boîte de recherche pour afficher la liste des paquets du site NuGet. Dans le gestionnaire de paquet, nous devons rechercher le mot-clé "IronOCR", comme dans la capture d'écran ci-dessous :

Pdftron Ocr Alternatives 5 related to 3.2.1 Utilisation de Visual Studio

À partir de l'image ci-dessus, nous pouvons voir la liste des résultats de recherche relatifs. Pour installer le paquet dans la solution, nous devons sélectionner l'option requise.

3.2.2 Utilisation de la ligne de commande Visual Studio

  • Dans Visual Studio : Allez dans Outils-> Gestionnaire de Paquets NuGet -> Console du gestionnaire de paquets
  • Entrez le code ci-dessous dans l'onglet de la console du gestionnaire de paquets.
Install-Package IronOcr

Le paquet sera maintenant installé directement dans le projet actuel qui sera alors prêt à être utilisé.

3.2.3 Téléchargement direct depuis le site NuGet

Pour la troisième méthode, nous pouvons télécharger directement le paquet NuGet depuis le site Web.

  • Naviguez vers ce lien.
  • Dans le menu de droite, assurez-vous de sélectionner l'option de téléchargement du paquet.
  • Double-cliquez sur le paquet téléchargé. Il s'installera automatiquement.
  • Ensuite, rechargez la solution et commencez à l'utiliser dans le projet.

3.2.4 Téléchargement direct depuis le site IronOCR

Vous pouvez télécharger directement le dernier paquet depuis le site en cliquant sur ce lien. Suivez les instructions fournies pour ajouter le paquet au projet une fois le dernier paquet téléchargé.

  • Faites un clic droit sur le projet depuis la fenêtre de solution.
  • Sélectionnez l'option Référence pour parcourir l'emplacement de la référence téléchargée.
  • Ensuite, cliquez sur OK pour ajouter la référence.

4.0 Image OCR

IronOCR et PDFtron OCR ont tous deux une technologie OCR qui convertira les images en texte pour la recherche.

4.1 Utilisation de PDFTron

Convertissez PDF en DOCX, DOC, HTML, SVG, TIFF, PNG, JPEG, XPS, EPUB, TXT, et bien d'autres formats.

// Create a new PDF document
PDFDoc doc = new PDFDoc("sample.pdf");

// Convert PDF document to SVG
Convert.ToSvg(doc, "output.svg");

// Convert PDF document to XPS
Convert.ToXps("sample.pdf", "output.xps");

// Convert PDF document to multipage TIFF
Convert.TiffOutputOptions tiff_options = new Convert.TiffOutputOptions();
tiff_options.SetDPI(200);
tiff_options.SetDither(true);
tiff_options.SetMono(true);
Convert.ToTiff("sample.pdf", "output.tiff", tiff_options);

// Convert PDF to XOD
Convert.ToXod("sample.pdf", "output.xod");

// Convert PDF to HTML
Convert.ToHtml("sample.pdf", "output.html");
// Create a new PDF document
PDFDoc doc = new PDFDoc("sample.pdf");

// Convert PDF document to SVG
Convert.ToSvg(doc, "output.svg");

// Convert PDF document to XPS
Convert.ToXps("sample.pdf", "output.xps");

// Convert PDF document to multipage TIFF
Convert.TiffOutputOptions tiff_options = new Convert.TiffOutputOptions();
tiff_options.SetDPI(200);
tiff_options.SetDither(true);
tiff_options.SetMono(true);
Convert.ToTiff("sample.pdf", "output.tiff", tiff_options);

// Convert PDF to XOD
Convert.ToXod("sample.pdf", "output.xod");

// Convert PDF to HTML
Convert.ToHtml("sample.pdf", "output.html");
' Create a new PDF document
Dim doc As New PDFDoc("sample.pdf")

' Convert PDF document to SVG
Convert.ToSvg(doc, "output.svg")

' Convert PDF document to XPS
Convert.ToXps("sample.pdf", "output.xps")

' Convert PDF document to multipage TIFF
Dim tiff_options As New Convert.TiffOutputOptions()
tiff_options.SetDPI(200)
tiff_options.SetDither(True)
tiff_options.SetMono(True)
Convert.ToTiff("sample.pdf", "output.tiff", tiff_options)

' Convert PDF to XOD
Convert.ToXod("sample.pdf", "output.xod")

' Convert PDF to HTML
Convert.ToHtml("sample.pdf", "output.html")
$vbLabelText   $csharpLabel

4.2 Utilisation d'IronOCR

// Create an IronTesseract object
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

using (var Input = new OcrInput())
{
    // Add an image for OCR
    Input.AddImage(@"3.png");
    // Read the text from the image
    var Result = Ocr.Read(Input);
    // Print the text to the console
    Console.WriteLine(Result.Text);
    Console.ReadKey();
}
// Create an IronTesseract object
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

using (var Input = new OcrInput())
{
    // Add an image for OCR
    Input.AddImage(@"3.png");
    // Read the text from the image
    var Result = Ocr.Read(Input);
    // Print the text to the console
    Console.WriteLine(Result.Text);
    Console.ReadKey();
}
' Create an IronTesseract object
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5

Using Input = New OcrInput()
	' Add an image for OCR
	Input.AddImage("3.png")
	' Read the text from the image
	Dim Result = Ocr.Read(Input)
	' Print the text to the console
	Console.WriteLine(Result.Text)
	Console.ReadKey()
End Using
$vbLabelText   $csharpLabel

Illustré ci-dessus est le processus de conversion des fichiers image en texte avec l'API Tesseract 5. La ligne de code ci-dessus a été utilisée pour créer un objet pour Iron Tesseract. De plus, pour nous assurer que nous pouvons ajouter un ou plusieurs fichiers image, nous avons produit un objet OcrInput qui nécessitera le chemin d'image disponible. Dans l'objet Iron Tesseract, la fonction "Read" peut être utilisée pour obtenir les images en analysant le fichier image et en extrayant le résultat produit dans le résultat OCR. Il est capable d'extraire le texte des photos et de le convertir en chaîne.

Tesseract peut être utilisé pour ajouter des images multi-cadres en utilisant la méthode "AddMultiFrameTiff" pour ce processus. Chaque cadre de l'image est lu et traité comme une page distincte par la bibliothèque Tesseract. Chaque cadre de l'image est lu avant de passer au cadre suivant jusqu'à ce que chaque cadre ait été scanné avec succès. Le format d'image TIFF est le seul format pris en charge dans cette méthode.

Pdftron Ocr Alternatives 6 related to 4.2 Utilisation d'IronOCR

La conversion réussie des données en texte modifiable est affichée dans l'image ci-dessus, résultat de la précision d'IronOCR.

5.0 Fichier PDF OCR

IronOCR et PDFTron OCR convertissent les fichiers PDF en texte modifiable. PDFTron OCR fournit une liste d'options à l'utilisateur telles que la sauvegarde de la page, la modification de l'image, la reconnaissance de la page, etc. De plus, il peut fournir des options de sauvegarde comme le document, le texte, le format HTML, etc. IronOCR nous permet également de sauvegarder un fichier OCR converti en HTML, texte, PDF, etc.

5.1 Utilisation de PDFTron OCR

Le code d'exemple complet montre comment utiliser PDFTron OCR pour une conversion directe et de haute qualité entre PDF, XPS, EMF, SVG, TIFF, PNG, JPEG, et d'autres formats d'image.

// Copyright (c) 2001-2021 by PDFTron Systems Inc. All Rights Reserved.

using System;
using pdftron;
using pdftron.Common;
using pdftron.Filters;
using pdftron.SDF;
using pdftron.PDF;

// This code demonstrates conversion of documents to formats such as SVG, PDF, EMF, or XPS.

namespace ConvertTestCS
{
    class Testfile
    {
        public string inputFile, outputFile;
        public bool requiresWindowsPlatform;
        public Testfile(string inFile, string outFile, bool requiresWindowsPlatform_)
        {
            inputFile = inFile;
            outputFile = outFile;
            requiresWindowsPlatform = requiresWindowsPlatform_;
        }
    };

    class Class1
    {
        private static pdftron.PDFNetLoader pdfNetLoader = pdftron.PDFNetLoader.Instance();
        static Class1() {}

        // Relative paths to the input and output folders.
        const string inputPath = "../../../../TestFiles/";
        const string outputPath = "../../../../TestFiles/Output/";

        static bool ConvertSpecificFormats()
        {
            bool err = false;
            try
            {
                using (PDFDoc pdfdoc = new PDFDoc())
                {
                    // Convert from XPS to PDF
                    Console.WriteLine("Converting from XPS");
                    pdftron.PDF.Convert.FromXps(pdfdoc, inputPath + "simple-xps.xps");
                    pdfdoc.Save(outputPath + "xps2pdf v2.pdf", SDFDoc.SaveOptions.e_remove_unused);
                    Console.WriteLine("Saved xps2pdf v2.pdf");
                }
            }
            catch (PDFNetException e)
            {
                Console.WriteLine(e.Message);
                err = true;
            }

            // Other format conversions...

            return err;
        }

        static Boolean ConvertToPdfFromFile()
        {
            System.Collections.ArrayList testfiles = new System.Collections.ArrayList();
            testfiles.Add(new ConvertTestCS.Testfile("simple-word_2007.docx", "docx2pdf.pdf", false));
            // Add other test files...

            bool err = false;

            foreach (Testfile file in testfiles)
            {
                try
                {
                    using (pdftron.PDF.PDFDoc pdfdoc = new PDFDoc())
                    {
                        // Conditions and conversions...
                        pdftron.PDF.Convert.ToPdf(pdfdoc, inputPath + file.inputFile);
                        pdfdoc.Save(outputPath + file.outputFile, SDFDoc.SaveOptions.e_linearized);
                        Console.WriteLine("Converted file: " + file.inputFile);
                        Console.WriteLine("to: " + file.outputFile);
                    }
                }
                // Catch exceptions...
            }

            return err;
        }

        static void Main(string [] args)
        {
            PDFNet.Initialize(PDFTronLicense.Key);
            bool err = false;

            err = ConvertToPdfFromFile();
            if (err)
            {
                Console.WriteLine("ConvertFile failed");
            }
            else
            {
                Console.WriteLine("ConvertFile succeeded");
            }

            err = ConvertSpecificFormats();
            if (err)
            {
                Console.WriteLine("ConvertSpecificFormats failed");
            }
            else
            {
                Console.WriteLine("ConvertSpecificFormats succeeded");
            }

            // Finalization...
            PDFNet.Terminate();
            Console.WriteLine("Done.");
        }
    }
}
// Copyright (c) 2001-2021 by PDFTron Systems Inc. All Rights Reserved.

using System;
using pdftron;
using pdftron.Common;
using pdftron.Filters;
using pdftron.SDF;
using pdftron.PDF;

// This code demonstrates conversion of documents to formats such as SVG, PDF, EMF, or XPS.

namespace ConvertTestCS
{
    class Testfile
    {
        public string inputFile, outputFile;
        public bool requiresWindowsPlatform;
        public Testfile(string inFile, string outFile, bool requiresWindowsPlatform_)
        {
            inputFile = inFile;
            outputFile = outFile;
            requiresWindowsPlatform = requiresWindowsPlatform_;
        }
    };

    class Class1
    {
        private static pdftron.PDFNetLoader pdfNetLoader = pdftron.PDFNetLoader.Instance();
        static Class1() {}

        // Relative paths to the input and output folders.
        const string inputPath = "../../../../TestFiles/";
        const string outputPath = "../../../../TestFiles/Output/";

        static bool ConvertSpecificFormats()
        {
            bool err = false;
            try
            {
                using (PDFDoc pdfdoc = new PDFDoc())
                {
                    // Convert from XPS to PDF
                    Console.WriteLine("Converting from XPS");
                    pdftron.PDF.Convert.FromXps(pdfdoc, inputPath + "simple-xps.xps");
                    pdfdoc.Save(outputPath + "xps2pdf v2.pdf", SDFDoc.SaveOptions.e_remove_unused);
                    Console.WriteLine("Saved xps2pdf v2.pdf");
                }
            }
            catch (PDFNetException e)
            {
                Console.WriteLine(e.Message);
                err = true;
            }

            // Other format conversions...

            return err;
        }

        static Boolean ConvertToPdfFromFile()
        {
            System.Collections.ArrayList testfiles = new System.Collections.ArrayList();
            testfiles.Add(new ConvertTestCS.Testfile("simple-word_2007.docx", "docx2pdf.pdf", false));
            // Add other test files...

            bool err = false;

            foreach (Testfile file in testfiles)
            {
                try
                {
                    using (pdftron.PDF.PDFDoc pdfdoc = new PDFDoc())
                    {
                        // Conditions and conversions...
                        pdftron.PDF.Convert.ToPdf(pdfdoc, inputPath + file.inputFile);
                        pdfdoc.Save(outputPath + file.outputFile, SDFDoc.SaveOptions.e_linearized);
                        Console.WriteLine("Converted file: " + file.inputFile);
                        Console.WriteLine("to: " + file.outputFile);
                    }
                }
                // Catch exceptions...
            }

            return err;
        }

        static void Main(string [] args)
        {
            PDFNet.Initialize(PDFTronLicense.Key);
            bool err = false;

            err = ConvertToPdfFromFile();
            if (err)
            {
                Console.WriteLine("ConvertFile failed");
            }
            else
            {
                Console.WriteLine("ConvertFile succeeded");
            }

            err = ConvertSpecificFormats();
            if (err)
            {
                Console.WriteLine("ConvertSpecificFormats failed");
            }
            else
            {
                Console.WriteLine("ConvertSpecificFormats succeeded");
            }

            // Finalization...
            PDFNet.Terminate();
            Console.WriteLine("Done.");
        }
    }
}
' Copyright (c) 2001-2021 by PDFTron Systems Inc. All Rights Reserved.

Imports System
Imports pdftron
Imports pdftron.Common
Imports pdftron.Filters
Imports pdftron.SDF
Imports pdftron.PDF

' This code demonstrates conversion of documents to formats such as SVG, PDF, EMF, or XPS.

Namespace ConvertTestCS
	Friend Class Testfile
		Public inputFile, outputFile As String
		Public requiresWindowsPlatform As Boolean
		Public Sub New(ByVal inFile As String, ByVal outFile As String, ByVal requiresWindowsPlatform_ As Boolean)
			inputFile = inFile
			outputFile = outFile
			requiresWindowsPlatform = requiresWindowsPlatform_
		End Sub
	End Class

	Friend Class Class1
		Private Shared pdfNetLoader As pdftron.PDFNetLoader = pdftron.PDFNetLoader.Instance()
		Shared Sub New()
		End Sub

		' Relative paths to the input and output folders.
		Private Const inputPath As String = "../../../../TestFiles/"
		Private Const outputPath As String = "../../../../TestFiles/Output/"

		Private Shared Function ConvertSpecificFormats() As Boolean
			Dim err As Boolean = False
			Try
				Using pdfdoc As New PDFDoc()
					' Convert from XPS to PDF
					Console.WriteLine("Converting from XPS")
					pdftron.PDF.Convert.FromXps(pdfdoc, inputPath & "simple-xps.xps")
					pdfdoc.Save(outputPath & "xps2pdf v2.pdf", SDFDoc.SaveOptions.e_remove_unused)
					Console.WriteLine("Saved xps2pdf v2.pdf")
				End Using
			Catch e As PDFNetException
				Console.WriteLine(e.Message)
				err = True
			End Try

			' Other format conversions...

			Return err
		End Function

		Private Shared Function ConvertToPdfFromFile() As Boolean
			Dim testfiles As New System.Collections.ArrayList()
			testfiles.Add(New ConvertTestCS.Testfile("simple-word_2007.docx", "docx2pdf.pdf", False))
			' Add other test files...

			Dim err As Boolean = False

			For Each file As Testfile In testfiles
				Try
					Using pdfdoc As pdftron.PDF.PDFDoc = New PDFDoc()
						' Conditions and conversions...
						pdftron.PDF.Convert.ToPdf(pdfdoc, inputPath & file.inputFile)
						pdfdoc.Save(outputPath & file.outputFile, SDFDoc.SaveOptions.e_linearized)
						Console.WriteLine("Converted file: " & file.inputFile)
						Console.WriteLine("to: " & file.outputFile)
					End Using
				End Try
				' Catch exceptions...
			Next file

			Return err
		End Function

		Shared Sub Main(ByVal args() As String)
			PDFNet.Initialize(PDFTronLicense.Key)
			Dim err As Boolean = False

			err = ConvertToPdfFromFile()
			If err Then
				Console.WriteLine("ConvertFile failed")
			Else
				Console.WriteLine("ConvertFile succeeded")
			End If

			err = ConvertSpecificFormats()
			If err Then
				Console.WriteLine("ConvertSpecificFormats failed")
			Else
				Console.WriteLine("ConvertSpecificFormats succeeded")
			End If

			' Finalization...
			PDFNet.Terminate()
			Console.WriteLine("Done.")
		End Sub
	End Class
End Namespace
$vbLabelText   $csharpLabel

5.2 Utilisation d'IronOCR

La gestion des fichiers PDF peut être complétée en utilisant la fonction OCRInput. Chaque page d'un document sera lue par la classe Iron Tesseract. Le texte sera ensuite extrait des pages. Une seconde fonction appelée "AddPDF" nous permettra d'ouvrir des documents protégés et assure que nous pouvons ajouter des PDFs à notre liste de documents (mot de passe s'il est protégé). Pour ouvrir un document PDF protégé par mot de passe, utilisez le code ci-dessous :

var Ocr = new IronTesseract(); // Configure nothing
using (var Input = new OcrInput())
{
    // Add PDF with password
    Input.AddPdf("example.pdf", "password");
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
var Ocr = new IronTesseract(); // Configure nothing
using (var Input = new OcrInput())
{
    // Add PDF with password
    Input.AddPdf("example.pdf", "password");
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Dim Ocr = New IronTesseract() ' Configure nothing
Using Input = New OcrInput()
	' Add PDF with password
	Input.AddPdf("example.pdf", "password")
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

Lire et extraire le contenu d'une page dans un fichier PDF peut être réalisé en utilisant la fonction "Addpdfpage". Il suffit de spécifier le numéro de page exact à partir duquel nous voulons extraire le texte. "AddPdfPage" vous permettra d'extraire du texte de plusieurs pages que vous spécifiez. IEnumerable vous permettra de spécifier efficacement de nombreuses pages. Vous devez également inclure l'emplacement et l'extension du fichier. Le code ci-dessous le démontre :

IEnumerable<int> numbers = new List<int> {2,8,10};
// Create an IronTesseract object
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Single page
    Input.AddPdfPage("example.pdf",10);
    // Multiple pages
    Input.AddPdfPages("example.pdf", numbers);
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
    // Save result to a text file
    Result.SaveAsTextFile("ocrtext.txt");
}
IEnumerable<int> numbers = new List<int> {2,8,10};
// Create an IronTesseract object
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Single page
    Input.AddPdfPage("example.pdf",10);
    // Multiple pages
    Input.AddPdfPages("example.pdf", numbers);
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
    // Save result to a text file
    Result.SaveAsTextFile("ocrtext.txt");
}
Dim numbers As IEnumerable(Of Integer) = New List(Of Integer) From {2, 8, 10}
' Create an IronTesseract object
Dim Ocr = New IronTesseract()
Using Input = New OcrInput()
	' Single page
	Input.AddPdfPage("example.pdf",10)
	' Multiple pages
	Input.AddPdfPages("example.pdf", numbers)
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
	' Save result to a text file
	Result.SaveAsTextFile("ocrtext.txt")
End Using
$vbLabelText   $csharpLabel

Utilisez la fonction SaveAsTextFile pour stocker directement le résultat dans un format de fichier texte afin que vous puissiez directement télécharger le fichier vers le chemin du répertoire de sortie. Pour enregistrer le fichier au format HTML, utilisez SaveAsHocrFile.

6.1 Utilisation de PDFTron

Nous pouvons utiliser le SDK PDFTron pour extraire des images de fichiers PDF, ainsi que leurs informations de positionnement et DPI. Au lieu de convertir les images PDF en une bitmap, vous pouvez également extraire des données d'image non compressées/compressées directement en utilisant elements.GetImageData() (décrit dans le code d'exemple Extraction de données PDF). Apprenez-en plus sur notre bibliothèque PDF C# et sur la bibliothèque de parsing et d'extraction de contenu PDF.

6.2 Utilisation d'IronOCR

IronOCR a un nombre impressionnant de fonctionnalités qui vous permettront de lire des codes QR et des codes-barres directement à partir de documents scannés. Le code ci-dessous montre comment vous pouvez scanner le code-barres d'une image ou d'un document donné.

// Create an IronTesseract object
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.ReadBarCodes = true;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())
{
    // Add an image with a barcode
    Input.AddImage("barcode.gif");
    // Read the image
    var Result = Ocr.Read(Input);

    // Iterate over all barcodes found and display their values
    foreach (var Barcode in Result.Barcodes)
    {
        Console.WriteLine(Barcode.Value);
    }
}
// Create an IronTesseract object
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.ReadBarCodes = true;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())
{
    // Add an image with a barcode
    Input.AddImage("barcode.gif");
    // Read the image
    var Result = Ocr.Read(Input);

    // Iterate over all barcodes found and display their values
    foreach (var Barcode in Result.Barcodes)
    {
        Console.WriteLine(Barcode.Value);
    }
}
' Create an IronTesseract object
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.ReadBarCodes = True
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
Using Input = New OcrInput()
	' Add an image with a barcode
	Input.AddImage("barcode.gif")
	' Read the image
	Dim Result = Ocr.Read(Input)

	' Iterate over all barcodes found and display their values
	For Each Barcode In Result.Barcodes
		Console.WriteLine(Barcode.Value)
	Next Barcode
End Using
$vbLabelText   $csharpLabel

Le code ci-dessus aide à lire le code-barres d'une image ou d'un document PDF donné. De nombreux codes-barres peuvent être lus en même temps dans une seule image ou page. IronOCR a une méthode distinctive qui lira le code-barres, Ocr.Configuration.ReadBarCodes.

Les données sont stockées dans un objet appelé OCRResult après avoir scanné l'entrée. La propriété dans OCRResult s'appelle Barcodes qui contiendra une liste de toutes les données de code-barres disponibles. Nous pouvons obtenir chaque donnée individuelle liée aux détails du code-barres en utilisant une boucle for-each. Deux opérations sont complétées en un seul processus : le scan et la lecture de la valeur du code-barres.

Le support pour les options de threading est également disponible, et plusieurs processus OCR peuvent être complétés à la fois. De plus, IronOCR peut reconnaître une zone précise dans une région spécifiée.

// Create an IronTesseract object
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Define the content area to be scanned
    var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
    // Add image specifying the content area
    Input.Add("document.png", ContentArea);
    // Perform OCR operation
    var Result = Ocr.Read(Input);
    // Print the text
    Console.WriteLine(Result.Text);
}
// Create an IronTesseract object
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Define the content area to be scanned
    var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
    // Add image specifying the content area
    Input.Add("document.png", ContentArea);
    // Perform OCR operation
    var Result = Ocr.Read(Input);
    // Print the text
    Console.WriteLine(Result.Text);
}
' Create an IronTesseract object
Dim Ocr = New IronTesseract()
Using Input = New OcrInput()
	' Define the content area to be scanned
	Dim ContentArea = New System.Drawing.Rectangle() With {
		.X = 215,
		.Y = 1250,
		.Height = 280,
		.Width = 1335
	}
	' Add image specifying the content area
	Input.Add("document.png", ContentArea)
	' Perform OCR operation
	Dim Result = Ocr.Read(Input)
	' Print the text
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

Le code ci-dessus montre comment effectuer l'OCR sur une région distincte. Il vous suffit de spécifier la région rectangulaire dans le PDF/image car le moteur Tesseract d'IronOCR aidera à reconnaître le texte.

Modèles de Licences et Tarification IronOCR et PDFtron OCR

Modèles de Licences et Tarification IronOCR

Garantie de remboursement de 30 jours : Une fois qu'une licence est achetée, vous aurez une garantie de remboursement de 30 jours. Dans les 30 jours, si vous souhaitez retourner le produit, vous recevrez votre remboursement.

Intégration facile : L'intégration d'IronOCR avec tout projet et environnement est si facile qu'elle peut être réalisée en une seule ligne de code simplement en l'ajoutant sous forme de Paquet NuGet. D'un autre côté, un autre moyen d'intégrer l'environnement est de le télécharger directement depuis le web.

Licences perpétuelles : Chaque licence achetée ne nécessite pas de renouvellement.

Soutien gratuit et mises à jour de produits : Chaque licence inclura un soutien directement de l'équipe derrière le produit et comprendra un an de mises à jour gratuites du produit. L'achat de prolongations est disponible à tout moment.

Licenses immédiates : Une fois le paiement reçu, les clés de licence enregistrées seront immédiatement envoyées.

Toutes les licences sont perpétuelles et s'appliquent au développement, à la mise en scène et à la production.

La Licence Lite

  • 1 développeur
  • 1 emplacement
  • 1 projet
  • Licence perpétuelle

Ce package permet à un développeur logiciel unique dans une organisation d'utiliser Iron Software dans une seule localisation. Iron Software peut être utilisé dans une application intranet unique, une application web ou un programme logiciel de bureau. Il est interdit de partager les licences en dehors d'une organisation ou d'une relation d'agence/client car elles sont non transférables. Ce type de licence, comme tous les autres types de licence, exclut expressément tous les droits non expressément accordés dans l'Accord sans redistribution OEM et sans utiliser Iron Software en tant que SaaS sans acheter une couverture supplémentaire.

Tarification : À partir de $799 par an.

La Licence Professionnelle

  • 10 développeurs
  • 10 emplacements
  • 10 projets
  • Licence perpétuelle

Cette licence permet à un nombre prédéterminé de développeurs logiciels dans une organisation d'utiliser Iron Software dans de nombreux endroits, avec un maximum de dix. Iron Software peut être utilisé dans autant de sites Web, d'applications intranet ou d'applications logicielles de bureau que vous le souhaitez. Les licences sont non transférables et ne peuvent pas être partagées en dehors d'une organisation ou d'une relation d'agence/client. Ce type de licence, comme tous les autres types de licence, exclut expressément tous les droits non expressément accordés dans l'Accord, y compris la redistribution OEM et l'utilisation d'Iron Software en tant que SaaS sans acheter une couverture supplémentaire. Cette licence peut être intégrée à un seul projet jusqu'à un maximum de 10.

Prix : À partir de $999 par an.

La Licence Illimitée

  • Développeurs illimités
  • Emplacements illimités
  • Projets illimités
  • Licence perpétuelle

Cette licence permet à un nombre illimité de développeurs logiciels dans une organisation d'utiliser Iron Software dans un nombre illimité d'endroits. Iron Software peut être utilisé dans autant d'applications intranet, d'applications logicielles de bureau ou de sites Web que vous le souhaitez. Les licences sont non transférables et ne peuvent pas être partagées en dehors d'une organisation ou d'une relation d'agence/client. Ce type de licence, comme tous les autres types de licence, exclut expressément tous les droits non accordés dans l'Accord, y compris la redistribution OEM et l'utilisation d'Iron Software en tant que SaaS sans acheter une couverture supplémentaire.

Tarification : À partir de $4,799 par an.

Redistribution sans redevance — Cela vous permet de distribuer Iron Software en tant que partie de plusieurs produits commerciaux emballés différemment (sans avoir à payer de redevances) basé sur le nombre de projets couverts par la licence de base. Cela permettra le déploiement d'Iron Software au sein de services logiciels SaaS, basé sur le nombre de projets couverts par la licence de base.

Prix : À partir de $1,599 par an.

Pdftron Ocr Alternatives 7 related to La Licence Illimitée

Modèles de Licences et Tarification PDFTron

Packages PDFTron (Licences personnalisées)

  • Les prix des licences personnalisées varient - obtenez un devis pour adapter votre budget spécifique.
  • Déployez la puissante technologie de visualisation et d'édition de documents de PDFTron pour le rendu et le traitement des documents sur les plateformes web, mobiles et de bureau.
  • Prêt pour l'intégration, la redistribution OEM, et les organisations avec de grands volumes de documents ou des exigences uniques.
  • Tarification multi-domaines et réductions multi-années favorables.
  • Opérations hors ligne et sandboxées prises en charge.
  • Conditions contractuelles personnalisées et complètes.
  • Services de conseil et de formation.

Les licences personnalisées PDFTron sont adaptées pour correspondre à vos exigences d'application et d'affaires. La tarification dépend de votre champ de fonctionnalités.

Pdftron Ocr Alternatives 8 related to Packages PDFTron (Licences personnalisées)

La licence IronOCR Lite est un package indéfini qui inclut un développeur avec un an de support, et coûte environ $799. La licence professionnelle IronOCR incluant des packages de 10 développeurs et un an de support coûte $999, tandis que les packages PDFTron sont à nouveau indéfinis. Pour acheter un package, vous devez contacter le centre de support pour obtenir un devis.

Les packages IronOCR Lite et Professionnel incluent le service OEM ou SaaS avec une option de support de 5 ans. La version Lite inclut un package de développeur unique avec 5 ans de support et les services Saas et OEM coûtent 2 897 $ avec une option de support personnalisée. La version Professionnelle IronOCR inclut un package de 10 développeurs avec 5 ans de support, les services Saas et OEM et coûte 3 397 $. Le package de 10 développeurs de PDFTron avec un an de support, les services Saas et OEM n'a pas de prix défini.

7.0 Conclusion

IronOCR dans le contexte de .NET Framework fournit Tesseract qui est simple à utiliser avec la prise en charge des photos et des documents PDF réalisée de nombreuses façons. Elle fournit également plusieurs réglages pour améliorer la performance de l'OCR Tesseract. Un nombre divers de langues est pris en charge, avec la capacité d'avoir de nombreuses langues dans une seule opération. Visitez leur site web pour en savoir plus sur l'OCR Tesseract.

PDFTron est une application logicielle qui utilise différents moteurs pour reconnaître les images et les documents PDF. Il offre également divers réglages pour améliorer les performances du processus OCR et le choix de sélectionner plusieurs langues. PDFTron a des limitations sur l'utilisation des conversions de pages. Il a également divers prix pour différents systèmes d'exploitation.

IronOCR est un produit logiciel compétitif et peut offrir une plus grande précision que les marques concurrentes. Des produits similaires ont parfois échoué à reconnaître des images de faible qualité, résultant en des caractères inconnus. D'autre part, IronOCR ne fournit pas seulement des résultats précis mais nous permet de reconnaître des données de code-barres et de lire la valeur des codes-barres à partir d'images.

Les packages IronOCR fournissent des licences et un support compétitifs à un prix unique pour toutes les plateformes. En comparaison, les produits OCR de PDFTron sont tous exclusivement sélectionnés sur mesure ce qui tend à être plus cher. Les prix varient entre les deux produits avec IronOCR commençant à un prix de $799, tandis que en raison de la sélection sur mesure, le prix de départ de PDFTron est indéfini. En conclusion, IronOCR offre une plus large gamme de fonctionnalités pour un prix inférieur.

Qu'attendez-vous de plus? L'essai gratuit est ouvert à tous. Obtenez la Licence ici et commencez immédiatement !

Veuillez noterPDFTron OCR est une marque déposée de son propriétaire respectif. Ce site n'est pas affilié, approuvé par, ou sponsorisé par PDFTron OCR. Tous les noms de produits, logos et marques sont la propriété de leurs propriétaires respectifs. Les comparaisons sont uniquement à des fins d'information et reflètent les informations disponibles publiquement au moment de la rédaction.

Questions Fréquemment Posées

Qu'est-ce que la reconnaissance optique de caractères (OCR) et son importance ?

La reconnaissance optique de caractères (OCR) est une technologie utilisée pour convertir des documents papier ou des images en texte lisible. Elle est essentielle pour les applications dans les domaines juridique, commercial et académique, permettant la conversion de fichiers scannés et de PDF en leur format texte original.

Comment puis-je intégrer la fonctionnalité OCR dans une application C# ?

Vous pouvez intégrer la fonctionnalité OCR dans une application C# en utilisant IronOCR, qui offre une intégration transparente avec les applications .NET et prend en charge plusieurs langues et formats de codes-barres.

Quelles sont les étapes d'installation d'IronOCR ?

IronOCR peut être installé via Visual Studio en utilisant le gestionnaire de packages NuGet. Vous pouvez également utiliser la ligne de commande de Visual Studio, télécharger directement depuis le site NuGet ou l'obtenir depuis le site IronOCR.

Quelles sont les principales différences entre PDFTron OCR et IronOCR ?

Alors que PDFTron OCR nécessite un module complémentaire séparé et offre une polyvalence dans les formats de documents, IronOCR fournit une intégration supérieure avec .NET, prend en charge plus de langues et offre des prix compétitifs avec un accent sur la facilité d'utilisation.

Comment IronOCR gère-t-il les scans de mauvaise qualité ?

IronOCR est conçu pour corriger les scans de mauvaise qualité, fournissant une reconnaissance de texte précise et une sortie de données structurée même lorsque les images originales ne sont pas de haute qualité.

Quelles sont les capacités de support linguistique d'IronOCR ?

IronOCR prend en charge 125 langues, ce qui en fait une option polyvalente pour les applications mondiales nécessitant la fonctionnalité OCR.

IronOCR peut-il être utilisé pour la reconnaissance de codes-barres ?

Oui, IronOCR prend en charge la lecture non seulement du texte mais aussi des codes QR et des codes-barres à partir des PDF et des images, améliorant son utilité pour diverses applications.

Quels sont les cas d'utilisation courants pour la technologie OCR ?

La technologie OCR est couramment utilisée pour convertir des documents juridiques scannés, automatiser la saisie de données, rendre les PDF recherchables, et aider les utilisateurs malvoyants en convertissant le texte en audio.

Comment IronOCR est-il tarifé par rapport à PDFTron OCR ?

IronOCR offre des licences perpétuelles simples avec des options pour différents besoins des utilisateurs, tandis que le tarif des OCR de PDFTron est personnalisable en fonction des exigences spécifiques de l'application, ce qui entraîne souvent des coûts plus élevés.

Quel est le processus de conversion des images en texte en utilisant IronOCR ?

Avec IronOCR, vous pouvez convertir des images en texte en utilisant ses capacités OCR au sein d'une application .NET, en tirant parti de sa prise en charge de multiples formats d'image et de langues.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite