Saltar al pie de página
COMPARAR CON OTROS COMPONENTES

Una comparación entre IronOCR y Asprise OCR

Cuando hablamos de OCR, nos referimos al reconocimiento óptico de caracteres. El término se usa a menudo en el mundo de los negocios para referirse al proceso de convertir una imagen o representación gráfica de cualquier documento basado en texto (por ejemplo, una página escaneada o enviada por fax) en un formato de documento editable en Word o un formato de documento de texto buscable mediante software de computadora.

El acrónimo OCR significa Reconocimiento Óptico de Caracteres, una tarea realizada por software de computadora diseñado específicamente para ese propósito. Este tipo de software escaneará la página y reconocerá cualquier información textual que esté allí, convirtiéndola en una forma digital para que se pueda editar y reproducir digitalmente sin pérdida de calidad.

Existen muchas aplicaciones para el OCR, pero el caso de uso más popular es convertir documentos escaneados en archivos digitales que se pueden formatear e indexar en bases de datos y analizar.

En este artículo, vamos a comparar dos de las bibliotecas y aplicaciones más comunes para imágenes de documentos OCR y PDF. Estas son:

  • Asprise OCR
  • IronOCR

1.0 Introducción

1.1 Introducción y características de Asprise OCR

El SDK de reconocimiento de caracteres ópticos (OCR) y de reconocimiento de códigos de barras de Asprise C# .NET ofrece una biblioteca de API de alto rendimiento para equipar sus aplicaciones C# .NET (aplicaciones de Windows, aplicaciones web de servicios ASP.NET, controles ActiveX, etc.) con la funcionalidad de extraer información de texto y códigos de barras de documentos escaneados.

Puede convertir imágenes (en varios formatos como JPEG, PNG, TIFF, PDF, etc.) en formatos de documento editables (Word, XML, PDF buscable, etc.). Junto con otras ofertas como el SDK de escaneo de imágenes de Asprise (que captura documentos de escáneres), puede implementar fácilmente soluciones completas de gestión de documentos.

Las características de Asprise OCR

Reconocimiento de texto preciso
Con algoritmos mejorados de procesamiento de imágenes y detección de texto, Asprise OCR puede reconocer fácilmente documentos difíciles con mala calidad de imagen. Se pueden usar parámetros para favorecer ligeramente la precisión sobre la velocidad.

Motor OCR de alta velocidad
Asprise OCR utiliza un motor OCR optimizado para realizar un reconocimiento excelente en un corto período de tiempo. La velocidad se puede mejorar aún más con el uso de multiprocesamiento y aceleración opcional de GPU.

Más de 20 idiomas compatibles
Asprise OCR reconoce más de 20 idiomas como inglés, español, francés, alemán, italiano, húngaro, finlandés, sueco, rumano, polaco, malayo, árabe, indonesio y ruso.

Todos los formatos de códigos de barras populares
Se admiten todos los formatos de códigos de barras populares: EAN-8, EAN-13, UPC-A, UPC-E, ISBN-10, ISBN-13, Interleaved 2 of 5, Code 39, Code 128, PDF417 y QR Code.

Imágenes a PDF buscable
Con unas pocas líneas de código, puede convertir varios formatos de imágenes como JPEG, PNG, TIFF y PDF en archivos PDF buscables.

Despliegue fácil
No se requiere dongle de protección de software ni servidor de licencias. El despliegue del SDK de Asprise OCR es tan fácil como desarrollar con él.

Con un presupuesto ajustado, libre de regalías
Libre de regalías significa que paga cuando ordena una licencia de desarrollo, pero no tiene que pagar nuevamente cuando despliega su software en miles de servidores o a miles de usuarios finales.

Soporte galardonado
Su equipo no solo es amable, sino que también es capaz de brindarle soporte técnico de primera clase.

1.2 IronOCR: Introducción y características

IronOCR proporciona software para ingenieros que utilizan IronOCR para .NET para leer contenido de texto de fotos y PDFs en aplicaciones .NET y sitios web. Escanea fotos en busca de texto y códigos de barras y admite numerosos idiomas en todo el mundo; luego puede proporcionar la salida como texto plano o como datos estructurados. La biblioteca OCR de Iron Software se puede usar en aplicaciones .NET MVC, web, de consola y de escritorio. Para implementaciones comerciales, se proporciona licencia con asistencia directa del equipo de desarrollo.

  • Usando el último motor Tesseract 5, IronOCR lee texto, códigos de barras y códigos QR de cualquier formato de imagen o PDF. Esta biblioteca agrega rápidamente OCR a aplicaciones de escritorio, consola y web.
  • IronOCR admite 125 idiomas internacionales. También admite listas de palabras y lenguajes personalizados.
  • IronOCR puede leer más de 20 formatos de código de barras y códigos QR.
  • IronOCR admite formatos de imagen GIF multipágina y TIFF.
  • IronOCR proporciona corrección para imágenes escaneadas de baja calidad.
  • IronOCR admite multiprocesamiento: ejecuta uno o más procesos a la vez.
  • IronOCR puede proporcionar salida de datos estructurados para páginas, párrafos, líneas, palabras, caracteres, etc.
  • IronOCR es compatible con una variedad de sistemas operativos como Windows, Linux, macOS, etc.

2.0 Creación de un nuevo proyecto en Visual Studio

Abra el software Visual Studio y vaya al "menú archivo". Seleccione "nuevo proyecto", luego seleccione "Aplicación de Consola".

Abbyy Finereader Ocr Alternatives 1 related to 2.0 Creación de un nuevo proyecto en Visual Studio

Introduce el nombre del proyecto y selecciona la ruta de archivo en el cuadro de texto apropiado. Luego, haga clic en el botón crear y seleccione el .NET Framework requerido, como se muestra en la captura de pantalla a continuación.

Abbyy Finereader Ocr Alternatives 2 related to 2.0 Creación de un nuevo proyecto en Visual Studio

El proyecto de Visual Studio ahora generará la estructura para la aplicación seleccionada, y si seleccionó la consola, la aplicación de Windows y la aplicación web, ahora abrirá el archivo Program.cs donde puede ingresar el código y construir/ejecutar la aplicación.

Abbyy Finereader Ocr Alternatives 3 related to 2.0 Creación de un nuevo proyecto en Visual Studio

A continuación, podemos añadir la biblioteca para probar el código.

3.0 Instalación

3.1 Instalar Asprise OCR

We can download the Asprise OCR here.

There are two options: install using NuGet or manually download the SDK from asprise.com.

Opción 1: NuGet PM> Paquete de instalación asprise-ocr-api

Primero, cree un nuevo proyecto de aplicación de formulario de Windows de Visual C#/Visual Basic o use un proyecto existente. With this solution opened, open the NuGet Package Manager Console and type the following command:

Install-Package asprise-ocr-api

Una vez que se complete, puede invocar el formulario de demostración de OCR copiando el siguiente código en Program.cs (para C#):

using System;
using System.Windows.Forms;
using asprise_ocr_api;

static class Program
{
    // Main application entry point
    [STAThread]
    static void Main()
    {
        // Enable visual styles and set text rendering mode
        Application.EnableVisualStyles();
        Application.SetCompatibleTextRenderingDefault(false);

        // Launch the OCR sample form
        Application.Run(new asprise_ocr_api.OcrSampleForm());
    }
}
using System;
using System.Windows.Forms;
using asprise_ocr_api;

static class Program
{
    // Main application entry point
    [STAThread]
    static void Main()
    {
        // Enable visual styles and set text rendering mode
        Application.EnableVisualStyles();
        Application.SetCompatibleTextRenderingDefault(false);

        // Launch the OCR sample form
        Application.Run(new asprise_ocr_api.OcrSampleForm());
    }
}
Imports System
Imports System.Windows.Forms
Imports asprise_ocr_api

Friend Module Program
	' Main application entry point
	<STAThread>
	Sub Main()
		' Enable visual styles and set text rendering mode
		Application.EnableVisualStyles()
		Application.SetCompatibleTextRenderingDefault(False)

		' Launch the OCR sample form
		Application.Run(New asprise_ocr_api.OcrSampleForm())
	End Sub
End Module
$vbLabelText   $csharpLabel

Opción 2: Descargue el SDK de OCR desde Asprise.com

Download a copy of the Asprise SDK de OCR from www.asprise.com/product/ocr. Simplemente descomprímalo en una carpeta vacía.

La organización de archivos de la distribución del SDK de Asprise OCR es la siguiente:

SDK de OCR
|--- aocr.dll, aocr_x64.dll [DLLs requeridos]
|--- proyectos de muestra        [.NET API y proyecto de muestra]
+--- imágenes                 [Imágenes de muestra]

Navegue a la carpeta proyectos de muestra y abra la solución: ocr-samples-vs.sln. Hay dos proyectos:

  • asprise-ocr-api: la API OCR de .NET
  • asprise-ocr-api-sample: programa de demostración

Haga clic derecho en el proyecto asprise-ocr-api-sample y "Establecer como proyecto de inicio", luego presione el botón 'Iniciar' o presione F5 y verá la misma interfaz de usuario que se muestra.

3.2 Instalar IronOCR

La Biblioteca IronOCR se puede descargar e instalar de cuatro maneras.

Estas son:

  • Usando Visual Studio
  • Usando la Línea de Comandos de Visual Studio
  • Descarga directa desde el sitio web de NuGet
  • Descarga directa desde el sitio web de IronPDF

3.2.1 Uso de Visual Studio

El software Visual Studio proporciona la opción de Gestor de Paquetes NuGet para instalar el paquete directamente en la solución. La captura de pantalla a continuación muestra cómo abrir el Administrador de Paquetes NuGet.

Abbyy Finereader Ocr Alternatives 6 related to 3.2.1 Uso de Visual Studio

Proporciona un cuadro de búsqueda para mostrar la lista de paquetes desde el sitio web de NuGet. En el gestor de paquetes, necesitamos buscar la palabra clave IronOCR, como en la captura de pantalla a continuación:

Abbyy Finereader Ocr Alternatives 7 related to 3.2.1 Uso de Visual Studio

De la imagen anterior, obtendremos la lista de ítems relacionados con la búsqueda. Necesitamos seleccionar la opción requerida para instalar el paquete en la solución.

3.2.2 Uso de la línea de comandos de Visual Studio

En Visual Studio, ve a Herramientas -> Gestor de Paquetes NuGet -> Consola del Gestor de Paquetes

Introduce la siguiente línea en la pestaña Consola del Administrador de Paquetes:

Install-Package IronOcr

A continuación, el paquete se descargará/instalará en el proyecto actual y estará listo para usar.

3.2.3 Descarga directa desde el sitio web de NuGet

La tercera forma es descargar el paquete NuGet directamente desde el sitio web.

  • Navigate to the Link.
  • Seleccione la opción de descargar paquete desde el menú a la derecha.
  • Haga doble clic en el paquete descargado. Se instalará automáticamente.
  • A continuación, recarga la solución y empieza a usarla en el proyecto.

3.2.4 Descarga directa desde el sitio web de IronOCR

Click the link here to download the latest package direct from the website. Once downloaded, follow the steps below to add the package to the project.

  • Haga clic derecho en el proyecto desde la ventana de la solución.
  • Luego, selecciona la opción de referencia y busca la ubicación de la referencia descargada.
  • Haz clic en Aceptar para agregar la referencia.

Imagen OCR 4.0

Tanto IronOCR como Asprise OCR tienen una tecnología OCR que convertirá imágenes en búsqueda de texto.

4.1 Uso de Asprise

El siguiente código demuestra el uso básico de Asprise OCR.

using System;
using asprise_ocr_api;

class Example
{
    static void Main()
    {
        // Set up OCR engine
        AspriseOCR.SetUp();
        AspriseOCR ocr = new AspriseOCR();
        ocr.StartEngine("eng", AspriseOCR.SPEED_FASTEST);

        // Recognize text from the given image
        string s = ocr.Recognize("C:\\path\\img.jpg", -1, -1, -1, -1, -1, 
            AspriseOCR.RECOGNIZE_TYPE_ALL, AspriseOCR.OUTPUT_FORMAT_PLAINTEXT);

        // Output the recognized text to the console
        Console.WriteLine("OCR Result: " + s);

        // Stop the OCR engine
        ocr.StopEngine();
    }
}
using System;
using asprise_ocr_api;

class Example
{
    static void Main()
    {
        // Set up OCR engine
        AspriseOCR.SetUp();
        AspriseOCR ocr = new AspriseOCR();
        ocr.StartEngine("eng", AspriseOCR.SPEED_FASTEST);

        // Recognize text from the given image
        string s = ocr.Recognize("C:\\path\\img.jpg", -1, -1, -1, -1, -1, 
            AspriseOCR.RECOGNIZE_TYPE_ALL, AspriseOCR.OUTPUT_FORMAT_PLAINTEXT);

        // Output the recognized text to the console
        Console.WriteLine("OCR Result: " + s);

        // Stop the OCR engine
        ocr.StopEngine();
    }
}
Imports System
Imports asprise_ocr_api

Friend Class Example
	Shared Sub Main()
		' Set up OCR engine
		AspriseOCR.SetUp()
		Dim ocr As New AspriseOCR()
		ocr.StartEngine("eng", AspriseOCR.SPEED_FASTEST)

		' Recognize text from the given image
		Dim s As String = ocr.Recognize("C:\path\img.jpg", -1, -1, -1, -1, -1, AspriseOCR.RECOGNIZE_TYPE_ALL, AspriseOCR.OUTPUT_FORMAT_PLAINTEXT)

		' Output the recognized text to the console
		Console.WriteLine("OCR Result: " & s)

		' Stop the OCR engine
		ocr.StopEngine()
	End Sub
End Class
$vbLabelText   $csharpLabel

Asprise OCR admite los siguientes formatos de imagen: GIF, PNG, JPEG, TIFF y PDF. Para el código de muestra de OCR en la sección anterior, la entrada se ve como a continuación:

Asprise Ocr Alternatives 6 related to 4.1 Uso de Asprise

La salida de OCR estará en formato de texto plano:

Reconocimiento de OCR y códigos de barras de Asprise

Rendimiento alto, reconocimiento OCR y de códigos de barras libre de regalías en Windows,
...
ISBN-13, Intercalado 2 de 5, Código 39, Código 128, PDF417 y Código QR.

[[QR-Code: www.asprise.com]]
[[CODE-128: Asprise]].

Las últimas dos líneas representan la extracción de información de códigos de barras. Nota: tanto el formato como el contenido del código de barras están delimitados por pares '[[ ]]'.

4.2 Uso de IronOCR

using System;
using IronOcr;

class Example
{
    static void Main()
    {
        // Create an instance of IronTesseract
        var Ocr = new IronTesseract();
        Ocr.Language = OcrLanguage.EnglishBest;

        // Specify to use Tesseract 5 engine
        Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

        // Create OcrInput to hold the images
        using (var Input = new OcrInput())
        {
            // Add an image to the OcrInput
            Input.AddImage(@"3.png");

            // Perform OCR on the input image
            var Result = Ocr.Read(Input);

            // Output the recognized text to the console
            Console.WriteLine(Result.Text);
            Console.ReadKey();
        }
    }
}
using System;
using IronOcr;

class Example
{
    static void Main()
    {
        // Create an instance of IronTesseract
        var Ocr = new IronTesseract();
        Ocr.Language = OcrLanguage.EnglishBest;

        // Specify to use Tesseract 5 engine
        Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;

        // Create OcrInput to hold the images
        using (var Input = new OcrInput())
        {
            // Add an image to the OcrInput
            Input.AddImage(@"3.png");

            // Perform OCR on the input image
            var Result = Ocr.Read(Input);

            // Output the recognized text to the console
            Console.WriteLine(Result.Text);
            Console.ReadKey();
        }
    }
}
Imports System
Imports IronOcr

Friend Class Example
	Shared Sub Main()
		' Create an instance of IronTesseract
		Dim Ocr = New IronTesseract()
		Ocr.Language = OcrLanguage.EnglishBest

		' Specify to use Tesseract 5 engine
		Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5

		' Create OcrInput to hold the images
		Using Input = New OcrInput()
			' Add an image to the OcrInput
			Input.AddImage("3.png")

			' Perform OCR on the input image
			Dim Result = Ocr.Read(Input)

			' Output the recognized text to the console
			Console.WriteLine(Result.Text)
			Console.ReadKey()
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

La API Tesseract 5, que nos permite convertir archivos de imagen en texto, se demuestra arriba. Estamos creando un objeto para Iron Tesseract en la línea de código anterior. También estamos creando un objeto OcrInput que nos permitirá agregar uno o más archivos de imagen. Es posible que necesitemos proporcionar la ruta de la imagen disponible dentro del código al utilizar el método de objeto OcrInput add. Se pueden agregar cualquier número de imágenes. La función Read en el objeto IronTesseract que construimos antes puede utilizarse para obtener las imágenes analizando el archivo de imagen y extrayendo el resultado en el resultado de OCR. Es capaz de extraer texto de fotos y convertirlo en una cadena.

También podemos usar Tesseract para agregar imágenes multi-frame. "AddMultiFrameTiff" es un método diferente para esta operación. La biblioteca Tesseract lee cada cuadro de la imagen, y cada cuadro se trata como una página distinta. El proceso leerá el primer fotograma de la imagen y luego pasará al siguiente fotograma, y así sucesivamente hasta que todos los fotogramas de la imagen hayan sido escaneados. Este método solo soporta el formato de imagen TIFF.

Asprise Ocr Alternatives 7 related to 4.2 Uso de IronOCR

La imagen anterior es el resultado de IronOCR, que ha convertido los datos con precisión en texto editable.

Archivos PDF con reconocimiento óptico de caracteres 5.0

IronOCR y Asprise OCR convierten archivos PDF en texto editable. Asprise OCR ofrece al usuario una lista de opciones como guardar la página, editar la imagen, reconocer la página, etc. También proporciona opciones de guardado como texto, documento, formato HTML, etc. IronOCR también nos permite guardar el archivo OCR convertido en HTML, texto, PDF, etc.

5.1 Uso de Asprise OCR

Si establece el formato de salida como OUTPUT_FORMAT_PDF, necesita especificar el archivo de salida PDF objetivo como:

ocr.Recognize("C:\\test-image.png", -1, -1, -1, -1, -1,
  Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_PDF,
  "PROP_PDF_OUTPUT_FILE=ocr-result.pdf|PROP_PDF_OUTPUT_TEXT_VISIBLE=true");
ocr.Recognize("C:\\test-image.png", -1, -1, -1, -1, -1,
  Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_PDF,
  "PROP_PDF_OUTPUT_FILE=ocr-result.pdf|PROP_PDF_OUTPUT_TEXT_VISIBLE=true");
ocr.Recognize("C:\test-image.png", -1, -1, -1, -1, -1, Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_PDF, "PROP_PDF_OUTPUT_FILE=ocr-result.pdf|PROP_PDF_OUTPUT_TEXT_VISIBLE=true")
$vbLabelText   $csharpLabel

En el código anterior, las propiedades se especifican en una sola cadena separada por|(con clave y valor separados por =). Alternativamente, puede especificar las propiedades por separado en pares:

ocr.Recognize("C:\\test-image.png", -1, -1, -1, -1, -1,
  Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_PDF,
  AspriseOCR.PROP_PDF_OUTPUT_FILE, "ocr-result.pdf",
  AspriseOCR.PROP_PDF_OUTPUT_TEXT_VISIBLE, true);
ocr.Recognize("C:\\test-image.png", -1, -1, -1, -1, -1,
  Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_PDF,
  AspriseOCR.PROP_PDF_OUTPUT_FILE, "ocr-result.pdf",
  AspriseOCR.PROP_PDF_OUTPUT_TEXT_VISIBLE, true);
ocr.Recognize("C:\test-image.png", -1, -1, -1, -1, -1, Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_PDF, AspriseOCR.PROP_PDF_OUTPUT_FILE, "ocr-result.pdf", AspriseOCR.PROP_PDF_OUTPUT_TEXT_VISIBLE, True)
$vbLabelText   $csharpLabel

Para hacer invisible o transparente el texto, simplemente establezca PROP_PDF_OUTPUT_TEXT_VISIBLE en "false". Se admiten tanto PDF normal como PDF/A. Consulte el Resumen de propiedades de Asprise OCR. Establezca el formato de salida como OUTPUT_FORMAT_RTF. Luego puede generar archivos .rtf que se pueden editar en la mayoría de los procesadores de texto (Microsoft Word, Libre Office, TextEdit, etc.).

ocr.Recognize("C:\\test-image.png", -1, -1, -1, -1, -1,
  Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_RTF,
  "PROP_RTF_OUTPUT_FILE=ocr-result.rtf");
ocr.Recognize("C:\\test-image.png", -1, -1, -1, -1, -1,
  Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_RTF,
  "PROP_RTF_OUTPUT_FILE=ocr-result.rtf");
ocr.Recognize("C:\test-image.png", -1, -1, -1, -1, -1, Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_RTF, "PROP_RTF_OUTPUT_FILE=ocr-result.rtf")
$vbLabelText   $csharpLabel

Una vez que se complete el OCR, puede ver o editar el archivo RTF con un procesador de texto:

Asprise Ocr Alternatives 8 related to 5.1 Uso de Asprise OCR

Utilice el siguiente método para realizar OCR en un archivo de entrada PDF:

Asprise Ocr Alternatives 9 related to 5.1 Uso de Asprise OCR

5.2 Uso de IronOCR

También podemos usar OCRInput para gestionar archivos PDF. Cada página de documentos será leída por la clase Iron Tesseract. El texto luego será extraído de las páginas. También podemos abrir documentos protegidos utilizando una segunda función llamada AddPdf, que nos permite agregar PDFs a nuestra lista de documentos (contraseña si está protegido). El siguiente código demuestra cómo abrir un documento PDF protegido con contraseña:

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Add a password protected PDF
    Input.AddPdf("example.pdf", "password");

    // Read the PDF document
    var Result = Ocr.Read(Input);

    // Output the recognized text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Add a password protected PDF
    Input.AddPdf("example.pdf", "password");

    // Read the PDF document
    var Result = Ocr.Read(Input);

    // Output the recognized text to the console
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	' Add a password protected PDF
	Input.AddPdf("example.pdf", "password")

	' Read the PDF document
	Dim Result = Ocr.Read(Input)

	' Output the recognized text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

Podemos leer y extraer contenido de una sola página en un documento PDF usando AddpdfPage. Solo se necesita especificar el número de página del que queremos extraer el texto. AddPdfPage nos permite extraer texto de numerosas páginas que especifiquemos. En IEnumerable<int>, podemos especificar fácilmente múltiples páginas. También debemos incluir la ubicación del archivo así como la extensión del archivo. Esto se demuestra en el siguiente ejemplo de código:

using IronOcr;
using System.Collections.Generic;

IEnumerable<int> numbers = new List<int> {2, 8, 10};
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Extract single page
    Input.AddPdfPage("example.pdf", 10);

    // Extract multiple pages
    Input.AddPdfPages("example.pdf", numbers);

    // Read the pages and extract content
    var Result = Ocr.Read(Input);

    // Output the recognized text and save to a text file
    Console.WriteLine(Result.Text);
    Result.SaveAsTextFile("ocrtext.txt");
}
using IronOcr;
using System.Collections.Generic;

IEnumerable<int> numbers = new List<int> {2, 8, 10};
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Extract single page
    Input.AddPdfPage("example.pdf", 10);

    // Extract multiple pages
    Input.AddPdfPages("example.pdf", numbers);

    // Read the pages and extract content
    var Result = Ocr.Read(Input);

    // Output the recognized text and save to a text file
    Console.WriteLine(Result.Text);
    Result.SaveAsTextFile("ocrtext.txt");
}
Imports IronOcr
Imports System.Collections.Generic

Private numbers As IEnumerable(Of Integer) = New List(Of Integer) From {2, 8, 10}
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	' Extract single page
	Input.AddPdfPage("example.pdf", 10)

	' Extract multiple pages
	Input.AddPdfPages("example.pdf", numbers)

	' Read the pages and extract content
	Dim Result = Ocr.Read(Input)

	' Output the recognized text and save to a text file
	Console.WriteLine(Result.Text)
	Result.SaveAsTextFile("ocrtext.txt")
End Using
$vbLabelText   $csharpLabel

Usando la función SaveAsTextFile, podemos almacenar el resultado como un archivo de texto, lo que nos permite descargar el archivo a la ruta del directorio de salida. Además, podemos guardar el archivo en un archivo HTML usando SaveAsHocrFile.

6.0 Otras características

6.1 Uso de Asprise OCR

Asprise OCR tiene algunas opciones adicionales como Dibujar Área de Texto, Dibujar Área de Imagen, Dibujar Área de Tabla, Dibujar Área de Reconocimiento, etc. Todas estas ayudan al usuario a mejorar el rendimiento del OCR. La aplicación no solo realiza OCR, sino que también podemos realizar operaciones como combinar PDFs, dividir PDFs, editar PDFs, etc.

6.2 Uso de IronOCR

IronOCR tiene características únicas que nos permiten leer códigos de barras y códigos QR de documentos escaneados. El siguiente código muestra cómo podemos leer un código de barras de una imagen o documento dado.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.ReadBarCodes = true;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())
{
    // Add an image containing a barcode
    Input.AddImage("barcode.gif");

    // Read the image to recognize text and barcodes
    var Result = Ocr.Read(Input);

    // Loop through barcodes and output the value
    foreach (var Barcode in Result.Barcodes)
    {
        Console.WriteLine(Barcode.Value);
    }
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.ReadBarCodes = true;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())
{
    // Add an image containing a barcode
    Input.AddImage("barcode.gif");

    // Read the image to recognize text and barcodes
    var Result = Ocr.Read(Input);

    // Loop through barcodes and output the value
    foreach (var Barcode in Result.Barcodes)
    {
        Console.WriteLine(Barcode.Value);
    }
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.ReadBarCodes = True
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
Using Input = New OcrInput()
	' Add an image containing a barcode
	Input.AddImage("barcode.gif")

	' Read the image to recognize text and barcodes
	Dim Result = Ocr.Read(Input)

	' Loop through barcodes and output the value
	For Each Barcode In Result.Barcodes
		Console.WriteLine(Barcode.Value)
	Next Barcode
End Using
$vbLabelText   $csharpLabel

El anterior es el código que ayuda a leer un código de barras de una imagen o documento PDF dado. Puede leer más de un código de barras de una página/imagen. Para leer un código de barras, IronOCR tiene una configuración única, Ocr.Configuration.ReadBarCodes, que ayuda a leer un código de barras. El valor predeterminado está establecido en false.

Después de leer la entrada, los datos se guardarán en el objeto llamado OCRResult. Esto tiene una propiedad llamada Barcodes, y contendrá todos los datos de código de barras disponibles en una lista. Al usar el bucle for-each, podemos obtener todos los detalles del código de barras uno por uno. Además, escaneará el código de barras y leerá el valor del código de barras: dos operaciones completadas en un solo proceso.

También admitirá opciones de hilos. Podemos realizar múltiples procesos OCR a la vez. IronOCR también es capaz de reconocer un área específica de una región especificada.

using IronOcr;
using System.Drawing;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Define the area to recognize text
    var ContentArea = new Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };

    // Add the document with the specified content area
    Input.Add("document.png", ContentArea);

    // Perform OCR on the specified region
    var Result = Ocr.Read(Input);

    // Output the recognized text to the console
    Console.WriteLine(Result.Text);
} 
using IronOcr;
using System.Drawing;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Define the area to recognize text
    var ContentArea = new Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };

    // Add the document with the specified content area
    Input.Add("document.png", ContentArea);

    // Perform OCR on the specified region
    var Result = Ocr.Read(Input);

    // Output the recognized text to the console
    Console.WriteLine(Result.Text);
} 
Imports IronOcr
Imports System.Drawing

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	' Define the area to recognize text
	Dim ContentArea = New Rectangle() With {
		.X = 215,
		.Y = 1250,
		.Height = 280,
		.Width = 1335
	}

	' Add the document with the specified content area
	Input.Add("document.png", ContentArea)

	' Perform OCR on the specified region
	Dim Result = Ocr.Read(Input)

	' Output the recognized text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

El anterior es el código de muestra para realizar OCR en una región específica. Solo necesitamos especificar la región rectangular en la imagen o PDF. El motor Tesseract en IronOCR nos ayuda a reconocer el texto.

7.0 Modelos de licencia y precios de IronOCR y Asprise OCR

Modelos y precios de licencias de IronOCR

Garantía de devolución de dinero de 30 días: cuando se compra la licencia, obtendrá 30 días de devolución de dinero si la licencia no funciona.

Integración fácil: la integración de IronOCR con un proyecto y entorno es tan sencilla que podemos hacerlo escribiendo una sola línea de código y agregándolo desde el Paquete NuGet. O, podemos descargarlo de la web e integrarlo con nuestro entorno de esa manera.

Licenciamiento Perpetuo: cada licencia se compra una vez y no requiere renovación.

Soporte y Actualizaciones del Producto gratuitos: cada licencia viene con un año de actualizaciones gratuitas del producto y soporte del equipo detrás del producto. Es posible comprar extensiones en cualquier momento. Se pueden ver las extensiones.

Licencias Inmediatas: las claves de licencia registradas se envían tan pronto como se recibe el pago.

Todas las licencias son perpetuas y se aplican a desarrollo, staging y producción.

La Licencia Lite:

  • 1 desarrollador
  • 1 ubicación
  • 1 proyecto
  • Licencia perpetua

Este paquete permite a un solo desarrollador de software en una organización utilizar Iron Software en un solo lugar. Iron Software se puede utilizar en una sola aplicación web, aplicación de intranet o programa de software de escritorio. Las licencias no son transferibles y no se pueden compartir fuera de una organización o relación de cliente/agencia. Este tipo de licencia, al igual que todos los demás tipos de licencias, excluye expresamente todos los derechos que no se otorgan expresamente bajo el Acuerdo, sin redistribución OEM y utilizando Iron Software como un SaaS sin comprar cobertura adicional.

Precio: Comienza desde $799 al año.

La Licencia Profesional:

  • 10 desarrolladores
  • 10 ubicaciones
  • 10 proyectos
  • Licencia perpetua

Este paquete permite a un número predeterminado de desarrolladores de software en una organización utilizar Iron Software en ubicaciones individuales, hasta un máximo de diez. Iron Software se puede utilizar en tantos sitios web, aplicaciones de intranet o aplicaciones de software de escritorio como desees. Las licencias no son transferibles y no se pueden compartir fuera de una organización o relación de agencia/cliente. Este tipo de licencia, al igual que todos los demás tipos de licencia, excluye expresamente todos los derechos no expresamente otorgados bajo el Acuerdo, incluyendo redistribución OEM y utilización de Iron Software como SaaS sin comprar una cobertura adicional. Esta licencia puede integrarse con un único proyecto hasta un máximo de 10.

Precios: Comienza desde $999 por año.

La Licencia Ilimitada:

  • Desarrolladores ilimitados
  • Ubicaciones ilimitadas
  • Proyectos ilimitados
  • Licencia perpetua

Esto permite que un número ilimitado de desarrolladores de software en una organización utilicen Iron Software en un número ilimitado de ubicaciones. Iron Software se puede utilizar en tantos sitios web, aplicaciones de intranet o aplicaciones de software de escritorio como desees. Las licencias no son transferibles y no se pueden compartir fuera de una organización o relación de agencia/cliente. Este tipo de licencia, al igual que todos los demás tipos de licencia, excluye expresamente todos los derechos no expresamente otorgados bajo el Acuerdo, incluyendo redistribución OEM y utilización de Iron Software como SaaS sin comprar una cobertura adicional.

Precios: Comienza desde $2,999 por año.

Redistribución sin regalías: Esto te permite distribuir Iron Software como parte de varios productos comerciales empaquetados de diferentes maneras (sin tener que pagar regalías) basado en el número de proyectos cubiertos por la licencia base. Permite el despliegue de Iron Software dentro de servicios de software SaaS, basado en el número de proyectos cubiertos por la licencia base.

Precios: Comienza desde $1,599 por año.

Asprise Ocr Alternatives 10 related to Modelos y precios de licencias de IronOCR

Modelos y precios de licencias de OCR de Asprise

La Licencia Lite:

  • Usuarios finales ilimitados
  • Reconocer texto
  • Leer códigos de barras 1D: UPC, EAN, Code39, Code128
  • Salida en texto, XML y PDF
  • Despliegue fácil
  • Soporte para 2 sistemas operativos
  • Asientos 1
  • Soporte: No

Precios: Comienza desde $7998 por año.

La Licencia Standard:

  • Usuarios finales ilimitados
  • Entrada en BMP, GIF, PNG, JPEG, TIFF y PDF.
  • Reconocer texto
  • Leer códigos de barras 1D: UPC, EAN, Code39, Code128
  • Leer algunos 2D: solo QR y Data Matrix
  • Salida en texto, XML y PDF
  • Despliegue fácil
  • Soporte: No

Precios: Comienza desde $7,998 por año.

La Licencia Enterprise:

  • Usuarios finales ilimitados
  • Entrada en BMP, GIF, PNG, JPEG, TIFF y PDF.
  • Reconocer texto
  • Leer códigos de barras 1D: UPC, EAN, Code39, Code128
  • 2D: QR, PDF 417, Data Matrix & Aztec
  • Salida en texto, XML y PDF
  • Despliegue fácil
  • Multiprocesamiento, multiprocesamiento

Precios: Comienza desde $12,998.

Asprise Ocr Alternatives 11 related to Modelos y precios de licencias de OCR de Asprise

El IronOCR Lite que incluye un paquete para un desarrollador con un año de soporte cuesta alrededor de $799, mientras que Asprise Lite que incluye un paquete para un desarrollador cuesta $7998 sin soporte técnico, y $6,296 con soporte técnico pagado. La licencia Profesional de IronOCR que incluye un paquete de 10 desarrolladores con un año de soporte técnico cuesta $999, mientras que la licencia equivalente de Asprise que incluye un paquete de 10 desarrolladores cuesta $37,998 por año sin soporte técnico, pero con lanzamientos técnicos pagados y actualizaciones, además de soporte por un año, cuesta $46,999.00.

Los paquetes Lite y Profesional de IronOCR tienen servicio OEM o SaaS y una opción de soporte de 5 años. La versión Lite, que incluye un paquete para un desarrollador con soporte de 5 años y servicio SaaS y OEM, cuesta $2897USD, mientras que Asprise tiene un servicio SaaS o OEM y una opción de soporte personalizado. La versión Profesional de IronOCR incluye un paquete de 10 desarrolladores con un año de soporte pago y servicio SaaS y OEM, que cuesta $3397, mientras que la versión de Asprise con un paquete de 10 desarrolladores sin soporte de 1 año y con servicio SaaS y OEM cuesta $59,996.

8.0 Conclusión

IronOCR en el contexto .NET Framework proporciona Tesseract que es directo y fácil de usar. Admite fotos y documentos PDF de varias maneras. También proporciona una serie de configuraciones para mejorar el rendimiento de la biblioteca Tesseract OCR. Se admiten varios idiomas, así como numerosos idiomas en una sola operación. Para descubrir más sobre el OCR de Tesseract, visite su sitio web.

Asprise es una aplicación de software que utiliza un motor de inteligencia artificial para reconocer imágenes y documentos PDF. También proporciona varias configuraciones para mejorar el rendimiento del proceso OCR. Además, ofrece la opción de seleccionar múltiples idiomas. Asprise tiene algunas limitaciones en el uso de conversiones de página. También tiene un precio diferente para diferentes sistemas operativos.

Los paquetes de IronOCR brindan mejor licenciamiento y soporte en comparación con Asprise. Asprise OCR tiene paquetes personalizados y fijos que son más costosos. IronOCR comienza desde $799, mientras que Asprise OCR comienza desde $7994 por año, por lo que nuestro producto es más rentable mientras también ofrece más características que Aspire. También admite múltiples plataformas a un solo precio.

Entonces, ¿qué estás esperando? La prueba gratuita está abierta a todos. You can obtain the License here and begin straightaway.

Por favor notaAspose es una marca registrada de su respectivo propietario. Este sitio no está afiliado, respaldado ni patrocinado por Aspose. Todos los nombres de producto, logotipos y marcas son propiedad de sus respectivos dueños. Las comparaciones son sólo para fines informativos y reflejan información disponible públicamente al momento de escribir.

Preguntas Frecuentes

¿Qué es el reconocimiento óptico de caracteres?

El reconocimiento óptico de caracteres (OCR) es la tecnología utilizada para convertir diferentes tipos de documentos, como documentos en papel escaneados, PDFs o imágenes capturadas por una cámara digital, en datos editables y buscables. Herramientas como IronOCR se utilizan para realizar OCR convirtiendo imágenes de texto en datos de texto reales.

¿Cómo puedo convertir imágenes a texto usando C#?

IronOCR proporciona una solución robusta para convertir imágenes a texto en C#. Puedes usar sus poderosas capacidades OCR para procesar archivos de imagen y extraer texto, incluso de imágenes de baja calidad, utilizando el motor Tesseract 5.

¿Qué formatos soporta IronOCR para las operaciones OCR?

IronOCR soporta una amplia gama de formatos para operaciones OCR, incluyendo JPEG, PNG, GIF, BMP, TIFF y PDF. También puede manejar documentos de varias páginas y PDFs protegidos con contraseña.

¿Cómo instalo IronOCR en mi proyecto C#?

Puedes instalar IronOCR en tu proyecto C# usando el Administrador de Paquetes NuGet en Visual Studio. Alternativamente, puedes usar la línea de comandos con Install-Package IronOCR o descargarlo directamente desde el sitio web de IronOCR.

¿Cuáles son los beneficios de usar IronOCR sobre otras bibliotecas OCR?

IronOCR ofrece un amplio soporte de idiomas, excelente rendimiento con imágenes de baja calidad y características como reconocimiento de códigos de barras y códigos QR. Ofrece licencias rentables y soporta múltiples plataformas a un solo precio, lo que lo hace una opción versátil para desarrolladores.

¿Puede IronOCR manejar documentos de varias páginas?

Sí, IronOCR puede procesar documentos de varias páginas, incluidos TIFFs y PDFs, extrayendo texto de cada página de manera eficiente. Esto es particularmente útil para manejar documentos grandes o procesamiento por lotes.

¿Qué opciones de licencia están disponibles para IronOCR?

IronOCR ofrece opciones de licencia flexibles y perpetuas, incluyendo licencias Lite, Professional y Unlimited. Estas licencias son sin regalías y soportan servicios SaaS y OEM, haciéndolas adecuadas para una variedad de escenarios de implementación.

¿Cómo maneja IronOCR la extracción de texto de imágenes de baja calidad?

IronOCR sobresale en extraer texto de imágenes de baja calidad mediante el uso de técnicas avanzadas de preprocesamiento para mejorar la calidad de imagen antes de realizar OCR. Esto mejora significativamente la precisión del reconocimiento de texto.

Kannaopat Udonpant
Ingeniero de Software
Antes de convertirse en Ingeniero de Software, Kannapat completó un doctorado en Recursos Ambientales de la Universidad de Hokkaido en Japón. Mientras perseguía su grado, Kannapat también se convirtió en miembro del Laboratorio de Robótica de Vehículos, que es parte del Departamento de Ingeniería ...
Leer más