Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
En este artículo se comparan dos bibliotecas de software que utilizan el reconocimiento óptico de caracteres(OCR) para automatizar la detección y extracción de texto impreso o manuscrito a partir de imágenes y de documentos escaneados. En primer lugar, hablaremos de las características de ambas bibliotecas. A continuación, examinaremos y compararemos sus capacidades de reconocimiento y extracción de texto utilizando código fuente de ejemplo producido con ambas bibliotecas. Por último, compararemos las licencias y los precios de las bibliotecas.
Las bibliotecas que compararemos en este artículo son:
La biblioteca Essential PDF de Syncfusion incorpora funciones de reconocimiento óptico de caracteres para permitir el procesamiento de texto en imágenes escaneadas dentro de documentos PDF.
El procesador OCR de Syncfusion puede trabajar con las versiones 3 y 4 de Tesseract.(3.02 y 3.05) y 4. La biblioteca puede incluirse en aplicaciones .NET Core y ASP.NET.
Entre las características de la funcionalidad OCR de SyncFusion Essential PDF se incluyen:
Procesador OCR
se puede utilizar para realizar OCR en archivos PDF. Se basa en el procesador de datos Tesseract, conocido por ser uno de los mejores procesadores OCR del mundo.IronOCR es una biblioteca de software C# que permite a los desarrolladores de plataformas .NET reconocer y leer texto de imágenes y documentos PDF. Se trata de una biblioteca OCR exclusiva de .NET que utiliza el potente motor Tesseract. Las versiones 3 a 5 de Tesseract funcionan de forma inmediata en Windows, macOS, Linux, Azure, AWS, Lambda, Mono y Xamarin Mac.
IronOCR cubre más idiomas que todos los motores de OCR disponibles, ya que admite 125 idiomas,(por defecto sólo está instalado el inglés).
Los desarrolladores .NET tienen pleno control sobre sus documentos, pudiendo modificarlos como consideren oportuno.
IronOCR ofrece una combinación única de capacidades y funciones para integrar, firmar, exportar, leer visuales y extraer detalles de las fotos, independientemente de los conocimientos técnicos del usuario o de la sofisticación del hardware.
El SDK IronOCR supera a otras bibliotecas de OCR en términos de precisión, con una tasa del 99,8 por ciento.
La clase IronOCR proporciona un amplio control a los desarrolladores de C#. Dan a sus desarrolladores OCR(imágenes y PDF a texto) funcionalidad y un rendimiento ajustado en cada caso concreto.
IronOCR incluye opciones de configuración que permiten a la biblioteca procesar imágenes que no tengan la calidad ideal. Algunas de estas configuraciones disponibles son: Limpiar ruido de fondo, Mejorar contraste, Mejorar resolución, Idioma, Estrategia, Girar y enderezar, Espacio de color, Detectar texto blanco en fondos oscuros y Tipo de imagen de entrada.
IronOCR es compatible con más de 125 idiomas internacionales.
Iron Tesseract puede leer varios formatos de imagen, así como archivos PDF. Esta función no está disponible con los motores Tesseract estándar y gratuitos. Si sus escaneados son de mala calidad, la entrada OCR le permite corregir automáticamente los atributos necesarios.
La clase OCRInput proporciona a los programadores de C# un control detallado de la entrada. Posteriormente, los desarrolladores preprocesan la entrada de imágenes para aumentar la velocidad y la precisión. Esto elimina la necesidad de utilizar secuencias de comandos por lotes de Photoshop o ImageMagick para preparar las fotografías antes del procesamiento de OCR.
IronOCR permite a sus usuarios finales realizar OCR en áreas específicas de una imagen.
IronOCR devuelve un objeto de resultado avanzado por cada página que escanea utilizando Tesseract 3,4 ó 5. Contiene datos de ubicación, imágenes, texto, confianza estadística, opciones de símbolos alternativos, nombres de fuentes, decoración de tamaños de fuentes, pesos de fuentes y una posición para cada uno de los siguientes elementos:
IronOCR permite a los desarrolladores utilizar varios idiomas en un mismo documento. Esta capacidad es extremadamente beneficiosa para los proveedores de servicios .NET.
En este artículo, utilizaremos una nueva aplicación de consola de Visual Studio para demostrar las capacidades de procesamiento OCR de IronOCR y Syncfusion Essential PDF.
Abra el software Visual Studio, vaya al menú Archivo y seleccione Nuevo proyecto. A continuación, seleccione Aplicación de consola.
Introduzca el nombre del proyecto y seleccione la ruta en el cuadro de texto correspondiente. A continuación, haga clic en el botón Crear y seleccione el .NET Framework necesario, como se muestra en la siguiente captura de pantalla:
El proyecto de Visual Studio generará ahora la estructura de la nueva aplicación de consola. El archivo program.cs se abrirá al finalizar.
Ahora añadiremos ambas bibliotecas al proyecto.
La biblioteca IronOCR puede descargarse e instalarse de cuatro maneras. Estos son:
Uso del gestor de paquetes NuGet de Visual Studio
Descarga directa desde la página web de NuGet.
Descarga directa desde la página web de IronOCR.
Puede integrar IronOCR en un proyecto C# utilizando el gestor de paquetes NuGet de Visual Studio.
Acceda a la GUI del Gestor de Paquetes NuGet haciendo clic en Herramientas > Gestor de Paquetes NuGet > Gestionar Paquetes NuGet para Soluciones....
A continuación, aparecerá una nueva ventana. Busque IronOCR e instale el paquete en el proyecto.
También pueden instalarse paquetes de idiomas adicionales para IronOCR utilizando el mismo método descrito anteriormente.
IronOCR puede descargarse directamente del sitio web de NuGet siguiendo estas instrucciones:
Navegue hasta el Página de la Galería NuGet de IronPDF
Seleccione la opción de descarga de paquetes en el menú de la derecha.
Los desarrolladores puedendescargar la biblioteca del sitio web de IronOCR y añádela como referencia del proyecto.
Siga las instrucciones siguientes para añadir la biblioteca como referencia en Visual Studio.
Haga clic con el botón derecho del ratón en el proyecto de la ventana de la solución.
A continuación, seleccione Añadir referencia de proyecto y busque la ubicación de la referencia descargada.
En Visual Studio, ve a Herramientas > Gestor de paquetes NuGet > Consola del gestor de paquetes.
Introduzca la siguiente línea en la pestaña de la consola del gestor de paquetes:
El paquete se descargará/instalará en el proyecto actual y estará listo para su uso.
Syncfsion Essential PDF puede instalarse de tres formas distintas.
Uso del gestor de paquetes NuGet de Visual Studio
Descarga directa desde la página web de NuGet.
Al igual que con IronOCR, los desarrolladores también pueden instalar la biblioteca OCR de SyncFusion mediante el gestor de paquetes NuGet de Visual Studio.
Acceda al Gestor de paquetes como antes haciendo clic en Herramientas > Gestor de paquetes NuGet > Gestionar paquetes NuGet para soluciones....
Busque SyncFusion OCR e instale el paquete adecuado(debe ser Syncfusion.PDF.OCR.Net.Core
)
Puede descargar más paquetes de idiomas para SyncFusion Essential PDF OCR en GitHub.
Syncfusion Essential PDF OCR puede descargarse directamente del sitio web de NuGet siguiendo estas instrucciones:
Vaya a la sección Página de la Galería NuGet.
Seleccione la opción de descarga de paquetes en el menú de la derecha.
Haga doble clic en el paquete descargado. Se instalará automáticamente.
En Visual Studio, vaya a Herramientas > Gestor de paquetes NuGet > Consola del gestor de paquetes.
Install-Package Syncfusion.PDF.OCR.Net.Core -Version 20.2.0.38
El paquete se descargará/instalará en el proyecto actual y estará listo para su uso.
Tanto IronOCR como Syncfusion OCR son capaces de realizar OCR en documentos PDF. Aquí, vamos a discutir cómo ambos pueden ser utilizados en Visual Studio.
Con sólo unas pocas líneas de código, los desarrolladores pueden realizar OCR en un PDF completo o en páginas/porciones específicas de un PDF. Considere el siguiente fragmento de código.
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("example.pdf", "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Puede utilizar la clase OCRProcessor para realizar OCR en documentos PDF, así como en regiones de un documento. Examine el ejemplo de código siguiente para conocer el contexto.
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
Imports Syncfusion.OCRProcessor
Imports Syncfusion.Pdf.Graphics
Imports Syncfusion.Pdf.Parsing
'initialize the ocr processor
Using processor As New OCRProcessor("TesseractBinaries\")
Dim lDoc As New PdfLoadedDocument("Input.pdf")
processor.Settings.Language = Languages.English
processor.PerformOCR(lDoc, "TessData\")
lDoc.Save("Sample.pdf")
lDoc.Close(True)
End Using
Ambas bibliotecas pueden realizar OCR en imágenes dentro de una aplicación C#.NET y .NET Core.
IronOCR es único en su capacidad para detectar y leer automáticamente texto de imágenes escaneadas imperfectas con sólo dos líneas de código.
using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
Imports IronOcr
Private Result = (New IronTesseract()).Read("images\11111.png").Text
OCR OUTPUT form IMAGE
OCR Output
Simple Data Outputs:
» NET Text Strings
» Barcode & QR Data & Images
Structured Data Outputs:
» Pages
» Blocks
» Paragraphs
» Lines
» words
» Characters
Export Documents:
» Searchable PDFs
» hOCR / HTML Export
» Images of any Page, Text
Element or Barcode
Syncfusion Essential PDF es capaz de extraer texto de imágenes con gran precisión.
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
Using processor As New OCRProcessor("TesseractBinaries\")
Using Syncfusion.OCRProcessor
End Using
End Using
Using Syncfusion.Pdf.Graphics
Using Syncfusion.Pdf.Parsing
'loading the input image
Dim image As New Bitmap("11111.jpeg")
'Set OCR language to process
processor.Settings.Language = Languages.English
'Process OCR by providing the bitmap image, data dictionary and language
Dim ocrText As String= processor.PerformOCR(image, "TessData\")
End Using
End Using
Consola
Formulario OCR SALIDA IMAGEN
Salida OCR
Salida de datos simple:
NET Cadenas de texto
Dee eT Nd
tC eke ass
Biren)
Soja
Seg
ors
eae
eed
TLC
eres
Smt d
Ver amr'
etd ieot
El uso tanto de IronOCR como de Syncfusion Essential PDF requiere licencias de software.
IronOCR dispone de una licencia de desarrollo gratuita para proyectos personales no comerciales.
IronOCR ofrece una estructura de precios distinta para las licencias comerciales. El paquete Lite comienza en $749 sin costes adicionales. Todas las licencias incluyen una garantía de devolución del dinero de 30 días, un año de soporte de software y actualizaciones, desarrollo, pruebas, puesta en escena, validez de producción y una licencia perpetua.(compra única). Obtenga más información sobre la estructura completa de precios y licencias de IronOCR enesta página.
Por una cuota única de 1599 dólares, puede obtener la redistribución libre de derechos de autor de los productos SaaS y OEM.
Syncfusion Essential PDF ofrece tres tipos de licencias para desarrolladores, pero no proporciona cobertura SaaS ni OEM.
**Esta opción proporciona licencias para toda una organización sobre la misma base anual, pero por un precio inferior.
Ver toda la estructura de licencias de Syncfusion Essential PDF(y para otros componentes de Syncfusion) en el página de licencias de productos.
En total, IronOCR es compatible con unos 125 idiomas de todo el mundo. Sus capacidades de procesamiento incluyen: la capacidad de realizar OCR en partes de un documento PDF o una imagen, la capacidad de extraer texto de PDF y fotos, y la capacidad de corregir una imagen de mala calidad, entre muchas otras. IronOCR da prioridad a la velocidad y la precisión. Su índice de precisión del 99,8 por ciento es superior al de cualquier otra biblioteca de OCR del mercado basada en Tesseract. IronOCR funciona nada más sacarlo de la caja, sin necesidad de ajustar el rendimiento ni preprocesar las imágenes.
Syncfusion Essential PDF OCR también utiliza el motor tesseract de código abierto de Google. Puede realizar OCR en documentos completos o en partes específicas de documentos. La biblioteca de OCR de Syncfusion admite más de 60 idiomas internacionales.
Las licencias de IronOCR tienen validez de por vida con soporte ilimitado y cobertura SaaS y OEM. Por otro lado, Syncfusion Essential PDF OCR ofrece licencias anuales. Los precios de IronOCR comienzan a partir de $749, y los de Syncfusion a partir de 995 dólares anuales.
Obtenga IronOCR junto con otros cuatro productos de Iron Software a un precio con descuento comprando la versión completa deIron Suite. Los productos incluidos en el Iron Suite incluyen:
IronPDF
IronOCR
IronXL
Código de barras de hierro
IronWebscraper
El software Ironpágina de licencias contiene información más detallada sobre precios y licencias de los cinco productos mencionados.
10 productos API de .NET para sus documentos de oficina