HERRAMIENTAS OCR

Herramientas OCR de Microsoft (alternativas en C#)

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

Kannapat Udonpant

30 de marzo, 2023

OCR (Reconocimiento Óptico de Caracteres) es una tecnología crucial para empresas de todos los tamaños. Permite escanear, almacenar y analizar de forma eficaz datos que, de otro modo, llevarían mucho tiempo y serían complejos de manejar.

Las herramientas de OCR de Microsoft ofrecen sólidas opciones para simplificar su proceso de transformación digital. Estas herramientas permiten un procesamiento de documentos más rápido y eficaz, liberándole tiempo para que pueda centrarse en la importante tarea de hacer crecer su negocio. En este artículo, exploraremos cómo utilizar las potentes herramientas de OCR de Microsoft para agilizar sus operaciones.

OneNote: Herramienta de Microsoft

Si necesita extraer texto de una imagen, Microsoft OneNote es una herramienta muy útil. OneNote es una versátil aplicación para tomar notas que proporciona una plataforma para capturar, almacenar y organizar información en diversas formas, como texto, imágenes, audio y vídeo. También es una valiosa herramienta para copiar texto de imágenes o archivos impresos, ahorrándole tiempo y esfuerzo al eliminar la necesidad de teclear manualmente el texto.

Extraer texto con OneNote

Para extraer texto de una imagen utilizando OneNote, siga estos pasos:

Inicie la aplicación OneNote.
Inserte el archivo de imagen utilizando la opción "Insertar" o simplemente arrastre y suelte el archivo de imagen en la ventana de OneNote.
Cinta de inserción de OneNote
Haga clic con el botón derecho en la imagen y seleccione "Copiar texto de la imagen" en el menú.
Copiar texto de la imagen en el menú contextual
Por último, pegue el texto copiado en la ubicación que desee para acceder al texto extraído de la imagen escaneada.
Texto procedente de texto copiado de una imagen
Así es como puedes utilizar OneNote para escanear cualquier imagen.

Microsoft Vision Studio

Microsoft Cognitive Services ofrece la función "Extraer texto de imágenes", que utiliza IA para escanear imágenes y detectar texto con precisión. Este servicio es fácil de usar y sólo requiere cargar una imagen o un archivo PDF. A continuación, la información se transcribe con gran precisión, garantizando que el texto extraído representa con exactitud el contenido de la imagen o el archivo PDF.

Además, el texto extraído puede estar en varios idiomas, lo que hace el servicio accesible a usuarios de todo el mundo. Con "Extraer texto de imágenes" de Microsoft Cognitive Services, la extracción de datos valiosos de imágenes se simplifica y permite realizar análisis eficientes y completar tareas con eficacia.

Extraer texto con Microsoft Vision Studio

Para utilizar la función "Extraer texto de imágenes", puedes visitar el sitio web de Vision Studio de Microsoft Azure. Sin embargo, este servicio requiere una suscripción a Azure. Una vez adquirida la suscripción, tendrá acceso al texto extraído de los documentos escaneados. A continuación se muestra un ejemplo de imagen de salida como referencia.

Imagen escaneada por su texto

A9T9 Software OCR gratuito de Microsoft

A9T9 Free OCR Software es una herramienta versátil que permite a los usuarios de Windows convertir sin esfuerzo documentos en papel en texto digital. Su sencilla función de arrastrar y soltar permite el reconocimiento instantáneo de texto en varios idiomas, como inglés, alemán, chino, coreano e índico. Este software puede extraer datos de imágenes escaneadas o documentos PDF y convertirlos en un formato editable que permita realizar búsquedas.

Este software admite varios formatos de salida, como texto enriquecido, TXT o CSV, y formatos de imagen como BMP, TIF o PDF. También dispone de una función de eliminación automática de documentos. Este programa es rápido y preciso a la hora de reconocer texto en imágenes de varios idiomas, incluso las que tienen fondos transparentes. El alto índice de precisión, la asequibilidad y la facilidad de instalación de A9T9 lo convierten en la mejor opción para los usuarios de Windows que buscan una solución de software OCR gratuita.

Copiar texto con A9T9

Puedes descargar el software A9T9 desde la Microsoft Store. Tras la instalación, abra el software A9T9 y cargue las imágenes o archivos PDF.

Copiar texto con A9T9

Una vez cargada la imagen o el documento, haga clic en el botón "Iniciar OCR". Esto extraerá el texto del documento o imagen escaneados y lo mostrará en el área de texto de la derecha.

El texto aparece a la derecha

Puedes seleccionar el idioma del OCR y copiar el texto o guardarlo como documento Word.

Lente de oficina

Office Lens es una sofisticada herramienta creada para capturar y organizar notas, pizarras, menús, carteles y otros tipos de información escrita o visual. Esta aplicación ofrece una alternativa superior a la toma de notas tradicional, ya que elimina la necesidad de tomar notas a mano y la posibilidad de perder información importante.

Office Lens permite a los usuarios capturar fácilmente bocetos, notas manuscritas, dibujos y ecuaciones, y corregir las imágenes de sombras y ángulos sesgados para mejorar la legibilidad. También cuenta con OCR (reconocimiento óptico de caracteres), lo que permite a los usuarios digitalizar y editar texto dentro de imágenes.

Lamentablemente, Microsoft ha suspendido la versión para Windows de Office Lens. Ahora sólo está disponible en dispositivos móviles. Además, se ha eliminado Microsoft Office Document Imaging de Microsoft Word 2010.

IronOCR: C# Biblioteca OCR

IronOCR es una potente biblioteca de OCR en C# para desarrolladores .NET. Permite funciones completas de OCR en documentos e imágenes escaneados, lo que facilita a los desarrolladores la automatización de flujos de trabajo basados en documentos. Con su sencilla API y una configuración mínima, IronOCR se integra fácilmente en los sistemas existentes.

La biblioteca ofrece una API sencilla, lo que facilita su integración en los sistemas existentes con una configuración mínima. Admite una amplia gama de formatos de archivo de entrada, como JPEG, TIFF, GIF, BMP, PDF, TIFF multipágina y escaneados de múltiples documentos, y puede leer texto de imágenes con distintas orientaciones.

Las funciones avanzadas de IronOCR incluyen la eliminación de ruido, que ayuda a reducir la distorsión de la imagen y a mejorar la precisión de los resultados de extracción de texto. Con soporte para más de 125 idiomas, entre ellos inglés, francés, alemán, español y japonés, la biblioteca es adecuada para casi cualquier aplicación que requiera resultados de OCR de alta calidad sin intervención manual.

Extraer texto con IronOCR

Con la capacidad de extraer texto de archivos PDF con facilidad, es posible especificar números de página concretos o extraer texto de todas las páginas del documento. El proceso de extracción de texto puede agilizarse y hacerse más eficaz con las herramientas adecuadas.

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // OCR entire document
    ocrInput.AddPdf("example.pdf");

    // Alternatively OCR selected page numbers
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // OCR entire document
    ocrInput.AddPdf("example.pdf");

    // Alternatively OCR selected page numbers
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()

Using ocrInput As New OcrInput()
	' OCR entire document
	ocrInput.AddPdf("example.pdf")

	' Alternatively OCR selected page numbers
	ocrInput.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using

$vbLabelText $csharpLabel

Este es el resultado:

La salida dentro de la consola de depuración de Visual Studio

También puede leer fácilmente códigos de barras además de extraer texto de archivos PDF. La biblioteca proporciona una sencilla implementación de código para leer códigos de barras, lo que la convierte en una herramienta versátil para diversos flujos de trabajo basados en documentos. Véase el código siguiente:

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()
ocrTesseract.Configuration.ReadBarCodes = True
Using ocrInput As New OcrInput("images\imageWithBarcode.png")
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	For Each barcode In ocrResult.Barcodes
		Console.WriteLine(barcode.Value)
	Next barcode
End Using

$vbLabelText $csharpLabel

Entrada/Salida del código

IronOCR es capaz de soportar DPI bajos e imágenes ruidosas.

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew();
    ocrInput.DeNoise();
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew();
    ocrInput.DeNoise();
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()
Using ocrInput As New OcrInput("images\image.png")
	ocrInput.Deskew()
	ocrInput.DeNoise()
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using

$vbLabelText $csharpLabel

Conclusión

En conclusión, el Reconocimiento Óptico de Caracteres (OCR) es una herramienta vital que puede beneficiar enormemente a empresas de todos los tamaños, permitiéndoles escanear, almacenar y procesar información de manera eficiente, información que de otro modo sería compleja y llevaría mucho tiempo gestionar manualmente. Microsoft ofrece varias herramientas de OCR, como OneNote, Microsoft Vision Studio y A9T9 Free OCR Software, que pueden agilizar los procesos y ahorrar tiempo.

IronOCR, una biblioteca de OCR muy completa, es una opción destacada entre las herramientas de OCR disponibles. Es fácilmente integrable con aplicaciones C# y VB.NET, ofrece excelente precisión y reconocimiento de múltiples idiomas y formatos de imagen, y tiene un período de prueba gratuito, con costos de licencias a partir de $749. IronOCR es una inversión valiosa para las empresas que buscan mejorar su transformación digital. Cada una de estas herramientas de OCR ofrece características únicas y puede servir para diferentes necesidades, lo que las convierte en activos valiosos para las empresas que buscan mejorar su transformación digital.

Kannapat Udonpant

Chatea con el equipo de ingeniería ahora

Ingeniero de software

Antes de convertirse en ingeniero de software, Kannapat realizó un doctorado en Recursos Medioambientales en la Universidad de Hokkaido (Japón). Mientras cursaba su licenciatura, Kannapat también se convirtió en miembro del Laboratorio de Robótica Vehicular, que forma parte del Departamento de Ingeniería de Bioproducción. En 2022, aprovechó sus conocimientos de C# para unirse al equipo de ingeniería de Iron Software, donde se centra en IronPDF. Kannapat valora su trabajo porque aprende directamente del desarrollador que escribe la mayor parte del código utilizado en IronPDF. Además del aprendizaje entre iguales, Kannapat disfruta del aspecto social de trabajar en Iron Software. Cuando no está escribiendo código o documentación, Kannapat suele jugar con su PS5 o volver a ver The Last of Us.

< ANTERIOR
Mejor software OCR para Windows 10 (Lista comparativa)

SIGUIENTE >
Instalar Tesseract (Tutorial paso a paso con imágenes)