HERRAMIENTAS OCR

Herramientas OCR de Microsoft (alternativas en C#)

Publicado en 30 de marzo, 2023
Compartir:

OCR(Reconocimiento óptico de caracteres) es una tecnología crucial para empresas de todos los tamaños. Permite escanear, almacenar y analizar de forma eficaz datos que, de otro modo, llevarían mucho tiempo y serían complejos de manejar.

Las herramientas de OCR de Microsoft ofrecen sólidas opciones para simplificar su proceso de transformación digital. Estas herramientas permiten un procesamiento de documentos más rápido y eficaz, liberándole tiempo para que pueda centrarse en la importante tarea de hacer crecer su negocio. En este artículo, exploraremos cómo utilizar las potentes herramientas de OCR de Microsoft para agilizar sus operaciones.

OneNote: Herramienta de Microsoft

Si necesita extraer texto de una imagen, Microsoft OneNote es una herramienta muy útil. OneNote es una versátil aplicación para tomar notas que proporciona una plataforma para capturar, almacenar y organizar información en diversas formas, como texto, imágenes, audio y vídeo. También es una valiosa herramienta para copiar texto de imágenes o archivos impresos, ahorrándole tiempo y esfuerzo al eliminar la necesidad de teclear manualmente el texto.

Extraer texto con OneNote

Para extraer texto de una imagen utilizando OneNote, siga estos pasos:

  1. Inicie la aplicación OneNote.

  2. Inserte el archivo de imagen utilizando la opción "Insertar" o simplemente arrastre y suelte el archivo de imagen en la ventana de OneNote.

    Cinta Insertar de OneNote

    Cinta de inserción de OneNote

  3. Haga clic con el botón derecho en la imagen y seleccione "Copiar texto de la imagen" en el menú.

    Copiar texto de la imagen en el menú contextual

    Copiar texto de la imagen en el menú contextual

  4. Por último, pegue el texto copiado en la ubicación que desee para acceder al texto extraído de la imagen escaneada.
    Texto procedente de texto copiado de una imagen

    Texto procedente de texto copiado de una imagen

    Así es como puedes utilizar OneNote para escanear cualquier imagen.

Microsoft Vision Studio

Microsoft Cognitive Services ofrece la función "Extraer texto de imágenes", que utiliza IA para escanear imágenes y detectar texto con precisión. Este servicio es fácil de usar y sólo requiere cargar una imagen o un archivo PDF. A continuación, la información se transcribe con gran precisión, garantizando que el texto extraído representa con exactitud el contenido de la imagen o el archivo PDF.

Además, el texto extraído puede estar en varios idiomas, lo que hace el servicio accesible a usuarios de todo el mundo. Con "Extraer texto de imágenes" de Microsoft Cognitive Services, la extracción de datos valiosos de imágenes se simplifica y permite realizar análisis eficientes y completar tareas con eficacia.

Extraer texto con Microsoft Vision Studio

Para utilizar la función "Extraer texto de imágenes", puede visitar la página de Microsoft AzurePágina web de Vision Studio. Sin embargo, este servicio requiere una suscripción a Azure. Una vez adquirida la suscripción, tendrá acceso al texto extraído de los documentos escaneados. A continuación se muestra un ejemplo de imagen de salida como referencia.

Imagen escaneada por su texto

Imagen escaneada por su texto

A9T9 Software OCR gratuito de Microsoft

A9T9 Free OCR Software es una herramienta versátil que permite a los usuarios de Windows convertir sin esfuerzo documentos en papel en texto digital. Su sencilla función de arrastrar y soltar permite el reconocimiento instantáneo de texto en varios idiomas, como inglés, alemán, chino, coreano e índico. Este software puede extraer datos de imágenes escaneadas o documentos PDF y convertirlos en un formato editable que permita realizar búsquedas.

Este software admite varios formatos de salida, como texto enriquecido, TXT o CSV, y formatos de imagen como BMP, TIF o PDF. También dispone de una función de eliminación automática de documentos. Este programa es rápido y preciso a la hora de reconocer texto en imágenes de varios idiomas, incluso las que tienen fondos transparentes. El alto índice de precisión, la asequibilidad y la facilidad de instalación de A9T9 lo convierten en la mejor opción para los usuarios de Windows que buscan una solución de software OCR gratuita.

Copiar texto con A9T9

Puede descargar el software A9T9 desde la páginaTienda Microsoft. Tras la instalación, abra el software A9T9 y cargue las imágenes o archivos PDF.

Imagen escaneada por su texto

Copiar texto con A9T9

Una vez cargada la imagen o el documento, haga clic en el botón "Iniciar OCR". Esto extraerá el texto del documento o imagen escaneados y lo mostrará en el área de texto de la derecha.

El texto aparece a la derecha

El texto aparece a la derecha

Puedes seleccionar el idioma del OCR y copiar el texto o guardarlo como documento Word.

Lente de oficina

Office Lens es una sofisticada herramienta creada para capturar y organizar notas, pizarras, menús, carteles y otros tipos de información escrita o visual. Esta aplicación ofrece una alternativa superior a la toma de notas tradicional, ya que elimina la necesidad de tomar notas a mano y la posibilidad de perder información importante.

Office Lens permite a los usuarios capturar fácilmente bocetos, notas manuscritas, dibujos y ecuaciones, y corregir las imágenes de sombras y ángulos sesgados para mejorar la legibilidad. También incluye OCR(reconocimiento óptico de caracteres)que permite a los usuarios digitalizar y editar texto dentro de las imágenes.

Lamentablemente, Microsoft ha suspendido la versión para Windows de Office Lens. Ahora sólo está disponible en dispositivos móviles. Además, se ha eliminado Microsoft Office Document Imaging de Microsoft Word 2010.

IronOCR: Biblioteca C# OCR

IronOCR es una potente biblioteca de OCR en C# para desarrolladores .NET. Permite funciones completas de OCR en documentos e imágenes escaneados, lo que facilita a los desarrolladores la automatización de flujos de trabajo basados en documentos. Con su sencilla API y una configuración mínima, IronOCR se integra fácilmente en los sistemas existentes.

La biblioteca ofrece una API sencilla, lo que facilita su integración en los sistemas existentes con una configuración mínima. Admite una amplia gama de formatos de archivo de entrada, como JPEG, TIFF, GIF, BMP, PDF, TIFF multipágina y escaneados de múltiples documentos, y puede leer texto de imágenes con distintas orientaciones.

Las funciones avanzadas de IronOCR incluyen la eliminación de ruido, que ayuda a reducir la distorsión de la imagen y a mejorar la precisión de los resultados de extracción de texto. Con soporte para más de 125 idiomas, entre ellos inglés, francés, alemán, español y japonés, la biblioteca es adecuada para casi cualquier aplicación que requiera resultados de OCR de alta calidad sin intervención manual.

Extraer texto con IronOCR

Con la capacidad de extraer texto de archivos PDF con facilidad, es posible especificar números de página concretos o extraer texto de todas las páginas del documento. El proceso de extracción de texto puede agilizarse y hacerse más eficaz con las herramientas adecuadas.

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // OCR entire document
    ocrInput.AddPdf("example.pdf");

    // Alternatively OCR selected page numbers
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using (var ocrInput = new OcrInput())
{
    // OCR entire document
    ocrInput.AddPdf("example.pdf");

    // Alternatively OCR selected page numbers
    ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()

Using ocrInput As New OcrInput()
	' OCR entire document
	ocrInput.AddPdf("example.pdf")

	' Alternatively OCR selected page numbers
	ocrInput.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
VB   C#

Este es el resultado:

La salida dentro de la consola de depuración de Visual Studio

La salida dentro de la consola de depuración de Visual Studio

También puede leer fácilmente códigos de barras además de extraer texto de archivos PDF. La biblioteca proporciona una sencilla implementación de código para leer códigos de barras, lo que la convierte en una herramienta versátil para diversos flujos de trabajo basados en documentos. Véase el código siguiente:

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()
ocrTesseract.Configuration.ReadBarCodes = True
Using ocrInput As New OcrInput("images\imageWithBarcode.png")
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	For Each barcode In ocrResult.Barcodes
		Console.WriteLine(barcode.Value)
	Next barcode
End Using
VB   C#
Entrada/Salida del código

Entrada/Salida del código

IronOCR es capaz de soportar DPI bajos e imágenes ruidosas.

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew();
    ocrInput.DeNoise();
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput(@"images\image.png"))
{
    ocrInput.Deskew();
    ocrInput.DeNoise();
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()
Using ocrInput As New OcrInput("images\image.png")
	ocrInput.Deskew()
	ocrInput.DeNoise()
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using
VB   C#

Conclusión

En conclusión, el reconocimiento óptico de caracteres(OCR) es una herramienta vital que puede beneficiar enormemente a empresas de todos los tamaños, permitiéndoles escanear, almacenar y procesar de forma eficaz información que, de otro modo, sería complejo y llevaría mucho tiempo gestionar manualmente. Microsoft ofrece varias herramientas de OCR, como OneNote, Microsoft Vision Studio y A9T9 Free OCR Software, que pueden agilizar los procesos y ahorrar tiempo.

IronOCR, una biblioteca de OCR muy completa, es una opción destacada entre las herramientas de OCR disponibles. Es fácilmente integrable con aplicaciones C# y VB.NET, ofrece una excelente precisión y reconocimiento de múltiples idiomas y formatos de imagen, y cuenta con unprueba gratuita a partir de $749. IronOCR es una inversión valiosa para las empresas que buscan mejorar su transformación digital. Cada una de estas herramientas de OCR ofrece características únicas y puede servir para diferentes necesidades, lo que las convierte en activos valiosos para las empresas que buscan mejorar su transformación digital.

< ANTERIOR
Mejor software OCR para Windows 10 (Lista comparativa)
SIGUIENTE >
Instalar Tesseract (Tutorial paso a paso con imágenes)

¿Listo para empezar? Versión: 2024.11 acaba de salir

Descarga gratuita de NuGet Descargas totales: 2,698,613 Ver licencias >