Pruebe en producción sin marcas de agua.
Funciona donde lo necesite.
Obtén 30 días de producto totalmente funcional.
Ténlo en funcionamiento en minutos.
Acceso completo a nuestro equipo de asistencia técnica durante la prueba del producto
En la era digital actual, es necesario transformar el contenido basado en imágenes en texto editable fácil de leer y que permita realizar búsquedas. Esto es particularmente importante en escenarios como el archivo de documentos en papel, la extracción de información clave de imágenes o la digitalización de materiales impresos. La tecnología de Reconocimiento Óptico de Caracteres (OCR) ofrece una solución para automatizar este proceso de conversión. Una herramienta muy fiable y eficiente para lograr esto es IronOCR, una robusta biblioteca OCR para .NET.
Este artículo explicará cómo convertir una imagen a texto utilizando IronOCR, y explorará cómo esta conversión puede ahorrar tiempo, reducir errores y agilizar procesos como la extracción de datos, el archivo y el procesamiento de documentos.
Cree una nueva `IronTesseract` instancia
Carga tu imagen usando `OcrImageInput`
Lea el contenido de la imagen usando `OcrRead`
Hay muchas razones por las que podría querer convertir una imagen en texto, incluyendo:
Antes de explorar cómo se pueden aprovechar las potentes capacidades de conversión de imagen a texto de IronOCR para extraer texto de imágenes, primero echemos un vistazo al proceso general paso a paso utilizando una herramienta en línea, docsumo. Las herramientas de OCR en línea son una opción útil para quienes buscan realizar tareas de OCR ocasionales, o incluso puntuales, gracias a que no necesitan ninguna configuración manual. Por supuesto, si necesitas realizar tareas de OCR con regularidad, entonces contar con una potente herramienta de OCR como IronOCR podría resultarte más útil.
Ir a la herramienta de OCR en línea
Cargue su imagen y comience el proceso de extracción
Para empezar a utilizar la tecnología de OCR para extraer texto de archivos de imagen, primero navegamos hasta la herramienta de OCR de imágenes en línea que queremos utilizar.
Ahora, haciendo clic en el botón "Cargar archivo", podemos cargar el archivo de imagen del que queremos extraer el texto. La herramienta comenzará inmediatamente a procesar la imagen.
Ahora que la imagen ha terminado de procesarse, podemos descargar el texto extraído como un nuevo documento de texto, para su posterior uso o manipulación.
También puede visualizar el archivo, resaltando las distintas secciones para ver el texto que contiene. Esto podría ser particularmente útil si sólo se desea ver el texto dentro de ciertas secciones. A continuación, puede seguir descargando el texto como documento de texto, XLS o JSON.
IronOCR es una biblioteca .NET versátil que te permite realizar operaciones de OCR en imágenes. Con una amplia gama de características para ofrecer, puede procesar varios formatos de archivo (como PNG, JPEG, TIFF y PDF), realizar corrección de imágenes, escanear documentos especializados (pasaportes, matrículas, etc.), proporcionar información avanzada sobre los archivos escaneados, convertir documentos escaneados y resaltar texto.
Antes de que pueda empezar a leer imágenes utilizando IronOCR, necesitará instalarlo si aún no lo tiene instalado en su proyecto. Puede instalar IronOCR fácilmente utilizando NuGet en Visual Studio. Abra la consola del gestor de paquetes NuGet y ejecute el siguiente comando:
Install-Package IronOcr
Install-Package IronOcr
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'Install-Package IronOcr
También puede instalar IronOCR a través de la página NuGet Package Manager for Solution buscando IronOCR.
Para utilizar IronOCR en su código, asegúrese de incluir la declaración de importación adecuada en la parte superior de su código:
using IronOcr;
using IronOcr;
Imports IronOcr
Para empezar, veamos un ejemplo básico de conversión de imagen a texto con IronOCR. Se trata de una funcionalidad básica de cualquier herramienta de OCR y, para este ejemplo, utilizaremos el archivo PNG que utilizamos para la herramienta en línea. En este ejemplo, primero hemos instanciado la clase IronTesseract y le hemos asignado la variable 'ocr'. A continuación, utilizamos la clase OcrImageInput para crear un nuevo objeto OcrImageInput a partir del archivo de imagen proporcionado. Finalmente, el método Read se utiliza para leer el texto de la imagen y devuelve un objeto OcrResult. Luego, podemos acceder al texto extraído y mostrarlo en la consola usando ocrResult.Text.
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
Console.WriteLine(ocrResult.Text)
IronOCR es compatible con varios formatos de imagen, como PNG, JPEG, BMP, GIF y TIFF. El proceso para leer texto de diferentes formatos de imagen sigue siendo el mismo, solo hay que cargar el archivo con la extensión correcta.
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.bmp");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.bmp");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
Console.WriteLine(ocrResult.Text)
El rendimiento del OCR puede mejorarse optimizando la imagen y configurando opciones como el idioma, la resolución de la imagen y el nivel de ruido de la imagen. A continuación, se explica cómo puede ajustar finamente el OCR para aumentar la precisión de la extracción de texto en una imagen cuya calidad necesita mejorar mediante el uso de los métodos DeNoise() y Sharpen():
using IronOcr
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
image.DeNoise();
image.Sharpen();
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
image.DeNoise();
image.Sharpen();
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Using IronOcr IronTesseract ocr = New IronTesseract()
Using image As New OcrImageInput("example.png")
image.DeNoise()
image.Sharpen()
Dim ocrResult As OcrResult = ocr.Read(image)
Console.WriteLine(ocrResult.Text)
End Using
End Using
Ahora que conocemos los aspectos básicos del proceso de conversión de imagen a texto, veamos cómo exportar el texto resultante para su uso posterior. Para este ejemplo, utilizaremos el mismo proceso que antes para cargar la imagen y escanearla. Luego, usando File.WriteAllText("output.txt", ocrResult.Text), creamos un nuevo archivo de texto llamado 'output.txt' y guardamos el texto extraído en el archivo.
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
File.WriteAllText("output.txt", ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
File.WriteAllText("output.txt", ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
File.WriteAllText("output.txt", ocrResult.Text)
Alta precisión: IronOCR utiliza algoritmos avanzados de OCR Tesseract e incluye herramientas integradas para manejar imágenes complejas, asegurando alta precisión.
Soporte Multilingüe: Soporta más de 125 idiomas, incluyendo múltiples sistemas de escritura como el latín, cirílico, árabe y caracteres asiáticos. Cabe señalar, sin embargo, que sólo el inglés se instala junto con IronOCR, para utilizar otros idiomas, tendrá que instalar el paquete de idioma adicional para ese idioma.
OCR de PDF: IronOCR puede extraer texto de PDFs escaneados, convirtiéndose en una herramienta valiosa para la digitalización de documentos.
Limpieza de imágenes: Ofrece herramientas de preprocesamiento como alineación, eliminación de ruido e inversión para mejorar la calidad de la imagen y lograr una mejor precisión en el OCR.
La conversión de texto a partir de una imagen mediante IronOCR es una forma rápida, precisa y eficaz de realizar tareas de procesamiento de documentos. Tanto si trabaja con documentos escaneados, imágenes digitales o documentos PDF, IronOCR simplifica el proceso, proporcionando una gran precisión, soporte multilingüe y potentes herramientas de procesamiento de imágenes. Esta herramienta es ideal para empresas que buscan agilizar sus flujos de trabajo de gestión de documentos, automatizar la extracción de datos o mejorar la accesibilidad.
Use la prueba gratuita para probar las potentes funciones de IronOCR por usted mismo hoy, ¡solo toma unos minutos para que funcione completamente dentro de su espacio de trabajo para que pueda comenzar a procesar tareas de OCR en poco tiempo!