Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
En la era digital actual, es necesario transformar el contenido basado en imágenes en texto editable fácil de leer y que permita realizar búsquedas. Esto es especialmente importante en situaciones como el archivo de documentos en papel, la extracción de información clave de imágenes o la digitalización de materiales manuscritos o impresos. Reconocimiento óptico de caracteres(OCR) technology ofrece una solución para automatizar este proceso de conversión. Una herramienta muy fiable y eficaz para lograrlo es IronOCR, una robusta biblioteca de OCR para .NET.
En este artículo se explica cómo convertir una imagen en texto utilizandoIronOCRexplora cómo esta conversión puede ahorrar tiempo, reducir errores y agilizar procesos como la extracción de datos, el archivado y el procesamiento de documentos.
1.Descargar una biblioteca de C# para trabajos de OCR
Crear un nuevo `IronTesseract\Ejemplo
Cargue su imagen con `OcrImageInput`
Lea el contenido de la imagen con `OcrRead`
Hay muchas razones por las que podría querer convertir una imagen en texto, incluyendo:
Antes de explorar cómo se pueden aprovechar las potentes capacidades de conversión de imagen a texto de IronOCR para extraer texto de imágenes, echemos un vistazo al proceso general paso a paso utilizando una herramienta en línea,docsumo. Las herramientas de OCR en línea son una opción útil para quienes buscan realizar tareas de OCR ocasionales, o incluso puntuales, gracias a que no necesitan ninguna configuración manual. Por supuesto, si necesitas realizar tareas de OCR con regularidad, entonces contar con una potente herramienta de OCR como IronOCR podría resultarte más útil.
Ir a la herramienta de OCR en línea
Cargue su imagen y comience el proceso de extracción
Para empezar a utilizar la tecnología de OCR para extraer texto de archivos de imagen, primero navegamos hasta la herramienta de OCR de imágenes en línea que queremos utilizar.
Ahora, haciendo clic en el botón "Cargar archivo", podemos cargar el archivo de imagen del que queremos extraer el texto. La herramienta comenzará inmediatamente a procesar la imagen.
Ahora que la imagen ha terminado de procesarse, podemos descargar el texto extraído como un nuevo documento de texto, para su posterior uso o manipulación.
También puede visualizar el archivo, resaltando las distintas secciones para ver el texto que contiene. Esto podría ser particularmente útil si sólo se desea ver el texto dentro de ciertas secciones. A continuación, puede seguir descargando el texto como documento de texto, XLS o JSON.
IronOCR es una biblioteca .NET versátil que permite realizar operaciones de OCR en imágenes. Con una amplia gama de funciones que ofrecer, puede procesar varios formatos de archivo(como PNG, JPEG, TIFF y PDF)corrección de imágenes, escaneado de documentos especializados(Pasaportes, matrículas, etc)además, el traductor deberá proporcionar información avanzada sobre los archivos escaneados, convertir los documentos escaneados y resaltar el texto.
Antes de que pueda empezar a leer imágenes utilizando IronOCR, necesitará instalarlo si aún no lo tiene instalado en su proyecto. Puede instalar IronOCR fácilmente utilizando NuGet en Visual Studio. Abra la consola del gestor de paquetes NuGet y ejecute el siguiente comando:
Install-Package IronOcr
Install-Package IronOcr
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'Install-Package IronOcr
También puede instalar IronOCR a través de la página NuGet Package Manager for Solution buscando IronOCR.
Para utilizar IronOCR en su código, asegúrese de incluir la declaración de importación adecuada en la parte superior de su código:
using IronOcr;
using IronOcr;
Imports IronOcr
Para empezar, veamos un ejemplo básico de conversión de imagen a texto con IronOCR. Se trata de una funcionalidad básica de cualquier herramienta de OCR y, para este ejemplo, utilizaremos el archivo PNG que utilizamos para la herramienta en línea. En este ejemplo, primero hemos instanciado el archivoIronTesseract y le asignamos la variable 'ocr'. A continuación, utilizamos laOcrImageInput para crear un nuevo objeto OcrImageInput a partir del archivo de imagen proporcionado. Por último, el**Leer*el método * se utiliza para leer el texto de la imagen y devuelve un[Resultado](/csharp/ocr/object-reference/api/IronOcr.OcrResult.html) objeto. A continuación, podemos acceder al texto extraído y mostrarlo en la consola utilizandoocrResult.Text.
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
Console.WriteLine(ocrResult.Text)
IronOCR es compatible con varios formatos de imagen, como PNG, JPEG, BMP, GIF y TIFF. El proceso para leer texto de diferentes formatos de imagen sigue siendo el mismo, solo hay que cargar el archivo con la extensión correcta.
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.bmp");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.bmp");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
Console.WriteLine(ocrResult.Text)
El rendimiento del OCR puede mejorarse optimizando la imagen y configurando opciones como el idioma, la resolución de la imagen y el nivel de ruido de la imagen. A continuación te explicamos cómo puedes afinar el OCR para aumentar la precisión de la extracción de texto en una imagen cuya calidad necesita mejorar mediante el uso delDeNoise() yAfilar() métodos:
using IronOcr
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
image.DeNoise();
image.Sharpen();
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
image.DeNoise();
image.Sharpen();
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Using IronOcr IronTesseract ocr = New IronTesseract()
Using image As New OcrImageInput("example.png")
image.DeNoise()
image.Sharpen()
Dim ocrResult As OcrResult = ocr.Read(image)
Console.WriteLine(ocrResult.Text)
End Using
End Using
Ahora que conocemos los aspectos básicos del proceso de conversión de imagen a texto, veamos cómo exportar el texto resultante para su uso posterior. Para este ejemplo, utilizaremos el mismo proceso que antes para cargar la imagen y escanearla. A continuación, utilizando File.WriteAllText("output.txt", ocrResult.Text), creamos un nuevo archivo de texto llamado 'output.txt' y guardamos en él el texto extraído.
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
File.WriteAllText("output.txt", ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
File.WriteAllText("output.txt", ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
File.WriteAllText("output.txt", ocrResult.Text)
Alta precisión: IronOCR utiliza tecnología avanzada deTesseract OCR e incluye herramientas integradas para manejar imágenes complejas, garantizando una gran precisión.
Soporte multilingüe:Compatible con más de 125 idiomasla traducción debe incluir caracteres latinos, cirílicos, árabes y asiáticos. Cabe señalar, sin embargo, que sólo el inglés se instala junto con IronOCR, para utilizar otros idiomas, tendrá que instalar el paquete de idioma adicional para ese idioma.
OCR DE PDF: IronOCR puede extraer texto dePDF escaneadosademás, debe ser una herramienta valiosa para la digitalización de documentos.
Limpieza de imágenes: Proporciona herramientas de preprocesamiento comodescifrar, eliminación de ruidoyinversión mejorar la calidad de la imagen para mejorar la precisión del OCR.
La conversión de texto a partir de una imagen mediante IronOCR es una forma rápida, precisa y eficaz de realizar tareas de procesamiento de documentos. Tanto si trabaja con documentos escaneados, imágenes digitales o documentos PDF, IronOCR simplifica el proceso, proporcionando una gran precisión, soporte multilingüe y potentes herramientas de procesamiento de imágenes. Esta herramienta es ideal para empresas que buscan agilizar sus flujos de trabajo de gestión de documentos, automatizar la extracción de datos o mejorar la accesibilidad.
Utiliza elprueba gratuita para probar hoy mismo las potentes funciones de IronOCR, sólo necesita unos minutos para que funcione plenamente en su espacio de trabajo y pueda empezar a procesar tareas de OCR en un abrir y cerrar de ojos!
9 productos API .NET para sus documentos de oficina