Cómo realizar OCR en PDF (herramientas gratuitas en línea)
OCR o reconocimiento óptico de caracteres es un proceso de convertir información textual en forma digital. PDF OCR es una aplicación popular que se puede usar para mejorar los procesos empresariales. Uno de los beneficios de PDF OCR es que se puede usar para mejorar la accesibilidad de la información. Esto es particularmente importante para los documentos que no están disponibles en un formato que todos puedan usar o leer. PDF OCR se puede usar para producir una copia del documento que está disponible en un formato que todos puedan usar.
Otro uso de PDF OCR es en el seguimiento de documentos. Cuando un documento se archiva, escanea o transcribe, puede ser difícil rastrear qué versión del documento está asociada con qué archivo. Con PDF OCR, es posible rastrear los cambios realizados en un documento y determinar qué versiones están asociadas con qué archivo. Esto puede ser útil para gestionar archivos de documentos y prevenir la pérdida de información importante.
En este artículo, aprenderá cómo puede usar OCR para cualquier archivo PDF utilizando el software Adobe Acrobat Pro. Este artículo también presentará la biblioteca OCR de .NET IronOCR, que es una de las bibliotecas más eficientes y ricas en funciones disponibles. Comencemos con Adobe Acrobat Pro.
OCR de un PDF con Adobe Acrobat Pro DC

Adobe Acrobat Pro DC es la versión Pro de Adobe Acrobat Reader DC. Es la herramienta más popular y poderosa para la manipulación de PDF. Con este software, puede crear, editar, firmar y revisar cualquier documento PDF. Además, le permite convertir PDFs en presentaciones de PowerPoint, documentos de Word o archivos de Excel. También puede editar documentos escaneados.
La nueva versión de Acrobat DC también es un escáner de documentos que puede convertir rápidamente documentos escaneados en archivos digitales utilizando tecnología OCR. Cuenta con reconocimiento óptico de caracteres, así como escaneo inteligente de tarjetas de visita que detecta y guarda automáticamente la información de contacto de las tarjetas en segundos.
Además de poder extraer texto de archivos PDF, Acrobat Pro DC tiene muchas características que lo convierten en una herramienta valiosa para la transcripción de PDF.
Veamos cómo podemos utilizar OCR de un documento escaneado usando Adobe Acrobat Pro.
- Abra el documento PDF deseado, en nuestro ejemplo un archivo PDF escaneado, en Adobe Acrobat.
- Seleccione "Editar PDF" en el panel derecho del documento.

- Esto abrirá la interfaz de la herramienta OCR PDF de Adobe Reader.
- Haga clic en el botón "Editar" en la cinta superior.
- Esto convertirá documentos PDF escaneados en documentos PDF totalmente editables. Podrá editar archivos de texto e imagen directamente en el archivo PDF.

- También puede cambiar la ubicación del bloque de texto, la fuente de texto, etc.
Después de realizar los cambios, guarde el archivo y verá estos cambios reflejados en el documento.
IronOCR: una biblioteca de OCR .NET

IronOCR es una biblioteca OCR de .NET y una herramienta OCR que puede leer documentos de texto e imágenes convirtiéndolos en un formato legible por máquina.
Esta biblioteca de reconocimiento óptico de caracteres fue desarrollada teniendo en cuenta los siguientes aspectos:
- La necesidad de un motor OCR robusto y preciso que se pueda usar con diferentes idiomas sin necesitar ningún software externo.
- La necesidad de una API fácil de usar que funcione en diferentes plataformas como Windows, Linux y macOS.
- La necesidad de un motor OCR que pueda integrarse fácilmente en varias aplicaciones .NET y sea compatible con aplicaciones WPF y de consola.
IronOCR facilita a los desarrolladores la creación de software que soporte el escaneo de documentos, la extracción de texto y metadatos, la indexación de archivos de imágenes escaneadas, la conversión de imágenes en PDFs buscables y la conversión de documentos escaneados en texto legible. IronOCR ofrece muchas opciones cuando se trata de codificación, conversión de formatos de imagen y reconocimiento y extracción de texto. IronOCR admite 125 idiomas.
IronOCR proporciona un proceso OCR intuitivo, robusto y preciso para reconocer texto de documentos escaneados, fotografías y capturas de pantalla, mientras reduce tareas que consumen mucho tiempo como la segmentación de páginas y el análisis de diseño. La biblioteca está desarrollada en C# y el diseño de su API es sencillo con buena legibilidad.
Exploremos algunos ejemplos de código usando IronOCR:
Ejemplos de Código
using IronOcr;
var Ocr = new IronTesseract();
// Initialize OCR input
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
// Alternatively, OCR selected page numbers
Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");
// Read the PDF and output the recognized text
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}using IronOcr;
var Ocr = new IronTesseract();
// Initialize OCR input
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
// Alternatively, OCR selected page numbers
Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");
// Read the PDF and output the recognized text
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}Imports IronOcr
Private Ocr = New IronTesseract()
' Initialize OCR input
Using Input = New OcrInput()
' OCR entire document
Input.AddPdf("example.pdf", "password")
' Alternatively, OCR selected page numbers
Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")
' Read the PDF and output the recognized text
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End UsingEste ejemplo demuestra cómo usar IronOCR para procesar un documento PDF completo o páginas específicas del documento.
Archivo PDF (entrada)

Salida en la consola

Puede convertir un PDF en un PDF seleccionable usando IronOCR. Es muy simple y directo. Vea el fragmento de código de la conversión de PDF a continuación:
using IronOcr;
var Ocr = new IronTesseract();
// Initialize OCR input
using (var Input = new OcrInput())
{
// Add PDF for processing
Input.AddPdf("scan.pdf", "password");
// Clean up twisted pages to improve OCR results
Input.Deskew();
// Run OCR and save as a searchable PDF
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}using IronOcr;
var Ocr = new IronTesseract();
// Initialize OCR input
using (var Input = new OcrInput())
{
// Add PDF for processing
Input.AddPdf("scan.pdf", "password");
// Clean up twisted pages to improve OCR results
Input.Deskew();
// Run OCR and save as a searchable PDF
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}Imports IronOcr
Private Ocr = New IronTesseract()
' Initialize OCR input
Using Input = New OcrInput()
' Add PDF for processing
Input.AddPdf("scan.pdf", "password")
' Clean up twisted pages to improve OCR results
Input.Deskew()
' Run OCR and save as a searchable PDF
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End UsingIronOCR ofrece muchas otras herramientas y características. Puede explorar las características de IronOCR visitando el siguiente enlace.
Conclusión
La biblioteca IronOCR tiene varias ventajas sobre otras bibliotecas disponibles en el mercado. Puede modificar y extender su funcionalidad agregando sus propios módulos con solo unas pocas líneas de código. IronOCR actualmente puede leer textos en más de 125 idiomas. Ha sido desarrollado para producir resultados de mayor calidad y más confiables al consumir mucho menos tiempo y recursos de memoria en comparación con otras bibliotecas.
IronOCR es gratuito para el desarrollo. IronOCR también ofrece una prueba gratuita para realizar pruebas en producción. Para más detalles sobre los precios y una prueba gratuita de IronOCR, siga el enlace.










