Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
El OCR o reconocimiento óptico de caracteres es un proceso de conversión de información textual en formato digital. El OCR de PDF es una aplicación muy popular que puede utilizarse para mejorar los procesos empresariales. Una de las ventajas del OCR de PDF es que puede utilizarse para mejorar la accesibilidad de la información. Esto es especialmente importante en el caso de documentos que no están disponibles en un formato que todo el mundo pueda utilizar o leer. El OCR de PDF puede utilizarse para producir una copia del documento disponible en un formato que todo el mundo pueda utilizar.
Otro uso del OCR de PDF es el seguimiento de documentos. Cuando se archiva, escanea o transcribe un documento, puede resultar difícil rastrear qué versión del documento está asociada a qué archivo. Con el OCR de PDF, es posible rastrear los cambios realizados en un documento y determinar qué versiones están asociadas a qué archivo. Esto puede ser útil para gestionar archivos de documentos y evitar la pérdida de información importante.
En este artículo, aprenderá a utilizar el OCR para cualquier archivo PDF mediante el software Adobe Acrobat Pro. Este artículo también introducirá la librería .NET OCR IronOCR que es una de las más eficientes y ricas en características disponibles. Empecemos con Adobe Acrobat Pro.
Adobe Acrobat Pro DC es la versión Pro de Adobe Acrobat Reader DC. Es la herramienta más popular y potente para la manipulación de PDF. Con este software, puede crear, editar, firmar y revisar cualquier documento PDF. Además, permite convertir PDF en presentaciones de PowerPoint, documentos de Word o archivos de Excel. También puede editar documentos escaneados.
La nueva versión de Acrobat DC es también un escáner de documentos que puede convertir rápidamente documentos escaneados en archivos digitales mediante la tecnología OCR. Incorpora reconocimiento óptico de caracteres, así como escaneado inteligente de tarjetas de visita que detecta y guarda automáticamente la información de contacto de las tarjetas en cuestión de segundos.
Además de poder extraer texto de archivos PDF, Acrobat Pro DC tiene muchas funciones que lo convierten en una valiosa herramienta para la transcripción de PDF.
Veamos cómo podemos utilizar el OCR de un documento escaneado utilizando Adobe Acrobat Pro.
Convierte documentos PDF escaneados en documentos PDF totalmente editables. Podrás editar archivos de texto e imágenes en el propio archivo PDF.
También puede cambiar la ubicación del bloque de texto, la fuente del texto, etc.
Después de hacer cualquier cambio, guarde el archivo y verá estos cambios reflejados en el documento.
IronOCR es una biblioteca OCR .NET y una herramienta OCR que puede leer documentos de texto e imágenes convirtiéndolos a un formato legible por máquina.
Esta biblioteca de reconocimiento óptico de caracteres se ha desarrollado teniendo en cuenta las siguientes consideraciones:
La necesidad de un motor de OCR que pueda integrarse fácilmente en diversas aplicaciones .NET y que admita tanto aplicaciones WPF como de consola.
IronOCR facilita a los desarrolladores la creación de software compatible con el escaneado de documentos, la extracción de texto y metadatos, la indexación de archivos de imagen escaneados, la conversión de imágenes en archivos PDF con capacidad de búsqueda y la conversión de documentos escaneados en texto legible. IronOCR ofrece muchas opciones de codificación, conversión de formatos de imagen y reconocimiento y extracción de texto. IronOCR es compatible con 125 idiomas.
IronOCR proporciona un proceso de OCR intuitivo, robusto y preciso para reconocer texto de documentos escaneados, fotografías y capturas de pantalla, al tiempo que reduce tareas que consumen mucho tiempo, como la segmentación de páginas y el análisis del diseño. La biblioteca está desarrollada en C# y el diseño de su API es sencillo y de fácil lectura.
Exploremos algunos ejemplos de código utilizando IronOCR:
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' OCR entire document
Input.AddPdf("example.pdf", "password")
' Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
IronOCR le ofrece la opción de hacer OCR de un documento PDF completo o de un rango de páginas seleccionado de un archivo PDF.
Puede convertir un PDF en un PDF seleccionable utilizando IronOCR; es muy sencillo y directo. Vea a continuación el fragmento de código de la conversión a PDF:
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf","password");
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf","password");
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("scan.pdf","password")
' clean up twisted pages
Input.Deskew()
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
IronOCR ofrece muchas otras herramientas y funciones. Puede explorar las características de IronOCR visitando las siguientes páginasenlace.
La biblioteca IronOCR tiene varias ventajas sobre otras bibliotecas disponibles en el mercado. Puede modificar y ampliar su funcionalidad añadiendo sus propios módulos con sólo unas líneas de código. Actualmente, IronOCR puede leer textos en más de 125 idiomas. Se ha desarrollado para producir resultados de mayor calidad y fiabilidad, consumiendo mucho menos tiempo y recursos de memoria en comparación con otras bibliotecas.
IronOCR es gratuito para el desarrollo. IronOCR también ofrece unprueba gratuita para pruebas en producción. Para obtener más información sobre precios y una prueba gratuita de IronOCR, siga el enlaceenlace.
9 productos API .NET para sus documentos de oficina