HERRAMIENTAS OCR

Tutorial sobre cómo hacer OCR a un PDF (Herramientas en línea gratuitas)

Publicado en 25 de enero, 2023
Compartir:

El OCR o reconocimiento óptico de caracteres es un proceso de conversión de información textual en formato digital. El OCR de PDF es una aplicación muy popular que puede utilizarse para mejorar los procesos empresariales. Una de las ventajas del OCR de PDF es que puede utilizarse para mejorar la accesibilidad de la información. Esto es especialmente importante en el caso de documentos que no están disponibles en un formato que todo el mundo pueda utilizar o leer. El OCR de PDF puede utilizarse para producir una copia del documento disponible en un formato que todo el mundo pueda utilizar.

Otro uso del OCR de PDF es el seguimiento de documentos. Cuando se archiva, escanea o transcribe un documento, puede resultar difícil rastrear qué versión del documento está asociada a qué archivo. Con el OCR de PDF, es posible rastrear los cambios realizados en un documento y determinar qué versiones están asociadas a qué archivo. Esto puede ser útil para gestionar archivos de documentos y evitar la pérdida de información importante.

En este artículo, aprenderá a utilizar el OCR para cualquier archivo PDF mediante el software Adobe Acrobat Pro. Este artículo también introducirá la librería .NET OCR IronOCR que es una de las más eficientes y ricas en características disponibles. Empecemos con Adobe Acrobat Pro.

OCR de un PDF con Adobe Acrobat Pro DC

Cómo hacer OCR a un PDF - Figura 1

Adobe Acrobat Pro DC es la versión Pro de Adobe Acrobat Reader DC. Es la herramienta más popular y potente para la manipulación de PDF. Con este software, puede crear, editar, firmar y revisar cualquier documento PDF. Además, permite convertir PDF en presentaciones de PowerPoint, documentos de Word o archivos de Excel. También puede editar documentos escaneados.

La nueva versión de Acrobat DC es también un escáner de documentos que puede convertir rápidamente documentos escaneados en archivos digitales mediante la tecnología OCR. Incorpora reconocimiento óptico de caracteres, así como escaneado inteligente de tarjetas de visita que detecta y guarda automáticamente la información de contacto de las tarjetas en cuestión de segundos.

Además de poder extraer texto de archivos PDF, Acrobat Pro DC tiene muchas funciones que lo convierten en una valiosa herramienta para la transcripción de PDF.

Veamos cómo podemos utilizar el OCR de un documento escaneado utilizando Adobe Acrobat Pro.

  • Abra el documento PDF deseado, en nuestro ejemplo un archivo PDF escaneado, en Adobe Acrobat.
  • Seleccione "Editar PDF" en el panel derecho del documento.
    Cómo hacer OCR a un PDF - Figura 2

  • Se abrirá la interfaz de la herramienta Adobe Reader OCR PDF.
  • Haga clic en el botón "Editar" de la cinta superior.
  • Convierte documentos PDF escaneados en documentos PDF totalmente editables. Podrás editar archivos de texto e imágenes en el propio archivo PDF.

    Cómo hacer OCR a un PDF - Figura 3

  • También puede cambiar la ubicación del bloque de texto, la fuente del texto, etc.

    Después de hacer cualquier cambio, guarde el archivo y verá estos cambios reflejados en el documento.

IronOCR: Biblioteca OCR .NET

Cómo hacer OCR a un PDF - Figura 4

IronOCR es una biblioteca OCR .NET y una herramienta OCR que puede leer documentos de texto e imágenes convirtiéndolos a un formato legible por máquina.

Esta biblioteca de reconocimiento óptico de caracteres se ha desarrollado teniendo en cuenta las siguientes consideraciones:

  • La necesidad de un motor de OCR robusto y preciso que pueda utilizarse con diferentes idiomas sin necesidad de software externo.
  • La necesidad de una API fácil de usar que funcione en diferentes plataformas como Windows, Linux y macOS.
  • La necesidad de un motor de OCR que pueda integrarse fácilmente en diversas aplicaciones .NET y que admita tanto aplicaciones WPF como de consola.

    IronOCR facilita a los desarrolladores la creación de software compatible con el escaneado de documentos, la extracción de texto y metadatos, la indexación de archivos de imagen escaneados, la conversión de imágenes en archivos PDF con capacidad de búsqueda y la conversión de documentos escaneados en texto legible. IronOCR ofrece muchas opciones de codificación, conversión de formatos de imagen y reconocimiento y extracción de texto. IronOCR es compatible con 125 idiomas.

    IronOCR proporciona un proceso de OCR intuitivo, robusto y preciso para reconocer texto de documentos escaneados, fotografías y capturas de pantalla, al tiempo que reduce tareas que consumen mucho tiempo, como la segmentación de páginas y el análisis del diseño. La biblioteca está desarrollada en C# y el diseño de su API es sencillo y de fácil lectura.

    Exploremos algunos ejemplos de código utilizando IronOCR:

Ejemplos de código

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	' Alternatively OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

IronOCR le ofrece la opción de hacer OCR de un documento PDF completo o de un rango de páginas seleccionado de un archivo PDF.

Archivo PDF (entrada)

Cómo hacer OCR a un PDF - Figura 5

Salida en la consola

Cómo hacer OCR a un PDF - Figura 6

Puede convertir un PDF en un PDF seleccionable utilizando IronOCR; es muy sencillo y directo. Vea a continuación el fragmento de código de la conversión a PDF:

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf","password");

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf","password");

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	Input.AddPdf("scan.pdf","password")

	' clean up twisted pages
	Input.Deskew()

	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

IronOCR ofrece muchas otras herramientas y funciones. Puede explorar las características de IronOCR visitando las siguientes páginasenlace.

Conclusión

La biblioteca IronOCR tiene varias ventajas sobre otras bibliotecas disponibles en el mercado. Puede modificar y ampliar su funcionalidad añadiendo sus propios módulos con sólo unas líneas de código. Actualmente, IronOCR puede leer textos en más de 125 idiomas. Se ha desarrollado para producir resultados de mayor calidad y fiabilidad, consumiendo mucho menos tiempo y recursos de memoria en comparación con otras bibliotecas.

IronOCR es gratuito para el desarrollo. IronOCR también ofrece unprueba gratuita para pruebas en producción. Para obtener más información sobre precios y una prueba gratuita de IronOCR, siga el enlaceenlace.

Cómo hacer OCR a un PDF - Figura 7

< ANTERIOR
OCR a partir de PDF (herramientas en línea gratuitas)
SIGUIENTE >
Mejor OCR para chino (herramientas gratuitas y en línea)

¿Listo para empezar? Versión: 2024.11 acaba de salir

Descarga gratuita de NuGet Descargas totales: 2,698,613 Ver licencias >