Saltar al pie de página
HERRAMIENTAS OCR

Cómo realizar OCR en PDF (herramientas gratuitas en línea)

OCR o reconocimiento óptico de caracteres es un proceso de convertir información textual en forma digital. PDF OCR es una aplicación popular que se puede usar para mejorar los procesos empresariales. Uno de los beneficios de PDF OCR es que se puede usar para mejorar la accesibilidad de la información. Esto es particularmente importante para los documentos que no están disponibles en un formato que todos puedan usar o leer. PDF OCR se puede usar para producir una copia del documento que está disponible en un formato que todos puedan usar.

Otro uso de PDF OCR es en el seguimiento de documentos. Cuando un documento se archiva, escanea o transcribe, puede ser difícil rastrear qué versión del documento está asociada con qué archivo. Con PDF OCR, es posible rastrear los cambios realizados en un documento y determinar qué versiones están asociadas con qué archivo. Esto puede ser útil para gestionar archivos de documentos y prevenir la pérdida de información importante.

En este artículo, aprenderá cómo puede usar OCR para cualquier archivo PDF utilizando el software Adobe Acrobat Pro. Este artículo también presentará la biblioteca OCR de .NET IronOCR, que es una de las bibliotecas más eficientes y ricas en funciones disponibles. Comencemos con Adobe Acrobat Pro.

OCR de un PDF con Adobe Acrobat Pro DC

How to OCR a PDF - Figure 1

Adobe Acrobat Pro DC es la versión Pro de Adobe Acrobat Reader DC. Es la herramienta más popular y poderosa para la manipulación de PDF. Con este software, puede crear, editar, firmar y revisar cualquier documento PDF. Además, le permite convertir PDFs en presentaciones de PowerPoint, documentos de Word o archivos de Excel. También puede editar documentos escaneados.

La nueva versión de Acrobat DC también es un escáner de documentos que puede convertir rápidamente documentos escaneados en archivos digitales utilizando tecnología OCR. Cuenta con reconocimiento óptico de caracteres, así como escaneo inteligente de tarjetas de visita que detecta y guarda automáticamente la información de contacto de las tarjetas en segundos.

Además de poder extraer texto de archivos PDF, Acrobat Pro DC tiene muchas características que lo convierten en una herramienta valiosa para la transcripción de PDF.

Veamos cómo podemos utilizar OCR de un documento escaneado usando Adobe Acrobat Pro.

  • Abra el documento PDF deseado, en nuestro ejemplo un archivo PDF escaneado, en Adobe Acrobat.
  • Seleccione "Editar PDF" en el panel derecho del documento.
How to OCR a PDF - Figure 2

  • Esto abrirá la interfaz de la herramienta OCR PDF de Adobe Reader.
  • Haga clic en el botón "Editar" en la cinta superior.
  • Esto convertirá documentos PDF escaneados en documentos PDF totalmente editables. Podrá editar archivos de texto e imagen directamente en el archivo PDF.
How to OCR a PDF - Figure 3

  • También puede cambiar la ubicación del bloque de texto, la fuente de texto, etc.

Después de realizar los cambios, guarde el archivo y verá estos cambios reflejados en el documento.

IronOCR: una biblioteca de OCR .NET

How to OCR a PDF - Figure 4

IronOCR es una biblioteca OCR de .NET y una herramienta OCR que puede leer documentos de texto e imágenes convirtiéndolos en un formato legible por máquina.

Esta biblioteca de reconocimiento óptico de caracteres fue desarrollada teniendo en cuenta los siguientes aspectos:

  • La necesidad de un motor OCR robusto y preciso que se pueda usar con diferentes idiomas sin necesitar ningún software externo.
  • La necesidad de una API fácil de usar que funcione en diferentes plataformas como Windows, Linux y macOS.
  • La necesidad de un motor OCR que pueda integrarse fácilmente en varias aplicaciones .NET y sea compatible con aplicaciones WPF y de consola.

IronOCR facilita a los desarrolladores la creación de software que soporte el escaneo de documentos, la extracción de texto y metadatos, la indexación de archivos de imágenes escaneadas, la conversión de imágenes en PDFs buscables y la conversión de documentos escaneados en texto legible. IronOCR ofrece muchas opciones cuando se trata de codificación, conversión de formatos de imagen y reconocimiento y extracción de texto. IronOCR admite 125 idiomas.

IronOCR proporciona un proceso OCR intuitivo, robusto y preciso para reconocer texto de documentos escaneados, fotografías y capturas de pantalla, mientras reduce tareas que consumen mucho tiempo como la segmentación de páginas y el análisis de diseño. La biblioteca está desarrollada en C# y el diseño de su API es sencillo con buena legibilidad.

Exploremos algunos ejemplos de código usando IronOCR:

Ejemplos de Código

using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively, OCR selected page numbers
    Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");

    // Read the PDF and output the recognized text
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively, OCR selected page numbers
    Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");

    // Read the PDF and output the recognized text
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

' Initialize OCR input
Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	' Alternatively, OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	' Read the PDF and output the recognized text
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

Este ejemplo demuestra cómo usar IronOCR para procesar un documento PDF completo o páginas específicas del documento.

Archivo PDF (entrada)

How to OCR a PDF - Figure 5

Salida en la consola

How to OCR a PDF - Figure 6

Puede convertir un PDF en un PDF seleccionable usando IronOCR. Es muy simple y directo. Vea el fragmento de código de la conversión de PDF a continuación:

using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // Add PDF for processing
    Input.AddPdf("scan.pdf", "password");

    // Clean up twisted pages to improve OCR results
    Input.Deskew();

    // Run OCR and save as a searchable PDF
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // Add PDF for processing
    Input.AddPdf("scan.pdf", "password");

    // Clean up twisted pages to improve OCR results
    Input.Deskew();

    // Run OCR and save as a searchable PDF
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()

' Initialize OCR input
Using Input = New OcrInput()
	' Add PDF for processing
	Input.AddPdf("scan.pdf", "password")

	' Clean up twisted pages to improve OCR results
	Input.Deskew()

	' Run OCR and save as a searchable PDF
	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
$vbLabelText   $csharpLabel

IronOCR ofrece muchas otras herramientas y características. Puede explorar las características de IronOCR visitando el siguiente enlace.

Conclusión

La biblioteca IronOCR tiene varias ventajas sobre otras bibliotecas disponibles en el mercado. Puede modificar y extender su funcionalidad agregando sus propios módulos con solo unas pocas líneas de código. IronOCR actualmente puede leer textos en más de 125 idiomas. Ha sido desarrollado para producir resultados de mayor calidad y más confiables al consumir mucho menos tiempo y recursos de memoria en comparación con otras bibliotecas.

IronOCR es gratuito para el desarrollo. IronOCR también ofrece una prueba gratuita para realizar pruebas en producción. Para más detalles sobre los precios y una prueba gratuita de IronOCR, siga el enlace.

How to OCR a PDF - Figure 7

Kannaopat Udonpant
Ingeniero de Software
Antes de convertirse en Ingeniero de Software, Kannapat completó un doctorado en Recursos Ambientales de la Universidad de Hokkaido en Japón. Mientras perseguía su grado, Kannapat también se convirtió en miembro del Laboratorio de Robótica de Vehículos, que es parte del Departamento de Ingeniería ...
Leer más