Saltar al pie de página
HERRAMIENTAS OCR

OCR desde PDF (Herramientas gratuitas en línea)

El reconocimiento óptico de caracteres, o OCR, es una tecnología utilizada para reconocer texto en imágenes. Esta tecnología ha sido creada para escanear texto impreso o un archivo de imagen y reconocerlos en computadoras. Esto se debe a que muchas cosas hoy en día son digitales, como correos electrónicos o libros. Sin embargo, la tecnología OCR ha evolucionado en algo más sofisticado con algoritmos especializados capaces de reconocer texto en muchas fuentes diferentes, incluso si han sido distorsionadas por ruido u otras distorsiones comunes como la compresión JPEG. El OCR también puede leer escritura a mano en papel con un 98% de precisión.

El texto que se escanea usando OCR puede luego ser editado, indexado, buscado, impreso y archivado. El software OCR se utiliza ampliamente en las industrias de salud, farmacia, seguros y derecho. Ayuda a convertir documentos en papel a documentos digitales para que puedan ser reutilizados más fácilmente y compartidos con otros.

Veamos cómo puedes hacer OCR de archivos PDF usando diferentes herramientas.

Adobe Acrobat Pro

Adobe es la empresa que inicialmente desarrolló el PDF. Ofrecen un motor OCR rápido y eficiente que puede editar cualquier documento PDF que le presentes. Es uno de los motores OCR más poderosos en el mercado, y si tienes muchos PDFs para editar, Adobe Acrobat DC es lo que deberías comprar. Este software ha sido diseñado de tal manera que puede convertir cualquier documento basado en texto a formato PDF con gran precisión. También retiene la fuente del documento original usando su generador de fuentes personalizadas.

Veamos cómo podemos hacer OCR a PDFs utilizando Adobe Acrobat:

  • Abre el archivo en Adobe Acrobat Pro DC.
  • Haz clic en la opción "Editar PDF" en el panel derecho.

    OCR From PDF Free Online Tools - Figure 1

  • Convertirá un archivo PDF a un PDF editable utilizando sus capacidades OCR.
  • Ahora, puedes editar cualquier texto y cambiar archivos de imagen en los documentos fácilmente.

    OCR From PDF Free Online Tools - Figure 2

  • Puedes guardar el archivo eligiendo "Archivo > Guardar como" y dando un nombre apropiado al nuevo documento PDF.

Puedes realizar OCR fácilmente en múltiples documentos PDF escaneados a la vez.

Sayda

Sejda es un software de edición de PDF con OCR que puede ser alojado en la nube o descargado como una aplicación de escritorio en macOS, Windows o Linux. Sejda permite a los usuarios comprimir, editar, firmar digitalmente, fusionar y completar archivos PDF. Archivos en varios formatos, incluyendo JPEG y Excel, por ejemplo, pueden convertirse en archivos PDF. Los PDFs pueden igualmente convertirse en otros formatos como documentos Word y PowerPoint. Veamos cómo puedes hacer OCR en documentos PDF usando Sejda OCR.

  • Open Sejda OCR website.
  • Haz clic en el botón "Subir archivo PDF" para subir archivos, o arrastra y suelta archivos desde tu computadora.
  • Después de subir, verás el nombre del archivo subido. Selecciona el idioma del documento.

    OCR From PDF Free Online Tools - Figure 3

  • Después de seleccionar el idioma, debes elegir el formato de salida. Puedes elegir "PDF" o "Texto". Después de establecer el formato de salida, haz clic en el botón "Reconocer texto en todas las páginas". Comenzará a extraer texto.

    OCR From PDF Free Online Tools - Figure 4

  • Cuando el proceso se haya completado, podrás descargar el texto extraído.

    OCR From PDF Free Online Tools - Figure 5

SodaPDF

SodaPDF OCR es un software OCR en línea gratuito que puede extraer texto de imágenes. Es una herramienta de conversión de PDF OCR que convierte documentos escaneados, faxes y otras impresiones en texto editable, PDFs y PDFs que se pueden buscar. El caso de uso más común de SodaPDF OCR es para convertir documentos escaneados o faxes en archivos editables. Es un software OCR en línea gratuito. Todos los documentos subidos se eliminan automáticamente del servidor después de un tiempo específico. Tiene múltiples características como convertir PDF a Word, que luego se puede abrir usando Microsoft Word.

Veamos cómo podemos realizar OCR en un PDF utilizando SodaPDF:

  • Open the SodaPDF website.
  • Haz clic en el botón "Elegir archivo" y selecciona los documentos PDF deseados para subir.
  • Después de subir, te dará una interfaz de usuario para editar el texto e imágenes del PDF. Puedes descargar el archivo usando el botón de Descarga.

    OCR From PDF Free Online Tools - Figure 6

IronOCR: Biblioteca de OCR .NET

IronOCR es una biblioteca robusta para OCR en el marco .NET. Proporciona una potente API para trabajar con texto e imágenes, ofreciendo características como reconocimiento en tiempo real, detección de campos y reconocimiento óptico de caracteres para archivos PDF escaneados. IronPDF también puede editar documentos escaneados.

IronOCR les da a los desarrolladores el poder del reconocimiento de texto en sus aplicaciones. Puede ser utilizada para varios propósitos, como convertir documentos escaneados en formatos digitales o reconocer subtítulos en imágenes. La biblioteca IronOCR .NET proporciona una interfaz de bajo nivel fácil de usar para el SDK de IronOCR. Además de eso, incluye una línea de procesamiento de imágenes que maneja automáticamente imágenes de baja resolución y extrae texto de documentos PDF.

Veamos cómo podemos hacer OCR de un archivo PDF utilizando la herramienta OCR:

OCR de un archivo PDF completo

El siguiente código puede realizar OCR en un documento PDF completo.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the entire PDF document for OCR processing
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the entire PDF document for OCR processing
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' Add the entire PDF document for OCR processing
	Input.AddPdf("example.pdf", "password")

	Dim Result = Ocr.Read(Input)
	' Print the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

OCR de páginas seleccionadas de un PDF

Puedes hacer OCR en páginas seleccionadas de un PDF usando la función AddPdfPages.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add specific pages of the PDF document for OCR processing
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add specific pages of the PDF document for OCR processing
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' Add specific pages of the PDF document for OCR processing
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	' Print the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

Convertir PDF a PDF con capacidad de búsqueda

Puedes convertir un archivo PDF en un archivo PDF buscable usando IronOCR utilizando la función SaveAsSearchablePdf.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the PDF for processing and specify the password if any
    Input.AddPdf("scan.pdf", "password");

    // Correct twisted or skewed pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    // Save the processed result as a searchable PDF
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the PDF for processing and specify the password if any
    Input.AddPdf("scan.pdf", "password");

    // Correct twisted or skewed pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    // Save the processed result as a searchable PDF
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' Add the PDF for processing and specify the password if any
	Input.AddPdf("scan.pdf", "password")

	' Correct twisted or skewed pages
	Input.Deskew()

	Dim Result = Ocr.Read(Input)
	' Save the processed result as a searchable PDF
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
$vbLabelText   $csharpLabel

Conclusión

Hemos explorado algunas excelentes herramientas de software para realizar reconocimiento óptico de caracteres. Estas herramientas te permiten reconocer texto programáticamente y crear PDFs editables y que se pueden buscar.

Si escribes en el marco .NET, IronOCR es nuestra recomendación. IronOCR te permite realizar OCR fácilmente en el marco .NET; es potente y puede usarse fácilmente incluso cuando el documento original ha sido dañado o distorsionado, como por daños por agua.

Otro caso de uso es convertir antiguos formularios en papel llenados a mano, como facturas y recibos de ventas, en versiones digitales. Esto permite que estos documentos sean procesados automáticamente por software de contabilidad, aumentando así la precisión y eficiencia.

Kannaopat Udonpant
Ingeniero de Software
Antes de convertirse en Ingeniero de Software, Kannapat completó un doctorado en Recursos Ambientales de la Universidad de Hokkaido en Japón. Mientras perseguía su grado, Kannapat también se convirtió en miembro del Laboratorio de Robótica de Vehículos, que es parte del Departamento de Ingeniería ...
Leer más