HERRAMIENTAS OCR

OCR a partir de PDF (herramientas en línea gratuitas)

Publicado en 15 de enero, 2023
Compartir:

El reconocimiento óptico de caracteres, o OCR (Optical Character Recognition), es una tecnología utilizada para reconocer texto en imágenes. Esta tecnología se ha creado para escanear texto impreso o un archivo de imagen y reconocerlos en los ordenadores. Esto se debe a que hoy en día muchas cosas son digitales, como los correos electrónicos o los libros. Sin embargo, la tecnología de OCR ha evolucionado hasta convertirse en algo más sofisticado, con algoritmos especializados capaces de reconocer texto en muchos tipos de letra diferentes, incluso si han sido distorsionados por ruido u otras distorsiones comunes como la compresión JPEG. El OCR también puede leer la escritura en papel con una precisión del 98%.

El texto escaneado mediante OCR puede editarse, indexarse, buscarse, imprimirse y archivarse. El software OCR se utiliza ampliamente en los sectores sanitario, farmacéutico, de seguros y jurídico. Ayuda a convertir documentos en papel en documentos digitales para que puedan reutilizarse más fácilmente y compartirse con otros.

Veamos cómo puedes hacer OCR de archivos PDF utilizando diferentes herramientas.

Adobe Acrobat Pro

Adobe es la empresa que desarrolló inicialmente el PDF. Ofrecen un motor de OCR rápido y eficaz que puede editar cualquier documento PDF que le propongas. Es uno de los motores de OCR más potentes del mercado, y si tienes muchos PDF que editar, Adobe Acrobat DC es lo que debes comprar. Este software ha sido diseñado de tal manera que puede convertir cualquier documento basado en texto a formato PDF con gran precisión. También conserva el tipo de letra del documento original utilizando su generador de fuentes personalizadas.

Veamos cómo podemos hacer OCR de PDF utilizando Adobe Acrobat:

  • Abra el archivo en Adobe Acrobat Pro DC.
  • Haga clic en la opción "Editar PDF" del panel derecho.
    OCR desde PDF Herramientas en línea gratuitas - Figura 1

  • Convertirá un archivo PDF en un PDF editable utilizando sus capacidades de OCR.
  • Ahora, puedes editar cualquier texto y cambiar archivos de imagen en los documentos fácilmente.

    OCR desde PDF Herramientas en línea gratuitas - Figura 2

  • Puede guardar el archivo seleccionando "Archivo > Guardar como" y dando un nombre adecuado al nuevo documento PDF.

    Puede realizar fácilmente el OCR de varios documentos PDF escaneados a la vez.

Sejda

Sejda es un software de edición de PDF con OCR que puede alojarse en la nube o descargarse como aplicación de escritorio en macOS, Windows o Linux. Sejda permite a los usuarios comprimir, editar, firmar digitalmente, combinar y rellenar archivos PDF. Archivos en varios formatos, como JPEG y Excel, por ejemplo, pueden convertirse en archivos PDF. Los PDF también pueden convertirse en otros formatos, como documentos de Word y PowerPoint. Veamos cómo puedes hacer OCR de documentos PDF usando Sejda OCR.

  • Abrir Página web de Sejda OCR.
  • Haga clic en el botón "Cargar archivo PDF" para cargar archivos, o arrastre y suelte archivos desde su ordenador.
  • Después de cargar, verá el nombre del archivo cargado. Seleccione el idioma del documento.

    OCR desde PDF Herramientas en línea gratuitas - Figura 3

  • Después de seleccionar el idioma, tienes que elegir el formato de salida. Puedes elegir "PDF" o "Texto". Después de configurar el formato de salida, haga clic en el botón "Reconocer texto en todas las páginas". Empezará a extraer texto.

    OCR desde PDF Herramientas en línea gratuitas - Figura 4

  • Una vez finalizado el proceso, podrá descargar el texto extraído.
    OCR desde PDF Herramientas en línea gratuitas - Figura 5

SodaPDF

SodaPDF OCR es un software de OCR en línea gratuito que puede extraer texto de imágenes. Es una herramienta de conversión OCR de PDF que convierte documentos escaneados, faxes y otras impresiones en texto editable, PDF y PDF con capacidad de búsqueda. El caso de uso más común de SodaPDF OCR es la conversión de documentos escaneados o faxes en archivos editables. Es un software de OCR en línea gratuito. Todos los documentos cargados se eliminan automáticamente del servidor después de un tiempo determinado. Dispone de múltiples funciones, como la conversión de PDF a Word, que puede abrirse con Microsoft Word.

Veamos cómo podemos realizar un OCR en un PDF utilizando SodaPDF:

  • Abra el SodaPDF sitio web.
  • Haga clic en el botón "Elegir archivo" y seleccione los documentos PDF que desee cargar.
  • Después de cargarlo, te ofrecerá una interfaz de usuario para editar el texto y las imágenes del PDF. Puede descargar el archivo utilizando el botón Descargar.
    OCR desde PDF Herramientas en línea gratuitas - Figura 6

IronOCR: Biblioteca OCR .NET

IronOCR es la mejor biblioteca para OCR en .NET Framework. Proporciona una sólida API para trabajar con texto e imágenes, así como numerosas funciones, como reconocimiento en tiempo real, detección de campos, reconocimiento óptico de caracteres para archivos PDF escaneados y muchas otras. IronPDF también puede editar documentos escaneados.

IronOCR ofrece a los desarrolladores el poder del reconocimiento de texto en sus aplicaciones. Puede utilizarse para diversos fines, como convertir documentos escaneados a formatos digitales o reconocer pies de foto en imágenes. La biblioteca .NET de IronOCR proporciona una interfaz de bajo nivel y fácil de usar para el SDK de IronOCR. Además, cuenta con algunas funciones que permiten a los desarrolladores trabajar con IronOCR de forma más cómoda. Por ejemplo, esta biblioteca incluye un canal de procesamiento de imágenes que gestiona automáticamente imágenes de baja resolución y extrae texto de documentos PDF.

Veamos cómo podemos hacer el OCR de un archivo PDF utilizando la herramienta OCR:

OCR de un archivo PDF completo

El siguiente código puede realizar OCR en un documento PDF completo.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

OCR de páginas seleccionadas de un PDF

Puede hacer OCR en las páginas PDF seleccionadas utilizando la función AddPdfPages.

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	' Alternatively OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

Convertir PDF en PDF con función de búsqueda

Puede convertir un archivo PDF en un archivo PDF con capacidad de búsqueda utilizando IronOCR mediante la función SaveAsSearchablePdf.

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf", "password")

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf", "password")

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddPdf("scan.pdf", "password") Input.Deskew()

	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

Conclusión

Hemos explorado unas cuantas herramientas de software excelentes para realizar el reconocimiento óptico de caracteres. Estas herramientas le permiten reconocer texto mediante programación y crear PDF editables y con capacidad de búsqueda.

Si escribe en .NET Framework, IronOCR es nuestra recomendación. IronOCR le permite realizar OCR fácilmente en .NET Framework; es potente, por lo que puede utilizarse fácilmente incluso cuando el documento original ha sido dañado o deformado, por ejemplo, por el agua.

Otro caso de uso es la conversión de antiguos formularios en papel rellenados a mano, como facturas y recibos de venta, en versiones digitales. Esto permite que los programas de contabilidad procesen automáticamente estos documentos, aumentando así la precisión y la eficacia.

< ANTERIOR
Instalar Tesseract (Tutorial paso a paso con imágenes)
SIGUIENTE >
Tutorial sobre cómo hacer OCR a un PDF (Herramientas en línea gratuitas)

¿Listo para empezar? Versión: 2024.10 acaba de salir

Descarga gratuita de NuGet Descargas totales: 2,476,577 Ver licencias >