HERRAMIENTAS OCR

OCR a partir de PDF (herramientas en línea gratuitas)

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

Kannapat Udonpant

15 de enero, 2023

El reconocimiento óptico de caracteres, o OCR (Optical Character Recognition), es una tecnología utilizada para reconocer texto en imágenes. Esta tecnología se ha creado para escanear texto impreso o un archivo de imagen y reconocerlos en los ordenadores. Esto se debe a que hoy en día muchas cosas son digitales, como los correos electrónicos o los libros. Sin embargo, la tecnología de OCR ha evolucionado hasta convertirse en algo más sofisticado, con algoritmos especializados capaces de reconocer texto en muchos tipos de letra diferentes, incluso si han sido distorsionados por ruido u otras distorsiones comunes como la compresión JPEG. El OCR también puede leer la escritura en papel con una precisión del 98%.

El texto escaneado mediante OCR puede editarse, indexarse, buscarse, imprimirse y archivarse. El software OCR se utiliza ampliamente en los sectores sanitario, farmacéutico, de seguros y jurídico. Ayuda a convertir documentos en papel en documentos digitales para que puedan reutilizarse más fácilmente y compartirse con otros.

Veamos cómo puedes hacer OCR de archivos PDF utilizando diferentes herramientas.

Adobe Acrobat Pro

Adobe es la empresa que desarrolló inicialmente el PDF. Ofrecen un motor de OCR rápido y eficaz que puede editar cualquier documento PDF que le propongas. Es uno de los motores de OCR más potentes del mercado, y si tienes muchos PDF que editar, Adobe Acrobat DC es lo que debes comprar. Este software ha sido diseñado de tal manera que puede convertir cualquier documento basado en texto a formato PDF con gran precisión. También conserva el tipo de letra del documento original utilizando su generador de fuentes personalizadas.

Veamos cómo podemos hacer OCR de PDF utilizando Adobe Acrobat:

Abra el archivo en Adobe Acrobat Pro DC.
Haga clic en la opción "Editar PDF" del panel derecho.
Convertirá un archivo PDF en un PDF editable utilizando sus capacidades de OCR.
Ahora, puedes editar cualquier texto y cambiar archivos de imagen en los documentos fácilmente.
Puede guardar el archivo seleccionando "Archivo > Guardar como" y dando un nombre adecuado al nuevo documento PDF.
Puede realizar fácilmente el OCR de varios documentos PDF escaneados a la vez.

Sejda

Sejda es un software de edición de PDF con OCR que puede alojarse en la nube o descargarse como aplicación de escritorio en macOS, Windows o Linux. Sejda permite a los usuarios comprimir, editar, firmar digitalmente, combinar y rellenar archivos PDF. Archivos en varios formatos, como JPEG y Excel, por ejemplo, pueden convertirse en archivos PDF. Los PDF también pueden convertirse en otros formatos, como documentos de Word y PowerPoint. Veamos cómo puedes hacer OCR de documentos PDF usando Sejda OCR.

Abre el sitio web de Sejda OCR.
Haga clic en el botón "Cargar archivo PDF" para cargar archivos, o arrastre y suelte archivos desde su ordenador.
Después de cargar, verá el nombre del archivo cargado. Seleccione el idioma del documento.
Después de seleccionar el idioma, tienes que elegir el formato de salida. Puedes elegir "PDF" o "Texto". Después de configurar el formato de salida, haga clic en el botón "Reconocer texto en todas las páginas". Empezará a extraer texto.
Una vez finalizado el proceso, podrá descargar el texto extraído.

SodaPDF

SodaPDF OCR es un software de OCR en línea gratuito que puede extraer texto de imágenes. Es una herramienta de conversión OCR de PDF que convierte documentos escaneados, faxes y otras impresiones en texto editable, PDF y PDF con capacidad de búsqueda. El caso de uso más común de SodaPDF OCR es la conversión de documentos escaneados o faxes en archivos editables. Es un software de OCR en línea gratuito. Todos los documentos cargados se eliminan automáticamente del servidor después de un tiempo determinado. Dispone de múltiples funciones, como la conversión de PDF a Word, que puede abrirse con Microsoft Word.

Veamos cómo podemos realizar un OCR en un PDF utilizando SodaPDF:

Abre el sitio web de [SodaPDF](https://www.sodapdf.com/ocr-pdf/" target="_blank" rel="nofollow noopener noreferrer).
Haga clic en el botón "Elegir archivo" y seleccione los documentos PDF que desee cargar.
Después de cargarlo, te ofrecerá una interfaz de usuario para editar el texto y las imágenes del PDF. Puede descargar el archivo utilizando el botón Descargar.

IronOCR: Biblioteca OCR .NET

IronOCR es la mejor biblioteca para OCR en .NET Framework. Proporciona una sólida API para trabajar con texto e imágenes, así como numerosas funciones, como reconocimiento en tiempo real, detección de campos, reconocimiento óptico de caracteres para archivos PDF escaneados y muchas otras. IronPDF también puede editar documentos escaneados.

IronOCR ofrece a los desarrolladores el poder del reconocimiento de texto en sus aplicaciones. Puede utilizarse para diversos fines, como convertir documentos escaneados a formatos digitales o reconocer pies de foto en imágenes. La biblioteca .NET de IronOCR proporciona una interfaz de bajo nivel y fácil de usar para el SDK de IronOCR. Además, cuenta con algunas funciones que permiten a los desarrolladores trabajar con IronOCR de forma más cómoda. Por ejemplo, esta biblioteca incluye un canal de procesamiento de imágenes que gestiona automáticamente imágenes de baja resolución y extrae texto de documentos PDF.

Veamos cómo podemos hacer el OCR de un archivo PDF utilizando la herramienta OCR:

OCR de un archivo PDF completo

El siguiente código puede realizar OCR en un documento PDF completo.

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using

$vbLabelText $csharpLabel

OCR de páginas seleccionadas de un PDF

Puede realizar OCR en páginas PDF seleccionadas utilizando la función AddPdfPages.

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	' Alternatively OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using

$vbLabelText $csharpLabel

Convertir PDF en PDF con función de búsqueda

Puedes convertir un archivo PDF a un archivo PDF con capacidad de búsqueda usando IronOCR mediante la función SaveAsSearchablePdf.

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf", "password")

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf", "password")

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}

Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddPdf("scan.pdf", "password") Input.Deskew()

	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using

$vbLabelText $csharpLabel

Conclusión

Hemos explorado unas cuantas herramientas de software excelentes para realizar el reconocimiento óptico de caracteres. Estas herramientas le permiten reconocer texto mediante programación y crear PDF editables y con capacidad de búsqueda.

Si escribe en .NET Framework, IronOCR es nuestra recomendación. IronOCR le permite realizar OCR fácilmente en .NET Framework; es potente, por lo que puede utilizarse fácilmente incluso cuando el documento original ha sido dañado o deformado, por ejemplo, por el agua.

Otro caso de uso es la conversión de antiguos formularios en papel rellenados a mano, como facturas y recibos de venta, en versiones digitales. Esto permite que los programas de contabilidad procesen automáticamente estos documentos, aumentando así la precisión y la eficacia.

Kannapat Udonpant

Chatea con el equipo de ingeniería ahora

Ingeniero de software

Antes de convertirse en ingeniero de software, Kannapat realizó un doctorado en Recursos Medioambientales en la Universidad de Hokkaido (Japón). Mientras cursaba su licenciatura, Kannapat también se convirtió en miembro del Laboratorio de Robótica Vehicular, que forma parte del Departamento de Ingeniería de Bioproducción. En 2022, aprovechó sus conocimientos de C# para unirse al equipo de ingeniería de Iron Software, donde se centra en IronPDF. Kannapat valora su trabajo porque aprende directamente del desarrollador que escribe la mayor parte del código utilizado en IronPDF. Además del aprendizaje entre iguales, Kannapat disfruta del aspecto social de trabajar en Iron Software. Cuando no está escribiendo código o documentación, Kannapat suele jugar con su PS5 o volver a ver The Last of Us.

< ANTERIOR
Instalar Tesseract (Tutorial paso a paso con imágenes)

SIGUIENTE >
Tutorial sobre cómo hacer OCR a un PDF (Herramientas en línea gratuitas)