Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
El reconocimiento óptico de caracteres, o OCR (Optical Character Recognition), es una tecnología utilizada para reconocer texto en imágenes. Esta tecnología se ha creado para escanear texto impreso o un archivo de imagen y reconocerlos en los ordenadores. Esto se debe a que hoy en día muchas cosas son digitales, como los correos electrónicos o los libros. Sin embargo, la tecnología de OCR ha evolucionado hasta convertirse en algo más sofisticado, con algoritmos especializados capaces de reconocer texto en muchos tipos de letra diferentes, incluso si han sido distorsionados por ruido u otras distorsiones comunes como la compresión JPEG. El OCR también puede leer la escritura en papel con una precisión del 98%.
El texto escaneado mediante OCR puede editarse, indexarse, buscarse, imprimirse y archivarse. El software OCR se utiliza ampliamente en los sectores sanitario, farmacéutico, de seguros y jurídico. Ayuda a convertir documentos en papel en documentos digitales para que puedan reutilizarse más fácilmente y compartirse con otros.
Veamos cómo puedes hacer OCR de archivos PDF utilizando diferentes herramientas.
Adobe es la empresa que desarrolló inicialmente el PDF. Ofrecen un motor de OCR rápido y eficaz que puede editar cualquier documento PDF que le propongas. Es uno de los motores de OCR más potentes del mercado, y si tienes muchos PDF que editar, Adobe Acrobat DC es lo que debes comprar. Este software ha sido diseñado de tal manera que puede convertir cualquier documento basado en texto a formato PDF con gran precisión. También conserva el tipo de letra del documento original utilizando su generador de fuentes personalizadas.
Veamos cómo podemos hacer OCR de PDF utilizando Adobe Acrobat:
Ahora, puedes editar cualquier texto y cambiar archivos de imagen en los documentos fácilmente.
Puede guardar el archivo seleccionando "Archivo > Guardar como" y dando un nombre adecuado al nuevo documento PDF.
Puede realizar fácilmente el OCR de varios documentos PDF escaneados a la vez.
Sejda es un software de edición de PDF con OCR que puede alojarse en la nube o descargarse como aplicación de escritorio en macOS, Windows o Linux. Sejda permite a los usuarios comprimir, editar, firmar digitalmente, combinar y rellenar archivos PDF. Archivos en varios formatos, como JPEG y Excel, por ejemplo, pueden convertirse en archivos PDF. Los PDF también pueden convertirse en otros formatos, como documentos de Word y PowerPoint. Veamos cómo puedes hacer OCR de documentos PDF usando Sejda OCR.
Después de cargar, verá el nombre del archivo cargado. Seleccione el idioma del documento.
Después de seleccionar el idioma, tienes que elegir el formato de salida. Puedes elegir "PDF" o "Texto". Después de configurar el formato de salida, haga clic en el botón "Reconocer texto en todas las páginas". Empezará a extraer texto.
SodaPDF OCR es un software de OCR en línea gratuito que puede extraer texto de imágenes. Es una herramienta de conversión OCR de PDF que convierte documentos escaneados, faxes y otras impresiones en texto editable, PDF y PDF con capacidad de búsqueda. El caso de uso más común de SodaPDF OCR es la conversión de documentos escaneados o faxes en archivos editables. Es un software de OCR en línea gratuito. Todos los documentos cargados se eliminan automáticamente del servidor después de un tiempo determinado. Dispone de múltiples funciones, como la conversión de PDF a Word, que puede abrirse con Microsoft Word.
Veamos cómo podemos realizar un OCR en un PDF utilizando SodaPDF:
IronOCR es la mejor biblioteca para OCR en .NET Framework. Proporciona una sólida API para trabajar con texto e imágenes, así como numerosas funciones, como reconocimiento en tiempo real, detección de campos, reconocimiento óptico de caracteres para archivos PDF escaneados y muchas otras. IronPDF también puede editar documentos escaneados.
IronOCR ofrece a los desarrolladores el poder del reconocimiento de texto en sus aplicaciones. Puede utilizarse para diversos fines, como convertir documentos escaneados a formatos digitales o reconocer pies de foto en imágenes. La biblioteca .NET de IronOCR proporciona una interfaz de bajo nivel y fácil de usar para el SDK de IronOCR. Además, cuenta con algunas funciones que permiten a los desarrolladores trabajar con IronOCR de forma más cómoda. Por ejemplo, esta biblioteca incluye un canal de procesamiento de imágenes que gestiona automáticamente imágenes de baja resolución y extrae texto de documentos PDF.
Veamos cómo podemos hacer el OCR de un archivo PDF utilizando la herramienta OCR:
El siguiente código puede realizar OCR en un documento PDF completo.
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' OCR entire document
Input.AddPdf("example.pdf", "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Puede hacer OCR en las páginas PDF seleccionadas utilizando la función AddPdfPages
.
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Puede convertir un archivo PDF en un archivo PDF con capacidad de búsqueda utilizando IronOCR mediante la función SaveAsSearchablePdf
.
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf", "password")
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf", "password")
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("scan.pdf", "password") Input.Deskew()
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
Hemos explorado unas cuantas herramientas de software excelentes para realizar el reconocimiento óptico de caracteres. Estas herramientas le permiten reconocer texto mediante programación y crear PDF editables y con capacidad de búsqueda.
Si escribe en .NET Framework, IronOCR es nuestra recomendación. IronOCR le permite realizar OCR fácilmente en .NET Framework; es potente, por lo que puede utilizarse fácilmente incluso cuando el documento original ha sido dañado o deformado, por ejemplo, por el agua.
Otro caso de uso es la conversión de antiguos formularios en papel rellenados a mano, como facturas y recibos de venta, en versiones digitales. Esto permite que los programas de contabilidad procesen automáticamente estos documentos, aumentando así la precisión y la eficacia.
9 productos API .NET para sus documentos de oficina