Pruebe en producción sin marcas de agua.
Funciona donde lo necesite.
Obtén 30 días de producto totalmente funcional.
Ténlo en funcionamiento en minutos.
Acceso completo a nuestro equipo de asistencia técnica durante la prueba del producto
Este tutorial proporciona una guía completa sobre el uso de Tesseract junto con IronOCR para reconocer texto en varios idiomas de archivos PDF e imágenes. Primero, asegúrese de que IR OCR y los paquetes de idiomas necesarios estén instalados en su proyecto utilizando el gestor de paquetes Nouget. Comience importando los espacios de nombres necesarios y configurando IronOCR con una clave de licencia válida para desbloquear sus capacidades completas. Instanciar el objeto IronOCR Tesseract para realizar reconocimiento óptico de caracteres, utilizando inicialmente el inglés como idioma predeterminado. Para agregar soporte para idiomas adicionales, como el ruso, utiliza el método 'add secondary language'.
Cargue un archivo PDF llamado 'example.PDF' con texto en varios idiomas utilizando la clase de entrada OCR PDF. Realizar OCR para extraer el contenido de texto, almacenando los resultados en un objeto designado. Para asegurar la visualización precisa de caracteres multilingües, establezca la codificación de salida de la consola en Unicode antes de imprimir el texto extraído en la consola.
Además, ajuste el idioma principal a ruso y añada japonés como idioma secundario. Esta modificación facilita el reconocimiento de texto tanto en ruso como en japonés. Carga un archivo de imagen, 'example.png', que contiene texto multilingüe usando la clase de entrada de imagen OCR, y ejecuta el OCR con la configuración de idioma configurada. Almacene el resultado e imprima el texto extraído de la imagen en la consola.
Al seguir estos pasos, puede extraer y reconocer fácilmente texto en inglés, ruso y japonés de varios tipos de archivos. Este tutorial destaca la efectividad de usar múltiples idiomas con Tesseract y IronOCR, haciendo que sea sencillo procesar texto multilingüe en PDFs e imágenes. Para más tutoriales y para comenzar a usar IronOCR, suscríbase a Iron Software y considere registrarse para una prueba.
Lectura adicional: Cómo usar varios idiomas con Tesseract