Configuración detallada de Tesseract Cuando se trata de OCR, tener opciones y flexibilidad sobre cómo abordar y extraer texto de documentos es esencial. Dado que realizar OCR es costoso, poder controlar el rendimiento y los métodos a utilizar en documentos específicos es necesario para asegurar que la aplicación que utiliza OCR sea escalable y eficiente. IronTesseract ofrece a los desarrolladores diferentes propiedades y opciones con las cuales experimentar. Por ejemplo, si desea incluir en la lista negra ciertos caracteres o también leer los códigos de barras dentro de los documentos o incluso dictar cómo el motor de OCR lee la página para escanear posibles bloques de texto, todo eso y más con la clase IronTesseract. ## Guía de 5 pasos para usar IronOCR con Tesseract 5 `var ocrTesseract = new IronTesseract();` `ocrTesseract.Language = OcrLanguage.EnglishBest;` `ocrTesseract.Configuration.ReadBarCodes = false;` `ocrTesseract.Configuration.BlackListCharacters = "`ë|^";` `ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"] = false;` Después de iniciar la clase IronTesseract, hay algunas opciones importantes inmediatamente disponibles que nos gustaría modificar. La primera propiedad a configurar es Language. Por defecto, el idioma es inglés; Sin embargo, IronTesseract admite hasta 125 idiomas e incluso permite varios idiomas con el método UseMultipleLanguages. Para más detalles, consulte aquí. La segunda propiedad que queremos configurar es la clase TesseractConfiguration. Con esta clase, podemos modificar cómo el motor de Tesseract escanea el documento en busca de posibles bloques de texto. En primer lugar, modificamos el idioma del motor Tesseract asignándole el idioma a OcrLanguage.EnglishBest. Esta variación combina un LSTM y un OEM, que son estrategias de reconocimiento de formas usando OCR; la combinación de estas dos estrategias permite que el OCR produzca resultados más precisos. Luego, establecemos ReadBarCodes en falso para evitar leer códigos de barras durante el proceso de OCR. También personalizamos y especificamos los caracteres que queremos extraer, excluyendo ciertos caracteres en el documento; en este ejemplo, excluimos caracteres para evitar extraer texto con acentos invertidos, acentos o circunflejos. Finalmente, establecemos TesseractVariables["tessedit_parallelize"] en falso para deshabilitar el procesamiento paralelo por el momento. Esta última es una función muy potente, ya que se comunica directamente con el motor Tesseract. Aquí tienes una lista completa de TesseractVariables que permite a los desarrolladores personalizar aún más el comportamiento del motor Tesseract al realizar el OCR. Explorar más opciones de configuración de IronTesseract Enlaces de Documentos Ver en Github Tutorial Relacionado Guía de Cómo Hacer Relacionada Documentación de Clase Paquetes de Idioma OCR Descargar IronOCR DLL Reportar un problema en esta página ¿Listo para empezar? Nuget Descargas 5,525,971 | Versión: 2026.3 recién lanzado Prueba gratis Descarga Gratis de NuGet Descargas totales: 5,525,971 Ver Licencias ¿Aún desplazándote? ¿Quieres una prueba rápida? PM > Install-Package IronOcr ejecuta una muestra y observa cómo tu imagen se convierte en texto buscable. Descarga Gratis de NuGet Descargas totales: 5,525,971 Ver Licencias
Producto completamente funcional Obtén 30 días de producto completamente funcional.Instálalo y ejecútalo en minutos.
Soporte técnico 24/5 Acceso completo a nuestro equipo de soporte técnico durante tu prueba del producto
Se responde a todas sus preguntas para asegurarse de que dispone de toda la información que necesita. (Sin ningún tipo de compromiso)