Cómo utilizar Iron Tesseract

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR proporciona una API intuitiva para utilizar el Tesseract 5 personalizado y optimizado, conocido como Iron Tesseract. Utilizando IronOCR e IronTesseract, podrá convertir imágenes de texto y documentos escaneados en texto y PDF con capacidad de búsqueda.

Comience con IronOCR

Comience a usar IronOCR en su proyecto hoy con una prueba gratuita.

Primer Paso:
green arrow pointer


Crear una instancia de IronTesseract

Simplemente inicializa un objeto tesseract de la siguiente manera:

:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-initialize-irontesseract.cs
using IronOcr;

IronTesseract ocr = new IronTesseract();
IRON VB CONVERTER ERROR developers@ironsoftware.com
VB   C#

Puede personalizar el comportamiento de IronTesseract seleccionando distintos idiomas, activando la lectura de códigos de barras y poniendo caracteres en listas blancas o negras:

:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-configure-irontesseract.cs
IronTesseract ocr = new IronTesseract
{
    Configuration = new TesseractConfiguration
    {
        ReadBarCodes = false,
        RenderHocr = true,
        TesseractVariables = null,
        WhiteListCharacters = null,
        BlackListCharacters = "`ë|^",
    },
    MultiThreaded = false,
    Language = OcrLanguage.English,
    EnableTesseractConsoleMessages = true, // False as default
};
Dim ocr As New IronTesseract With {
	.Configuration = New TesseractConfiguration With {
		.ReadBarCodes = False,
		.RenderHocr = True,
		.TesseractVariables = Nothing,
		.WhiteListCharacters = Nothing,
		.BlackListCharacters = "`ë|^"
	},
	.MultiThreaded = False,
	.Language = OcrLanguage.English,
	.EnableTesseractConsoleMessages = True
}
VB   C#

Una vez hecho esto, puede utilizar la funcionalidad de Tesseract para leer objetos OcrInput:

:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-read.cs
IronTesseract ocr = new IronTesseract();

using OcrInput input = new OcrInput();
input.LoadImage("attachment.png");
OcrResult result = ocr.Read(input);
string text = result.Text;
Dim ocr As New IronTesseract()

Using input As New OcrInput()
	input.LoadImage("attachment.png")
	Dim result As OcrResult = ocr.Read(input)
	Dim text As String = result.Text
End Using
VB   C#

Variables avanzadas de configuración de Tesseract

La interfaz IronOcr Tesseract permite un control total de las variables de configuración de Tesseract a través de la función

Clase IronOcr.TesseractConfiguration

Ejemplo de código de configuración de Tesseract

:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-tesseract-configuration.cs
using IronOcr;
using System;

IronTesseract Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.English;
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;

// Configure Tesseract Engine
Ocr.Configuration.TesseractVariables["tessedit_parallelize"] = false;

using var input = new OcrInput();
input.LoadImage("/path/file.png");

OcrResult Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Imports IronOcr
Imports System

Private Ocr As New IronTesseract()

Ocr.Language = OcrLanguage.English
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd

' Configure Tesseract Engine
Ocr.Configuration.TesseractVariables("tessedit_parallelize") = False

Dim input = New OcrInput()
input.LoadImage("/path/file.png")

Dim Result As OcrResult = Ocr.Read(input)
Console.WriteLine(Result.Text)
VB   C#

Lista de todas las variables de configuración de Tesseract

Se pueden configurar mediante IronTesseract.Configuration.TesseractVariables["llave"] = valor;

Tesseract Config VariablePor defectoSignificado
clasificar_num_cp_nivelesNúmero de niveles de podador de clase
textord_debug_tabfindBúsqueda en la pestaña Debug
textord_debug_bugsActivar la salida relacionada con errores en la búsqueda de fichas
textord_testregion_left-1Borde izquierdo del rectángulo de informe de depuración
textord_testregion_top-1Borde superior del rectángulo de informe de depuración
textord_testregion_right147483647Borde derecho del rectángulo de depuración
textord_testregion_bottom147483647Borde inferior del rectángulo de depuración
textord_tabfind_show_partitionsMostrar límites de partición, esperar si >
devanagari_split_debuglevelNivel de depuración para el proceso shiro-rekha dividido.
edges_max_children_per_outlineNúmero máximo de hijos dentro de un contorno de carácter
edges_max_children_layersCapas máximas de niños anidados dentro de un contorno de carácter
edges_children_per_grandchildRelación de importancia para los contornos de sujeción
edges_children_count_limitMáximo de agujeros permitidos en la mancha
edges_min_nonholePíxeles mínimos para el carácter potencial en el recuadro
edges_patharea_ratioLente máxq/área para contorno de niño aceptable
textord_fp_chop_errorFlexión máxima permitida de las celdas de corte
textord_tabfind_show_imagesMostrar manchas de imagen
textord_skewsmooth_offsetPara el factor de suavidad
textord_skewsmooth_offset2Para el factor de suavidad
textord_test_x-2147483647coord of test pt
textord_test_y-2147483647coord of test pt
textord_min_blobs_in_rowMínimas manchas antes de contar el gradiente
textord_spline_minblobsMin blobs en cada segmento spline
textord_spline_medianwinTamaño de la ventana para la segmentación spline
textord_max_blob_overlapsNúmero máximo de blobs que una blob grande puede solapar
textord_min_xheightMínimo creíble pixel xheight
textord_lms_line_trialsNúmero de ajustes de línea a realizar
oldbl_holed_losscountPérdida máxima antes de utilizar la línea de reserva
pitsync_version_linealUtilizar un nuevo algoritmo rápido
pitsync_fake_profundidadGeneración falsa de avance máximo
textord_tabfind_show_strokewidthsMostrar anchos de trazo
textord_dotmatrix_gapSeparación máxima de píxeles para el paso pixelado roto
textord_debug_blockBloque para depurar
textord_pitch_rangePrueba de alcance máximo en el terreno de juego
textord_words_veto_powerFilas necesarias para superar un veto
equationdetect_save_bi_imageGuardar imagen bi de entrada
equationdetect_save_spt_imageGuardar imagen de carácter especial
equationdetect_save_seed_imageGuardar la imagen semilla
equationdetect_save_merged_imageGuardar la imagen fusionada
poly_debugDepurar old poly
poly_wide_objects_betterMás precisión aprox. en cosas anchas
wordrec_display_splitsVisualizar divisiones
textord_debug_printableHacer imprimibles las ventanas de depuración
textord_space_size_is_variableSi es verdadero, se supone que los espacios delimitadores de palabras tienen anchura variable, aunque los caracteres tengan paso fijo.
textord_tabfind_show_initial_partitionsMostrar límites de partición
textord_tabfind_show_reject_blobsMostrar las manchas rechazadas como ruido
textord_tabfind_show_columnsMostrar límites de columna
textord_tabfind_show_blocksMostrar límites finales de bloque
textord_tabfind_find_tablesdetección de la tabla de ejecución
devanagari_split_debugimageSi crear una imagen de depuración para el proceso de shiro-rekha dividido.
textord_show_fixed_cutsDibujar límites de celda de paso fijo
edges_use_new_outline_complexityUtilice el nuevo módulo de complejidad de esquemas
edges_debugactivar la depuración para este módulo
bordes_hijos_fijarElimina los padres encajonados de los hijos tipo char
gapmap_debugDecir qué bloques tienen mesas
gapmap_use_endsUtilice un espacio grande al principio y al final de las filas
gapmap_no_isolated_quantaAsegúrese de que los huecos no tengan menos de 2cuantas de ancho
textord_heavy_nrEliminar enérgicamente el ruido
textord_show_initial_rowsMostrar acumulación de filas
textord_show_parallel_rowsMostrar filas correlacionadas con la página
textord_show_expanded_rowsMostrar filas después de expandir
textord_show_final_rowsMostrar filas tras el ajuste final
textord_show_final_blobsVisualización de los límites de las manchas tras la preevaluación
textord_test_landscapeLas pruebas se refieren a tierra/puerto
textord_parallel_baselinesForzar líneas de base paralelas
textord_straight_baselinesForzar líneas de base rectas
textord_old_baselinesUtilizar el antiguo algoritmo de referencia
textord_old_xheightUtilizar el antiguo algoritmo xheight
textord_fix_xheight_bugUtilizar línea de base spline
textord_fix_makerow_bugEvitar líneas de base múltiples
textord_debug_xheightsProbar algoritmos xheight
textord_biased_skewcalcEstimaciones de sesgo con longitud de línea
textord_interpolating_skewInterpolar huecos
textord_new_initial_xheightUtilizar el mecanismo de prueba xheight
textord_debug_blobImprimir información sobre las manchas de prueba
textord_really_old_xheightUtilizar el wiseowl xheight original
textord_oldbl_debugDepurar la generación de líneas de base antiguas
textord_debug_baselinesGeneración de líneas de base de depuración
textord_oldbl_paradefUtilizar para mecanismo por defecto
textord_oldbl_split_splinesEstrías escalonadas divididas
textord_oldbl_merge_partsFusionar particiones sospechosas
oldbl_corrfixMejorar la correlación de alturas
oldbl_xhfixCorregido error en el umbral de modos para xheights
textord_ocropus_modeHacer líneas de base para ocropus
textord_tabfind_only_strokewidthsSólo ejecutar anchos de trazo
textord_tabfind_show_initialtabsMostrar candidatos a la ficha
textord_tabfind_show_finaltabsMostrar vectores de pestañas
textord_show_tablesMostrar regiones de la tabla
textord_tablefind_show_markTabla de depuración que marca los pasos en detalle
textord_tablefind_show_statsMostrar las estadísticas de página utilizadas en la búsqueda de tablas
textord_tablefind_recognize_tablesActiva el reconocedor de tablas para el diseño y filtrado de tablas.
textord_all_propTodo el documento es texto proporcional
textord_debug_pitch_testPrueba de depuración en paso fijo
textord_disable_pitch_testDesactivar el algoritmo de paso fijo dp
textord_fast_pitch_testHacer un algoritmo de paso aún más rápido
textord_debug_pitch_metricEscribir cosas métricas completas
textord_show_row_cutsDibujar cortes a nivel de fila
textord_show_page_cutsDibujar cortes a nivel de página
textord_pitch_cheatUtilice la respuesta correcta para fijo/hélice
textord_blockndoc_fixedIntentar el paso fijo de todo el documento/bloque
textord_show_initial_wordsMostrar palabras separadas
textord_show_new_wordsMostrar palabras separadas
textord_show_fixed_wordsVisualización de palabras de paso fijo forzado
textord_blocksall_fixedQuejarse de los bloques de utilería
textord_blocksall_propQuejarse de los bloques de paso fijo
textord_blocksall_testingVolcar las estadísticas al gemir
textord_test_modePrueba de corriente
textord_pitch_scalebigwordsPuntuaciones en la escala de palabras grandes
textord_restore_underlinesCortar subrayados y volver a poner
textord_fp_choppingHacer picado de paso fijo
textord_force_make_prop_wordsForzar la segmentación proporcional de palabras en todas las filas
textord_chopper_testEl helicóptero está siendo probado.
wordrec_display_all_blobsVisualizar Blobs
wordrec_blob_pauseBlob pausa
stream_filelistTransmitir una lista de archivos desde stdin
archivo_depuraciónArchivo al que enviar la salida tprintf
clasificar_nombre_de_fuenteFuente desconocidaNombre de fuente predeterminado que se utilizará en la formación
título_documentoTítulo del documento de salida (utilizado para hOCR y PDF)
puntoproductoautoFunción utilizada para el cálculo del producto punto
classify_cp_angle_pad_looseAlmohadilla angular para podadora Class Suelta
classify_cp_angle_pad_mediumAlmohadilla angular para podadora Class Mediana
classify_cp_angle_pad_tightAlmohadilla angular para podadora CLASS Tight
classify_cp_end_pad_loose.5Almohadilla de extremo de podadora Class suelta
classify_cp_end_pad_medium.5Almohadilla para podadora Class Mediana
classify_cp_end_pad_tight.5Clase Podador Final Pad Tight
classify_cp_side_pad_loose.5Almohadilla lateral para podadora Class Suelta
classify_cp_side_pad_medium.2Almohadilla lateral para podadora Class Mediana
classify_cp_side_pad_tight.6Almohadilla lateral para podadora Class Tight
classify_pp_angle_padAlmohadilla angular para podadora Proto
classify_pp_end_pad.5Almohadilla Proto Prune
classify_pp_side_pad.5Almohadilla lateral para podadora Proto
clasificar_pendiente_min.414214Pendiente por debajo de la cual las líneas se denominan horizontales
clasificar_pendiente_max.41421Pendiente por encima de la cual las líneas se denominan verticales
clasificar_norm_adj_punto_medioNorma ajustar punto medio ...
clasificar_norma_adj_curlNorma ajustar rizo ...
classify_pico_feature_length.05Pico Feature Length
textord_underline_threshold.5Fracción de anchura ocupada
bordes_childarea.5Fracción de área mínima del contorno del niño
bordes_boxarea.875Fracción de área mínima del nieto para la caja
textord_fp_chop_snap.5Distancia máxima del punto de corte al vértice
gapmap_big_gaps.75multiplicador xht
textord_spline_shift_fraction.02Fracción de espacio entre líneas para quad
textord_spline_outlier_fraction.1Fracción de espacio entre líneas para el valor atípico
textord_skew_ile.5Ile de gradients pour page skew
textord_skew_lag.02Retraso por desviación en la acumulación de filas
textord_linespace_iqrlimit.2Máx iqr/mediana para el espacio lineal
textord_width_limitAnchura máxima de blobs para hacer filas
textord_chop_width.5Anchura máxima antes de cortar
factor_expansión_textoFactor por el que se amplían las filas en expand_rows
textord_overlap_x.375Fracción de espacio lineal para un buen solapamiento
textord_minxh.25fracción de tamaño de línea para altura x mínima
textord_min_linesize.25* Altura de la mancha para el tamaño inicial de las líneas
textord_excess_blobsize.3Se crea una nueva fila si la mancha hace que la fila sea así de grande
textord_occupancy_threshold.4Fracción de barrio
textord_underline_widthMúltiplo del tamaño_de_línea para el subrayado
textord_min_blob_height_fraction.75Altura/parte superior mínima de la nota para incluir la parte superior de la nota en las estadísticas de xheight
textord_xheight_mode_fraction.4Altura mínima de la pila para hacer la altura x
textord_ascheight_mode_fraction.08Altura mínima de la pila
textord_descheight_mode_fraction.08Altura mínima de la pila
textord_ascx_ratio_min.25Tapa/altura mín.
textord_ascx_ratio_max.8Tapa/altura máx.
textord_descx_ratio_min.25Min desc/xheight
textord_descx_ratio_max.6Max desc/xheight
textord_xheight_error_margin.1Variación aceptada
oldbl_xhfract.4Fracción de est permitida en calc
oldbl_dot_error_size.26Máxima relación de aspecto de un punto
textord_oldbl_jumplimit.15Fracción X para la nueva partición
pitsync_joined_edge.75Dist dentro de blob grande para picar
pitsync_offset_freecut_fraction.25Fracción de corte para cortes libres
textord_tabvector_vertical_gap_fraction.5fracción máxima de la anchura media de la mancha permitida para los huecos verticales en el texto vertical
textord_tabvector_vertical_box_ratio.5Fracción de cerillas necesarias para declarar vertical una línea
textord_projection_scale.2Tasa de abolladuras en los cortes intermedios
textord_balance_factorTasa de ding para células char desequilibradas
textord_wordstats_smooth_factor.05Suavizar las estadísticas de las diferencias
textord_width_smooth_factor.1Estadísticas de la anchura de alisado
textord_words_width_ile.4Ile de blob widths for space est
textord_words_maxspaceMúltiplo de xaltura
textord_words_default_maxspace.5Tercer espacio máximo creíble
textord_words_default_minspace.6Fracción de xaltura
textord_words_min_minspace.3Fracción de xaltura
textord_words_default_nonspace.2Fracción de xaltura
textord_words_initial_lower.25Tamaño máximo inicial del conglomerado
textord_words_initial_upper.15Espaciado inicial mínimo entre conglomerados
textord_words_minlarge.75Fracción de huecos válidos necesarios
textord_words_pitchsd_threshold.04Umbral de sincronización de tono
textord_words_def_fixed.016Umbral fijo definitivo
textord_words_def_prop.09Umbral de puntal definido
textord_pitch_rowsimilarity.08Fracción de la altura x para la igualdad
palabras_iniciales_inferiores.5Tamaño máximo inicial del conglomerado
palabras_iniciales_arriba.15Espaciado inicial mínimo entre conglomerados
words_default_prop_nonspace.25Fracción de xaltura
words_default_fixed_space.75Fracción de xaltura
palabras_defecto_limite_fijo.6Variación de tamaño permitida
textord_words_definite_spread.3Región de separación no difusa
textord_spacesize_ratiofp.8Relación mínima espacio/no espacio
textord_spacesize_ratiopropRelación mínima espacio/no espacio
textord_fpiqr_ratio.5Umbral IQR de paso/Gap IQR
textord_max_pitch_iqr.2Xh fracción de ruido en el tono
textord_fp_min_width.5Anchura mínima de las manchas decentes
textord_underline_offset.1Fracción de x a ignorar
ambigs_debug_levelNivel de depuración de ambigüedades unichar
clasificar_nivel_depuraciónClasificar el nivel de depuración
método_clasificar_normalesMétodo de normalización ...
matcher_debug_levelNivel de depuración de Matcher
matcher_debug_flagsIndicadores de depuración del comparador
clasificar_aprendizaje_nivel_depuraciónAprendizaje del nivel de depuración:
matcher_permanent_classes_minNúmero mínimo de clases permanentes
matcher_min_examples_for_ prototypingUmbral de configuración fiable
matcher_sufficient_examples_ for_prototypingPermitir la adaptación aunque no se hayan visto las ambigüedades
clasificar_adaptar_proto_umbral30Umbral de buenos protos durante la adaptación 0-255
classify_adapt_feature_threshold30Umbral de buenas características durante la adaptación 0-255
classify_class_pruner_threshold29Clase Umbral de poda 0-255
classify_class_pruner_multiplier5Multiplicador de podador de clase 0-255:
classify_cp_cutoff_strengthPodadora de clase CorteFuerza:
classify_integer_matcher_multiplierMultiplicador 0-255:
dawg_debug_levelSeleccione 1 para información general de depuración, 2 para más detalles y 3 para ver todos los mensajes de depuración.
hyphen_debug_levelNivel de depuración para palabras con guión.
tamaño_palabra_pequeña_tapónTamaño de la palabra dict a tratar como palabra no dict
stopper_debug_levelNivel de depuración del tapón
tessedit_truncate_wordchoice_logMáximo de palabras a mantener en la lista
intentos_permutadores_máximos0000Número máximo de opciones de caracteres diferentes a considerar durante la permutación. Este límite es especialmente útil cuando se especifican patrones de usuario, ya que los patrones demasiado genéricos pueden hacer que la búsqueda dawg explore un número excesivamente grande de opciones.
repair_unchopped_blobsArreglar las manchas que no se cortan
chop_debugCortar depuración
chop_split_length0000Longitud dividida
chop_same_distanceMisma distancia
chop_min_outline_pointsNúmero mínimo de puntos en el esquema
chop_seam_pile_size50Número máximo de costuras en seam_pile
chop_inside_angle-50Ángulo interior mínimo
chop_min_outline_area000Área mínima de contorno
chop_centered_maxwidthAnchura de las picadas (más pequeñas) por encima de la cual no nos importa que una picada no esté cerca del centro.
chop_x_y_weightX / Y longitud peso
wordrec_debug_levelNivel de depuración para wordrec
wordrec_max_join_chunksNúmero máximo de piezas rotas a asociar
segsearch_debug_levelNivel de depuración de SegSearch
segsearch_max_pain_points000Número máximo de pain points almacenados en la cola
segsearch_max_futile_classificationsNúmero máximo de clasificaciones de puntos dolorosos por fragmento que no permitieron encontrar una palabra mejor.
idioma_modelo_nivel_depuraciónNivel de depuración del modelo de lenguaje
orden_ngrama_modelo_de_lenguaOrden máximo del modelo de ngrama de caracteres
modelo_de_idioma_viterbi_list_ max_num_prunable0Número máximo de podas (aquellos para los que PrunablePath() es cierto) entries in each viterbi list recorded in BLOB_CHOICEs
idioma_modelo_viterbi_lista_tamaño_max00Tamaño máximo de las listas viterbi registradas en BLOB_CHOICEs
longitud_compuesta_mínima_del_modelo_de_idiomaLongitud mínima de las palabras compuestas
wordrec_display_segmentationsSegmentación de pantallas
tessedit_pageseg_modeModo de seg. de página: 0=sólo osd, 1=auto+osd, 2=sólo_auto, 3=auto, 4=columna, 5=block_vert, 6=block, 7=línea, 8=palabra, 9=circulo_palabra, 10=char,11=texto_esparcido, 12=texto_esparcido+osd, 13=línea_cruda (Valores de PageSegMode en tesseract/publictypes.h)
tessedit_ocr_engine_modeQué motor(es) de OCR ejecutar (Tesseract, LSTM, ambos). Por defecto se carga y ejecuta el más preciso disponible.
pageseg_devanagari_split_estrategiaSi se debe utilizar el proceso de división de línea superior para los documentos en devanagari al realizar la segmentación de páginas.
ocr_devanagari_split_strategySi se debe utilizar el proceso de división en línea superior para los documentos en devanagari al realizar la ocr.
bidi_debugNivel de depuración para BiDi
applybox_debugNivel de depuración
applybox_pageNúmero de página desde el que aplicar las casillas
tessedit_bigram_debugCantidad de salida de depuración para la corrección de bigramas.
debug_noise_removalDepuración de la reasignación de pequeños contornos
ruido_maxperblobMáximo de diacríticos a aplicar a una nota
ruido_maxperpalabra6Máximo de diacríticos a aplicar a una palabra
debug_x_ht_levelReestimar depuración
calidad_minima_inicial_alfa_reqdalfas en una buena palabra
tessedit_tess_adaption_mode9Algoritmo de decisión de adaptación para tess
multilang_debug_levelImprimir información de depuración multilingüe.
párrafo_debug_levelImprimir información de depuración de párrafos.
tessedit_preserve_min_wd_lenSólo preservar wds más largo que esto
crunch_rating_maxPara longitud adj en rating por ch
crunch_pot_indicatorsCuántos indicadores potenciales se necesitan
crunch_leave_lc_stringsNo machaques palabras con minúsculas largas
crunch_leave_uc_stringsNo machaques palabras con minúsculas largas
crunch_repeticiones_largasPalabras con repeticiones largas
crunch_debugComo dice
fixsp_non_noise_limit¿Cuántos blbs sin ruido a cada lado?
fixsp_done_modeLo que constituye el espaciado
debug_fix_space_levelDepuración del espacio fijo contextual
x_ht_acceptance_toleranceDesviación máxima permitida de la parte superior de la mancha fuera de los datos de la fuente
x_ht_min_changeCambio mínimo en xht antes de probarlo
superíndice_depuraciónNivel de depuración para el fijador de subíndices y superíndices
jpg_calidadEstablecer el nivel de calidad JPEG
ppp_definidos_por_usuarioEspecificar PPP para la imagen de entrada
min_characters_to_tryEspecificar el mínimo de caracteres a intentar durante la OSD
nivel_sospechoso9Nivel del marcador sospechoso
palabras_cortas_sospechosasNo sospeche dict wds más largo que este
tessedit_reject_modeAlgoritmo de rechazo
tessedit_image_borderRej blbs cerca del límite del borde de la imagen
min_sane_x_ht_pixelsRechaza cualquier x-ht lt o eq que este
tessedit_page_number-1-1 -> Todas las páginas, sino página específica a procesar
tessedit_parallelizeCorrer en paralelo siempre que sea posible
lstm_choice_modePermite incluir opciones de símbolos alternativos en la salida del hOCR. Los valores de entrada válidos son 0, 1 y 2. 0 es el valor por defecto. Con 1 se incluyen las opciones de símbolos alternativos por paso de tiempo. Con 2, las opciones de símbolos alternativos se extraen del proceso CTC en lugar de la red. Las opciones se asignan por carácter.
lstm_choice_iterationsEstablece el número de iteraciones en cascada para el Beamsearch en lstm_choice_mode. Tenga en cuenta que lstm_choice_mode debe tener un valor superior a 0 para producir resultados.
tosp_debug_levelDepurar datos
tosp_espacio_suficiente_muestras_para_medianao deberíamos utilizar la media
tosp_redo_kern_limitNúmero de muestras necesarias para reestimar la fila
tosp_pocas_muestrasNo.gaps reqd con 1 gran brecha para tratar como una tabla
tosp_short_rowNo.gaps reqd with few cert spaces to use certs
tosp_sanity_methodCómo evitar ser tonto
textord_max_noise_sizeTamaño en píxeles del ruido
textord_baseline_debugNivel de depuración inicial
textord_noise_sizefractionFracción de tamaño para los máximos
textord_noise_translimit6Transiciones para una mancha normal
textord_noise_sncountsuper norm blobs para guardar fila
utilizar_ambigs_para_adaptaciónUtiliza ambigs para decidir si te adaptas a un personaje
allow_blob_divisionUtilizar trozos divisibles
priorizar_divisiónPriorizar la división de manchas sobre el troceado
clasificar_activar_aprendizajeActivar el clasificador adaptativo
tess_cn_matchingCoincidencia normalizada de caracteres
tess_bn_matchingCoincidencia normalizada de referencia
classify_enable_adaptive_matcherActivar el clasificador adaptativo
clasificar_utilizar_plantillas_preadaptadasUtilizar plantillas de clasificación preadaptadas
clasificar_guardar_plantillas_adaptadasGuardar plantillas adaptadas en un archivo
classify_enable_adaptive_debuggerActivar el depurador de partidos
clasificar_norma_no_linealNormalización no lineal de la densidad del trazo
disable_character_fragmentsNo incluir fragmentos de caracteres en los resultados del clasificador
classify_debug_character_fragmentsMostrar ventanas de depuración gráfica para la formación de fragmentos
matcher_debug_separate_windowsUtiliza dos ventanas diferentes para depurar la concordancia: una para los protos y otra para las características.
classify_bln_numeric_modeSupongamos que la entrada son números [0-9].
load_system_dawgSistema de carga palabra dawg.
load_freq_dawgCarga frecuente palabra dawg.
carga_unambig_dawgCargar sin ambigüedades la palabra dawg.
load_punc_dawgCarga dawg con patrones de puntuación.
load_number_dawgCargar dawg con patrones numéricos.
load_bigram_dawgCarga dawg con bigramas de palabras especiales.
use_only_first_uft8_stepUtiliza sólo el primer paso UTF8 de la cadena dada al calcular las probabilidades de registro.
stopper_no_acceptable_choicesHacer que AcceptableChoice() devuelva siempre false. Útil cuando es necesario explorar todas las segmentaciones.
segment_nonalphabetic_scriptNo utilice trucos específicos para alfabetos. Establecer a true en el archivo de configuración de traineddata para escrituras que son cursivas o inherentemente de tono fijo.
guardar_doc_palabrasGuardar palabras del documento
fusionar_fragmentos_en_matrizFusionar los fragmentos en la matriz de valoraciones y eliminarlos tras la fusión
wordrec_enable_assocHabilitación del Asociador
force_word_assocfuerza al asociador a ejecutarse independientemente de cuál sea enable_assoc. Se utiliza para CJK cuando es necesario agrupar componentes.
chop_enableHabilitar picado
chop_vertical_creepFluencia vertical
chop_new_seam_pileUtilizar nueva seam_pile
assume_fixed_pitch_char_segmentincluir la heurística del tono fijo en la segmentación de los caracteres
wordrec_skip_no_truth_wordsEjecutar OCR sólo para palabras que tenían verdad registrada en BlamerBundle
wordrec_debug_blamerImprimir mensajes de depuración de blamer
wordrec_run_blamerIntentar echar la culpa de los errores
save_alt_choicesGuardar rutas alternativas encontradas durante la búsqueda de troceado y segmentación
modelo_de_lengua_ngrama_onActivar/desactivar el uso del modelo de ngramas de caracteres
modelo_de_lengua_uso_de_ngramas only_first_uft8_stepUtiliza sólo el primer paso UTF8 de la cadena dada al calcular las probabilidades de registro.
modelo_de_lengua_espacio_de_ngramas delimited_languageLas palabras están delimitadas por espacios
modelo_de_lenguaje_utilizar_certidumbre_sigmoidalUtilizar la puntuación sigmoidal para la certeza
tessedit_resegment_from_boxesTomar segmentación y etiquetado del fichero de cajas
tessedit_resegment_from_line_boxesConversión de archivo de buzón de texto/línea a archivo de buzón de caracteres
tessedit_train_from_boxesGenerar datos de entrenamiento a partir de caracteres en caja
tessedit_hacer_cajas_de_cajasGenerar más cajas a partir de caracteres en caja
tessedit_train_line_recognizerDivida la entrada en líneas y reasigne las casillas si las hay
tessedit_dump_pageseg_imagesVolcado de imágenes intermedias realizadas durante la segmentación de páginas
tessedit_do_invertPrueba a invertir la imagen en `LSTMRecognizeWord`.
tessedit_ambigs_trainingRealizar formación sobre ambigüedades
tessedit_adaption_debugGenerar e imprimir información de depuración para la adaptación
applybox_learn_chars_and_char_frags_modeAprende tanto fragmentos de caracteres (como se hace en el modo especial de baja exposición) como caracteres sin fragmentar.
applybox_learn_ngrams_modeSe supone que cada cuadro delimitador contiene ngramas. Sólo se aprenden los ngramas cuyos contornos se solapan horizontalmente.
tessedit_display_outwordsDibujar palabras de salida
tessedit_dump_choicesOpciones de volcado
tessedit_timing_debugImprimir estadísticas de tiempo
tessedit_fix_fuzzy_spacesIntentar mejorar los espacios difusos
tessedit_unrej_any_wdNo se moleste con la palabra plausibilidad
tessedit_fix_hyphens¿Crujir guiones dobles?
tessedit_enable_doc_dictAñadir palabras al diccionario del documento
tessedit_debug_fontsInformación de fuente de salida por carácter
tessedit_debug_block_rejectionEstadísticas de bloques y filas
tessedit_enable_bigram_correctionHabilitar la corrección basada en el diccionario de bigramas de palabras.
tessedit_enable_dict_correctionActivar la corrección de una sola palabra basada en el diccionario.
enable_noise_removalEliminar y reasignar condicionalmente pequeños contornos cuando confunden el análisis del trazado, determinando diacríticos frente a ruido.
tessedit_minimal_rej_pass1Rechazo mínimo en la salida del paso 1
tessedit_test_adaptionCriterios de adaptación de las pruebas
test_ptPrueba de punto
párrafo_basado_en_textoEjecutar la detección de párrafos en el post-reconocimiento de texto (más preciso)
lstm_utilizar_matrizUtilizar la búsqueda de matrices/haces con lstm
tessedit_buena_calidad_unrejReducir el rechazo de buenos documentos
tessedit_use_reject_spaces¿Rechazar espacios?
tessedit_preserve_blk_rej_perfect_wdsRechazar sólo palabras parcialmente rechazadas en bloque
tessedit_preserve_row_rej_perfect_wdsRechazar sólo palabras parcialmente rechazadas
tessedit_dont_blkrej_good_wdsUtilizar la métrica de calidad de segmentación de palabras
tessedit_dont_rowrej_good_wdsUtilizar la métrica de calidad de segmentación de palabras
tessedit_row_rej_good_docsAplicar el rechazo de filas a los buenos documentos
tessedit_reject_bad_qual_wdsRechazar todos los wds de mala calidad
tessedit_debug_doc_rejectionEstadísticas de la página
tessedit_debug_quality_metricsSalida de datos al archivo de depuración
bland_unrejunrej potencial sin controles
unlv_tilde_crunchingMarca v.bad palabras para tilde crunch
hocr_font_infoAñadir información de fuentes a la salida hocr
hocr_char_boxesAñade las coordenadas de cada carácter a la salida hocr
crunch_early_merge_tess_fails¿Antes de la crisis de las palabras?
crunch_early_convert_bad_unlv_chs¿Sacar ~^ temprano?
crunch_terrible_garbageComo dice
crunch_leave_ok_stringsNo toques cuerdas sensibles
crunch_accept_okUtilizar la aceptabilidad en okstring
crunch_leave_accept_stringsNo crujan las cuerdas sensibles
crunch_include_numeralsFiguras alfa del violín
tessedit_prefer_joined_punctLa puntuación se une a la recompensa
tessedit_write_block_separatorsEscribir separadores de bloque en la salida
tessedit_write_rep_codesEscribir código char de repetición
tessedit_write_unlvEscribir archivo de salida .unlv
tessedit_create_txtEscribir archivo de salida .txt
tessedit_create_hocrEscribir archivo de salida .html hOCR
tessedit_create_altoEscribir archivo .xml ALTO
tessedit_create_lstmboxEscribir archivo .box para entrenamiento LSTM
tessedit_create_tsvEscribir archivo de salida .tsv
tessedit_create_wordstrboxEscribir archivo de salida .box en formato WordStr
tessedit_crear_pdfEscribir archivo de salida .pdf
textonly_pdfCrear PDF con una sola capa de texto invisible
suspect_constrain_1IlUNLV mantener 1Il cartas rechazadas
tessedit_minimal_rejectionSólo rechaza los fallos de Tess
tessedit_zero_rejectionNo rechaces NADA
tessedit_palabra_por_palabraHacer que la salida tenga exactamente una palabra por WERD
tessedit_zero_kelvin_rejectionNo rechaces NADA EN ABSOLUTO
tessedit_rejection_debugAdaptación depuración
tessedit_flip_0OContextual 0O O0 flips
rej_trust_doc_dawgUse DOC dawg en 11l conf. detector
rej_1Il_use_dict_wordUtilizar la prueba dictword
rej_1Il_trust_permuter_typeNo compruebe dos veces
rej_use_tess_acceptedControl de rechazo individual
rej_use_tess_blanksControl de rechazo individual
rej_use_good_permControl de rechazo individual
rej_use_sensible_wdAmpliar la comprobación permutante
rej_alphas_in_number_permAmpliar la comprobación permutante
tessedit_create_boxfileSalida de texto con recuadros
tessedit_write_imagesCapturar la imagen del IPE
modo_visualización_interactiva¿Se ejecuta de forma interactiva?
tessedit_override_permuterSegún dict_word
tessedit_use_primary_params_modelEn modo multilingüe, utilice el modelo params de la lengua principal
textord_tabfind_show_vlinesLocalización de líneas de depuración
textord_use_cjk_fp_modelUtilizar el modelo de paso fijo CJK
poly_allow_detailed_fxPermitir que los extractores de características vean el contorno original
tessedit_init_config_onlySólo inicializar con el archivo de configuración. Útil si la instancia no se va a utilizar para el OCR, sino para el análisis del diseño.
textord_equation_detectEncender el detector de ecuaciones
textord_tabfind_vertical_textActivar la detección vertical
textord_tabfind_force_vertical_textForzar el uso del modo de página de texto vertical
preservar_espacios_entre_palabrasConservar múltiples espacios entre palabras
pageseg_apply_music_maskDetectar el pentagrama musical y eliminar los componentes de intersección
textord_single_height_modeEl script no tiene xheight, así que usa un único modo
tosp_old_to_method¿Las estadísticas espaciales utilizan prechopping?
tosp_old_to_constrain_sp_knLimitar los valores relativos de los espacios inter e intrapalabra para old_to_method.
tosp_only_use_prop_rows¿Bloquea estadísticas para utilizar filas de paso fijo?
tosp_force_wordbreak_on_punctForzar saltos de palabra en punct para romper líneas largas en langs no delimitados por espacios.
tosp_use_pre_chopping¿Las estadísticas espaciales utilizan prechopping?
tosp_old_to_bug_fixCorrección de un posible error en el código antiguo
tosp_block_use_cert_spacesSólo stat espacios OBVIOSOS
tosp_row_use_cert_spacesSólo stat espacios OBVIOSOS
tosp_narrow_blobs_not_certSólo stat espacios OBVIOSOS
tosp_row_use_cert_spaces1Sólo stat espacios OBVIOSOS
tosp_recovery_isolated_row_statsUtilizar la fila sola cuando los espacios de cert sean inadecuados
tosp_only_small_gaps_for_kernMejor adivinar
tosp_all_flips_fuzzy¿Pasar CUALQUIER voltereta al contexto?
tosp_fuzzy_limit_allNo restringir el límite difuso kn->sp a las tablas
tosp_stats_use_xht_gapsUtilizar dentro del espacio xht para las roturas wd
tosp_use_xht_gapsUtilizar dentro del espacio xht para las roturas wd
tosp_only_use_xht_gapsUtilizar sólo dentro del espacio xht para roturas wd
tosp_rule_9_test_punctNo chng kn a espacio junto a punct
tosp_flip_fuzz_kn_to_spVoltear por defecto
tosp_flip_fuzz_sp_to_knVoltear por defecto
tosp_improve_threshHabilitar la heurística de mejora
textord_no_rejectsNo elimine las manchas de ruido
textord_show_blobsVisualizar blobs sin clasificar
textord_show_boxesVisualizar blobs sin clasificar
textord_noise_rejwordsRechazar palabras ruidosas
textord_noise_rejrowsRechazar filas con ruido
textord_noise_debugDepurar el detector de basura de filas
classify_learn_debug_strClase str para depurar el aprendizaje
archivo_palabras_usuarioUn nombre de archivo de palabras proporcionadas por el usuario.
palabras_usuario_suffixUn sufijo de palabras proporcionadas por el usuario y ubicadas en tessdata.
archivo_patrones_usuarioUn nombre de archivo de patrones proporcionados por el usuario.
usuario_patrones_suffixUn sufijo de patrones proporcionados por el usuario ubicados en tessdata.
output_ambig_words_fileArchivo de salida para las ambigüedades encontradas en el diccionario
palabra_a_depurarPalabra para la que debe imprimirse la información de depuración del tapón en stdout
tessedit_char_blacklistLista negra de caracteres no reconocibles
tessedit_char_whitelistLista blanca de caracteres a reconocer
tessedit_char_unblacklistLista de caracteres a anular tessedit_char_blacklist
tessedit_write_params_to_fileEscribe todos los parámetros en el archivo dado.
applybox_exposure_pattern.expEl valor de exposición sigue este patrón en el nombre del archivo de imagen. Se espera que el nombre de los archivos de imagen tenga la forma [lang].[fontname].exp [num].tif
chs_leading_punct ('`"Puntuación inicial
chs_trailing_punct1¡).,;:?!ª Puntuación final
chs_trailing_punct2 )'`"º Puntuación final
contornos_impares%Número no estándar de esquemas
outlines_2 ij!?%":;Número no estándar de esquemas
puntuación_numérica.,Punct. chs esperados DENTRO de los números
carácter_no_reconocidoCarácter de salida para las manchas no identificadas
ok_repeated_ch_non_alphanum_wds-?*=Permitir que NN se unrej
conflict_set_I_l_1Il1 []Conjunto de conflictos Il1
tipo_archivo.tifExtensión del archivo
tessedit_load_sublangsLista de idiomas para cargar con éste
separador_páginaSeparador de página (por defecto es el carácter de control de avance de página)
classify_char_norm_range.2Rango de normalización de caracteres ...
classify_max_rating_ratio.5Relación de veto entre clasificaciones
classify_max_certainty_margin.5Diferencia de veto entre las certezas del clasificador
matcher_good_threshold.125Buen partido (0-1)
matcher_reliable_adaptive_resultGran partido (0-1)
matcher_perfect_threshold.02Combinación perfecta (0-1)
matcher_bad_match_pad.15Bad Match Pad (0-1)
matcher_rating_margin.1Margen de la nueva plantilla (0-1)
matcher_avg_noise_size2Longitud media de la mancha de ruido
matcher_clustering_max_angle_delta.015Ángulo delta máximo para la agrupación de prototipos
classify_misfit_junk_penaltyPenalización a aplicar cuando un no-alnum está verticalmente fuera de su posición de línea de texto esperada.
escala_calificación.5Factor de escala de calificación
escala_certeza0Factor de escala de certidumbre
tessedit_class_miss_scale.00390625Factor de escala para características no utilizadas
classify_adapted_pruning_factor.5Podar los malos resultados adaptados esta mucho peor que el mejor resultado
classify_adapted_pruning_threshold (clasificar umbral de poda adaptado)-1Umbral a partir del cual comienza classify_adapted_pruning_factor
clasificar_fragmentos_caracteres garbage_certainty_threshold-3Excluir de la formación y la adaptación los fragmentos que no se parezcan a personajes enteros.
moteado_gran_tamaño_max.3Tamaño máximo del moteado
penalización del índice de moteadoPenalización a añadir a la peor calificación por ruido
xheight_penalty_subscripts.125Penalización de puntuación (0,1 = 10%) añadida si hay subíndices o superíndices en una palabra, pero por lo demás está bien.
xheight_penalty_inconsistent.25Penalización de puntuación (0,1 = 10%) añadida si una altura x es incoherente.
segment_penalty_dict_frequent_wordMultiplicador de puntuación para las coincidencias de palabras que tienen un buen caso y son frecuentes en el idioma dado (cuanto más bajo, mejor).
segment_penalty_dict_case_ok.1Multiplicador de puntuación para coincidencias de palabras que tengan mayúsculas y minúsculas (cuanto más bajo, mejor).
segmento_penalty_dict_case_bad.3125Multiplicador de puntuación por defecto para las coincidencias de palabras, que puede tener problemas de mayúsculas y minúsculas (cuanto más bajo, mejor).
segmento_penalty_dict_nonword.25Multiplicador de puntuación para las segmentaciones de fragmentos de glifos que no coinciden con una palabra del diccionario (cuanto más bajo, mejor).
segmento_penalty_garbage.5Multiplicador de puntuación para las cadenas mal escritas que no están en el diccionario y que, en general, parecen basura (cuanto más bajo, mejor).
escala_certezaFactor de escala de certidumbre
stopper_nondict_certainty_base-2.5Umbral de certeza para palabras no diccionarias
stopper_phase2_certainty_rejection_offsetRechazar la compensación de certeza
tapón_certeza_por_carácter-0.5Certeza de añadir para cada dict char por encima de tamaño de palabra pequeño.
stopper_allowable_character_badnessMáxima variación de certeza permitida en una palabra (en sigma)
doc_dict_pending_thresholdLa peor certeza para usar el diccionario pendiente
doc_dict_certeza_umbral-2.25Peor certeza para las palabras que pueden insertarse en el diccionario del documento
tessedit_certeza_umbral-2.25Buen límite de manchas
chop_split_dist_knob.5Ajuste de la longitud de división
pomo_superpuesto.9Ajuste de solapamiento dividido
pomo_central.15Ajuste central dividido
pomo_afilado.06Ajuste de la nitidez de división
pomo_cambio_ancho_cortadoAjuste de cambio de anchura
chop_ok_split00Límite de división OK
chop_good_split0Buen límite de división
segsearch_max_char_wh_ratioRelación máxima entre la anchura y la altura de los caracteres