Cómo utilizar Iron Tesseract
IronOCR proporciona una API intuitiva para utilizar el Tesseract 5 personalizado y optimizado, conocido como Iron Tesseract. Utilizando IronOCR e IronTesseract, podrá convertir imágenes de texto y documentos escaneados en texto y PDF con capacidad de búsqueda.
Comience con IronOCR
Comience a usar IronOCR en su proyecto hoy con una prueba gratuita.
Cómo utilizar Iron Tesseract
- Instalar la biblioteca OCR con NuGet para leer imágenes
- Utilizar Tesseract 5 personalizado para realizar OCR
- Cargar los documentos deseados, como imágenes o archivos PDF, para su procesamiento.
- Envía el texto extraído a la consola o a un archivo
- Guardar el resultado como PDF con función de búsqueda
Crear una instancia de IronTesseract
Simplemente inicializa un objeto tesseract de la siguiente manera:
:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-initialize-irontesseract.cs
using IronOcr;
IronTesseract ocr = new IronTesseract();
IRON VB CONVERTER ERROR developers@ironsoftware.com
Puede personalizar el comportamiento de IronTesseract seleccionando distintos idiomas, activando la lectura de códigos de barras y poniendo caracteres en listas blancas o negras:
:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-configure-irontesseract.cs
IronTesseract ocr = new IronTesseract
{
Configuration = new TesseractConfiguration
{
ReadBarCodes = false,
RenderHocr = true,
TesseractVariables = null,
WhiteListCharacters = null,
BlackListCharacters = "`ë|^",
},
MultiThreaded = false,
Language = OcrLanguage.English,
EnableTesseractConsoleMessages = true, // False as default
};
Dim ocr As New IronTesseract With {
.Configuration = New TesseractConfiguration With {
.ReadBarCodes = False,
.RenderHocr = True,
.TesseractVariables = Nothing,
.WhiteListCharacters = Nothing,
.BlackListCharacters = "`ë|^"
},
.MultiThreaded = False,
.Language = OcrLanguage.English,
.EnableTesseractConsoleMessages = True
}
Una vez hecho esto, puede utilizar la funcionalidad de Tesseract para leer objetos OcrInput
:
:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-read.cs
IronTesseract ocr = new IronTesseract();
using OcrInput input = new OcrInput();
input.LoadImage("attachment.png");
OcrResult result = ocr.Read(input);
string text = result.Text;
Dim ocr As New IronTesseract()
Using input As New OcrInput()
input.LoadImage("attachment.png")
Dim result As OcrResult = ocr.Read(input)
Dim text As String = result.Text
End Using
Variables avanzadas de configuración de Tesseract
La interfaz IronOcr Tesseract permite un control total de las variables de configuración de Tesseract a través de la función
Clase IronOcr.TesseractConfiguration
Ejemplo de código de configuración de Tesseract
:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-tesseract-configuration.cs
using IronOcr;
using System;
IronTesseract Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.English;
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;
// Configure Tesseract Engine
Ocr.Configuration.TesseractVariables["tessedit_parallelize"] = false;
using var input = new OcrInput();
input.LoadImage("/path/file.png");
OcrResult Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Imports IronOcr
Imports System
Private Ocr As New IronTesseract()
Ocr.Language = OcrLanguage.English
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
' Configure Tesseract Engine
Ocr.Configuration.TesseractVariables("tessedit_parallelize") = False
Dim input = New OcrInput()
input.LoadImage("/path/file.png")
Dim Result As OcrResult = Ocr.Read(input)
Console.WriteLine(Result.Text)
Lista de todas las variables de configuración de Tesseract
Se pueden configurar mediante IronTesseract.Configuration.TesseractVariables["llave"] = valor;
Tesseract Config Variable | Por defecto | Significado |
---|---|---|
clasificar_num_cp_niveles | Número de niveles de podador de clase | |
textord_debug_tabfind | Búsqueda en la pestaña Debug | |
textord_debug_bugs | Activar la salida relacionada con errores en la búsqueda de fichas | |
textord_testregion_left | -1 | Borde izquierdo del rectángulo de informe de depuración |
textord_testregion_top | -1 | Borde superior del rectángulo de informe de depuración |
textord_testregion_right | 147483647 | Borde derecho del rectángulo de depuración |
textord_testregion_bottom | 147483647 | Borde inferior del rectángulo de depuración |
textord_tabfind_show_partitions | Mostrar límites de partición, esperar si > | |
devanagari_split_debuglevel | Nivel de depuración para el proceso shiro-rekha dividido. | |
edges_max_children_per_outline | Número máximo de hijos dentro de un contorno de carácter | |
edges_max_children_layers | Capas máximas de niños anidados dentro de un contorno de carácter | |
edges_children_per_grandchild | Relación de importancia para los contornos de sujeción | |
edges_children_count_limit | Máximo de agujeros permitidos en la mancha | |
edges_min_nonhole | Píxeles mínimos para el carácter potencial en el recuadro | |
edges_patharea_ratio | Lente máxq/área para contorno de niño aceptable | |
textord_fp_chop_error | Flexión máxima permitida de las celdas de corte | |
textord_tabfind_show_images | Mostrar manchas de imagen | |
textord_skewsmooth_offset | Para el factor de suavidad | |
textord_skewsmooth_offset2 | Para el factor de suavidad | |
textord_test_x | -2147483647 | coord of test pt |
textord_test_y | -2147483647 | coord of test pt |
textord_min_blobs_in_row | Mínimas manchas antes de contar el gradiente | |
textord_spline_minblobs | Min blobs en cada segmento spline | |
textord_spline_medianwin | Tamaño de la ventana para la segmentación spline | |
textord_max_blob_overlaps | Número máximo de blobs que una blob grande puede solapar | |
textord_min_xheight | Mínimo creíble pixel xheight | |
textord_lms_line_trials | Número de ajustes de línea a realizar | |
oldbl_holed_losscount | Pérdida máxima antes de utilizar la línea de reserva | |
pitsync_version_lineal | Utilizar un nuevo algoritmo rápido | |
pitsync_fake_profundidad | Generación falsa de avance máximo | |
textord_tabfind_show_strokewidths | Mostrar anchos de trazo | |
textord_dotmatrix_gap | Separación máxima de píxeles para el paso pixelado roto | |
textord_debug_block | Bloque para depurar | |
textord_pitch_range | Prueba de alcance máximo en el terreno de juego | |
textord_words_veto_power | Filas necesarias para superar un veto | |
equationdetect_save_bi_image | Guardar imagen bi de entrada | |
equationdetect_save_spt_image | Guardar imagen de carácter especial | |
equationdetect_save_seed_image | Guardar la imagen semilla | |
equationdetect_save_merged_image | Guardar la imagen fusionada | |
poly_debug | Depurar old poly | |
poly_wide_objects_better | Más precisión aprox. en cosas anchas | |
wordrec_display_splits | Visualizar divisiones | |
textord_debug_printable | Hacer imprimibles las ventanas de depuración | |
textord_space_size_is_variable | Si es verdadero, se supone que los espacios delimitadores de palabras tienen anchura variable, aunque los caracteres tengan paso fijo. | |
textord_tabfind_show_initial_partitions | Mostrar límites de partición | |
textord_tabfind_show_reject_blobs | Mostrar las manchas rechazadas como ruido | |
textord_tabfind_show_columns | Mostrar límites de columna | |
textord_tabfind_show_blocks | Mostrar límites finales de bloque | |
textord_tabfind_find_tables | detección de la tabla de ejecución | |
devanagari_split_debugimage | Si crear una imagen de depuración para el proceso de shiro-rekha dividido. | |
textord_show_fixed_cuts | Dibujar límites de celda de paso fijo | |
edges_use_new_outline_complexity | Utilice el nuevo módulo de complejidad de esquemas | |
edges_debug | activar la depuración para este módulo | |
bordes_hijos_fijar | Elimina los padres encajonados de los hijos tipo char | |
gapmap_debug | Decir qué bloques tienen mesas | |
gapmap_use_ends | Utilice un espacio grande al principio y al final de las filas | |
gapmap_no_isolated_quanta | Asegúrese de que los huecos no tengan menos de 2cuantas de ancho | |
textord_heavy_nr | Eliminar enérgicamente el ruido | |
textord_show_initial_rows | Mostrar acumulación de filas | |
textord_show_parallel_rows | Mostrar filas correlacionadas con la página | |
textord_show_expanded_rows | Mostrar filas después de expandir | |
textord_show_final_rows | Mostrar filas tras el ajuste final | |
textord_show_final_blobs | Visualización de los límites de las manchas tras la preevaluación | |
textord_test_landscape | Las pruebas se refieren a tierra/puerto | |
textord_parallel_baselines | Forzar líneas de base paralelas | |
textord_straight_baselines | Forzar líneas de base rectas | |
textord_old_baselines | Utilizar el antiguo algoritmo de referencia | |
textord_old_xheight | Utilizar el antiguo algoritmo xheight | |
textord_fix_xheight_bug | Utilizar línea de base spline | |
textord_fix_makerow_bug | Evitar líneas de base múltiples | |
textord_debug_xheights | Probar algoritmos xheight | |
textord_biased_skewcalc | Estimaciones de sesgo con longitud de línea | |
textord_interpolating_skew | Interpolar huecos | |
textord_new_initial_xheight | Utilizar el mecanismo de prueba xheight | |
textord_debug_blob | Imprimir información sobre las manchas de prueba | |
textord_really_old_xheight | Utilizar el wiseowl xheight original | |
textord_oldbl_debug | Depurar la generación de líneas de base antiguas | |
textord_debug_baselines | Generación de líneas de base de depuración | |
textord_oldbl_paradef | Utilizar para mecanismo por defecto | |
textord_oldbl_split_splines | Estrías escalonadas divididas | |
textord_oldbl_merge_parts | Fusionar particiones sospechosas | |
oldbl_corrfix | Mejorar la correlación de alturas | |
oldbl_xhfix | Corregido error en el umbral de modos para xheights | |
textord_ocropus_mode | Hacer líneas de base para ocropus | |
textord_tabfind_only_strokewidths | Sólo ejecutar anchos de trazo | |
textord_tabfind_show_initialtabs | Mostrar candidatos a la ficha | |
textord_tabfind_show_finaltabs | Mostrar vectores de pestañas | |
textord_show_tables | Mostrar regiones de la tabla | |
textord_tablefind_show_mark | Tabla de depuración que marca los pasos en detalle | |
textord_tablefind_show_stats | Mostrar las estadísticas de página utilizadas en la búsqueda de tablas | |
textord_tablefind_recognize_tables | Activa el reconocedor de tablas para el diseño y filtrado de tablas. | |
textord_all_prop | Todo el documento es texto proporcional | |
textord_debug_pitch_test | Prueba de depuración en paso fijo | |
textord_disable_pitch_test | Desactivar el algoritmo de paso fijo dp | |
textord_fast_pitch_test | Hacer un algoritmo de paso aún más rápido | |
textord_debug_pitch_metric | Escribir cosas métricas completas | |
textord_show_row_cuts | Dibujar cortes a nivel de fila | |
textord_show_page_cuts | Dibujar cortes a nivel de página | |
textord_pitch_cheat | Utilice la respuesta correcta para fijo/hélice | |
textord_blockndoc_fixed | Intentar el paso fijo de todo el documento/bloque | |
textord_show_initial_words | Mostrar palabras separadas | |
textord_show_new_words | Mostrar palabras separadas | |
textord_show_fixed_words | Visualización de palabras de paso fijo forzado | |
textord_blocksall_fixed | Quejarse de los bloques de utilería | |
textord_blocksall_prop | Quejarse de los bloques de paso fijo | |
textord_blocksall_testing | Volcar las estadísticas al gemir | |
textord_test_mode | Prueba de corriente | |
textord_pitch_scalebigwords | Puntuaciones en la escala de palabras grandes | |
textord_restore_underlines | Cortar subrayados y volver a poner | |
textord_fp_chopping | Hacer picado de paso fijo | |
textord_force_make_prop_words | Forzar la segmentación proporcional de palabras en todas las filas | |
textord_chopper_test | El helicóptero está siendo probado. | |
wordrec_display_all_blobs | Visualizar Blobs | |
wordrec_blob_pause | Blob pausa | |
stream_filelist | Transmitir una lista de archivos desde stdin | |
archivo_depuración | Archivo al que enviar la salida tprintf | |
clasificar_nombre_de_fuente | Fuente desconocida | Nombre de fuente predeterminado que se utilizará en la formación |
título_documento | Título del documento de salida (utilizado para hOCR y PDF) | |
puntoproducto | auto | Función utilizada para el cálculo del producto punto |
classify_cp_angle_pad_loose | Almohadilla angular para podadora Class Suelta | |
classify_cp_angle_pad_medium | Almohadilla angular para podadora Class Mediana | |
classify_cp_angle_pad_tight | Almohadilla angular para podadora CLASS Tight | |
classify_cp_end_pad_loose | .5 | Almohadilla de extremo de podadora Class suelta |
classify_cp_end_pad_medium | .5 | Almohadilla para podadora Class Mediana |
classify_cp_end_pad_tight | .5 | Clase Podador Final Pad Tight |
classify_cp_side_pad_loose | .5 | Almohadilla lateral para podadora Class Suelta |
classify_cp_side_pad_medium | .2 | Almohadilla lateral para podadora Class Mediana |
classify_cp_side_pad_tight | .6 | Almohadilla lateral para podadora Class Tight |
classify_pp_angle_pad | Almohadilla angular para podadora Proto | |
classify_pp_end_pad | .5 | Almohadilla Proto Prune |
classify_pp_side_pad | .5 | Almohadilla lateral para podadora Proto |
clasificar_pendiente_min | .414214 | Pendiente por debajo de la cual las líneas se denominan horizontales |
clasificar_pendiente_max | .41421 | Pendiente por encima de la cual las líneas se denominan verticales |
clasificar_norm_adj_punto_medio | Norma ajustar punto medio ... | |
clasificar_norma_adj_curl | Norma ajustar rizo ... | |
classify_pico_feature_length | .05 | Pico Feature Length |
textord_underline_threshold | .5 | Fracción de anchura ocupada |
bordes_childarea | .5 | Fracción de área mínima del contorno del niño |
bordes_boxarea | .875 | Fracción de área mínima del nieto para la caja |
textord_fp_chop_snap | .5 | Distancia máxima del punto de corte al vértice |
gapmap_big_gaps | .75 | multiplicador xht |
textord_spline_shift_fraction | .02 | Fracción de espacio entre líneas para quad |
textord_spline_outlier_fraction | .1 | Fracción de espacio entre líneas para el valor atípico |
textord_skew_ile | .5 | Ile de gradients pour page skew |
textord_skew_lag | .02 | Retraso por desviación en la acumulación de filas |
textord_linespace_iqrlimit | .2 | Máx iqr/mediana para el espacio lineal |
textord_width_limit | Anchura máxima de blobs para hacer filas | |
textord_chop_width | .5 | Anchura máxima antes de cortar |
factor_expansión_texto | Factor por el que se amplían las filas en expand_rows | |
textord_overlap_x | .375 | Fracción de espacio lineal para un buen solapamiento |
textord_minxh | .25 | fracción de tamaño de línea para altura x mínima |
textord_min_linesize | .25 | * Altura de la mancha para el tamaño inicial de las líneas |
textord_excess_blobsize | .3 | Se crea una nueva fila si la mancha hace que la fila sea así de grande |
textord_occupancy_threshold | .4 | Fracción de barrio |
textord_underline_width | Múltiplo del tamaño_de_línea para el subrayado | |
textord_min_blob_height_fraction | .75 | Altura/parte superior mínima de la nota para incluir la parte superior de la nota en las estadísticas de xheight |
textord_xheight_mode_fraction | .4 | Altura mínima de la pila para hacer la altura x |
textord_ascheight_mode_fraction | .08 | Altura mínima de la pila |
textord_descheight_mode_fraction | .08 | Altura mínima de la pila |
textord_ascx_ratio_min | .25 | Tapa/altura mín. |
textord_ascx_ratio_max | .8 | Tapa/altura máx. |
textord_descx_ratio_min | .25 | Min desc/xheight |
textord_descx_ratio_max | .6 | Max desc/xheight |
textord_xheight_error_margin | .1 | Variación aceptada |
oldbl_xhfract | .4 | Fracción de est permitida en calc |
oldbl_dot_error_size | .26 | Máxima relación de aspecto de un punto |
textord_oldbl_jumplimit | .15 | Fracción X para la nueva partición |
pitsync_joined_edge | .75 | Dist dentro de blob grande para picar |
pitsync_offset_freecut_fraction | .25 | Fracción de corte para cortes libres |
textord_tabvector_vertical_gap_fraction | .5 | fracción máxima de la anchura media de la mancha permitida para los huecos verticales en el texto vertical |
textord_tabvector_vertical_box_ratio | .5 | Fracción de cerillas necesarias para declarar vertical una línea |
textord_projection_scale | .2 | Tasa de abolladuras en los cortes intermedios |
textord_balance_factor | Tasa de ding para células char desequilibradas | |
textord_wordstats_smooth_factor | .05 | Suavizar las estadísticas de las diferencias |
textord_width_smooth_factor | .1 | Estadísticas de la anchura de alisado |
textord_words_width_ile | .4 | Ile de blob widths for space est |
textord_words_maxspace | Múltiplo de xaltura | |
textord_words_default_maxspace | .5 | Tercer espacio máximo creíble |
textord_words_default_minspace | .6 | Fracción de xaltura |
textord_words_min_minspace | .3 | Fracción de xaltura |
textord_words_default_nonspace | .2 | Fracción de xaltura |
textord_words_initial_lower | .25 | Tamaño máximo inicial del conglomerado |
textord_words_initial_upper | .15 | Espaciado inicial mínimo entre conglomerados |
textord_words_minlarge | .75 | Fracción de huecos válidos necesarios |
textord_words_pitchsd_threshold | .04 | Umbral de sincronización de tono |
textord_words_def_fixed | .016 | Umbral fijo definitivo |
textord_words_def_prop | .09 | Umbral de puntal definido |
textord_pitch_rowsimilarity | .08 | Fracción de la altura x para la igualdad |
palabras_iniciales_inferiores | .5 | Tamaño máximo inicial del conglomerado |
palabras_iniciales_arriba | .15 | Espaciado inicial mínimo entre conglomerados |
words_default_prop_nonspace | .25 | Fracción de xaltura |
words_default_fixed_space | .75 | Fracción de xaltura |
palabras_defecto_limite_fijo | .6 | Variación de tamaño permitida |
textord_words_definite_spread | .3 | Región de separación no difusa |
textord_spacesize_ratiofp | .8 | Relación mínima espacio/no espacio |
textord_spacesize_ratioprop | Relación mínima espacio/no espacio | |
textord_fpiqr_ratio | .5 | Umbral IQR de paso/Gap IQR |
textord_max_pitch_iqr | .2 | Xh fracción de ruido en el tono |
textord_fp_min_width | .5 | Anchura mínima de las manchas decentes |
textord_underline_offset | .1 | Fracción de x a ignorar |
ambigs_debug_level | Nivel de depuración de ambigüedades unichar | |
clasificar_nivel_depuración | Clasificar el nivel de depuración | |
método_clasificar_normales | Método de normalización ... | |
matcher_debug_level | Nivel de depuración de Matcher | |
matcher_debug_flags | Indicadores de depuración del comparador | |
clasificar_aprendizaje_nivel_depuración | Aprendizaje del nivel de depuración: | |
matcher_permanent_classes_min | Número mínimo de clases permanentes | |
matcher_min_examples_for_ prototyping | Umbral de configuración fiable | |
matcher_sufficient_examples_ for_prototyping | Permitir la adaptación aunque no se hayan visto las ambigüedades | |
clasificar_adaptar_proto_umbral | 30 | Umbral de buenos protos durante la adaptación 0-255 |
classify_adapt_feature_threshold | 30 | Umbral de buenas características durante la adaptación 0-255 |
classify_class_pruner_threshold | 29 | Clase Umbral de poda 0-255 |
classify_class_pruner_multiplier | 5 | Multiplicador de podador de clase 0-255: |
classify_cp_cutoff_strength | Podadora de clase CorteFuerza: | |
classify_integer_matcher_multiplier | Multiplicador 0-255: | |
dawg_debug_level | Seleccione 1 para información general de depuración, 2 para más detalles y 3 para ver todos los mensajes de depuración. | |
hyphen_debug_level | Nivel de depuración para palabras con guión. | |
tamaño_palabra_pequeña_tapón | Tamaño de la palabra dict a tratar como palabra no dict | |
stopper_debug_level | Nivel de depuración del tapón | |
tessedit_truncate_wordchoice_log | Máximo de palabras a mantener en la lista | |
intentos_permutadores_máximos | 0000 | Número máximo de opciones de caracteres diferentes a considerar durante la permutación. Este límite es especialmente útil cuando se especifican patrones de usuario, ya que los patrones demasiado genéricos pueden hacer que la búsqueda dawg explore un número excesivamente grande de opciones. |
repair_unchopped_blobs | Arreglar las manchas que no se cortan | |
chop_debug | Cortar depuración | |
chop_split_length | 0000 | Longitud dividida |
chop_same_distance | Misma distancia | |
chop_min_outline_points | Número mínimo de puntos en el esquema | |
chop_seam_pile_size | 50 | Número máximo de costuras en seam_pile |
chop_inside_angle | -50 | Ángulo interior mínimo |
chop_min_outline_area | 000 | Área mínima de contorno |
chop_centered_maxwidth | Anchura de las picadas (más pequeñas) por encima de la cual no nos importa que una picada no esté cerca del centro. | |
chop_x_y_weight | X / Y longitud peso | |
wordrec_debug_level | Nivel de depuración para wordrec | |
wordrec_max_join_chunks | Número máximo de piezas rotas a asociar | |
segsearch_debug_level | Nivel de depuración de SegSearch | |
segsearch_max_pain_points | 000 | Número máximo de pain points almacenados en la cola |
segsearch_max_futile_classifications | Número máximo de clasificaciones de puntos dolorosos por fragmento que no permitieron encontrar una palabra mejor. | |
idioma_modelo_nivel_depuración | Nivel de depuración del modelo de lenguaje | |
orden_ngrama_modelo_de_lengua | Orden máximo del modelo de ngrama de caracteres | |
modelo_de_idioma_viterbi_list_ max_num_prunable | 0 | Número máximo de podas (aquellos para los que PrunablePath() es cierto) entries in each viterbi list recorded in BLOB_CHOICEs |
idioma_modelo_viterbi_lista_tamaño_max | 00 | Tamaño máximo de las listas viterbi registradas en BLOB_CHOICEs |
longitud_compuesta_mínima_del_modelo_de_idioma | Longitud mínima de las palabras compuestas | |
wordrec_display_segmentations | Segmentación de pantallas | |
tessedit_pageseg_mode | Modo de seg. de página: 0=sólo osd, 1=auto+osd, 2=sólo_auto, 3=auto, 4=columna, 5=block_vert, 6=block, 7=línea, 8=palabra, 9=circulo_palabra, 10=char,11=texto_esparcido, 12=texto_esparcido+osd, 13=línea_cruda (Valores de PageSegMode en tesseract/publictypes.h) | |
tessedit_ocr_engine_mode | Qué motor(es) de OCR ejecutar (Tesseract, LSTM, ambos). Por defecto se carga y ejecuta el más preciso disponible. | |
pageseg_devanagari_split_estrategia | Si se debe utilizar el proceso de división de línea superior para los documentos en devanagari al realizar la segmentación de páginas. | |
ocr_devanagari_split_strategy | Si se debe utilizar el proceso de división en línea superior para los documentos en devanagari al realizar la ocr. | |
bidi_debug | Nivel de depuración para BiDi | |
applybox_debug | Nivel de depuración | |
applybox_page | Número de página desde el que aplicar las casillas | |
tessedit_bigram_debug | Cantidad de salida de depuración para la corrección de bigramas. | |
debug_noise_removal | Depuración de la reasignación de pequeños contornos | |
ruido_maxperblob | Máximo de diacríticos a aplicar a una nota | |
ruido_maxperpalabra | 6 | Máximo de diacríticos a aplicar a una palabra |
debug_x_ht_level | Reestimar depuración | |
calidad_minima_inicial_alfa_reqd | alfas en una buena palabra | |
tessedit_tess_adaption_mode | 9 | Algoritmo de decisión de adaptación para tess |
multilang_debug_level | Imprimir información de depuración multilingüe. | |
párrafo_debug_level | Imprimir información de depuración de párrafos. | |
tessedit_preserve_min_wd_len | Sólo preservar wds más largo que esto | |
crunch_rating_max | Para longitud adj en rating por ch | |
crunch_pot_indicators | Cuántos indicadores potenciales se necesitan | |
crunch_leave_lc_strings | No machaques palabras con minúsculas largas | |
crunch_leave_uc_strings | No machaques palabras con minúsculas largas | |
crunch_repeticiones_largas | Palabras con repeticiones largas | |
crunch_debug | Como dice | |
fixsp_non_noise_limit | ¿Cuántos blbs sin ruido a cada lado? | |
fixsp_done_mode | Lo que constituye el espaciado | |
debug_fix_space_level | Depuración del espacio fijo contextual | |
x_ht_acceptance_tolerance | Desviación máxima permitida de la parte superior de la mancha fuera de los datos de la fuente | |
x_ht_min_change | Cambio mínimo en xht antes de probarlo | |
superíndice_depuración | Nivel de depuración para el fijador de subíndices y superíndices | |
jpg_calidad | Establecer el nivel de calidad JPEG | |
ppp_definidos_por_usuario | Especificar PPP para la imagen de entrada | |
min_characters_to_try | Especificar el mínimo de caracteres a intentar durante la OSD | |
nivel_sospechoso | 9 | Nivel del marcador sospechoso |
palabras_cortas_sospechosas | No sospeche dict wds más largo que este | |
tessedit_reject_mode | Algoritmo de rechazo | |
tessedit_image_border | Rej blbs cerca del límite del borde de la imagen | |
min_sane_x_ht_pixels | Rechaza cualquier x-ht lt o eq que este | |
tessedit_page_number | -1 | -1 -> Todas las páginas, sino página específica a procesar |
tessedit_parallelize | Correr en paralelo siempre que sea posible | |
lstm_choice_mode | Permite incluir opciones de símbolos alternativos en la salida del hOCR. Los valores de entrada válidos son 0, 1 y 2. 0 es el valor por defecto. Con 1 se incluyen las opciones de símbolos alternativos por paso de tiempo. Con 2, las opciones de símbolos alternativos se extraen del proceso CTC en lugar de la red. Las opciones se asignan por carácter. | |
lstm_choice_iterations | Establece el número de iteraciones en cascada para el Beamsearch en lstm_choice_mode. Tenga en cuenta que lstm_choice_mode debe tener un valor superior a 0 para producir resultados. | |
tosp_debug_level | Depurar datos | |
tosp_espacio_suficiente_muestras_para_mediana | o deberíamos utilizar la media | |
tosp_redo_kern_limit | Número de muestras necesarias para reestimar la fila | |
tosp_pocas_muestras | No.gaps reqd con 1 gran brecha para tratar como una tabla | |
tosp_short_row | No.gaps reqd with few cert spaces to use certs | |
tosp_sanity_method | Cómo evitar ser tonto | |
textord_max_noise_size | Tamaño en píxeles del ruido | |
textord_baseline_debug | Nivel de depuración inicial | |
textord_noise_sizefraction | Fracción de tamaño para los máximos | |
textord_noise_translimit | 6 | Transiciones para una mancha normal |
textord_noise_sncount | super norm blobs para guardar fila | |
utilizar_ambigs_para_adaptación | Utiliza ambigs para decidir si te adaptas a un personaje | |
allow_blob_division | Utilizar trozos divisibles | |
priorizar_división | Priorizar la división de manchas sobre el troceado | |
clasificar_activar_aprendizaje | Activar el clasificador adaptativo | |
tess_cn_matching | Coincidencia normalizada de caracteres | |
tess_bn_matching | Coincidencia normalizada de referencia | |
classify_enable_adaptive_matcher | Activar el clasificador adaptativo | |
clasificar_utilizar_plantillas_preadaptadas | Utilizar plantillas de clasificación preadaptadas | |
clasificar_guardar_plantillas_adaptadas | Guardar plantillas adaptadas en un archivo | |
classify_enable_adaptive_debugger | Activar el depurador de partidos | |
clasificar_norma_no_lineal | Normalización no lineal de la densidad del trazo | |
disable_character_fragments | No incluir fragmentos de caracteres en los resultados del clasificador | |
classify_debug_character_fragments | Mostrar ventanas de depuración gráfica para la formación de fragmentos | |
matcher_debug_separate_windows | Utiliza dos ventanas diferentes para depurar la concordancia: una para los protos y otra para las características. | |
classify_bln_numeric_mode | Supongamos que la entrada son números [0-9]. | |
load_system_dawg | Sistema de carga palabra dawg. | |
load_freq_dawg | Carga frecuente palabra dawg. | |
carga_unambig_dawg | Cargar sin ambigüedades la palabra dawg. | |
load_punc_dawg | Carga dawg con patrones de puntuación. | |
load_number_dawg | Cargar dawg con patrones numéricos. | |
load_bigram_dawg | Carga dawg con bigramas de palabras especiales. | |
use_only_first_uft8_step | Utiliza sólo el primer paso UTF8 de la cadena dada al calcular las probabilidades de registro. | |
stopper_no_acceptable_choices | Hacer que AcceptableChoice() devuelva siempre false. Útil cuando es necesario explorar todas las segmentaciones. | |
segment_nonalphabetic_script | No utilice trucos específicos para alfabetos. Establecer a true en el archivo de configuración de traineddata para escrituras que son cursivas o inherentemente de tono fijo. | |
guardar_doc_palabras | Guardar palabras del documento | |
fusionar_fragmentos_en_matriz | Fusionar los fragmentos en la matriz de valoraciones y eliminarlos tras la fusión | |
wordrec_enable_assoc | Habilitación del Asociador | |
force_word_assoc | fuerza al asociador a ejecutarse independientemente de cuál sea enable_assoc. Se utiliza para CJK cuando es necesario agrupar componentes. | |
chop_enable | Habilitar picado | |
chop_vertical_creep | Fluencia vertical | |
chop_new_seam_pile | Utilizar nueva seam_pile | |
assume_fixed_pitch_char_segment | incluir la heurística del tono fijo en la segmentación de los caracteres | |
wordrec_skip_no_truth_words | Ejecutar OCR sólo para palabras que tenían verdad registrada en BlamerBundle | |
wordrec_debug_blamer | Imprimir mensajes de depuración de blamer | |
wordrec_run_blamer | Intentar echar la culpa de los errores | |
save_alt_choices | Guardar rutas alternativas encontradas durante la búsqueda de troceado y segmentación | |
modelo_de_lengua_ngrama_on | Activar/desactivar el uso del modelo de ngramas de caracteres | |
modelo_de_lengua_uso_de_ngramas only_first_uft8_step | Utiliza sólo el primer paso UTF8 de la cadena dada al calcular las probabilidades de registro. | |
modelo_de_lengua_espacio_de_ngramas delimited_language | Las palabras están delimitadas por espacios | |
modelo_de_lenguaje_utilizar_certidumbre_sigmoidal | Utilizar la puntuación sigmoidal para la certeza | |
tessedit_resegment_from_boxes | Tomar segmentación y etiquetado del fichero de cajas | |
tessedit_resegment_from_line_boxes | Conversión de archivo de buzón de texto/línea a archivo de buzón de caracteres | |
tessedit_train_from_boxes | Generar datos de entrenamiento a partir de caracteres en caja | |
tessedit_hacer_cajas_de_cajas | Generar más cajas a partir de caracteres en caja | |
tessedit_train_line_recognizer | Divida la entrada en líneas y reasigne las casillas si las hay | |
tessedit_dump_pageseg_images | Volcado de imágenes intermedias realizadas durante la segmentación de páginas | |
tessedit_do_invert | Prueba a invertir la imagen en `LSTMRecognizeWord`. | |
tessedit_ambigs_training | Realizar formación sobre ambigüedades | |
tessedit_adaption_debug | Generar e imprimir información de depuración para la adaptación | |
applybox_learn_chars_and_char_frags_mode | Aprende tanto fragmentos de caracteres (como se hace en el modo especial de baja exposición) como caracteres sin fragmentar. | |
applybox_learn_ngrams_mode | Se supone que cada cuadro delimitador contiene ngramas. Sólo se aprenden los ngramas cuyos contornos se solapan horizontalmente. | |
tessedit_display_outwords | Dibujar palabras de salida | |
tessedit_dump_choices | Opciones de volcado | |
tessedit_timing_debug | Imprimir estadísticas de tiempo | |
tessedit_fix_fuzzy_spaces | Intentar mejorar los espacios difusos | |
tessedit_unrej_any_wd | No se moleste con la palabra plausibilidad | |
tessedit_fix_hyphens | ¿Crujir guiones dobles? | |
tessedit_enable_doc_dict | Añadir palabras al diccionario del documento | |
tessedit_debug_fonts | Información de fuente de salida por carácter | |
tessedit_debug_block_rejection | Estadísticas de bloques y filas | |
tessedit_enable_bigram_correction | Habilitar la corrección basada en el diccionario de bigramas de palabras. | |
tessedit_enable_dict_correction | Activar la corrección de una sola palabra basada en el diccionario. | |
enable_noise_removal | Eliminar y reasignar condicionalmente pequeños contornos cuando confunden el análisis del trazado, determinando diacríticos frente a ruido. | |
tessedit_minimal_rej_pass1 | Rechazo mínimo en la salida del paso 1 | |
tessedit_test_adaption | Criterios de adaptación de las pruebas | |
test_pt | Prueba de punto | |
párrafo_basado_en_texto | Ejecutar la detección de párrafos en el post-reconocimiento de texto (más preciso) | |
lstm_utilizar_matriz | Utilizar la búsqueda de matrices/haces con lstm | |
tessedit_buena_calidad_unrej | Reducir el rechazo de buenos documentos | |
tessedit_use_reject_spaces | ¿Rechazar espacios? | |
tessedit_preserve_blk_rej_perfect_wds | Rechazar sólo palabras parcialmente rechazadas en bloque | |
tessedit_preserve_row_rej_perfect_wds | Rechazar sólo palabras parcialmente rechazadas | |
tessedit_dont_blkrej_good_wds | Utilizar la métrica de calidad de segmentación de palabras | |
tessedit_dont_rowrej_good_wds | Utilizar la métrica de calidad de segmentación de palabras | |
tessedit_row_rej_good_docs | Aplicar el rechazo de filas a los buenos documentos | |
tessedit_reject_bad_qual_wds | Rechazar todos los wds de mala calidad | |
tessedit_debug_doc_rejection | Estadísticas de la página | |
tessedit_debug_quality_metrics | Salida de datos al archivo de depuración | |
bland_unrej | unrej potencial sin controles | |
unlv_tilde_crunching | Marca v.bad palabras para tilde crunch | |
hocr_font_info | Añadir información de fuentes a la salida hocr | |
hocr_char_boxes | Añade las coordenadas de cada carácter a la salida hocr | |
crunch_early_merge_tess_fails | ¿Antes de la crisis de las palabras? | |
crunch_early_convert_bad_unlv_chs | ¿Sacar ~^ temprano? | |
crunch_terrible_garbage | Como dice | |
crunch_leave_ok_strings | No toques cuerdas sensibles | |
crunch_accept_ok | Utilizar la aceptabilidad en okstring | |
crunch_leave_accept_strings | No crujan las cuerdas sensibles | |
crunch_include_numerals | Figuras alfa del violín | |
tessedit_prefer_joined_punct | La puntuación se une a la recompensa | |
tessedit_write_block_separators | Escribir separadores de bloque en la salida | |
tessedit_write_rep_codes | Escribir código char de repetición | |
tessedit_write_unlv | Escribir archivo de salida .unlv | |
tessedit_create_txt | Escribir archivo de salida .txt | |
tessedit_create_hocr | Escribir archivo de salida .html hOCR | |
tessedit_create_alto | Escribir archivo .xml ALTO | |
tessedit_create_lstmbox | Escribir archivo .box para entrenamiento LSTM | |
tessedit_create_tsv | Escribir archivo de salida .tsv | |
tessedit_create_wordstrbox | Escribir archivo de salida .box en formato WordStr | |
tessedit_crear_pdf | Escribir archivo de salida .pdf | |
textonly_pdf | Crear PDF con una sola capa de texto invisible | |
suspect_constrain_1Il | UNLV mantener 1Il cartas rechazadas | |
tessedit_minimal_rejection | Sólo rechaza los fallos de Tess | |
tessedit_zero_rejection | No rechaces NADA | |
tessedit_palabra_por_palabra | Hacer que la salida tenga exactamente una palabra por WERD | |
tessedit_zero_kelvin_rejection | No rechaces NADA EN ABSOLUTO | |
tessedit_rejection_debug | Adaptación depuración | |
tessedit_flip_0O | Contextual 0O O0 flips | |
rej_trust_doc_dawg | Use DOC dawg en 11l conf. detector | |
rej_1Il_use_dict_word | Utilizar la prueba dictword | |
rej_1Il_trust_permuter_type | No compruebe dos veces | |
rej_use_tess_accepted | Control de rechazo individual | |
rej_use_tess_blanks | Control de rechazo individual | |
rej_use_good_perm | Control de rechazo individual | |
rej_use_sensible_wd | Ampliar la comprobación permutante | |
rej_alphas_in_number_perm | Ampliar la comprobación permutante | |
tessedit_create_boxfile | Salida de texto con recuadros | |
tessedit_write_images | Capturar la imagen del IPE | |
modo_visualización_interactiva | ¿Se ejecuta de forma interactiva? | |
tessedit_override_permuter | Según dict_word | |
tessedit_use_primary_params_model | En modo multilingüe, utilice el modelo params de la lengua principal | |
textord_tabfind_show_vlines | Localización de líneas de depuración | |
textord_use_cjk_fp_model | Utilizar el modelo de paso fijo CJK | |
poly_allow_detailed_fx | Permitir que los extractores de características vean el contorno original | |
tessedit_init_config_only | Sólo inicializar con el archivo de configuración. Útil si la instancia no se va a utilizar para el OCR, sino para el análisis del diseño. | |
textord_equation_detect | Encender el detector de ecuaciones | |
textord_tabfind_vertical_text | Activar la detección vertical | |
textord_tabfind_force_vertical_text | Forzar el uso del modo de página de texto vertical | |
preservar_espacios_entre_palabras | Conservar múltiples espacios entre palabras | |
pageseg_apply_music_mask | Detectar el pentagrama musical y eliminar los componentes de intersección | |
textord_single_height_mode | El script no tiene xheight, así que usa un único modo | |
tosp_old_to_method | ¿Las estadísticas espaciales utilizan prechopping? | |
tosp_old_to_constrain_sp_kn | Limitar los valores relativos de los espacios inter e intrapalabra para old_to_method. | |
tosp_only_use_prop_rows | ¿Bloquea estadísticas para utilizar filas de paso fijo? | |
tosp_force_wordbreak_on_punct | Forzar saltos de palabra en punct para romper líneas largas en langs no delimitados por espacios. | |
tosp_use_pre_chopping | ¿Las estadísticas espaciales utilizan prechopping? | |
tosp_old_to_bug_fix | Corrección de un posible error en el código antiguo | |
tosp_block_use_cert_spaces | Sólo stat espacios OBVIOSOS | |
tosp_row_use_cert_spaces | Sólo stat espacios OBVIOSOS | |
tosp_narrow_blobs_not_cert | Sólo stat espacios OBVIOSOS | |
tosp_row_use_cert_spaces1 | Sólo stat espacios OBVIOSOS | |
tosp_recovery_isolated_row_stats | Utilizar la fila sola cuando los espacios de cert sean inadecuados | |
tosp_only_small_gaps_for_kern | Mejor adivinar | |
tosp_all_flips_fuzzy | ¿Pasar CUALQUIER voltereta al contexto? | |
tosp_fuzzy_limit_all | No restringir el límite difuso kn->sp a las tablas | |
tosp_stats_use_xht_gaps | Utilizar dentro del espacio xht para las roturas wd | |
tosp_use_xht_gaps | Utilizar dentro del espacio xht para las roturas wd | |
tosp_only_use_xht_gaps | Utilizar sólo dentro del espacio xht para roturas wd | |
tosp_rule_9_test_punct | No chng kn a espacio junto a punct | |
tosp_flip_fuzz_kn_to_sp | Voltear por defecto | |
tosp_flip_fuzz_sp_to_kn | Voltear por defecto | |
tosp_improve_thresh | Habilitar la heurística de mejora | |
textord_no_rejects | No elimine las manchas de ruido | |
textord_show_blobs | Visualizar blobs sin clasificar | |
textord_show_boxes | Visualizar blobs sin clasificar | |
textord_noise_rejwords | Rechazar palabras ruidosas | |
textord_noise_rejrows | Rechazar filas con ruido | |
textord_noise_debug | Depurar el detector de basura de filas | |
classify_learn_debug_str | Clase str para depurar el aprendizaje | |
archivo_palabras_usuario | Un nombre de archivo de palabras proporcionadas por el usuario. | |
palabras_usuario_suffix | Un sufijo de palabras proporcionadas por el usuario y ubicadas en tessdata. | |
archivo_patrones_usuario | Un nombre de archivo de patrones proporcionados por el usuario. | |
usuario_patrones_suffix | Un sufijo de patrones proporcionados por el usuario ubicados en tessdata. | |
output_ambig_words_file | Archivo de salida para las ambigüedades encontradas en el diccionario | |
palabra_a_depurar | Palabra para la que debe imprimirse la información de depuración del tapón en stdout | |
tessedit_char_blacklist | Lista negra de caracteres no reconocibles | |
tessedit_char_whitelist | Lista blanca de caracteres a reconocer | |
tessedit_char_unblacklist | Lista de caracteres a anular tessedit_char_blacklist | |
tessedit_write_params_to_file | Escribe todos los parámetros en el archivo dado. | |
applybox_exposure_pattern | .exp | El valor de exposición sigue este patrón en el nombre del archivo de imagen. Se espera que el nombre de los archivos de imagen tenga la forma [lang].[fontname].exp [num].tif |
chs_leading_punct ('`" | Puntuación inicial | |
chs_trailing_punct1 | ¡).,;:?! | ª Puntuación final |
chs_trailing_punct2 )'`" | º Puntuación final | |
contornos_impares | % | Número no estándar de esquemas |
outlines_2 ij!?%":; | Número no estándar de esquemas | |
puntuación_numérica | ., | Punct. chs esperados DENTRO de los números |
carácter_no_reconocido | Carácter de salida para las manchas no identificadas | |
ok_repeated_ch_non_alphanum_wds | -?*= | Permitir que NN se unrej |
conflict_set_I_l_1 | Il1 [] | Conjunto de conflictos Il1 |
tipo_archivo | .tif | Extensión del archivo |
tessedit_load_sublangs | Lista de idiomas para cargar con éste | |
separador_página | Separador de página (por defecto es el carácter de control de avance de página) | |
classify_char_norm_range | .2 | Rango de normalización de caracteres ... |
classify_max_rating_ratio | .5 | Relación de veto entre clasificaciones |
classify_max_certainty_margin | .5 | Diferencia de veto entre las certezas del clasificador |
matcher_good_threshold | .125 | Buen partido (0-1) |
matcher_reliable_adaptive_result | Gran partido (0-1) | |
matcher_perfect_threshold | .02 | Combinación perfecta (0-1) |
matcher_bad_match_pad | .15 | Bad Match Pad (0-1) |
matcher_rating_margin | .1 | Margen de la nueva plantilla (0-1) |
matcher_avg_noise_size | 2 | Longitud media de la mancha de ruido |
matcher_clustering_max_angle_delta | .015 | Ángulo delta máximo para la agrupación de prototipos |
classify_misfit_junk_penalty | Penalización a aplicar cuando un no-alnum está verticalmente fuera de su posición de línea de texto esperada. | |
escala_calificación | .5 | Factor de escala de calificación |
escala_certeza | 0 | Factor de escala de certidumbre |
tessedit_class_miss_scale | .00390625 | Factor de escala para características no utilizadas |
classify_adapted_pruning_factor | .5 | Podar los malos resultados adaptados esta mucho peor que el mejor resultado |
classify_adapted_pruning_threshold (clasificar umbral de poda adaptado) | -1 | Umbral a partir del cual comienza classify_adapted_pruning_factor |
clasificar_fragmentos_caracteres garbage_certainty_threshold | -3 | Excluir de la formación y la adaptación los fragmentos que no se parezcan a personajes enteros. |
moteado_gran_tamaño_max | .3 | Tamaño máximo del moteado |
penalización del índice de moteado | Penalización a añadir a la peor calificación por ruido | |
xheight_penalty_subscripts | .125 | Penalización de puntuación (0,1 = 10%) añadida si hay subíndices o superíndices en una palabra, pero por lo demás está bien. |
xheight_penalty_inconsistent | .25 | Penalización de puntuación (0,1 = 10%) añadida si una altura x es incoherente. |
segment_penalty_dict_frequent_word | Multiplicador de puntuación para las coincidencias de palabras que tienen un buen caso y son frecuentes en el idioma dado (cuanto más bajo, mejor). | |
segment_penalty_dict_case_ok | .1 | Multiplicador de puntuación para coincidencias de palabras que tengan mayúsculas y minúsculas (cuanto más bajo, mejor). |
segmento_penalty_dict_case_bad | .3125 | Multiplicador de puntuación por defecto para las coincidencias de palabras, que puede tener problemas de mayúsculas y minúsculas (cuanto más bajo, mejor). |
segmento_penalty_dict_nonword | .25 | Multiplicador de puntuación para las segmentaciones de fragmentos de glifos que no coinciden con una palabra del diccionario (cuanto más bajo, mejor). |
segmento_penalty_garbage | .5 | Multiplicador de puntuación para las cadenas mal escritas que no están en el diccionario y que, en general, parecen basura (cuanto más bajo, mejor). |
escala_certeza | Factor de escala de certidumbre | |
stopper_nondict_certainty_base | -2.5 | Umbral de certeza para palabras no diccionarias |
stopper_phase2_certainty_rejection_offset | Rechazar la compensación de certeza | |
tapón_certeza_por_carácter | -0.5 | Certeza de añadir para cada dict char por encima de tamaño de palabra pequeño. |
stopper_allowable_character_badness | Máxima variación de certeza permitida en una palabra (en sigma) | |
doc_dict_pending_threshold | La peor certeza para usar el diccionario pendiente | |
doc_dict_certeza_umbral | -2.25 | Peor certeza para las palabras que pueden insertarse en el diccionario del documento |
tessedit_certeza_umbral | -2.25 | Buen límite de manchas |
chop_split_dist_knob | .5 | Ajuste de la longitud de división |
pomo_superpuesto | .9 | Ajuste de solapamiento dividido |
pomo_central | .15 | Ajuste central dividido |
pomo_afilado | .06 | Ajuste de la nitidez de división |
pomo_cambio_ancho_cortado | Ajuste de cambio de anchura | |
chop_ok_split | 00 | Límite de división OK |
chop_good_split | 0 | Buen límite de división |
segsearch_max_char_wh_ratio | Relación máxima entre la anchura y la altura de los caracteres |