Cómo extraer texto de un archivo de imagen

Cómo utilizar Iron Tesseract en C#

This article was translated from English: Does it need improvement?
Translated
View the article in English

Iron Tesseract en C# se utiliza creando una instancia de IronTesseract, configurándola con los ajustes de idioma y OCR, y luego llamando al método Read() en un objeto OcrInput que contenga sus imágenes o PDFs. Convierte imágenes de texto en archivos PDF con capacidad de búsqueda utilizando el motor optimizado de Tesseract 5.

IronOCR proporciona una API intuitiva para utilizar el Tesseract 5 personalizado y optimizado, conocido como Iron Tesseract. Al utilizar IronOCR e IronTesseract, podrás convertir imágenes de texto y documentos escaneados en texto y PDF con capacidad de búsqueda. La biblioteca es compatible con 125 idiomas internacionales e incluye funciones avanzadas como lectura de códigos de barras y visión por ordenador.

como-título:2(Inicio rápido: Configurar la configuración de IronTesseract en C#)

Este ejemplo muestra cómo configurar IronTesseract con ajustes específicos y realizar el OCR en una sola línea de código.

Nuget IconEmpieza a crear PDF con NuGet ahora:

  1. Instalar IronOCR con el gestor de paquetes NuGet

    PM > Install-Package IronOcr

  2. Copie y ejecute este fragmento de código.

    var result = new IronOcr.IronTesseract { Language = IronOcr.OcrLanguage.English, Configuration = new IronOcr.TesseractConfiguration { ReadBarCodes = false, RenderSearchablePdf = true, WhiteListCharacters = "ABCabc123" } }.Read(new IronOcr.OcrInput("image.png"));
  3. Despliegue para probar en su entorno real

    Empieza a utilizar IronOCR en tu proyecto hoy mismo con una prueba gratuita
    arrow pointer

¿Cómo creo una instancia de IronTesseract?

Inicializa un objeto Tesseract con este código:

:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-initialize-irontesseract.cs
using IronOcr;

IronTesseract ocr = new IronTesseract();
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Puede personalizar el comportamiento de IronTesseract seleccionando diferentes idiomas, activando la lectura de códigos de barras y poniendo caracteres en listas blancas o negras. IronOCR ofrece amplias opciones de configuración para ajustar el proceso de OCR:

:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-configure-irontesseract.cs
IronTesseract ocr = new IronTesseract
{
    Configuration = new TesseractConfiguration
    {
        ReadBarCodes = false,
        RenderHocr = true,
        TesseractVariables = null,
        WhiteListCharacters = null,
        BlackListCharacters = "`ë|^",
    },
    MultiThreaded = false,
    Language = OcrLanguage.English,
    EnableTesseractConsoleMessages = true, // False as default
};
Dim ocr As New IronTesseract With {
	.Configuration = New TesseractConfiguration With {
		.ReadBarCodes = False,
		.RenderHocr = True,
		.TesseractVariables = Nothing,
		.WhiteListCharacters = Nothing,
		.BlackListCharacters = "`ë|^"
	},
	.MultiThreaded = False,
	.Language = OcrLanguage.English,
	.EnableTesseractConsoleMessages = True
}
$vbLabelText   $csharpLabel

Una vez configurado, puede utilizar la funcionalidad de Tesseract para leer objetos OcrInput. La clase OcrInput proporciona métodos flexibles para cargar varios formatos de entrada:

:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-read.cs
IronTesseract ocr = new IronTesseract();

using OcrInput input = new OcrInput();
input.LoadImage("attachment.png");
OcrResult result = ocr.Read(input);
string text = result.Text;
Dim ocr As New IronTesseract()

Using input As New OcrInput()
	input.LoadImage("attachment.png")
	Dim result As OcrResult = ocr.Read(input)
	Dim text As String = result.Text
End Using
$vbLabelText   $csharpLabel

Para situaciones complejas, puede aprovechar las capacidades de multithreading para procesar varios documentos simultáneamente, lo que mejora significativamente el rendimiento de las operaciones por lotes.

¿Qué son las variables de configuración avanzadas de Tesseract?

<Descripción: Diagrama o captura de pantalla que ilustre el concepto de código -->

La interfaz de Tesseract en IronOCR permite el control total de las variables de configuración de Tesseract a través de la Clase IronOCR.TesseractConfiguration. Estos ajustes avanzados permiten optimizar el rendimiento del OCR para casos de uso específicos, como corregir escaneos de baja calidad o leer tipos de documentos específicos.

¿Cómo se utiliza la configuración de Tesseract en el código?

:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-tesseract-configuration.cs
using IronOcr;
using System;

IronTesseract Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.English;
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;

// Configure Tesseract Engine
Ocr.Configuration.TesseractVariables["tessedit_parallelize"] = false;

using var input = new OcrInput();
input.LoadImage("/path/file.png");

OcrResult Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Imports IronOcr
Imports System

Private Ocr As New IronTesseract()

Ocr.Language = OcrLanguage.English
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd

' Configure Tesseract Engine
Ocr.Configuration.TesseractVariables("tessedit_parallelize") = False

Dim input = New OcrInput()
input.LoadImage("/path/file.png")

Dim Result As OcrResult = Ocr.Read(input)
Console.WriteLine(Result.Text)
$vbLabelText   $csharpLabel

IronOCR también proporciona una configuración especializada para diferentes tipos de documentos. Por ejemplo, al leer pasaportes o procesar cheques MICR, puede aplicar filtros específicos de preprocesamiento y detección de regiones para mejorar la precisión.

Ejemplo de configuración para documentos financieros:

// Example: Configure for financial documents
IronTesseract ocr = new IronTesseract
{
    Language = OcrLanguage.English,
    Configuration = new TesseractConfiguration
    {
        PageSegmentationMode = TesseractPageSegmentationMode.SingleBlock,
        TesseractVariables = new Dictionary<string, object>
        {
            ["lista blanca de caracteres de tessedit"] = "0123456789.$,",
            ["textord_pesado_nr"] = false,
            ["bordes_máximo_de_hijos_por_contorno"] = 10
        }
    }
};

// Apply preprocessing filters for better accuracy
using OcrInput input = new OcrInput();
input.LoadPdf("financial-document.pdf");
input.Deskew();
input.EnhanceResolution(300);

OcrResult result = ocr.Read(input);
// Example: Configure for financial documents
IronTesseract ocr = new IronTesseract
{
    Language = OcrLanguage.English,
    Configuration = new TesseractConfiguration
    {
        PageSegmentationMode = TesseractPageSegmentationMode.SingleBlock,
        TesseractVariables = new Dictionary<string, object>
        {
            ["lista blanca de caracteres de tessedit"] = "0123456789.$,",
            ["textord_pesado_nr"] = false,
            ["bordes_máximo_de_hijos_por_contorno"] = 10
        }
    }
};

// Apply preprocessing filters for better accuracy
using OcrInput input = new OcrInput();
input.LoadPdf("financial-document.pdf");
input.Deskew();
input.EnhanceResolution(300);

OcrResult result = ocr.Read(input);
CONVERTER NOT RUNNING
$vbLabelText   $csharpLabel

¿Cuál es la lista completa de todas las variables de configuración de Tesseract?

<Descripción: Diagrama o captura de pantalla que ilustre el concepto de código -->

Estas se pueden configurar usando IronTesseract.Configuration.TesseractVariables["key"] = value;. Las variables de configuración le permiten ajustar el comportamiento del OCR para obtener resultados óptimos con sus documentos específicos. Para obtener información detallada sobre la optimización del rendimiento de OCR, consulte nuestra guía de configuración de OCR rápido.

0Use old baseline algorithm0All doc is proportial text0Debug on fixed pitch test0Turn off dp fixed pitch algorithm0Do even faster pitch algorithm0Write full metric stuff0Draw row-level cuts0Draw page-level cuts0Use correct answer for fixed/prop0Attempt whole doc/block fixed pitch0Display separate words0Display separate words0Display forced fixed pitch words0Moan about prop blocks0Moan about fixed pitch blocks0Dump stats when moaning0Do current test0.08Fraction of xheight for sameness0.5Max initial cluster size0.15Min initial cluster spacing0.25Fraction of xheight0.75Fraction of xheight0.6Allowed size variance0.3Non-fuzzy spacing region2.8Min ratio space/nonspace2Min ratio space/nonspace1.5Pitch IQR/Gap IQR threshold0.2Xh fraction noise in pitch0.5Min width of decent blobs0.1Fraction of x to ignore0Debug level for unichar ambiguities0Classify debug level1Normalization Method ...0Matcher Debug Level0Matcher Debug Flags0Learning Debug Level:1Min # of permanent classes3Reliable Config Threshold5Enable adaption even if the ambiguities have not been seen230Threshold for good protos during adaptive 0-255230Threshold for good features during adaptive 0-255229Class Pruner Threshold 0-25515Class Pruner Multiplier 0-255:7Class Pruner CutoffStrength:10Integer Matcher Multiplier 0-255:0Set to 1 for general debug info, to 2 for more details, to 3 to see all the debug messages0Debug level for hyphenated words.2Size of dict word to be treated as non-dict word0Stopper debug level10Max words to keep in list10000Maximum number of different character choices to consider during permutation. This limit is especially useful when user patterns are specified, since overly generic patterns can result in dawg search exploring an overly large number of options.1Fix blobs that aren't chopped0Chop debug10000Split Length2Same distance6Min Number of Points on Outline150Max number of seams in seam_pile-50Min Inside Angle Bend2000Min Outline Area90Width of (smaller) chopped blobs above which we don't care that a chop is not near the center.3X / Y length weight0Debug level for wordrec4Max number of broken pieces to associate0SegSearch debug level2000Maximum number of pain points stored in the queue0Language model debug level8Maximum order of the character ngram model10Maximum number of prunable (those for which PrunablePath() is true) entries in each viterbi list recorded in BLOB_CHOICEs500Maximum size of viterbi lists recorded in BLOB_CHOICEs3Minimum length of compound words0Display Segmentations6Page seg mode: 0=osd only, 1=auto+osd, 2=auto_only, 3=auto, 4=column, 5=block_vert, 6=block, 7=line, 8=word, 9=word_circle, 10=char,11=sparse_text, 12=sparse_text+osd, 13=raw_line (Values from PageSegMode enum in tesseract/publictypes.h)2Which OCR engine(s) to run (Tesseract, LSTM, both). Por defectos to loading and running the most accurate available.0Whether to use the top-line splitting process for Devanagari documents while performing page-segmentation.0Whether to use the top-line splitting process for Devanagari documents while performing ocr.0Debug level for BiDi1Debug level0Page number to apply boxes from0Amount of debug output for bigram correction.0Debug reassignment of small outlines8Max diacritics to apply to a blob16Max diacritics to apply to a word0Reestimate debug2alphas in a good word39Adaptation decision algorithm for tess0Print multilang debug info.0Print paragraph debug info.2Only preserve wds longer than this10For adj length in rating per ch1How many potential indicators needed4Don't crunch words with long lower case strings4Don't crunch words with long lower case strings3Crunch words with long repetitions1How many non-noise blbs either side?1What constitues done for spacing0Contextual fixspace debug8Max allowed deviation of blob top outside of font data8Min change in xht before actually trying it0Debug level for sub & superscript fixer85Set JPEG quality level0Specify DPI for input image50Specify minimum characters to try during OSD0Rejection algorithm2Rej blbs near image edge limit8Reject any x-ht lt or eq than this-1-1 -> All pages, else specific page to process1Run in parallel where possible2Allows to include alternative symbols choices in the hOCR output. Valid input values are 0, 1 and 2. 0 is the default value. With 1 the alternative symbol choices per timestep are included. With 2 alternative symbol choices are extracted from the CTC process instead of the lattice. The choices are mapped per character.5Sets the number of cascading iterations for the Beamsearch in modo de elección lstm. Note that modo de elección lstm must be set to a value greater than 0 to produce results.0Debug data3or should we use mean10No.samples reqd to reestimate for row40No.gaps reqd with 1 large gap to treat as a table20No.gaps reqd with few cert spaces to use certs1How to avoid being silly7Pixel size of noise0Baseline debug level10Fraction of size for maxima16Transitions for normal blob1super norm blobs to save row0Use ambigs for deciding whether to adapt to a character0Prioritize blob division over chopping1Enable adaptive classifier0Character Normalized Matching0Baseline Normalized Matching1Enable adaptive classifier0Use pre-adapted classifier templates0Save adapted templates to a file0Enable match debugger0Non-linear stroke-density normalization0Bring up graphical debugging windows for fragments training0Use two different windows for debugging the matching: One for the protos and one for the features.0Assume the input is numbers [0-9].1Load system word dawg.1Load frequent word dawg.1Load unambiguous word dawg.1Load dawg with punctuation patterns.1Load dawg with number patterns.1Load dawg with special word bigrams.0Use only the first UTF8 step of the given string when computing log probabilities.0Make AcceptableChoice() always return false. Useful when there is a need to explore all segmentations0Don't use any alphabetic-specific tricks. Set to true in the traineddata config file for scripts that are cursive or inherently fixed-pitch0Save Document Words1Merge the fragments in the ratings matrix and delete them after merging1Associator Enable0force associator to run regardless of what enable_assoc is. This is used for CJK where component grouping is necessary.1Chop enable0Vertical creep1Use new seam_pile0include fixed-pitch heuristics in char segmentation0Only run OCR for words that had truth recorded in BlamerBundle0Print blamer debug messages0Try to set the blame for errors1Save alternative paths found during chopping and segmentation search1Words are delimited by space0Use sigmoidal score for certainty0Take segmentation and labeling from box file0Conversion of word/line box file to char box file0Generate training data from boxed chars0Generate more boxes from boxed chars0Break input into lines and remap boxes if present0Dump intermediate images made during page segmentation1Try inverting the image in LSTMRecognizeWord0Perform training for ambiguities0Generate and print debug information for adaption0Learn both character fragments (as is done in the special low exposure mode) as well as unfragmented characters.0Each bounding box is assumed to contain ngrams. Only learn the ngrams whose outlines overlap horizontally.0Draw output words0Dump char choices0Print timing stats1Try to improve fuzzy spaces0Don't bother with word plausibility1Crunch double hyphens?1Add words to the document dictionary0Output font info per char0Block and Row stats1Enable correction based on the word bigram dictionary.0Enable single word correction based on the dictionary.1Remove and conditionally reassign small outlines when they confuse layout analysis, determining diacritics vs noise0Do minimal rejection on pass 1 output0Test adaption criteria0Test for point1Run paragraph detection on the post-text-recognition (more accurate)1Use ratings matrix/beam search with lstm1Reduce rejection on good docs1Reject spaces?0Add font info to hocr output0Add coordinates for each character to hocr output1Before word crunch?0Take out ~^ early?1As it says1Don't touch sensible strings0Use dictword test1Individual rejection control1Individual rejection control1Individual rejection control0Extend permuter check0Extend permuter check0Output text with boxes0Capture the image from the IPE0Run interactively?1According to dict_word0In multilingual mode use params model of the primary language0Debug line finding0Use CJK fixed pitch model0Allow feature extractors to see the original outline0Only initialize with the config file. Useful if the instance is not going to be used for OCR but say only for layout analysis.0Turn on equation detector1Enable vertical detection0Force using vertical text page mode0Preserve multiple interword spaces1Detect music staff and remove intersecting components0Script has no xheight, so use a single mode0Space stats use prechopping?0Constrain relative values of inter and intra-word gaps for old_to_method.1Block stats to use fixed pitch rows?0Force word breaks on punct to break long lines in non-space delimited langs0Space stats use prechopping?0Fix suspected bug in old code1Only stat OBVIOUS spaces1Only stat OBVIOUS spaces1Only stat OBVIOUS spaces1Only stat OBVIOUS spaces1Use row alone when inadequate cert spaces0Better guess0Pass ANY flip to context?1Don't restrict kn->sp fuzzy limit to tables0Don't remove noise blobs0Display unsorted blobs0Display unsorted blobs1Reject noise-like words1Reject noise-like rows0Debug row garbage detectorClass str to debug learningA filename of user-provided words.A suffix of user-provided words located in tessdata.A filename of user-provided patterns.A suffix of user-provided patterns located in tessdata.Output file for ambiguities found in the dictionaryWord for which stopper debug information should be printed to stdoutBlacklist of chars not to recognizeWhitelist of chars to recognizeList of chars to override lista negra de caracteres de tessedit.expExposure value follows this pattern in the image filename. The name of the image files are expected to be in the form [lang].[fontname].exp [num].tifPuntuación inicial¡).,;:?!1st Trailing punctuation2nd Trailing punctuationPage separator (default is form feed control character)0.2Character Normalization Range ...1.5Veto ratio between classifier ratings5.5Veto difference between classifier certainties0.125Good Match (0-1)0Great Match (0-1)0.02Perfect Match (0-1)0.15Bad Match Pad (0-1)0.1New template margin (0-1)12Avg. noise blob length0.015Maximum angle delta for prototype clustering0Penalty to apply when a non-alnum is vertically out of its expected textline position1.5Rating scaling factor20Certainty scaling factor0.00390625Scale factor for features not used2.5Prune poor adapted results this much worse than best result-1Threshold at which factor de poda adaptado para clasificar starts-3Exclude fragments that do not look like whole characters from training and adaption0.3Max large speckle size10Penalty to add to worst rating for noise0.125Score penalty (0.1 = 10%) added if there are subscripts or superscripts in a word, but it is otherwise OK.0.25Score penalty (0.1 = 10%) added if an xheight is inconsistent.1Score multiplier for word matches which have good case and are frequent in the given language (lower is better).1.1Score multiplier for word matches that have good case (lower is better).1.3125Por defecto score multiplier for word matches, which may have case issues (lower is better).1.25Score multiplier for glyph fragment segmentations which do not match a dictionary word (lower is better).-2.25Worst certainty for words that can be inserted into the document dictionary-2.25Good blob limit2Relación máxima entre el ancho y la altura de los caracteres
Variable de configuración de TesseractPor defectoSignificado
clasificar_num_cp_niveles3Número de niveles de podador de clase
búsqueda de pestaña de depuración de textord0Búsqueda de la pestaña de depuración
errores de depuración de textord0Activar la salida relacionada con errores en la búsqueda de pestañas
región de prueba de textord_izquierda-1Borde izquierdo del rectángulo de informe de depuración
región de prueba de textord_arriba-1Borde superior del rectángulo de informe de depuración
región de prueba de textord_derecha2147483647Borde derecho del rectángulo de depuración
región de prueba de textord_inferior2147483647Borde inferior del rectángulo de depuración
textord_tabfind_mostrar_particiones0Mostrar los límites de la partición, esperando si es >1
nivel de depuración dividido devanagari0Nivel de depuración para el proceso dividido shiro-rekha.
bordes_máximo_de_hijos_por_contorno10Número máximo de niños dentro del contorno de un personaje
bordes_máx._capas_hijas5Máximo de capas de elementos secundarios anidados dentro del contorno de un personaje
bordes_hijos_por_nieto10Relación de importancia para los contornos de sujeción
límite de conteo de niños en los bordes45Máximo de agujeros permitidos en el blob
bordes_min_sin_agujero12Mínimo de píxeles para caracteres potenciales en el cuadro
relación_área_de_ruta_de_aristas40Max lensq/area for acceptable child outline
Error de corte de textord_fp2Máxima flexión permitida de las celdas de corte
textord_tabfind_mostrar_imágenes0Show image blobs
desplazamiento suave y sesgado de textord4Para un factor de suavidad
desplazamiento suave y sesgado de textord21Para un factor de suavidad
prueba_textord_x-2147483647coord del paciente de prueba
prueba de texto_y-2147483647coord del paciente de prueba
textopalabra_min_blobs_en_fila4Mínimo de blobs antes del gradiente contado
textord_spline_minblobs8Min blobs in each spline segment
textord_spline_medianwin6Size of window for spline segmentation
superposiciones de blobs de textord_max4Max number of blobs a big blob can overlap
altura mínima de la x del texto10Min credible pixel xheight
ensayos de línea de textord_lms12Number of linew fits to do
recuento de pérdidas de oldbl_holed10Max lost before fallback line used
versión lineal de pitsync6Use new fast algorithm
pitsync_falsa_profundidad1Max advance fake generation
textord_tabfind_mostrar_anchos_de_trazo0Show stroke widths
brecha de matriz de puntos de textord3Max pixel gap for broken pixed pitch
bloque de depuración de textord0Block to do debug on
rango de paso de textord2Max range test on pitch
poder de veto de textord_words5Rows required to outvote a veto
detección de ecuación_guardar_imagen_bi0Save input bi image
detección de ecuación_guardar_imagen_spt0Save special character image
detección de ecuación_guardar_imagen_semilla0Save the seed image
detección de ecuación_guardar_imagen_combinada0Save the merged image
poli_depuración0Debug old poly
objetos poligonales mejores1More accurate approx on wide things
divisiones de visualización de wordrec0Display splits
textord_debug_imprimible0Make debug windows printable
El tamaño del espacio de texto es variable0If true, word delimiter spaces are assumed to have variable width, even though characters have fixed pitch.
textord_tabfind_mostrar_particiones_iniciales0Show partition bounds
textord_tabfind_mostrar_blobs_rechazados0Show blobs rejected as noise
textord_tabfind_mostrar_columnas0Show column bounds
textord_tabfind_mostrar_bloques0Show final block bounds
textord_tabfind_buscar_tablas1run table detection
imagen de depuración dividida devanagari0Whether to create a debug image for split shiro-rekha process.
textord_show_cortes_fijos0Draw fixed pitch cell boundaries
los bordes usan una nueva complejidad de contorno0Use the new outline complexity module
bordes_depuración0turn on debugging for this module
bordes_niños_arreglo0Remove boxy parents of char-like children
mapa de brechas_depuración0Say which blocks have tables
fin del uso del mapa de brechas0Use large space at start and end of rows
mapa de brechas sin cuantos aislados0Ensure gaps not less than 2quanta wide
textord_pesado_nr0Vigorously remove noise
textord_mostrar_filas_iniciales0Display row accumulation
textord_mostrar_filas_paralelas0Display page correlated rows
textord_mostrar_filas_expandidas0Display rows after expanding
textord_mostrar_filas_finales0Display rows after final fitting
textord_mostrar_blobs_finalesDisplay blob bounds after pre-ass
paisaje de prueba de textord0Tests refer to land/port
líneas base paralelas de textord1Force parallel baselines
líneas base rectas de textord0Force straight baselines
líneas base antiguas de textord1
altura_x_antigua_textord0Use old xheight algorithm
textord_corrección_error_altura_x1Use spline baseline
textord_corrección_error_makerow1Prevent multiple baselines
alturas de x de depuración de textord0Test xheight algorithms
cálculo sesgado de textord1Bias skew estimates with line length
sesgo de interpolación de textord1Interpolate across gaps
textord_nueva_altura_x_inicial1Use test xheight mechanism
textord_debug_blob0Print test blob information
textord_realmente_viejo_alturax0Use original wiseowl xheight
textord_oldbl_debug0Debug old baseline generation
líneas base de depuración de textord0Debug baseline generation
textord_oldbl_paradef1Use para default mechanism
splines divididos de textord_oldbl1Split stepped splines
textord_oldbl_fusionar_partes1Merge suspect partitions
oldbl_corrfix1Improve correlation of heights
oldbl_xhfix0Fix bug in modes threshold for xheights
modo textord_ocropus0Make baselines for ocropus
textord_tabfind_only_anchos_de_trazo0Only run stroke widths
textord_tabfind_show_initialtabs0Show tab candidates
textord_tabfind_show_finaltabs0Show tab vectors
textord_mostrar_tablas0Show table regions
textord_tablefind_mostrar_marca0Debug table marking steps in detail
textord_tablefind_mostrar_estadísticas0Show page stats used in table finding
textord_tablefind_reconocer_tablas0Enables the table recognizer for table layout and filtering.
textord_all_prop
prueba de tono de depuración de textord
textord_deshabilitar_prueba_de_tono
prueba de tono rápido de textord
métrica de paso de depuración de textord
textord_mostrar_cortes_de_fila
textord_mostrar_cortes_de_página
trucos de tono de textord
textord_blockndoc_arreglado
textord_mostrar_palabras_iniciales
textord_mostrar_nuevas_palabras
textord_mostrar_palabras_fijas
textord_blocksall_arreglado
bloque de texto_todo_prop
Pruebas de textord_blocksall
modo de prueba de textord
similitud de filas de paso de texto
palabras_inicial_minúscula
palabras_inicial_mayúscula
palabras_predeterminadas_prop_sin espacio
palabras_predeterminadas_espacio_fijo
límite fijo predeterminado de palabras
propagación definida de palabras de textord
relación de tamaño de espacio de texto
relación de tamaño de espacio de texto
relación fpiqr_textord
textord_máximo_paso_iq
ancho mínimo de textord_fp
desplazamiento de subrayado de texto
nivel de depuración de ambigs
clasificar_nivel_de_depuración
método de clasificación de normas
nivel de depuración del comparador
indicadores de depuración del comparador
clasificar_aprendizaje_nivel_de_depuración
matcher_permanent_classes_min
ejemplos de matcher_min para creación de prototipos
ejemplos_suficientes_de_comparación_para_la_creación_de_prototipos
clasificar_adaptar_proto_umbral
clasificar_adaptar_umbral_de_características
clasificar_clase_podador_umbral
clasificar_multiplicador_podador_de_clases
clasificar_fuerza_de_corte_cp
clasificar_multiplicador_comparador_de_enteros
nivel de depuración de dawg
nivel de depuración de guión
tapón_pequeño_tamaño_de_palabra
nivel de depuración del tapón
registro de selección de palabras truncado de tessedit
intentos máximos de permutación
reparar manchas no cortadas
cortar_depuración
longitud de división
cortar_misma_distancia
puntos de contorno mínimos de chop
tamaño de pila de costura cortada
cortar_el_ángulo_interior
área de contorno de chop_min
ancho máximo centrado en el corte
peso de corte x y
nivel de depuración de wordrec
fragmentos de unión de wordrec_max
nivel de depuración de segsearch
segsearch_máximos_puntos_de_dolor
segsearch_max_futile_classifications20Maximum number of pain point classifications per chunk that did not result in finding a better word choice.
nivel de depuración del modelo de lenguaje
orden de ngramas del modelo de lenguaje
modelo de idioma_lista_viterbi_máximo_podable
modelo_de_idioma_viterbi_lista_tamaño_máximo
longitud mínima del compuesto del modelo de idioma
segmentaciones de visualización de wordrec
modo tessedit_pageseg
modo de motor tessedit_ocr
páginaseg_devanagari_split_strategy
estrategia de división de ocr_devanagari
depuración bidireccional
aplicar_box_debug
página de caja de aplicación
depuración de tessedit_bigram
eliminación de ruido de depuración
ruido_máximo por gota
ruido_máximo_por_palabra
nivel_ht_debug_x
alfas iniciales mínimas de calidad requeridas
tessedit_tess_adaption_mode
nivel de depuración multilang
nivel de depuración de párrafo
tessedit_preservar_min_wd_len
calificación máxima de crunch
indicadores de crunch_pot
crunch_leave_lc_strings
crunch_leave_uc_strings
crunch_largas_repeticiones
crunch_debug0As it says
fixsp_sin_límite_de_ruido
modo fixsp_done
nivel de espacio de corrección de depuración
tolerancia de aceptación x_ht
cambio de x_ht_min
superíndice_depuración
calidad jpg
dpi definidos por el usuario
min_caracteres_a_probar
suspect_level99Suspect marker level
suspect_short_words2Don't suspect dict wds longer than this
modo de rechazo de tessedit
borde de imagen de tessedit
píxeles min_sane_x_ht
número de página de tessedit
tessedit_paralelizar
modo de elección lstm
iteraciones de elección lstm
nivel de depuración de tosp
tosp_suficientes_muestras_de_espacio_para_la_mediana
límite de kern de rehacer tosp
tosp_few_samples
tosp_fila corta
método de sanidad tosp
tamaño máximo de ruido de textord
depuración de línea base de textord
Fracción del tamaño del ruido de texto
límite de transmisión de ruido de texto
recuento de ruido de textord
use_ambigs_para_adaptación
priorizar_división
clasificar_habilitar_aprendizaje
tess_cn_matching
tess_bn_coincidencia
clasificar_habilitar_comparador_adaptativo
clasificar_utilizar_plantillas_preadaptadas
clasificar_guardar_plantillas_adaptadas
clasificar_habilitar_depurador_adaptativo
clasificar_norma_no_lineal
disable_character_fragments1Do not include character fragments in the results of the classifier
clasificar_fragmentos_de_caracteres_de_depuración
ventanas separadas de depuración de matcher
clasificar_bln_modo_numérico
sistema de carga dawg
frecuencia de carga dawg
cargar_unambig_dawg
carga_punc_dawg
número de carga dawg
cargar_bigram_dawg
use_solo_el_primer_paso_uft8
tapón_sin_opciones_aceptables
segmento_script_no_alfabético
guardar_doc_words
fusionar fragmentos en la matriz
wordrec_enable_assoc
asociación de palabras de fuerza
habilitar chop
deslizamiento vertical de corte
cortar_nueva_cosecha_pila
asumir_segmento_de_caracteres_de_paso_fijo
wordrec_skip_no_truth_words
Culpable de depuración de wordrec
culpar a wordrec_run_bamer
guardar_opciones_alt
language_model_ngram_on0Turn on/off the use of character ngram model
language_model_ngram_use_ only_first_uft8_step0Use only the first UTF8 step of the given string when computing log probabilities.
modelo_de_lenguaje_espacio_ngrama_lenguaje_delimitado
modelo_de_lenguaje_utiliza_certeza_sigmoidea
tessedit_resegment_de_cajas
tessedit_resegment_de_cajas_de_línea
tessedit_train_from_boxes
tessedit_hacer_cajas_a_partir_de_cajas
tessedit_reconocedor_de_líneas_de_tren
imágenes de tessedit_dump_pageseg
tessedit_do_invert
entrenamiento de tessedit_ambigs
depuración de adaptación de tessedit
modo applybox_learn_chars_and_char_frags
modo applybox_learn_ngrams
tessedit_mostrar_palabras_fuera
opciones de volcado de tessedit
depuración de tiempo de tessedit
tessedit_arregla_espacios_difusos
tessedit_unrej_any_wd
tessedit_fix_guiones
tessedit_habilitar_doc_dict
fuentes de depuración de tessedit
rechazo de bloque de depuración de tessedit
tessedit_habilitar_corrección_de_bigramas
tessedit_habilitar_corrección_dict
habilitar_eliminación_de_ruido
tessedit_minimal_rej_pass1
adaptación de la prueba tessedit
prueba_pt
párrafo_basado_en_texto
matriz de uso lstm
tessedit_buena_calidad_unrej
tessedit_use_reject_spaces
tessedit_preserve_blk_rej_perfect_wds1Only rej partially rejected words in block rejection
tessedit_preserve_row_rej_perfect_wds1Only rej partially rejected words in row rejection
tessedit_dont_blkrej_good_wds0Use word segmentation quality metric
tessedit_dont_rowrej_good_wds0Use word segmentation quality metric
tessedit_row_rej_good_docs1Apply row rejection to good docs
tessedit_reject_bad_qual_wds1Reject all bad quality wds
tessedit_debug_doc_rejection0Page stats
tessedit_debug_quality_metrics0Output data to debug file
bland_unrej0unrej potential with no checks
unlv_tilde_crunching0Mark v.bad words for tilde crunch
información de fuente hocr
cajas de caracteres hocr
La fusión temprana de crunch falla
crunch_conversión temprana_mala_unlv_chs
crujido_terrible_basura
crunch_leave_ok_strings
crunch_accept_ok1Use acceptability in okstring
crunch_leave_accept_strings0Don't pot crunch sensible strings
crunch_include_numerals0Fiddle alpha figures
tessedit_prefer_joined_punct0Reward punctuation joins
tessedit_write_block_separators0Write block separators in output
tessedit_write_rep_codes0Write repetition char code
tessedit_write_unlv0Write .unlv output file
tessedit_create_txt0Write .txt output file
tessedit_create_hocr0Write .html hOCR output file
tessedit_create_alto0Write .xml ALTO file
tessedit_create_lstmbox0Write .box file for LSTM training
tessedit_create_tsv0Write .tsv output file
tessedit_create_wordstrbox0Write WordStr format .box output file
tessedit_create_pdf0Write .pdf output file
textonly_pdf0Create PDF with only one invisible text layer
suspect_constrain_1Il0UNLV keep 1Il chars rejected
tessedit_minimal_rejection0Only reject tess failures
tessedit_zero_rejection0Don't reject ANYTHING
tessedit_word_for_word0Make output have exactly one word per WERD
tessedit_zero_kelvin_rejection0Don't reject ANYTHING AT ALL
tessedit_rejection_debug0Adaption debug
tessedit_flip_0O1Contextual 0O O0 flips
rej_trust_doc_dawg0Use DOC dawg in 11l conf. detector
rej_1Uso dict_word
rej_1Il_trust_permuter_type1Don't double check
rej_use_tess_aceptado
rej_use_tess_blanks
rej_use_good_perm
rej_use_sensible_wd
rej_alphas_en_número_perm
tessedit_create_boxfile
tessedit_escribir_imágenes
modo de visualización interactiva
permutador de anulación de tessedit
tessedit_use_modelo_de_parámetros_primarios
textord_tabfind_mostrar_líneas_v
textord_use_cjk_fp_model
poly_allow_detailed_fx
tessedit_init_config_only
detección de ecuaciones de texto
textord_tabfind_texto_vertical
textord_tabfind_force_vertical_text
preservar_los_espacios_entre_palabras
pageseg_aplicar_máscara_musical
modo de altura única de textord
método tosp_old_to
tosp_old_para_restringir_sp_kn
tosp_solo_use_prop_rows
tosp_forzar_ruptura_de_palabra_al_punct
tosp_use_pre_cortar
tosp_old_to_bug_fix
tosp_block_use_cert_spaces
tosp_row_use_cert_spaces
tosp_narrow_blobs_no_certificado
tosp_row_use_cert_spaces1
estadísticas de filas aisladas de recuperación de tosp
solo pequeños espacios para el kern
tosp_all_flips_fuzzy
límite difuso total
textord_sin_rechazos
textord_mostrar_blobs
cuadros de presentación de textord
textord_ruido_rejwords
ruido de texto_rejrows
depuración de ruido de textord
clasificar_aprender_depurar_str
archivo de palabras del usuario
sufijo de palabras de usuario
archivo de patrones de usuario
sufijo de patrones de usuario
archivo de palabras ambiguas de salida
palabra_a_depurar
lista negra de caracteres de tessedit
lista blanca de caracteres de tessedit
tessedit_char_unblacklist
tessedit_write_params_to_fileWrite all parameters to the given file.
patrón de exposición del cuadro de aplicación
chs_leading_punct('`"
chs_trailing_punct1
chs_trailing_punct2)'`"
contornos_impares%|Número no estándar de contornos
contornos_2ij!?%":;Número no estándar de contornos
puntuación numérica.,Punct. chs expected WITHIN numbers
carácter no reconocido|Output char for unidentified blobs
ok_repetido_ch_no_alphanum_wds-?*=Allow NN to unrej
conjunto_de_conflictos_I_l_1Il1 []Il1 conflict set
tipo de archivo.tifFilename extension
tessedit_load_sublangsList of languages to load with this one
separador de páginas
clasificar_rango_de_norma_de_caracteres
clasificar_cociente_máximo_de_calificación
clasificar_máximo_margen_de_certeza
umbral bueno del comparador
resultado adaptativo confiable del comparador
umbral perfecto del comparador
pad de emparejamiento incorrecto
margen de calificación del comparador
tamaño promedio de ruido del comparador
delta del ángulo máximo de agrupación del comparador
clasificar_penalización_basura_inadaptada
escala de calificación
escala de certeza
escala de fallas de clase tessedit
factor de poda adaptado para clasificar
clasificar_umbral_de_poda_adaptado
clasificar_fragmentos_de_caracteres_umbral_de_certeza_de_basura
tamaño máximo de mota grande
penalización por moteado
subíndices de penalización de altura x
penalización de altura x inconsistente
segmento_penalización_dict_palabra_frecuente
caso de dictamen de penalización de segmento ok
caso de dictámenes de penalización de segmento incorrecto
segmento_penalización_dict_nonword
escala de certeza20Certainty scaling factor
stopper_nondict_certainty_base-2.5Certainty threshold for non-dict words
stopper_phase2_certainty_rejection_offset1Reject certainty offset
stopper_certainty_per_char-0.5Certainty to add for each dict char above small word size.
stopper_allowable_character_badness3Max certaintly variation allowed in a word (in sigma)
doc_dict_pending_threshold0Worst certainty for using pending dictionary
umbral de certeza de doc_dict
umbral de certeza de tessedit
chop_split_dist_knob0.5Split length adjustment
chop_overlap_knob0.9Split overlap adjustment
chop_center_knob0.15Split center adjustment
chop_sharpness_knob0.06Split sharpness adjustment
chop_width_change_knob5Width change adjustment
chop_ok_split100OK split limit
chop_good_split50Good split limit
relación wh_máx_carácter_segsearch

Para obtener los mejores resultados, se recomienda utilizar los filtros de preprocesamiento de imágenes de IronOCR antes de aplicar el OCR. Estos filtros pueden mejorar drásticamente la precisión, especialmente cuando se trabaja con escaneados de baja calidad o documentos complejos como tablas.

Preguntas Frecuentes

¿Cómo configuro IronTesseract para OCR en C#?

Para configurar IronTesseract, cree una instancia de IronTesseract y establezca propiedades como Idioma y Configuración. Puede especificar el idioma de OCR (de los 125 idiomas admitidos), activar la lectura de códigos de barras, configurar la salida de PDF con capacidad de búsqueda y establecer listas blancas de caracteres. Por ejemplo: var tesseract = new IronOcr.IronTesseract { Language = IronOcr.OcrLanguage.English, Configuration = new IronOcr.TesseractConfiguration { ReadBarCodes = false, RenderSearchablePdf = true } };

¿Qué formatos de entrada admite IronTesseract?

IronTesseract acepta varios formatos de entrada a través de la clase OcrInput. Puede procesar imágenes (PNG, JPG, etc.), archivos PDF y documentos escaneados. La clase OcrInput proporciona métodos flexibles para cargar estos diferentes formatos, lo que facilita la realización de OCR en prácticamente cualquier documento que contenga texto.

¿Puedo leer códigos de barras junto con texto utilizando IronTesseract?

Sí, IronTesseract incluye funciones avanzadas de lectura de códigos de barras. Puede activar la detección de códigos de barras estableciendo ReadBarCodes = true en TesseractConfiguration. Esto le permite extraer datos de texto y de código de barras del mismo documento en una sola operación de OCR.

¿Cómo puedo crear archivos PDF con función de búsqueda a partir de documentos escaneados?

IronTesseract puede convertir documentos e imágenes escaneados en archivos PDF con capacidad de búsqueda estableciendo RenderSearchablePdf = true en TesseractConfiguration. De este modo se crean archivos PDF en los que el texto se puede seleccionar y en los que se pueden realizar búsquedas, al tiempo que se mantiene el aspecto original del documento.

¿Qué idiomas admite IronTesseract para OCR?

IronTesseract admite 125 idiomas internacionales para el reconocimiento de texto. Puede especificar el idioma estableciendo la propiedad Language en su instancia de IronTesseract, como IronOcr.OcrLanguage.English, español, chino, árabe y muchos otros.

¿Puedo restringir los caracteres que se reconocen durante el OCR?

Sí, IronTesseract permite la creación de listas blancas y negras de caracteres mediante la propiedad WhiteListCharacters de TesseractConfiguration. Esta característica ayuda a mejorar la precisión cuando se conoce el conjunto de caracteres esperado, como limitar el reconocimiento sólo a caracteres alfanuméricos.

¿Cómo puedo realizar el OCR en varios documentos a la vez?

IronTesseract admite capacidades multihilo para el procesamiento por lotes. Puede aprovechar el procesamiento paralelo para realizar el reconocimiento óptico de caracteres de varios documentos simultáneamente, lo que mejora significativamente el rendimiento cuando se trabaja con grandes volúmenes de imágenes o archivos PDF.

¿Qué versión de Tesseract utiliza IronOCR?

IronOCR utiliza una versión personalizada y optimizada de Tesseract 5, conocida como Iron Tesseract. Este motor mejorado proporciona una mayor precisión y rendimiento en comparación con las implementaciones estándar de Tesseract, al tiempo que mantiene la compatibilidad con las aplicaciones .NET.

Curtis Chau
Escritor Técnico

Curtis Chau tiene una licenciatura en Ciencias de la Computación (Carleton University) y se especializa en el desarrollo front-end con experiencia en Node.js, TypeScript, JavaScript y React. Apasionado por crear interfaces de usuario intuitivas y estéticamente agradables, disfruta trabajando con frameworks modernos y creando manuales bien ...

Leer más
Revisado por
Jeff Fritz
Jeffrey T. Fritz
Gerente Principal de Programas - Equipo de la Comunidad .NET
Jeff también es Gerente Principal de Programas para los equipos de .NET y Visual Studio. Es el productor ejecutivo de la serie de conferencias virtuales .NET Conf y anfitrión de 'Fritz and Friends', una transmisión en vivo para desarrolladores que se emite dos veces a la semana donde habla sobre tecnología y escribe código junto con la audiencia. Jeff escribe talleres, presentaciones, y planifica contenido para los eventos de desarrolladores más importantes de Microsoft, incluyendo Microsoft Build, Microsoft Ignite, .NET Conf y la Cumbre de Microsoft MVP.
¿Listo para empezar?
Nuget Descargas 5,246,844 | Versión: 2025.12 recién lanzado