CHAPTER 4 – RESEARCH METHODOLOGY
4.5 Research technique
El número total de parámetros generados es 35, aunque 2 de ellos no son utilizables en los algoritmos de estimación de longitud de lista, como se detalla más adelante. Todos ellos se describen en la Tabla A-1, pudiéndose distinguir cuatro grandes grupos:
• Parámetros directos: Directamente obtenibles de datos de la ocurrencia acústica a
reconocer o del proceso de preselección: número de tramas, longitud de la cadena fonética, coste del algoritmo de búsqueda acústica, número de símbolos en el diccionario del primer candidato reconocido en el acceso léxico, coste del acceso léxico para dicho candidato.
• Parámetros derivados: A partir de los anteriores, aplicando normalizaciones de distinto tipo (dividiendo por el número de tramas, por la longitud de cadena fonética, etc.): coste acústico normalizado por la longitud de palabra o de cadena; coste del acceso léxico para el primer candidato normalizado por número de tramas, longitud de cadena o número de símbolos en el diccionario de dicho candidato; longitud de cadena normalizada por el número de tramas, etc.
• Parámetros estadísticos: Calculados sobre la distribución de los costes de acceso léxico, para distintas longitudes de la lista de preselección. Así, se calculan medias y desviaciones de dichos costes, normalizados o no según los criterios vistos más arriba, para longitudes iguales al 0’1%, 1%, 10%, 25% y 50% del tamaño del diccionario usado..
Tabla A-1: Parámetros disponibles para la estimación de longitudes variables de listas de preselección
Nº Nombre del parámetro Descripción
1 NumTramas Número de tramas de la palabra a reconocer
2 NumSimbDic Número de símbolos de la palabra a reconocer. Evidentemente este parámetro no está disponible en estimación.
3 LongLattice Longitud de la cadena fonética o malla generada por el algoritmo de un paso
4 CostePSBU Coste (log-probabilidad) estimado por el algoritmo de un paso
Anexo A. Parámetros de preselección A-186
5 PosicOK Posición en la que se reconoció la palabra. Evidentemente este parámetro no está disponible en estimación, pero se incluye para facilitar cálculos posteriores
6 NumSimb1erCand Número de símbolos en el diccionario que tiene el candidato reconocido en primera posición (primer candidato)
7 CosteAL1erCand Coste del acceso léxico para el primer candidato 8 CostePSBUNormNT Coste (log-probabilidad) estimado por el algoritmo de
un paso, normalizado por el número de tramas de la palabra
9 CostePSBUNormLL Coste (log-probabilidad) estimado por el algoritmo de un paso, normalizado por la longitud de la cadena fonética o malla
10 CosteAL1erCandNormNT Coste de acceso léxico del primer candidato normalizado por el número de tramas
11 CosteAL1erCandNormLL Coste de acceso léxico del primer candidato normalizado por la longitud de la cadena fonética o malla
12 CosteAL1erCandNormNS1 Coste de acceso léxico del primer candidato normalizado por el número de símbolos del diccionario del mismo
13 LongLatNumTramas Cociente entre la longitud de la cadena fonética y el número de tramas
14 CostePSBUNormNS1 Coste (log-probabilidad) estimado por el algoritmo de un paso, normalizado por el número de símbolos en el diccionario del primer candidato
15 NumSimb1erCandLongLat Cociente entre el número de símbolos en el diccionario del primer candidato y la longitud de la cadena fonética 16 Media01CosteAL Media de los costes de acceso léxico para un número de
candidatos igual al 0.1% del tamaño del diccionario 17 Desv01CosteAL Desviación de los costes de acceso léxico para un
número de candidatos igual al 0.1% del tamaño del diccionario
18 Media01CosteALNormLL Media de los costes de acceso léxico normalizados por longitud de cadena fonética para un número de candidatos igual al 0.1% del tamaño del diccionario 19 Desv01CosteALNormLL Desviación de los costes de acceso léxico normalizados
por longitud de cadena fonética para un número de candidatos igual al 0.1% del tamaño del diccionario 20 Media1CosteAL Media de los costes de acceso léxico para un número de
candidatos igual al 1% del tamaño del diccionario 21 Desv1CosteAL Desviación de los costes de acceso léxico para un
número de candidatos igual al 1% del tamaño del diccionario
22 Media1CosteALNormLL Media de los costes de acceso léxico normalizados por longitud de cadena fonética para un número de candidatos igual al 1% del tamaño del diccionario 23 Desv1CosteALNormLL Desviación de los costes de acceso léxico normalizados
por longitud de cadena fonética para un número de candidatos igual al 1% del tamaño del diccionario 24 Media10CosteAL Media de los costes de acceso léxico para un número de
candidatos igual al 10% del tamaño del diccionario
Tabla A-1: Parámetros disponibles para la estimación de longitudes variables de listas de preselección
Apartado A.2. Descripción de los parámetros utilizados A-187
25 Desv10CosteAL Desviación de los costes de acceso léxico para un número de candidatos igual al 25% del tamaño del diccionario
26 Media10CosteALNormLL Media de los costes de acceso léxico normalizados por longitud de cadena fonética para un número de candidatos igual al 10% del tamaño del diccionario 27 Desv10CosteALNormLL Desviación de los costes de acceso léxico normalizados
por longitud de cadena fonética para un número de candidatos igual al 10% del tamaño del diccionario 28 Media25CosteAL Media de los costes de acceso léxico para un número de
candidatos igual al 25% del tamaño del diccionario 29 Desv25CosteAL Desviación de los costes de acceso léxico para un
número de candidatos igual al 25% del tamaño del diccionario
30 Media25CosteALNormLL Media de los costes de acceso léxico normalizados por longitud de cadena fonética para un número de candidatos igual al 251% del tamaño del diccionario 31 Desv25CosteALNormLL Desviación de los costes de acceso léxico normalizados
por longitud de cadena fonética para un número de candidatos igual al 25% del tamaño del diccionario 32 Media50CosteAL Media de los costes de acceso léxico para un número de
candidatos igual al 50% del tamaño del diccionario 33 Desv50CosteAL Desviación de los costes de acceso léxico para un
número de candidatos igual al 50% del tamaño del diccionario
34 Media50CosteALNormLL Media de los costes de acceso léxico normalizados por longitud de cadena fonética para un número de candidatos igual al 50% del tamaño del diccionario 35 Desv50CosteALNormLL Desviación de los costes de acceso léxico normalizados
por longitud de cadena fonética para un número de candidatos igual al 50% del tamaño del diccionario
Tabla A-1: Parámetros disponibles para la estimación de longitudes variables de listas de preselección
B
Bases de datos y tareas
B.1
Introducción
En este apéndice se describe el contenido de cada una de las bases de datos utilizadas, así como los nemotécnicos que utilizamos en este documento al referirnos a ellas, o a subconjuntos de ellas.