Extensions - Essays on Simulation-Based Estimation

Cuando se maneja un conjunto reducido de modelos de unidades fonéticas, como en el caso de los monofonemas, el número de parámetros que se entrena no es muy elevado y el sistema es muy eficiente. Por el contrario, cuando se desea aumentar el número de modelos con unidades fonéticas dependientes del contexto, éste empieza a aumentar en gran medida proporcionalmente a la cantidad de nuevos modelos que se consideran.

Una manera de controlar el aumento de memoria y de carga computacional debido al aumento del número de modelos, para evitar que disminuyan las prestaciones en cuanto al tamaño de vocabulario que el reconocedor es capaz de manejar cuando se utilicen monofonemas, consiste en utilizar modelos semicontinuos de Markov. Como ya se indica en [Hua90], la compartición de las gaussianas entre todos los modelos posibilita reducir el número de parámetros a la vez que éstos, a los que les corresponde un mayor número de vectores de entrenamiento, estarán mejor caracterizados.

En [Hua90] se hace una extensión del algoritmo de entrenamiento basado en Baum-Welch, que inicialmente fue diseñado para modelos discretos y continuos, en modelos semicontinuos. Tal como se establece en 2.3.3, en la presente tesis se ha optado en todo momento por la utilización del algoritmo de Viterbi tanto en entrenamiento como en reconocimiento, dada su mayor sencillez, sin que por ello los modelos obtenidos se degraden de forma elevada.

Para la obtención de unos modelos semicontinuos de Markov se propone realizar una conversión de los CHMM en los SCHMM. En todos los casos, primeramente se buscan los centroides que representan las medias de las funciones densidad de probabilidad gaussianas que comparten todos los modelos. El paso siguiente consiste en obtener los pesos que a cada CHMM le corresponde en función de la distancia a las mismas. Se pueden distinguir dos variantes en función de cómo se realiza la obtención del conjunto de centroides común a los modelos:

− Método basado en la cuantificación vectorial.

− Método basado en el agrupamiento de gaussianas de los CHMM.

Una vez obtenido este conjunto de centroides, en función de la distancia de los CHMM a los mismos, se establece el conjunto de pesos para cada modelo. El cálculo de estos pesos es igual, independientemente del método con el que se hayan obtenido las medias de las gaussianas.

3.3.6.1 Método Basado en la Cuantificación Vectorial.

A partir del conjunto de vectores de características de la base de datos de entrenamiento se realiza una cuantificación vectorial, similar a la que existe en los modelos discretos de Markov, pero con la diferencia de que aquí representa la media de unas funciones densidad de probabilidad gaussianas.

El principal inconveniente que a priori presenta esta técnica es que el cuantificador vectorial proporciona un conjunto de centroides cuya distribución depende en gran medida del número de apariciones de vectores que de cada unidad fonética existe en la base de datos de entrenamiento. Por ejemplo, para el caso de la base de datos Albayzín y el entrenamiento de monofonemas, los silencios representan sólo tres modelos de un estado, frente al total de 82 estados que existen para todos los modelos. Sin embargo, el 20 % de los vectores de características de entrenamiento representan al silencio y, por tanto, habrá un número muy significativo de centroides que estén asociados con el mismo, superior a lo que debería corresponderle. Este mismo fenómeno ocurre en el caso de las vocales, que son el otro conjunto que mayor número de centroides generaría.

Sin embargo, en el resto de unidades fonéticas, el número de centroides sería muy reducido y aparecerían grandes problemas de discriminación.

3.3.6.2 Método Basado en la Reducción de Gaussianas de los CHMM.

Si la obtención del conjunto de centroides de la cuantificación vectorial de los datos de entrenamiento no es muy adecuada, se puede utilizar directamente las medias de los modelos continuos entrenados.

La utilización de modelos de unidades fonéticas dependientes de contexto aumenta el número de parámetros a entrenar y, por tanto, a cada parámetro le corresponde un menor número de vectores de características. Puesto que estos modelos así entrenados no son muy fiables, se puede realizar una disminución de su número agrupando los más cercanos dos a dos hasta conseguir el número deseado de centroides.

3.3.6.3 Obtención de los Pesos de los Modelos Semicontinuos.

Obtenido el conjunto de centroides que representa al conjunto de gaussianas comunes, se realiza el cálculo de los pesos asociados:

• Para cada centroide obtenido se calculan las probabilidades asociadas de las medias de los modelos semicontinuos ponderando por el peso de las mezclas de los continuos. Se tendrá un valor para cada uno de los centroides.

• Selección de los centroides cuya distancia sea la mayor para quedarse con un número reducido de ellas.

• Normalización de los pesos para que se cumpla que su suma sea igual a la unidad.

Por ejemplo, en el caso de los monofonemas con unos CHMM de 2 pesos cada uno existe un total de 164 gaussianas. Se puede reducir a 128 con 4 pesos por modelo teniendo una reducción del 22 % de memoria.

In document Essays on Simulation-Based Estimation (Page 96-103)