Multiresolution Analysis - Wavelet regression using a Lévy prior model

Aunque el objetivo fundamental de la presente tesis es el diseño de reconocedores de voz robustos, hay que tener también en cuenta los aspectos de eficiencia. En este apartado se muestra cómo, analizando detenidamente el cálculo de probabilidades, es posible conseguir unos procesados individuales que permiten simplificar el funcionamiento del reconocedor, ahorrando memoria y, sobre todo, carga computacional.

Realizando una reestructuración del cómputo de las verosimilitudes se puede conseguir que el reconocedor de voz funcione independientemente de que los modelos que se entrenen sean continuos o semicontinuos, fonéticos o subfonéticos, o incluso modelos de palabras completas. El resultado es una división funcional en los siguientes tres bloques:

• Distancia a las medias de las gaussianas: En este bloque de procesado se calculan las distancias entre el vector de características y los vectores de medias de todas las gaussianas de los modelos activos. La diferencia entre

usar unos modelos continuos o semicontinuos reside en el hecho de que en el primer caso cada gaussiana es utilizada por un único modelo, mientras que si son semicontinuos se comparten entre varios.

• Distancia a los modelos de estados activos: A partir de las distancias a las medias de las gaussianas, y teniendo en cuenta los conjuntos de pesos asociados con cada modelo de estado, se elige como valor de verosimilitud aquel que teniendo en cuenta las dos componentes a la vez proporcione un valor mayor. En el apartado 3.5.2.1 se explica para el caso de la utilización de modelos continuos y en el 3.5.2.2 para modelos semicontinuos.

• Distancia a los modelos de palabras: El tercer bloque es el del cálculo de las distancias a los modelos de estado de las palabras para ser usados por el algoritmo de reconocimiento. Cada modelo de estado de palabra se corresponde con alguno de los modelos de estado, ya sean fonéticos, subfonéticos u otros, cuya distancia ya se ha calculado en el nivel anterior. Por eso, este bloque no se corresponde con el cálculo de distancias a los modelos propiamente, sino a la lectura de las mismas en el lugar donde éstas se han calculado.

S1 S2

S1 S3 S2 S3 Modelo de Palabra

Modelos de Estados o Senones Vectores de Medias

Figura 3-14. Estructura de cálculo de las verosimilitudes de los estados de modelo de una palabra.

La Figura 3-14 muestra la estructura de cálculo de la distancia de los vectores de características a los modelos de estados. El hecho de que los modelos sean continuos o semicontinuos sólo significa que existe un menor número de gaussianas, puesto que éstas se utilizan entre varios modelos. En este caso, será más eficiente para dos vocabularios con el mismo número de modelos de estado y el mismo número de mezclas por modelos, pues si se trata de modelos semicontinuos habrá que calcular un menor número de distancias.

La diferencia entre utilizar modelos subfonéticos o no es la misma que en el caso de ser semicontinuos o continuos. Si no existe compartición, el número de distancias a

modelos de estado es mayor. Si por el contrario, estos estados se pueden compartir entre varios modelos, como en el caso de los senones, se disminuye la memoria y el tiempo necesario para procesar.

Con esta estructura de cálculo es posible utilizar en el reconocedor modelos de palabras completas, de sílabas, fonéticos ó subfonéticos, pero además es posible hacerlo con varios tipos a la vez. Por ejemplo, se puede tener un vocabulario formado por nombres de ciudades y los dígitos, utilizando modelos fonéticos en el primer caso y, en el segundo, modelos de palabras aisladas.

Con la estructura planteada según la Figura 3-14, la distancia a un modelo de estado que sea compartido por dos palabras se realiza una única vez y, por tanto, la carga computacional no depende del número de palabras, sino del número de modelos de estado diferentes que cada aplicación utilice. Puede ocurrir que dos aplicaciones, una que utilice un vocabulario con el doble de palabras que la otra, presenten la misma carga computacional en el cálculo de las distancias a los modelos de palabras si ambos vocabularios representan un número de modelos de estado similar.

La reestructuración del cómputo de las verosimilitudes asociadas con el algoritmo de reconocimiento proporciona una serie de ventajas que se pueden resumir de la siguiente manera:

• Permite concebir el reconocedor de voz como la llamada a una secuencia de bloques independientes especializados en un procesado en particular. Hay que distinguir: el cálculo de la extracción de características, las distancias a las medias de las gaussianas, las distancias a los modelos de estado y el algoritmo de reconocimiento. Esta división en bloques separados permite distribuir la carga computacional entre elementos de procesado separados. Por ejemplo, entre un PC y una tarjeta de procesado digital se puede balancear la carga computacional en función de las características que cada uno de estos equipos presente.

• Con la forma de realizar los cálculos, diferenciando distancias a gaussianas, a modelos de estado y a palabras, al reconocedor le es indiferente si los modelos con los que trabaja son continuos o semicontinuos, fonéticos o subfonéticos, o incluso de palabras aisladas. Esta información está implícita en los ficheros con los modelos. Únicamente el programa que genera los ficheros de configuración con la información de los modelos es el que debe discriminar.

• La carga computacional de las distancias a los modelos de palabras no depende del tamaño del vocabulario, sino de la variabilidad de unidades fonéticas o subfonéticas que éste presente, puesto que es el número de modelos de estado diferentes que existe en el vocabulario lo que determina dicha carga.

In document Wavelet regression using a Lévy prior model (Page 42-47)