• No results found

presentan las conclusiones, se resumen las aportaciones y finalmente se enumeran las posibles líneas futuras de este trabajo de investigación.

Se ha presentado un VAD completo, cuyo esquema se presenta gráficamente en la Fig.7.1, especialmente diseñado para rechazar las voces de fondo, y adecuado para integrarse en sistemas de reconocimiento automático de habla, aunque puede ser utilizado en un amplio espectro de aplicaciones.

Figura 7.1. VAD completo con las nuevas técnicas para el filtrado de voces de fondo.

Los resultados justifican el método, consiguiendo el menor error de detección de todos los detectores de actividad evaluados tanto en entornos de ruido estacionario como de ruido no estacionario. Además, los resultados con voz limpia (SNR superior

Duración de pulso ≥ 168 ms.

Silencio entre pronunciaciones

Tramas adicionales

+

Umbrales

Árbol Decisión

Red Neuronal

o

o

Extracción de

características

Algoritmo basado

en HMMs

Máquina de estados y

detección de pulsos

score Condiciones de pulso HMM voz. 4 estados HMM ruido. 3 estados

a 25 dB) siguen siendo buenos ya que se sigue teniendo una tasa de falsos rechazos moderada.

Las aportaciones específicas obtenidas en este trabajo son las siguientes: 1. Se ha diseñado un VAD basado en HMMs, al que llamamos VAD Base

Mejorado, con algunas mejoras respecto a [82] (VAD Base o de partida inicial), cuyo vector de características está formado por:

a. Los cepstrum que mejor discriminan entre la clase voz y la clase ruido (o clase no-voz): C1, C2 y C3.

b. La energía normalizada: hace que el VAD sea robusto ante niveles altos de ruido y, por ende, robusto ante bajas SNRs.

c. El delta de energía: mide los cambios de energía y es muy útil en todo proceso de detección.

2. El VAD Base Mejorado usa un algoritmo basado en HMMs que obtiene una puntuación con la que se determina si la trama actual es de voz o de ruido. Los modelos usados son dos: uno modela la voz y el otro al ruido. La topología de los HMMs es la siguiente:

a. El modelo de voz está formado por cuatro estados donde se permiten transiciones de izquierda a derecha y de cada estado consigo mismo. Cada estado está compuesto por una gaussiana.

b. El modelo de ruido está formado por tres estados donde se permiten transiciones de izquierda a derecha y de cada estado consigo mismo. Cada estado está compuesto por una única gaussiana.

c. La transición entre modelos es de tal forma que uno realimenta al otro y vice-versa, es decir, cuando termina el modelo de voz prosigue el de ruido o el de voz también y vice-versa.

Posteriormente y como técnica de post-proceso (decisión a nivel de pulso), mediante un conjunto de reglas, tres en este caso, se logra mejorar los resultados finales detección: duración de pulsos de voz, silencio entre pronunciaciones y tramas adicionales.

3. Se presentan cinco estadísticos capaces de discriminar, a nivel de pulso, entre voz procedente de un locutor principal y voz de fondo procedente de uno o varios locutores:

a. El porcentaje de tramas con el máximo valor de auto-correlación mayor de 0.9 en un pulso de voz de N tramas.

b. La mínima distancia de Mahalanobis sobre coeficientes MFCC de tramas consecutivas en un pulso de voz de N tramas.

c. El porcentaje de tramas con una kurtosis del residuo mayor que 5 en un pulso de voz de N tramas.

d. El porcentaje de tramas con una auto-correlación máxima del residuo mayor que 0.425 en un pulso de voz de N tramas.

e. La varianza del máximo de auto-correlación del residuo en un pulso de N tramas.

4. Con el fin de rechazar los pulsos de voz procedentes de locutores de habla lejana, la información sobre las medidas anteriores se introduce en el módulo de detección de pulsos del VAD Base Mejorado de tres formas distintas:

a. En forma de restricciones impuestas por la comparación con umbrales, de los cinco estadísticos, previamente ajustados.

b. Mediante un Árbol de Decisión de tipo estocástico cuya entrada es un vector formado por los cinco estadísticos.

c. Mediante una Red Neuronal multicapa (3 capas) o Perceptrón multicapa cuya entrada también es el vector formado por los mencionados cinco estadísticos.

Por otro lado, las conclusiones más relevantes que se desprenden de este trabajo son las siguientes:

1. La inclusión de información espectral al VAD de partida inicial [82] basado en HMMs muestra una mejora en los resultados significativa: se añaden tres cepstrum, C1, C2 y C3.

2. El uso de la energía normalizada en el vector de características del punto anterior hace que el VAD sea invariante ante una variación de la SNR (umbral fijo).

3. La topología óptima para los HMMs es la siguiente: 4 estados para el modelo de voz y 3 estados para el modelo de ruido, y una gaussiana por estado. Aumentar el número de estados no mejora los resultados. Estos HMMs,

además, funcionan correctamente en todas las redes telefónicas: telefonía móvil (gsm), telefonía fija y voz IP.

4. Los resultados a nivel de trama (máxima verosimilitud entre dos clases: la clase voz y la clase ruido) mejoran si se introduce información de la estructura del habla: duración de pulsos, silencio entre pronunciaciones y tramas adicionales. Se trata de una decisión a nivel de pulso de voz: se crean los pulsos de voz. En este momento se crea lo que llamamos el VAD Base Mejorado, que posee todas las características enunciadas en estos 4 puntos.

5. El VAD Base Mejorado obtiene buenos resultados para voz limpia y voz contaminada por ruidos estacionarios. Sin embargo, en el caso de voces de fondo (ruidos no estacionarios), la tasa de falsas alarmas hace que los resultados no sean tan buenos. Aún así, en comparación con otros detectores de referencia, obtiene en general los mejores resultados tanto para ruidos estacionarios como para ruidos no estacionarios.

6. Con el fin de solucionar el problema de las falsas alarmas, provocadas por las voces de fondo que genera el VAD Base Mejorado, se realiza el estudio de diversas características: Armonicidad, Distancia de Mahalanobis entre coeficientes MFCC de tramas consecutivas y un LPC residual de orden 10. 7. Del estudio de las características del punto anterior, los cinco estadísticos

sobre las mismas que mejor funcionaron fueron los siguientes:

a. El porcentaje de tramas con el máximo valor de auto-correlación mayor de 0.9 en un pulso de voz de N tramas.

b. La mínima distancia de Mahalanobis sobre coeficientes MFCCs de tramas consecutivas en un pulso de voz de N tramas.

c. El porcentaje de tramas con una kurtosis del residuo mayor que 5 en un pulso de voz de N tramas.

d. El porcentaje de tramas con una auto-correlación máxima del residuo mayor que 0.425 en un pulso de voz de N tramas.

e. La varianza del máximo de auto-correlación del residuo en un pulso de N tramas.

8. Con el fin de rechazar los pulsos de voz procedentes de locutores de habla lejana, la información sobre las medidas anteriores se introduce en el módulo

de detección de pulsos del VAD Base Mejorado (decisión a nivel de pulso) de tres formas distintas:

a. En forma de restricciones impuestas por la comparación con umbrales, de los cinco estadísticos, previamente ajustados.

b. Mediante un Árbol de Decisión de tipo estocástico cuya entrada es un vector formado por los cinco estadísticos.

c. Mediante una Red Neuronal multicapa (3 capas) o Perceptrón multicapa cuya entrada también es el vector formado por los mencionados cinco estadísticos.

9. Los tres métodos propuestos logran mejoras significativas respecto del ya sofisticado VAD Base Mejorado. Los mejores resultados los obtiene el VAD basado en la red neuronal, seguido por el que usa el árbol de decisión y finalmente por el VAD que utiliza umbrales, aunque con diferencias poco significativas.

10. Aunque el VAD que usa umbrales de decisión es el método que consigue mejoras más pequeñas de los tres, es importante destacar tanto su fácil y cómoda integración en cualquier sistema de detección como el bajo consumo de tiempo de ejecución que genera.

Related documents