Es importante establecer una serie de pautas a la hora de evaluar cualquier Detector de Actividad. Por ello, en esta sección se recogen los principales métodos y métricas para evaluar los VADs de referencia y usarlos en este trabajo de Tesis:
• Las bases de datos consideradas. Antes de desglosar este punto es conveniente presentar algunos trabajos y bases de datos de referencia. Por ejemplo, en [66] se realizan pruebas en distintos entornos de ruido: autobuses, calle o restaurantes. Además se utiliza la base de datos NOISEX- 92 [59,85] que posee entornos con ruido de coche y voces de fondo. El ruido se añade digitalmente a voces limpias terminando con SNRs de 20, 10 y 0 dB. También se usa esta base de datos en [59] y [85]. Otras bases de datos de referencia son AURORA-2 y AURORA-3 [36,14]. Como se indicó anteriormente en este trabajo utilizaremos bases de datos de entrenamiento, desarrollo y test:
1. Base de datos de entrenamiento etiquetada, en aquellos casos en los que se tenga que entrenar HMMs, GMMs, una red neuronal, un árbol de
decisión etc., con una gran diversidad de muestras de voces y ruidos: voces de hombres, mujeres, de distintas edades, o ruidos de tipo estacionario o no estacionario.
2. Base de datos de desarrollo etiquetada, que contendrá el número de ejemplos necesario para poder realizar los estudios pertinentes. En este trabajo de Tesis estos estudios se basan en el análisis de un conjunto de características que pretenden discriminar entre la voz de fondo y la voz del locutor principal.
3. Base de datos test etiquetada [11], con distintas SNR y con ruidos de diversos tipos (de alto nivel de energía, de bajo nivel de energía, de fondo donde también se incluyen las voces de fondo, etc.). Es la que da las prestaciones finales del sistema de detección.
• Las distintas métricas a través de las que se representa matemáticamente la sensibilidad de cualquier VAD son las siguientes:
1. Elaboración de dos histogramas de la diferencia entre marcas reales e ideales, uno que nos represente la bondad del Detector en el inicio de pulso y otro que lo haga en el fin de pulso de la voz. La forma de operar sería la de comparar los siguientes datos:
• Marcas de la lista de ficheros de audio “prueba” etiquetados manualmente (inicio y fin de voz), que de alguna forma sería el resultado óptimo para el Detector.
• Marcas reales que nos da en tiempo real nuestro VAD.
2. Si el Detector se usa en aplicaciones de reconocimiento, otra forma de evaluarlo sería ver la tasa de aciertos del reconocedor, ya que normalmente, un reconocimiento con una alta tasa de aciertos va asociado a una precisión en los extremos del Detector. Se puede por tanto hallar la tasa de error de palabra (WER ≡ Word Error Rate) [20] en función de la detección utilizada. En este caso es necesario que el reconocedor de voz que evalúe sea lo suficientemente robusto y fiable como para que el peso del efecto de degradación de los resultados recaiga en gran medida sobre el Detector.
3. Por último, el método de evaluación más preciso de todos, independiente de la aplicación, es el que calcula los resultados a nivel de trama. Se presentó en [11] como modelo válido y preciso para la evaluación de cualquier VAD independientemente del tipo de aplicación. En este caso también hay que realizar un etiquetado manual y posteriormente un procesado de marcas que sea capaz de catalogar trama a trama de qué tipo es: si es de voz con un “1” y si es de ruido o silencio “0”. Este procesado de marcas se repite con las etiquetas que obtenga el Detector. Los criterios para calcular los errores fueron los siguientes:
• Pc_on ≡ Porcentaje de tramas de voz clasificadas como de ruido al principio de la pronunciación.
• Pc_off ≡ Lo mismo que las anteriores pero al final de la pronunciación.
• TrueVAF ≡ Número de tramas de voz frente al total.
• VadVAF ≡ Número de tramas de voz dadas por el VAD frente al total.
• Error Type I ≡ Porcentaje de tramas que son realmente voz y las clasifica como ruido, así que:
off Pc on Pc Error I Type = _ + _ (3.1)
• Error Type II ≡ Porcentaje de tramas que son realmente ruido y las clasifica como voz.
• Comparación de los resultados obtenidos con el VAD a evaluar con los obtenidos con otros VADs de referencia manteniendo las mismas métricas y bases de datos test. En el caso de este trabajo los detectores de referencia son los siguientes: G.729 anexo B [3], AMR [106] y AURORA (FD) [77]. Por ejemplo, algunos investigadores [67,42,68] comparan los resultados con los del VAD del codificador G.729. En [93] se comparan con los del Detector del G.729 y con el Detector del codificador AMR.
Como ejemplo, en [14] se realizan pruebas experimentales con bases de datos españolas de ruidos de coche y con la base de datos de AURORA-2, con una frecuencia de muestreo de 8 KHz y tramas de 10 milisegundos. La continuación de este trabajo es [1] donde los mismos autores de [14] realizan un análisis comparativo más completo. Se usan como técnicas para su evaluación:
• Análisis de aciertos a nivel de trama.
• Tasa de acierto del reconocedor de voz.
Se llaman valores de referencia al número de tramas que se sabe de qué tipo son, ruido o voz, procedentes de un etiquetado manual. En cuanto a las pruebas de reconocimiento, se puede decir que se realizaron para diferentes SNR, en distintos idiomas y para distintas premisas de entrenamiento. En este caso, el VAD se usa en el sistema de reconocimiento tanto para la estimación de ruido, en combinación con el filtrado de Wiener, como para el eliminado de tramas (frame dropping). Las premisas de entrenamiento fueron dos:
• Entrenamiento con voz limpia. Se caracteriza por tener una elevada SNR.
• Entrenamiento multicondición. Se caracteriza por la presencia de distintos ruidos.
En [35] la base de datos de entrenamiento está formada por 286 locutores con un total de 15.3 horas de grabación. La base de datos de test consiste en diálogos con duración de 21 minutos con la mitad de locutores hombres y la mitad mujeres. De todas las grabaciones, el 50% fueron realizadas con teléfonos móviles. Además se han tenido en cuenta los siguientes tipos de ruidos: clicks, respiraciones, ruido de coche, de TV y radio, niño llorando, gritando y titubeando. Además se tuvieron SNRs que variaban desde 5 hasta 40 dB con una SNR media de 20 dB. Se considera la tasa de falsas alarmas Pf, tasa de no detección en presencia de voz Pm
y el error total Pe definidos como Pf = Nn→s/N, Pm =Ns→n /N, y Pe = Pf +Pm
donde Nn→s y Ns→n son el número de tramas de ruido y de voz detectadas como
falsas y N el número total de tramas test. El ruido se añade digitalmente a voces limpias terminando con SNR de 20, 10 y 0 dB.
Para verificar el funcionamiento del VAD en [43] se utilizan dos tipos de dato. En el primero se usa una grabación de la pronunciación "Hello" que dura
aproximadamente 1.5 segundos para demostrar las mejoras del algoritmo con voz limpia y ruidosa. Las tramas iniciales que son de silencio incluyen impulsos artificiales y ruido de un despertador. Estos artefactos son causa del mal funcionamiento de otros algoritmos. Además, la grabación también posee ruido de respiración que es perfectamente excluido del modelo de voz. En el segundo ejemplo, el caso ruidoso se muestra para la misma pronunciación, "Hello", pero con amplias zonas de ruido blanco a lo largo de toda la grabación con una SNR de 0 dB. La decisión de entrada de nuevo obtiene una relativa precisión en los extremos. En casos de la utilización de energía y tasa de cruces por cero seguro que fallaría. En este caso las pruebas son demasiado específicas y por ello, convendría el estudio de esta técnica con una base de datos más amplia.