Question 14 - The identification and related application of kinetically efficient patterns in j

Hasta el momento, se ha realizado un fuerte estudio del VAD de partida para probar su robustez ante todo tipo de ruidos usando tecnología GSM, la más utilizada en la actualidad y la que por su uso es la más compleja de tratar (un teléfono móvil se puede encontrar en los ambientes más adversos: bares, calle, etc.). Para completar el estudio del VAD de partida desarrollado en el capítulo anterior se han realizado pruebas con otro tipo de redes telefónicas: telefonía fija y voz IP.

En telefonía fija, el entorno es generalmente menos ruidoso, y es esperable que los resultados sean mejores que en telefonía móvil. En cuanto a voz IP, una de

las cosas más importante a tener en cuenta son los clicks del teclado que un usuario puede generar mientras habla, también tratables por los HMMs y eliminables mediante el método de detección de pulsos por duración (los clicks de un teclado de ordenador suelen tener una duración reducida).

Desde la aparición de la telefonía fija hace muchos años, las comunicaciones por medio de la conmutación de circuitos ha evolucionado mucho (PSTN, Red Telefónica Pública Conmutada o en inglés Public Switched Telephone Network). Los problemas de nivel debido a la distancia y como consecuencia a la atenuación de la señal de voz entrante se han solucionado mediante la incorporación de amplificadores adecuados. Además, en telefonía fija, el entorno en el que se habla generalmente es menos ruidoso que el de los móviles. Los niveles de ruido serán bastante pequeños. Por tanto, es esperable que los resultados sean mejores que en telefonía móvil.

El Detector de Actividad usado en las pruebas realizadas es el VAD de partida, es decir, el VAD completo descrito en este capítulo (Fig.4.1). Para entrenar los modelos de voz y de ruido para voz fija se usó la base de datos TRAIN_FIJA, formada por alrededor de 130.000 ficheros de audio emitidos por una gran diversidad de locutores y capturados sobre una red de telefonía fija. Los resultados se obtuvieron usando la base de datos TEST_FIJA, con una SNR media de 23.8 dB y formada por 2930 ficheros de conversaciones reales, etiquetados y capturados, obviamente, sobre la red de telefonía fija. La tasa de falsas alarmas fue del 29.18%, mientras que la de falsos rechazos del 3.81%. Teniendo en cuenta los valores anteriores se obtiene el error de detección global, GDE, igual al 16.46% (Tabla 4.8).

Base de datos FAR MR GDE

TEST_FIJA 29.18% 3.81% 16.46%

Tabla 4.8. Resultados de detección para TEST_FIJA (Telefonía fija).

La voz sobre Protocolo de Internet, también llamado Voz IP, VozIP, VoIP (por sus siglas en inglés: Voice over Internet Protocol), es un grupo de recursos que hacen posible que la señal de voz viaje a través de Internet empleando un protocolo IP. Esto significa que se envía la señal de voz en forma digital, en paquetes, en

lugar de enviarla en forma analógica, a través de circuitos utilizables sólo para telefonía fija, como se ha comentado anteriormente.

La principal ventaja de este tipo de servicios es el ahorro de costes: se evita pagar precios elevados, principalmente en comunicaciones a larga distancia, usuales en la Red Pública Telefónica Conmutada (PSTN). Este ahorro parte del uso de una misma red para llevar voz y datos, especialmente cuando los usuarios tienen sin utilizar toda la capacidad de una red ya existente, la cual podría ser usada para VoIP sin un coste adicional. En contraposición, los problemas más importantes de la VoIP provienen de la pérdida de paquetes, que se puede traducir en pérdidas de tramas de voz.

El desarrollo de codecs para VoIP ha permitido que la voz se codifique en paquetes de datos de cada vez menor tamaño. Esto deriva en que las comunicaciones de voz sobre IP requieran anchos de banda muy reducidos. Los codificadores más utilizados son el G.729 y el G.723, y lo hacen en ley a. Junto con el avance permanente de las conexiones ADSL en el mercado residencial, este tipo de comunicaciones están siendo muy populares para llamadas internacionales (larga distancia), por ejemplo con el uso de Skype.

En cuanto a los experimentos realizados para probar esta tecnología en base al

VAD de partida, se puede decir que, fueron llevados a cabo gracias a las siguientes

bases de datos:

• TRAIN_IP: Se usa para entrenar los modelos de voz y de ruido para Voz IP. Procede de la emisión de locuciones a través de teléfonos IP con una posterior codificaficación/decodificación mediante el códec G.723.

• TEST_IP: Se usa para obtener tanto el error global de detección (GDE) como la tasa de falsas alarmas y la tasa de falsos rechazos. También procede de la emisión de locuciones a través de teléfonos IP con una posterior codificaficación/decodificación mediante el códec G.723.

Los resultados para voz IP sobre TEST_IP son los siguientes: se obtiene una tasa de falsas alarmas del 4.23%, una tasa de falsos rechazos del 32.05% y un error global de detección (GDE) final del 18.16% (Tabla 4.9). Por tanto, y teniendo en cuenta que la tasa de falsas alarmas es muy pequeña, resulta que prácticamente todos los clicks han sido eliminados por nuestro VAD de partida.

Base de datos FAR MR GDE

TEST_IP 4.23% 32.05% 18.16%

Tabla 4.9. Resultados de detección para TEST_IP (Voz IP).

Se concluye que el VAD expuesto también es capaz de trabajar de forma adecuada con otro tipo de tecnología, con el único requisito de usar los modelos correspondientes (HMMs) para cada una de las tecnologías tratadas: GSM, telefonía fija y voz IP. Con esto se pretende decir que por ejemplo, los modelos de fija tendrían peores prestaciones si se usan para voz IP o GSM, y es recomendable que cada tecnología use sus modelos específicos.

Por otro lado queda demostrado que la topología óptima a usar por el VAD de partida es la que contiene cuatro modelos de voz y tres modelos de ruido, ya que topologías más complejas no mejoraban los resultados y sí que incrementaban el tiempo de retardo del VAD.

4.8.- Conclusiones.

En este capítulo se han realizado estudios para la creación de un VAD basado en HMMs robusto ante situaciones críticas en las que el locutor principal se puede encontrar en entornos tanto de ruido estacionario como de ruido no estacionario. Estos estudios comprenden desde la elección de las características que forman el vector de los HMMs hasta la obtención final de una pronunciación en forma de pulso de voz, pasando por el análisis de las distintas topologías de los HMMs o de la ventaja que supone usar el “score” para la toma de decisión a nivel de trama en comparación con otras características como la energía, ya sea normalizada o sin normalizar.

Para finalizar, es importante comentar que el VAD expuesto en este capítulo será llamado a partir de aquí VAD Base Mejorado. Así constituirá el punto de partida para la búsqueda e integración de nuevas característica con el fin de poner solución a la problemática de los ruidos no estacionarios (voces de fondo). Con ello se intentará reducir la tasa de falsas alarmas y el GDE final. Aún así remarcar que, el

VAD expuesto en este capítulo supera con creces el comportamiento de otros

detectores de referencia en todos los casos y que se intentará en la medida de lo posible mejorar su comportamiento en entornos de ruido no estacionario.

CAPÍTULO 5

ESTUDIO DE

CARACTERÍSTICAS PARA EL

In document The identification and related application of kinetically efficient patterns in jazz guitar improvisation (Page 107-112)