Asymmetric Multivariate Volatility Models

Chapter 3 Multivariate Volatility Models

3.4 Asymmetric Multivariate Volatility Models

87 incluyen las etapas de adquisición de señales y el procesamiento de las mismas, la implementación de las técnicas de extracción de características, y por último el entrenamiento, evaluación y embebido de la red.

Figura 61. Diagrama de la metodología propuesta.

Siguiendo la metodología expuesta en la Figura 61, los MFFCs calculados anteriormente se utilizaron como material de entrenamiento y validación de una red neuronal. De acuerdo a los datos presentados en la Figura 62, se escogió el valor de 32 neuronas para realizar la implementación en el sistema embebido, lo anterior obedece a que el comportamiento de la red no mejoró significativamente para valores de neuronas superiores al escogido. En la Figura 62, se muestra el comportamiento del error de entrenamiento al aumentar la cantidad de neuronas en la capa oculta.

88 De acuerdo a los datos presentados en la Figura 62, se escogió el valor de 32 neuronas para realizar la implementación en el sistema embebido, lo anterior obedece a que el comportamiento de la red no mejoró significativamente para valores de neuronas superiores al escogido. En la Figura 63, se puede observar el proceso de entrenamiento de la red neuronal, el cual necesitó 237 épocas para alcanzar un valor lo suficientemente bajo para detener el aprendizaje. El código desarrollado para la validación en el sistema embebido se presenta en el anexo 2.

Figura 63. Comportamiento de la red neuronal durante el entrenamiento. La Tabla 7 resume el proceso de clasificación aplicado a la identificación de patrones de habla sub-vocal.

Tabla 7. Resumen de la red neuronal aplicada en cada método de extracción de

características.

Método de Extracción

Datos de la red neuronal No. de datos del

vector de entrada No. de neuronas capa oculta Iteraciones o épocas Wavelet Entropía 12 37 85 Promedio 12 47 213 Desviación Estándar 12 48 188 Codificación Predictiva Lineal 128 35 70

Coeficientes Cepstrales de las

5. ANÁLISIS DE RESULTADOS Y APORTES

El apartado de resultados, se encuentra enfocado a los valores obtenidos del algoritmo de clasificación y reconocimiento de patrones. Primero se realizó la evaluación de los algoritmos entrenados con la transformada Wavelet, y los tres parámetros estadísticos hallados, Entropía, Promedio y Desviación Estándar. En la Tabla 8 se condensan los resultados de evaluar los datos adquiridos para las etapas de extracción de características.

Tabla 8. Porcentaje de patrones identificados erróneamente.

Observación _/ta/ _/te/ Fonema vocálico _/ti/ _/to/ _/tu/

# Muestras mal clasificadas 68 53 63 93 85

Porcentaje 11,333% 8,833% 10,500% 15,500% 14,167%

Los valores porcentuales para las todas las tablas presentes se encuentran sobre una base de 600 muestras. La tasa promedio de reconocimiento fallido para la red entrenada con los datos relacionados al cálculo de las entropías para los coeficientes de aproximación y detalle, fue de 12.067%. Esto indica que, para las 600 muestras de prueba, el algoritmo no fue capaz de reconocer adecuadamente alrededor de 72 muestras. De igual manera, el algoritmo fue validado con nuevas muestras en condiciones diferentes a las presentadas en el momento de la adquisición, los resultados de estas nuevas 5 muestras para cada fonema se encuentran en la Tabla 9

Tabla 9. Respuesta de la red neuronal entrenada con los datos de entropía.

# Muestra _/ta/ _/te/ Fonema _/ti/ _/to/ _/tu/ Clase o Grupo

0,7517 1,81E-09 2,58E-17 1,36E-10 0,0002 /ta/

6,40E-06 0,9967 1,49E-07 0,3087 0,0266 /te/

2,05E-10 2,77E-11 0,9962 3,49E-06 0,1311 /ti/

0,2483 9,02E-06 1,96E-08 0,6798 0,0260 /to/

2,06E-06 3,56E-11 0,0038 0,0115 0,8161 /tu/

0,9966 5,90E-06 3,12E-18 1,72E-06 0,0003 /ta/

2,24E-10 0,9985 0,0040 2,03E-06 0,0349 /te/

1,37E-19 8,29E-08 0,9960 0,0028 0,0002 /ti/

0,0034 2,98E-06 1,68E-15 0,8023 0,4324 /to/

5,32E-10 3,17E-07 5,56E-10 0,1949 0,5322 /tu/

0,9998 6,01E-05 1,29E-09 0,0433 0,0015 /ta/

2,82E-09 0,7951 3,52E-05 0,0136 1,17E-05 /te/

2,59E-19 4,42E-07 0,9905 1,90E-06 3,66E-07 /ti/

0,0002 0,1466 0,0005 0,7775 0,9805 /to/

2,97E-11 0,0583 0,0090 0,1656 0,0180 /tu/

0,4473 0,0445 1,81E-10 0,0006 6,83E-07 /ta/

2,51E-07 0,8546 0,0008 0,7234 5,15E-08 /te/

90 # Muestra _/ta/ _/te/ Fonema _/ti/ _/to/ _/tu/ Clase o Grupo

0,5490 0,0403 1,58E-08 0,0515 0,4081 /to/

0,0037 0,0293 1,88E-06 0,2227 0,5918 /tu/

0,8989 1,56E-07 2,63E-17 0,4708 0,0002 /ta/

0,0173 0,9900 0,1624 0,0003 0,0021 /te/

2,04E-07 0,0012 0,8376 1,14E-06 3,17E-05 /ti/

0,0817 0,0003 2,20E-10 0,4218 0,2145 /to/

0,0021 0,0085 1,01E-06 0,1072 0,7832 /tu/

Los resultados mostrados, revelan la confusión existente en el reconocimiento de los fonemas /ta/ y /to/, que obedece en gran medida a la cercanía de las frecuencias, y que ambos fonemas están acompañados de una vocal cuya pronunciación es abierta. El siguiente parámetro estadístico, es el promedio aritmético de los coeficientes por cada nivel. Los resultados de la evaluación de las 600 muestras se muestran en la Tabla 10, donde el porcentaje de muestras calcificadas incorrectamente aumento hasta un 20.433 %, evidenciando que este parámetro estadístico no es un valor adecuado para realizar el reconocimiento. La mayoría de muestras mal clasificadas fueron para el fonema /to/.

Tabla 10. Porcentaje de patrones identificados erróneamente.

Observación Fonema vocálico

/ta/ /te/ /ti/ /to/ /tu/ # Muestras Mal clasificadas 75 155 83 195 105

Porcentaje 12,500% 25,833% 13,833% 32,500% 17,500% La mala clasificación de las muestras provenientes de la pronunciación del fonema /to/, tuvo un impacto negativo en el reconocimiento de las nuevas muestras, como se ve en la Tabla 11.

Tabla 11. Respuesta de la red neuronal entrenada con los datos de la media aritmética.

# Muestra

Fonema vocálico Clase o Grupo /ta/ /te/ /ti/ /to/ /tu/

0,9544 0,9997 5,65E-50 1,84E-14 4,87E-39 /ta/

3,3273E-23 3,E-15 8,09E-13 6,98E-18 5,45E-22 /te/

1,5927E-37 1,41E-26 0,9991 0,0335 0,0103 /ti/

4,5567E-06 2,15E-32 5,45E-36 9,11E-12 4,42E-29 /to/

2,2188E-16 3,56E-30 0,0009 0,9665 0,9833 /tu/

0,9928 7,81E-17 1,26E-22 4,02E-07 4,70E-25 /ta/ 1,54E-17 0,9920 1,66E-08 5,56E-13 5,57E-23 /te/ 1,41E-27 6,74E-07 0,9978 3,54E-22 2,98E-12 /ti/

5,77E-07 5,63E-08 5,20E-13 0,9598 5,66E-17 /to/

2,81E-16 0,0080 0,0002 2,67E-17 0,99702 /tu/

2,81E-14 2,30E-19 3,35E-49 8,69E-08 0,0122 /ta/

0,2345 0,9875 9,28E-12 5,03E-13 4,96E-15 /te/

91 #

Muestra /ta/ /te/ Fonema vocálico /ti/ /to/ /tu/ Clase o Grupo

0,7648 1,51E-08 4,42E-29 0,9906 0,9999 /to/

3,55E-11 0,0119 0,0727 3,71E-10 8,61E-16 /tu/

0,9890 0,9997 9,46E-27 1,04E-18 4,44E-13 /ta/

1,46E-27 3,35E-15 0,9949 0,7794 4,23E-24 /te/

1,25E-36 1,41E-26 0,0003 1,00E-12 6,35E-21 /ti/ 1,10E-06 2,15E-32 1,49E-16 0,0016 0,29073396 /to/ 9,43E-16 3,56E-30 1,17E-08 0,2190 0,70926604 /tu/

0,9025 3,70E-07 4,88E-29 1,72E-24 1,27E-02 /ta/ 1,93E-24 0,99469 1,05E-07 5,19E-15 1,08E-18 /te/

1,17E-20 4,12E-06 0,99584 1,01E-04 0,9080 /ti/

9,75E-07 1,28E-10 3,04E-17 5,42E-07 3,87E-07 /to/

4,15E-12 1,93E-11 6,43E-07 0,9995 0,0793 /tu/

Aunque la columna que contiene los resultados para el fonema /to/, presento 3 resultados incorrectos de 5, el desempeño en general de la red neuronal entrenada con éstos patrones no fue satisfactorio, comparado con los datos de la Tabla 9. De manera similar a los resultados anteriores, los patrones obtenidos con la desviación estándar de los coeficientes mostraron un desempeño deficiente, en este caso las muestras mal clasificadas tuvieron un promedio de 21.833%, y de nuevo, los patrones del fonema /to/ fueron los que más error presentaron, aumentando de 195 a 215 muestras mal clasificadas, como se aprecia en la Tabla 12.

Tabla 12. Porcentaje de patrones identificados erróneamente.

Observación _/ta/ _/te/ Fonema vocálico _/ti/ _/to/ _/tu/ # Muestras Mal clasificadas 84 162 81 215 113

Porcentaje 14,000% 27,000% 13,500% 35,833% 18,833%

Para este caso, el desempeño fue peor para las nuevas muestras. Todos los fonemas fallaron en al menos una muestra, con un margen de error más elevado, comparando la Tabla 13 con la Tabla 11, no solo hubo mayor cantidad de muestras identificadas erróneamente, los errores para cada intento de clasificación fueron mayores, como lo es el caso de la tercera muestra del fonema /ta/, y en su mayoría para el fonema /to/.

Tabla 13. Respuesta de la red neuronal entrenada con los datos de desviación estándar.

# Muestra

Fonema vocálico Clase o Grupo /ta/ /te/ /ti/ /to/ /tu/

0,9954 0,9887 6,E-53 2,25E-33 0,0127 /ta/

3,33E-23 0,0113 7,87E-16 4,75E-16 1,08E-18 /te/

92 #

Muestra /ta/ /te/ Fonema vocálico /ti/ /to/ /tu/ Clase o Grupo

5,E-06 9,83E-10 1,09E-41 1,08E-05 3,87E-07 /to/

2,22E-16 6,69E-13 0,0392 0,9594 0,07934517 /tu/

0,9903 2,28E-21 5,65E-50 1,84E-14 4,12E-18 /ta/

1,93E-24 0,9962 8,E-13 6,98E-18 1,93E-16 /te/

1,17E-20 5,63E-07 0,9991 0,0335 1,12E-06 /ti/

8,72,E-07 8,23E-10 5,45E-36 9,11E-12 6,45E-11 /to/

4,15E-12 3,82E-10 0,0009 0,9268 1,0000 /tu/

3,E-14 1,88E-12 8,74E-10 1,72E-24 4,87E-39 /ta/

1,50E-19 1,58E-05 2,71E-25 5,19E-15 5,45E-22 /te/

9,51E-28 0,9682 0,9921 0,0101 0,0103 /ti/

1,0000 3,94E-18 1,31E-34 5,00E-07 4,42E-29 /to/

3,55E-11 6,11E-08 3,52E-12 0,9182 0,9897 /tu/

0,9666 2,66E-31 1,89E-33 8,69E-08 0,0022 /ta/

1,55E-25 0,9977 0,9711 5,03E-13 4,96E-15 /te/

1,54E-36 1,71E-14 3,33E-07 7,06E-09 3,34E-15 /ti/

3,E-11 9,40E-11 4,12E-11 0,9957 0,9999 /to/

7,E-17 5,25E-12 0,0289 3,71E-10 8,61E-16 /tu/

0,9928 2,00E-46 3,35E-49 1,04E-18 3,21E-21 /ta/

3,E-38 1,69E-07 9,28E-12 0,7794 6,27E-41 /te/

8,53E-33 0,9307 0,9273 1,00E-12 4,70E-14 /ti/

9,E-21 3,64E-26 4,42E-29 0,0016 0,99951 /to/

7,E-13 1,30E-10 0,07269887 0,2190 2,27E-15 /tu/

Con la tabla anterior, se termina la evaluación de parámetros estadísticos para la descomposición por paquetes Wavelet. Las siguientes tablas contienen los datos de entrenar redes neuronales con los otros métodos de extracción de características mencionados. En la Tabla 14 están los resultados de evaluar las 600 muestras, utilizando la red que fue entrenada con los patrones obtenidos al implementa la codificación predictiva lineal. Para este caso, el porcentaje de muestras mal clasificadas fue de 10.833%, el cual resulta ser inferior a los resultados obtenidos con los métodos previos.

Tabla 14. Porcentaje de patrones identificados erróneamente.

Observación _/ta/ _/te/ Fonema vocálico _/ti/ _/to/ _/tu/ # Muestras Mal clasificadas 49 48 52 93 83

Porcentaje 8,167% 8,000% 8,667% 15,500% 13,833%

Aunque el desempeño general fue mejor, no significa que todas las nuevas muestras serán reconocidas adecuadamente, como se demuestra con los datos consignados en la Tabla 15. El hecho de obtener una mejor clasificación general, con respecto a los métodos anteriores, no es garantía del correcto reconocimiento para las nuevas

93 muestras. Por ejemplo, dos de las nuevas muestras para los fonemas /ti/, /to/ y /tu/, arrojaron identificaciones erróneas al evaluar el algoritmo de clasificación.

Tabla 15. Respuesta de la red neuronal entrenada con los datos LPC

# Muestra

Fonema vocálico Clase o Grupo /ta/ /te/ /ti/ /to/ /tu/

0,98674636 4,634E-05 1,0398E-14 1,36E-07 1,39E-12 /ta/ 1,43E-10 0,9890 2,2915E-06 1,22E-11 3,27E-07 /te/ 2,38E-16 6,337E-09 0,9977 0,6421 1,10E-06 /ti/ 1,44E-09 6,761E-11 2,3699E-09 0,3575 2,02E-07 /to/ 1,31E-07 1,506E-05 1,0317E-09 0,0004 0,9688 /tu/

0,99803728 0,0073 8,1087E-11 1,37E-06 2,35E-08 /ta/ 3,77E-10 8,886E-07 0,0181 7,44E-13 2,65E-11 /te/

2,39E-07 0,9992 0,9819 4,88E-10 2,22E-06 /ti/

0,0020 0,0010 1,0909E-07 1,0000 3,37E-08 /to/

1,33E-07 1,527E-09 6,2471E-10 1,29E-06 0,9968 /tu/

0,08754429 3,047E-08 4,4036E-09 0,1013 0,9609 /ta/ 0,25267195 0,9995 0,9948 3,76E-09 2,30E-08 /te/ 1,14E-06 3,252E-06 0,0010 2,91E-07 1,36E-06 /ti/ 0,65978262 1,150E-07 0,0043 0,7645 4,51E-06 /to/ 3,89E-10 0,0005 6,0547E-07 0,1342 2,03E-05 /tu/

0,995948 0,0006 1,1161E-12 0,0013 6,12E-07 /ta/

7,88E-10 0,9994 0,0022 1,63E-07 1,09E-13 /te/

2,76E-15 8,895E-15 0,0511 0,0043 7,92E-05 /ti/ 1,04E-08 2,092E-11 0,9487 0,9944 1,01E-07 /to/ 1,51E-10 1,010E-12 0,0066 1,86E-08 0,9386 /tu/

0,995651 3,538E-10 2,3021E-10 1,11E-10 1,21E-11 /ta/ 1,45E-11 0,9987 1,3055E-09 5,46E-10 2,31E-13 /te/ 1,40E-15 2,031E-11 0,9933 0,9994 2,19E-07 /ti/

3,64E-09 1,773E-09 0,0007 0,0006 0,7891 /to/

1,39E-09 6,891E-07 0,0059 4,84E-07 0,2109 /tu/ La última metodología para extracción de características evaluada fueron los coeficientes cepstrales de las frecuencias de Mel. Éste último método presento los mejores resultados, tanto en la clasificación de las 600 muestras para la validación del entrenamiento del algoritmo de clasificación, como para nuevas muestras capturadas en condiciones diferentes. En la Tabla 16 se resumen los datos para la clasificación de los datos de validación, alcanzado un error promedio igual a 9.96%.

Tabla 16. Porcentaje de patrones identificados erróneamente.

Observación _/ta/ _/te/ Fonema vocálico _/ti/ _/to/ _/tu/ # Muestras mal clasificadas 41 46 55 82 75

94 En este caso, no solo disminuyó el error general, sino que el algoritmo mostro mejores resultados ante nuevas muestras como se ve en la Tabla 17. A diferencia de los métodos anteriores, las muestras de lo fonemas /ta/ y /ti/ fueron identificadas correctamente en su totalidad, los demás fonemas solo presentaron errores en una de las muestras, y con valores de error en la identificación bajos si se comparan con los datos mostrados previamente

Tabla 17. Respuesta de la red neuronal entrenada con los datos MFCCs

Muestra /ta/ /te/ Fonema vocálico /ti/ /to/ /tu/ Clase o Grupo

0,7721 4,28E-10 8,84E-15 5,37E-07 1,46E-11 /ta/ 0,2356 0,93118 4,83E-07 7,46E-10 4,64E-12 /te/ 7,8967E-15 3,98E-07 0,9909 9,06E-10 2,53E-07 /ti/ 1,2258E-06 1,79E-07 2,54E-07 0,9428 3,39E-07 /to/ 1,7455E-09 1,02E-12 1,88E-07 3,33E-08 0,9079 /tu/

0,8947 1,56E-10 2,46E-15 2,27E-06 1,28E-06 /ta/ 0,1254 0,58160 1,03E-06 4,33E-06 6,05E-12 /te/ 4,20E-14 4,29E-01 0,9758 4,44E-11 2,71E-07 /ti/ 1,76E-06 9,55E-08 1,51E-08 0,9997 7,83E-11 /to/ 9,84E-09 2,23E-09 9,55E-07 3,85E-10 0,9534 /tu/

0,9907 1,39E-10 0,3354 2,08E-06 1,63E-11 /ta/ 5,12E-08 0,99762 8,97E-07 1,33E-07 2,07E-12 /te/ 2,00E-14 2,82E-07 0,7755 5,48E-13 4,54E-07 /ti/ 1,32E-06 3,78E-08 7,82E-09 0,9976 1,40E-06 /to/ 2,20E-09 2,23E-09 1,80E-07 1,68E-07 0,9936 /tu/

0,9955 1,19E-12 6,27E-14 2,27E-06 5,68E-12 /ta/ 1,86E-08 0,99902 1,85E-06 4,33E-06 1,22E-12 /te/

7,89E-15 2,61E-06 0,9974 0,5432 3,20E-07 /ti/

1,19E-06 8,92E-07 2,36E-06 0,4671 1,63E-07 /to/ 1,69E-09 3,05E-11 1,45E-08 3,85E-10 0,9971 /tu/

0,5291 1,78E-06 2,34E-10 9,04E-07 6,61E-12 /ta/ 0,4801 0,99954 1,02E-06 1,66E-07 1,60E-12 /te/

8,77E-15 1,70E-06 0,9905 1,50E-12 0,7236 /ti/

1,15E-06 1,96E-09 4,05E-11 0,9106 1,42E-07 /to/ 2,59E-09 1,50E-13 7,94E-09 2,20E-07 0,2865 /tu/

El comportamiento del algoritmo de reconocimiento, con lo patrones obtenidos al utilizar MFCC fue el factor determinante al momento de seleccionar la metodología a implementar en el sistema embebido para su operación en tiempo real.

Los principales resultados reflejados en producción científica publicada, se condensan en la Tabla 18

Tabla 18. Producción científica derivada del proyecto.

Nombre Revista/Evento/ _Institución Clasificación _Scimago Clasificación _Publindex

Imagined speech of Spanish vowels through spectral analysis and support vector machine. El

anexo 3, muestra la primera hoja del artículo JIHMSP Q1 A1 Embedded MFCC feature extraction system for

speech processing. El anexo 4, muestra la primera

hoja del artículo IRECOS Q2 A2 Analysis of the MFCC coefficients for voiced and

silent speech. . El anexo 5, muestra la primera

hoja del artículo IRECAP Q2 A2 Embedded Wavelet Analysis of Non-Audible

Signal. . El anexo 6, muestra la primera hoja del

artículo TECNURA --- A2

En la Figura 64 se presenta la proporción de artículos publicados en revistas indexadas en la base científica SCIMAGO.

Figura 64. Trabajos con clasificación SCIMAGO.

En la Figura 65 se relacionan los trabajos indexados en la base de datos nacional PUBLINDEX.

Figura 65. Trabajos indexados en Publindex.

1; 25%

2;

50%

1; 25%

SCIMAGO

Q1

Q2

NA

2; 50%

PUBLINDEX

A1

A2

In document Whittle estimation of multivariate exponential volatility models (Page 56-61)