A continuación, enfocaremos en el desarrollo de métodos que posibilite la clasificación atinada de un paciente en un grupo determinado. Ya que hemos analizado los archivos de señales de voz y extraídos los rasgos deseados de la base de datos, y aún más comprobado cuáles de dichos rasgos son válidos para una discriminación entre ambos grupos de pacientes.
Primeramente empleamos el clasificador LDA, y luego para validar los resultados obtenidos por el clasificador se empleó la técnica de validación cruzada dejando uno fuera, lo cual implica separar los datos de forma que para cada iteración tengamos una sola muestra para los datos de prueba y todo el resto conformando los datos de entrenamiento [38].
La validación cruzada, es una técnica utilizada para evaluar los resultados de un análisis estadístico y garantizar que son independientes de la partición entre datos de entrenamiento y prueba. Consiste en repetir y calcular la media aritmética obtenida de las medidas de evaluación sobre diferentes particiones. Se utiliza en entornos donde el objetivo principal es la predicción y se quiere estimar cómo de preciso es un modelo que se llevará a cabo a la práctica. Es una técnica muy utilizada en proyectos de inteligencia artificial para validar modelos generados.
Fig. 3.1 Validación cruzada dejando uno fuera
En la validación cruzada dejando uno fuera se realizan tantas iteraciones como muestras (N) tenga el conjunto de datos. De forma que para cada una de las N iteraciones se realiza un cálculo de error. El resultado final lo obtenemos realizando la media aritmética de los N
valores de errores obtenidos, según la fórmula: Donde se realiza el sumatorio de los N
valores de error y se divide entre el valor de N.
3.4.1 Clasificador LDA
Esta técnica de clasificación se realiza mediante un análisis lineal discriminante que toma decisiones a partir de la combinación lineal de sus características, mediante una función discriminante de tipo lineal.
El clasificador LDA empleado en nuestro estudio se ha diseñado mediante la función predefinida classify de Matlab [39]. Gracias a esta función, introducimos los parámetros que definirán la clasificación de un archivo de voz en el grupo de Demencia o en el grupo de Control a partir de los valores de dichos parámetros del propio audio.
El proceso de clasificación mediante el LDA de realiza de dos maneras distintas: utilizando como características únicamente los parámetros obtenidos como significativos (número de pausas y velocidad de articulación), y utilizando todos los rasgos.
Clasificador LDA con rasgos significativos
Se diseñó el clasificador haciendo uso de dos rasgos prosódicos extraídos en nuestro estudio que dieron resultados significativos en los métodos estadísticos empleados. La razón de este proceder es la comprobación de una posible mejoría en la clasificación al tener en cuenta un mayor número de rasgos diferentes. Los rasgos empleados para el diseño son, entonces, los siguientes:
1. Número de pausas
2. Velocidad de articulación
En esta ocasión, el LDA dispondrá de menos datos para realizar la clasificación que en el caso de emplear todos los rasgos, pero al tratarse de los rasgos significativos deberían ser suficientes para la realización de un clasificador válido. Realizando a continuación el método de validación cruzada, se obtienen los resultados para la probabilidad de clasificación correcta que se muestran en la Tabla 3.10.
Tabla 3.10 Resultados del clasificador LDA para rasgos significativos.
Grupos Correctos Erróneos
Taza de Clasificación Correcta (%) Control 8 3 72.72 Demencia 7 1 87.50 Total 15 4 78.94
Clasificador LDA con todos los rasgos
Similarmente a lo planteado anteriormente se realizarán los mismos pasos que en el apartado anterior (classify y validación cruzada), pero pasando al LDA todos los rasgos prosódicos extraídos en nuestro estudio. Se debe esperar una mejoría en la clasificación total al tener en cuenta un mayor número de rasgos. Los rasgos empleados para el diseño son los siguientes:
1. Duración de lectura 2. Número de pausas 3. Proporción de pausas 4. Tiempo de fonación 5. Proporción de fonación 6. Velocidad de locución 7. Velocidad de articulación
Todos estos parámetros son los extraídos para cada uno de los sujetos de la base de datos, es decir, no se emplean los valores medios de cada grupo. De este modo, para diseñar el clasificador LDA, se introducen los sietes rasgos por cada paciente: siete rasgos por cada uno de los ocho sujetos del grupo de Demencia y otros sietes rasgos por cada uno de los once sujetos del grupo de Control. A continuación, se introducen los valores de dichos parámetros de un sujeto en concreto. El clasificador LDA asignará al paciente a uno de los dos grupos en función del parecido de sus parámetros con los introducidos como entrenamiento. Los resultados son mostrados en la Tabla 3.11 a continuación.
Tabla 3.11 Resultados del clasificador LDA para todos los rasgos prosódicos.
Grupos Correctos Erróneos
Taza de Clasificación Correcta (%) Control 10 1 90.90 Demencia 7 1 87.50 Total 17 2 89.47
Se puede luego de comparar el desempeño del clasificador LDA para una entrada de dos rasgos (rasgos significativos) y para siete rasgos (todos los rasgos) comprobar entonces que la inclusión de los parámetros no significativos en el clasificador LDA mejora la efectividad del mismo, obteniéndose una probabilidad de error inferior debido a la mejora de la clasificación de los grupos de Demencia y Control. Debido a las dimensiones pequeñas de la data, solo ocho observaciones de Demencia y once de Control, una mejora mínima en el desempeño del clasificador, como lo sucedido al incluir todos los rasgos, repercute significativamente en el índice de clasificación correcta total. Finalmente se obtuve un elevado índice de clasificación correcta cercano al 90 % de acierto.