Lower Bounds - Existing Methodologies - An Exact Bidirectional Approach to the Resource Constra

1.4 Existing Methodologies

1.4.1 Lower Bounds

Entrada: k_>k0 > 0,P :el conjunto de entrenamiento.

Salida: Los modelos locales entrenados.

(a) Seleccionar de los centros de los modelos locales por Algoritmo3: C=c1,c2,. . .,cm

(b) Computar la funcióncnt(.)para cada instancia enP por (75). (c) Entrenar los modelos locales:

Fori=1,. . .,mdo

• Buscar loskvecinos más cercanos deci.

• Calcular la métrica del modelo sobre los vecinos encontrados. (e) Retornar los modelos locales entrenados.

2.4 c o n c l u s i o n e s pa r c i a l e s d e l c a p í t u l o

En este capítulo se propusieron tres nuevos algoritmos de aprendizaje auto- mático. El primero,KISSNN, tiene como ancestro el método KISSME y hereda de él sus mejores propiedades, esto es, la estimación de la función de distancia por un método exacto que logra una buena eficacia en un tiempo breve. La novedad consiste en seleccionar las restricciones apareadas en la vecindad de cada instancia y en el uso de un estimador regularizado de las matrices de covarianza que garantiza su inversibilidad a la vez que su buen condicio- namiento. Este nuevo algoritmo permite mejorar la exactitud del clasificador

k-NNcuando el conjunto de aprendizaje es linealmente separable después de una transformación lineal (rotación y escalado).

Si los ejemplos de aprendizaje se distribuyen de forma multimodal, el algoritmo anterior no puede encontrar una función de distancia que satisfaga todas las restricciones. Por ello hemos propuesto un segundo algoritmo tKISSNN que sigue los lineamientos del aprendizaje local, es decir, construye un modelo para cada instancia de prueba utilizando las instancias de su vecindad. Esto permite aprender la distribución de los datos en la cercanía del objeto mientras se conservan las propiedades positivas del algoritmo que le sirve de base.

A pesar de sus ventajas aparentes, el costo computacional detKISSNNes gran- de y por ello, hemos propuesto un tercer algoritmo de aprendizaje, denomi- nado LDKISSNN, que reune en sí las mejores características de los enfoques anteriores. Este algoritmo es escalable para grandes volúmenes de datos ya que emplea una estructura de datos del tipo árbol de cubrimiento, que se integra de manera natural con el nuevo método mientras que disminuye considerablemente el tiempo de aprendizaje. La complejidad temporal del método es polinomialΘ(Nlog2N).

3

E X P E R I M E N T O S Y VA L I D A C I O N E S

People think that computer science is the art of geniuses but the actual reality is the opposite, just many people doing things that build on eachother, like a wall of mini stones.

—Donald E. Knuth[Knuth, 1974]

Contenido

3.1 Configuración de experimentos 62 3.2 Metodología de comparación 63 3.3 Resultados 65

3.3.1 Experimento en los algoritmos de una métrica global 65

3.3.2 Experimento en los algoritmos locales de múltiples métricas 70

3.4 Conclusiones parciales del capítulo 75

Con el objetivo de comparar la eficiencia y eficacia de los métodos de aprendizaje de distancia propuestos se diseñaron experimentos que incluyen la comparación de este con otros métodos. En particular se realizaron dos comparaciones; la primera de ellas confronta el método con el LMNN1

[Wein- berger y Saul, 2009], _ITML2 [Davis et al., 2007], Distance Metric Learning with application to clustering with side information (Xing)3

[Xing et al.,2002],

KISSME4 [Koestinger et al., 2012] —descritos anteriormente— y el método propuesto KISSNN. Luego se realiza una segunda comparación enfocada en los métodos locales. Se experimentaron los modelos propuestos de múltiples métricas LDKISSNN y tKISSNN con el mm-LMNN5 [Weinberger y Saul, 2009] y

DANN[Hastie y Tibshirani,1996].

1 _{http://www.cse.wustl.edu/~kilian/code/files/mLMNN2.3.zip} 2 _{http://www.cs.utexas.edu/~pjain/itml/download/itml-1.2.tar.gz} 3 http://www.cs.cmu.edu/%7Eepxing/papers/Old_papers/code_Metric_online.tar.gz 4 http://lrs.icg.tugraz.at/research/kissme/kissme_features_full.zip 5 _{http://www.cse.wustl.edu/~kilian/code/files/mLMNN2.3.zip} 61

Este capítulo se organiza en las siguientes secciones. Primeramente, se describen los datos que se utilizan para las comparaciones, así como los pará- metros de los algoritmos en la sección 3.1. Luego se introduce brevemente los métodos y las pruebas estadísticas de comparación múltiple en la sección 3.2, como lo recomendado por Demsar [2006]. Por último, se muestran los resultados y las discusiones de cada experimento en la sección3.3.

3.1 c o n f i g u r a c i ó n d e e x p e r i m e n t o s

Para este estudio se emplearon conjuntos de datos reconocidos internacio- nalmente, descritos en la Tabla 1. Estos27 conjuntos de datos provienen del depósito de datos para aprendizaje automatizado disponibles en el KEEL

(Knowledge Extraction based on Evolutionary Learning) [Alcalá-Fdez et al.,2009]. Los conjuntos de datos fueron seleccionados de diferentes complejidades, los cuales cubren una cardinalidad entre100y 20000instancias con la dimensio- nalidad menor que100. Todos los datos están normalizados en el rango[0,1]. Los datos más complicados sonletter, magic, ringytwonormporque ellos con- tienen un gran número de dimensión e instancias.

Para el primer experimento, la base de pruebas empleada para la compara- ción fue el Matlab. Asimismo, los métodosLMNN,ITML,KISSMEyXingutiliza- dos en los experimentos fueron implementados en Matlab. Los experimentos se llevan a cabo en una máquina de Intel (R) Core (TM) i5-3570CPU Proce- sador3.40GHz (4CPUs), con3768MB de RAM, sistema operativo Windows 8Pro de 64bits.

Para el segundo experimento, se compara comportamientos entre los modelos locales propuestos conmm-LMNNyDANN. Estos métodos también fueron implementados en Matlab.

El comportamiento del algoritmok-NN depende de la elección del número de vecinos más cercanos. Para enfocar nuestra atención en el comportamien- to de las diferentes funciones de distancia, el valor del número vecinos per- manecerá constante para todos los experimentos, es decir se seleccionan 5 vecinos. Los parámetros de los otros algoritmos quedan por defecto y V =5 paraKISSNN.

En el segundo experimento, para los algoritmostKISSNNyLDKISSNN, se selec- ciona el número de vecinos para entrenar los modelos localesk =50 y para formar los centros con k0 = 25 en los datos pequeños (número de instancia es menor que 1000); en otros casos se usan k = 200 y k0 = 100. Los otros parámetros se mantiene por defecto para los algoritmos DANN y mm-LMNN, según los criterios de los autores. Es decir, usa la cantidad de grupo igual a la cantidad de la clases enmm-LMNN, usa también 50vecinos para calcular la métrica local por instancia de prueba enDANN.

Durante los experimentos se divide un conjunto de datos en diez partes de ta- maño similar y con una balance similar entre clases, proceso conocido como estratificación. Luego, se conforman diez conjuntos de aprendizaje tomando en cada caso9de las particiones creadas. La décima partición se utiliza para conformar el conjunto de prueba. Cada prueba consiste en crear un conjun- to de entrenamiento usando el 90% de los datos disponibles, y valorar el rendimiento sobre el conjunto de prueba (el10% restante). El rendimiento se calcula en términos del por ciento de clasificaciones correctas en cada prueba. En las tablas se reporta el promedio de las diez pruebas con cada conjunto de datos. Todos los algoritmos empleados utilizan las mismas particiones de los datos para evitar cualquier influencia de la forma de particionar sobre algún algoritmo en particular.

3.2 m e t o d o l o g í a d e c o m pa r a c i ó n

En este capítulo se siguen las recomendaciones [Demsar, 2006] y las exten- siones presentadas en [Garcia et al., 2008] en relación con los cálculos de los valores críticos p. Se aplica primeramente un procedimiento estadístico de comparación múltiple para probar la hipótesis nula de que todos los algoritmos de aprendizaje obtuvieron los mismos resultados en promedio. Es- pecíficamente, se utilizó la prueba no paramétrica de Friedman [Friedman, 1940, 1937], equivalente a las medidas repetidas ANOVA [Fisher, 1956], con- siderando el tamaño de la muestra para comprobar la hipótesis nula de que todos los algoritmos de aprendizaje realizan equivalentemente en promedio. Cuando la prueba Friedman rechaza la hipótesis nula, se aplicaron pruebas

post-hoc. Entonces, el objetivo se vuelve a analizar si todos los métodos realizan de forma equivalente a la que fue mejor que todos. En primer lugar, se ha aplicado la prueba de Bonferroni-Dunn [Dunn, 1961], que define que un

método de aprendizaje se desempeña de manera significativamente diferente del mejor método en el ranking si el rango medio correspondiente difiere por lo menos una Distancia Crítica (CD), que se calcula como:

CD=qα×

nl(nl+1)

6n_ds (78)

dondenlynds es el número de algoritmo y el número de conjuntos de datos

respectivamente, yqα es el valor crítico basado en [Sheskin,2003].

Como complemento a la comparación múltiple se utilizó el procedimiento

step-down de Holm [Holm, 1979] porque la prueba Bonferroni-Dunn se dice que es menos potente. En esta tabla los algoritmos están ordenados con respecto al valor z obtenido. La prueba de Holm rechaza la hipótesis de igualdad con los otros método en el caso quep < α/i.

d ata s e t #at r i b u t o s #i n s ta n c i a s #c l a s s e s 1. appendicitis 7 106 2 2. balance 4 625 3 3. banana 2 5300 2 4. bupa 6 345 2 5. ionosphere 33 351 2 6. iris 4 150 3 7. led7digit 7 500 10 8. letter 16 20000 26 9. magic 10 19020 2 10. monk-2 6 432 2 11. movement_libras 90 360 15 12. optdigits 64 5620 10 13. page-blocks 10 5472 5 14. phoneme 5 5404 2 15. pima 8 768 2 16. ring 20 7400 2 17. satimage 36 6435 7 18. segment 19 2310 7 19. sonar 60 208 2 20. spambase 57 4597 2 21. texture 40 5500 11 22. twonorm 20 7400 2

23. vehicle 18 846 4

24. vowel 13 990 11

25. wdbc 30 569 2

26. wine 13 178 3

27. wisconsin 9 683 2

Tabla1: Descripción de los conjuntos de datos.

3.3 r e s u lta d o s

En esta sección, se presentan los resultados y discusiones de los resultados obtenidos después de realizar experimentos en los conjuntos de datos que se describen en la sección3.1. Específicamente, en primer lugar, se presentaron los resultados de la comparación entre los algoritmos que usan solamen- te una métrica global, luego la comparación entre los algoritmos locales de múltiples métricas.

3.3.1 Experimento en los algoritmos de una métrica global

3.3.1.1 Resultados y Análisis de la exactitud

La Tabla 2 presenta los resultados experimentales con todos los conjuntos de datos seleccionados. En este experimento la precisión es medida como el porcentaje de clasificación correcta, y se obtiene para cada conjunto de datos y cada función de la distancia considerada. En algunos datos KISSME no se obtuvo resultado (se marca como N/Aen la Tabla), esto debido al problema de invertir las matrices de covarianza. Mientras KISSNN y los otros métodos fueron ejecutado sin ningún problema.

d ata s e t i t m l k i s s m e x i n g l m n n k i s s n n 1. 86.00 86.41 85.00 88.82∗ 85.00 2. 91.84 89.50 89.75 84.64 96.16∗ 3. 89.34 72.54 89.28 89.34 89.38∗ 4. 62.05 63.77 64.28∗ 61.90 64.18 5. 87.17 85.51 85.17 89.75∗ 85.46

6. 94.67 96.60∗ 95.33 96.00 95.33 7. 69.80∗ 69.00 65.40 69.80∗ 67.40 8. 95.37 94.48 95.56 96.72 97.71∗ 9. 83.73 83.35 83.62 83.74 84.52∗ 10. 89.43 93.77 98.40∗ 97.04 96.54 11. 74.72 N/A 75.28 82.50∗ 82.22 12. 98.70 N/A 98.75 99.04∗ 98.86 13. 96.03 96.73∗ 95.78 96.24 96.02 14. 87.75 82.25 84.64 87.43 87.88∗ 15. 72.93 72.87 73.32 73.19 73.59∗ 16. 81.54 83.04 83.54∗ 69.22 74.89 17. 90.71 88.62 90.78 91.28 91.34∗ 18. 96.36∗ N/A 95.41 96.23 95.80 19. 81.69 77.75 84.52 84.05 87.90∗ 20. 87.91 89.28 87.73 90.08∗ 89.15 21. 99.29 N/A 98.49 99.89 99.91∗ 22. 97.08 97.55∗ 97.22 96.97 97.34 23. 73.77 77.55 71.75 77.89 82.51∗ 24. 91.82 89.41 94.85 95.35 96.26∗ 25. 96.83 96.13 97.01 96.30 97.71∗ 26. 96.67 98.42∗ 95.49 97.78 97.71 27. 96.80 96.72 97.09 97.10 97.39∗ Friedman 0,0098 Rank 3.435 3.478 3.348 2.609 2.130 Position 4 5 3 2 1

Tabla2: Resultados de exactitud con la clasificaciónk-NN y mediante varias funciones de distancia.

Las dos últimas filas muestran el rango promedio de cada método usando las diferentes funciones de distancia (Rank) y su posición en el ranking (Position). Se analizó estadísticamente los resultados para detectar diferencias significativas entre los diferentes funciones de distancia y sus exactitudes. A los datos que no fueron experimentados con éxitos (por ejemplo en caso del algoritmo KISSME), simplemente no tenemos en cuenta estos datos en la comparación estadística.

La prueba de comparación múltiple de Friedman [Friedman, 1940, 1937] re- chazó la hipótesis nula de que todos los algoritmos tienen el mismo rendimiento en promedio conp=0,0098. Por lo tanto, se aplicó la pruebapost-hoc

Dunn-Bonferroni [Dunn, 1961] (en α = 0,05) para detectar cuáles funciones de distancia son equivalentes a la función de distancia del mejor método. Según la prueba el rendimiento de los dos clasificadores difiere significativamente si el rango promedio correspondiente es por lo menos la diferencia crítica calculada como:

CD=qα× s nl(nl+1) 6nds =2,498 r 5_× 5+1 6_×27 =1,075

La prueba Dunn-Bonferroni permite ilustrar gráficamente los resultados por medio de la distancia crítica. La Figura 19 permite visualizar fácilmente la diferencia significativa entre las funciones de distancia al realizar una com- paración entre exactitud y tiempo de aprendizaje. Cualquier algoritmo con el rango fuera del área definida en la figura difiere significativamente del algoritmo de control.KISSNN se comporta significativamente mejor queITML y Xingpero ligeramente mejor queLMNN en la exactitud.

Para contrastar los resultados, también se aplica el procedimientostep-down

de Holm (ver Tabla 3), que se dice que es más potente que la prueba Dunn- Bonferroni y no hace ninguna hipótesis adicional sobre los datos. La prueba

step-downde Holm en α =0,05 detectó diferencias significativas conITML y Xing pero no conLMNNen la precisión.

3.3.1.2 Análisis de escalabilidad del KISSNN

d ata s e t i t m l k i s s m e x i n g l m n n k i s s n n 1. 3.84 0.00∗ 0.33 1.07 0.01 2. 26.16 0.02∗ 20.79 7.17 0.04 3. 9.07 0.13∗ 114.68 256.05 1.69 4. 4.28 0.01∗ 2.87 5.09 0.01∗ 5. 3.93 0.02 3.59 2.60 0.01∗ 6. 16.96 0.00∗ 0.78 1.43 0.00∗

7. 50.22 0.01∗ 43.46 0.30 0.01∗ 8. 163.17 0.67∗ 49.00 848.34 22.61 9. 81.28 0.54∗ 23.69 610.43 25.46 10. 6.11 0.01∗ 20.57 1.85 0.01∗ 11. 241.31 N/A 14.30 5.56 0.05∗ 12. 117.39 N/A 73.96 29.02 1.95∗ 13. 43.87 0.16∗ 11.31 181.86 1.83 14. 10.41 0.14∗ 101.07 180.44 1.69 15. 4.85 0.02∗ 13.25 23.53 0.03 16. 15.80 0.27∗ 157.94 388.39 3.27 17. 77.53 0.40∗ 53.26 278.06 2.35 18. 57.05 N/A 46.50 147.06 0.27∗ 19. 3.48 0.04 2.64 2.29 0.02∗ 20. 9.84 0.57∗ 41.70 372.18 1.36 21. 99.94 N/A 53.28 424.61 1.67∗ 22. 13.72 0.28∗ 186.06 205.21 3.59 23. 44.23 0.03∗ 23.46 30.40 0.04 24. 59.99 0.03∗ 37.01 23.21 0.05 25. 5.62 0.03∗ 8.40 5.94 0.09 26. 22.81 0.01 1.06 1.60 0.00∗ 27. 8.99 0.02∗ 10.69 2.77 0.02∗ Friedman 4,186_×10−11 Rank 4.087 1.239 3.696 4.174 1.804 Position 4 1 3 5 2

Tabla4: Tiempo (en segundos) de aprendizaje mediante varias funciones de distancia.

Se aplicaron también las pruebas estadísticas sobre los resultados de tiempo del entrenamiento para hacer un análisis de la eficiencia de los algoritmos de aprendizaje. Los resultados se muestran en la Tabla 4, todos los experimentos fueron ejecutados en la misma máquina y se miden en segundos. KISSME y KISSNN son mucho más rápidos que los otros métodos. La prueba de comparación múltiple de Friedman [Friedman, 1940, 1937] rechazó la hipótesis nula de que todos los algoritmos tienen el mismo rendimiento en promedio con p = 4,186_×10−11. Por lo tanto, se aplicó la prueba post-hoc

Algoritmo del control: KISSNN i a l g o r i t m o z = (R₀−R_i)/SE p α/i h i p ó t e s i s 4 KISSME 2.8908 0.0038 0.0125 Rechazado 3 ITML 2.7975 0.0051 0.0167 Rechazado 2 Xing 2.6110 0.0090 0.025 Rechazado 1 LMNN 1.0258 0.3050 0.05 Aceptado

Tabla3: Tabla de Holm / Hochberg conα=0,05para la exactitud de los algoritmos de aprendizaje de una métrica global.

Dunn-Bonferroni [Dunn, 1961] (en α = 0,05) para detectar cuáles funciones de distancia son equivalentes a la función de distancia del mejor método (en este caso fue KISSME). Según la prueba el rendimiento de los dos clasificadores difiere significativamente si el rango promedio correspondiente es por lo menos la diferencia crítica calculada como:

CD=qα×

nl(nl+1)

6nds

=1,075

Luego, también se aplica el procedimiento step-down de Holm (ver Tabla 5), que se dice que es más potente que la prueba Dunn-Bonferroni y no hace ninguna hipótesis adicional sobre los datos. La pruebastep-downde Holm en α=0,05detectó diferencias significativas conITMLyXing,LMNNpero no con KISSNNen el tiempo del aprendizaje.

Algoritmo del control:KISSME

i a l g o r i t m o z = (R₀ −R_i)/SE p α/i h i p ó t e s i s

4 LMNN 6.2944 3.0857E-10 0.0125 Rechazado

3 ITML 6.1079 1.0094E-9 0.01667 Rechazado

2 Xing 5.2687 1.3742E-7 0.025 Rechazado

1 KISSNN 1.2122 0.2254 0.05 Aceptado

Tabla5: Tabla de Holm / Hochberg conα=0,05para la eficiencia de los algoritmos de aprendizaje de una métrica global.

KISSNN ITML LMNN KISSME Xing 0 1 2 3 4 5 1 2 3 4 5 CD CD CD CD Accuracy Time

Figura19: Visualización de la comparación entre exactitud y tiempo de aprendizaje de los resultados obtenidos en las Tablas2y4.

3.3.1.3 Conclusiones

Los resultados estadísticos permiten concluir que:

• El método propuestoKISSNNsuperó significativamente al métodoKISSME con respecto al rendimiento de clasificación.

• KISSNNmuestra resultados ligeramente mejores con respecto aLMNN. • KISSNN muestra diferencias significativas con respecto a ITML, Xing y

ITML.

• KISSNN muestra diferencias significativas con respecto a ITML, Xing y LMNNen el tiempo del aprendizaje.

3.3.2 Experimento en los algoritmos locales de múltiples métricas

d ata s e t k i s s n n t k i s s n n l d k i s s n n d a n n m m-l m n n 1. 85.00 85.00 86.00 86.00 88.82

2. 96.16 95.52 93.76 96.00 83.86 3. 89.38 89.13 89.72 89.36 89.15 4. 64.18 64.00 64.69 70.21 61.90 5. 85.46 90.32 83.76 82.61 90.60 6. 95.33 95.33 95.33 96.00 96.00 7. 67.40 70.80 67.20 70.40 68.60 8. 97.71 97.62 97.41 96.33 96.72 9. 84.52 84.83 84.66 85.75 83.73 10. 96.54 98.63 96.09 92.62 97.04 11. 82.22 87.22 85.83 80.56 81.94 12. 98.86 99.13 99.09 95.23 99.02 13. 96.02 96.49 96.31 96.36 96.18 14. 87.88 88.49 88.03 88.01 87.43 15. 73.59 73.20 75.26 73.70 73.19 16. 74.89 91.70 76.5 81.86 77.50 17. 91.34 92.12 91.73 86.34 91.25 18. 95.80 97.19 96.75 96.97 96.19 19. 87.90 87.90 88.86 72.95 85.48 20. 89.15 90.39 92.17 76.07 90.15 21. 99.91 99.89 99.85 99.78 99.89 22. 97.34 97.15 97.00 92.16 96.97 23. 82.51 83.45 81.32 83.92 77.89 24. 96.26 98.79 99.39 97.37 95.35 25. 97.71 97.01 96.65 90.16 96.30 26. 97.71 97.75 98.30 95.00 97.78 27. 97.39 96.81 96.37 95.76 97.10 Friedman 0,01623 Rank 3.07 2.24 2.72 3.44 3.52 Position 3 1 2 4 5 Tabla6: Exactitud

La Tabla6presenta los resultados experimentales con todos los conjuntos de datos seleccionados sobre el rendimiento de clasificación. La prueba de com- paración múltiple de Friedman [Friedman, 1940, 1937] rechazó la hipótesis

nula de que todos los algoritmos tienen el mismo rendimiento en promedio con p = 0,01623. Por lo tanto, se aplicó la prueba post-hoc Dunn-Bonferroni [Dunn, 1961] (en α = 0,05) para detectar cuáles funciones de distancia son equivalentes a la función de distancia del mejor método. La diferencia crítica se calcula como: CD=qα× s n_l(n_l+1) 6nds =2,498 r 5_× 5+1 6_×27 =1,075

La Figura20permite visualizar fácilmente la diferencia significativa entre las funciones de distancia. Cualquier algoritmo con el rango fuera del área definida en la figura difiere significativamente del algoritmo de control (en este caso el algoritmo control fue tKISSNN). Se detecta la diferencia significativa entre tKISSNN y DANN, tKISSNN y mm-LMNN. El métodoLDKISSNN quedó en segundo lugar por mejores resultados, pero no se detectó ningún diferencia significativa con los otros métodos.

1 1.5 2 2.5 3 3.5 4 CD tKISSNN LDKISSNN KISSNN DANN mm-LMNN

Figura20: Visualización de la comparación Dunn-Bonferroni entre los algoritmos de aprendizaje de múltiples métricas por la exactitud.

Para contrastar los resultados, también se aplica el procedimientostep-down

de Holm (ver Tabla 7). La prueba step-down de Holm en α = 0,05 detectó diferencias significativas con DANN y mm-LMNN, pero no con LDKISSNN y KISSNNen la precisión.

Tabla 8 muestra los tiempos de entrenamiento y tiempos de prueba para cada método en los conjuntos de datos seleccionados. Los tiempos se calculan en segundos. Todos los experimentos se hicieron bajo las mismas condicio- nes. En la fase de entrenamiento, los métodos de aprendizaje de múltiples métricas por instancia de prueba comoDANNytKISSNN, no hacen falta entrenar.

Algoritmo del control: tKISSNN i a l g o r i t m o z = (R₀ −R_i)/SE p α/i h i p ó t e s i s 4 mm-LMNN 2.96929 0.00298 0.0125 Aceptado 3 DANN 2.79715 0.00516 0.0167 Aceptado 2 KISSNN 1.93649 0.05281 0.025 Rechazado 1 LDKISSNN 1.11886 0.26320 0.05 Rechazado

Tabla7: Tabla de Holm / Hochberg conα=0,05para la exactitud en la comparación entre los algoritmos de aprendizaje de múltiples métricas.

Los tiempos requeridos para entrenar mm-LMNN son muchos más grandes

que LDKISSNNyKISSNN. AunqueLDKISSNNes un método de múltiples métri- cas pero en algunos datos complejos, se requiere menor costo computacional que el método de una métrica globalKISSNNpara entrenar. Esto se debe a que LDKISSNNse entrena en los modelos locales de tamaños más pequeño que el espacio completo como KISSNN. En la prueba de Bunn-Bonferroni no se detecta la diferencia significativa entre KISSNN y LDKISSNN, es decir, KISSNN y LDKISSNNtienen la misma complejidad de entrenamiento en promedio. En la fase de prueba, como se espera los costos computacionales se redu- cen significativamente entre los métodos tKISSNN y LDKISSNN. En la prueba de Bunn-Bonferroni se detecta la diferencia significativa entre LDKISSNN y tKISSNN, LDKISSNN y DANN. Estas diferencias se demuestran en los datos grandes y complejos.

3.3.2.1 Conclusiones

Los resultados estadísticos nos permite concluir:

• tKISSNNmuestra diferencias significativas con respeto aDANNymm-LMNN. • tKISSNNmejoró el rendimiento del KISSNNen clasificación.

• LDKISSNN reduce el costo computacional del tKISSNN, mientras que el rendimiento se mantiene aproximadamente igual quetKISSNN.

1. 0.01 0.00 0.02 0.00 1.13 0.00 0.02 0.00 0.05 0.00 2. 0.02 0.00 0.09 0.00 7.84 0.01 0.10 0.01 0.65 0.00 3. 1.75 0.00 1.25 0.00 256.79 0.20 1.15 0.22 37.34 0.10 4. 0.01 0.00 0.07 0.00 4.85 0.00 0.06 0.01 0.25 0.00 5. 0.01 0.00 0.40 0.00 7.45 0.00 0.13 0.01 0.85 0.00 6. 0.00 0.00 0.02 0.00 1.50 0.00 0.03 0.00 0.07 0.00 7. 0.02 0.00 0.07 0.00 1.01 0.00 0.11 0.01 0.53 0.00 8. 23.97 0.00 15.12 0.00 863.43 3.04 13.04 3.37 608.26 1.12 9. 186.22 0.00 10.21 0.00 613.26 2.64 7.60 2.81 535.35 1.24 10. 0.01 0.00 0.09 0.00 2.33 0.00 0.09 0.01 0.37 0.00 11. 0.05 0.00 0.96 0.00 37.21 0.00 1.08 0.01 5.34 0.01 12. 1.92 0.00 6.8 0.00 84.80 0.23 5.16 0.28 127.57 0.14 13. 1.8 0.00 1.76 0.00 180.67 0.20 1.00 0.23 46.7 0.12 14. 1.74 0.00 1.78 0.00 180.15 0.21 1.27 0.25 46.65 0.11 15. 0.03 0.00 0.18 0.00 22.74 0.01 0.14 0.01 1.07 0.01 16. 3.26 0.00 10.62 0.00 467.36 0.36 2.51 0.46 96.12 0.2 17. 2.4 0.00 4.17 0.00 278.35 0.28 3.04 0.32 95.15 0.15 18. 0.3 0.00 0.89 0.00 145.93 0.04 0.66 0.06 11.44 0.02 19. 0.02 0.00 0.25 0.00 7.73 0.00 0.25 0.00 1.07 0.00 20. 1.42 0.00 4.74 0.00 369.74 0.16 5.89 0.20 87.06 0.09 21. 1.71 0.00 3.11 0.00 423.33 0.21 2.81 0.23 73.38 0.11 22. 3.81 0.00 8.72 0.00 205.63 0.38 2.60 0.48 92.06 0.21 23. 0.04 0.00 0.27 0.00 29.24 0.01 0.24 0.02 1.59 0.01 24. 0.05 0.00 0.25 0.00 22.75 0.01 0.26 0.02 1.95 0.01 25. 0.02 0.00 0.18 0.00 5.86 0.00 0.15 0.01 1.27 0.01 26. 0.00 0.00 0.05 0.00 1.67 0.00 0.04 0.00 0.12 0.00 27. 0.02 0.00 0.09 0.00 2.80 0.01 0.07 0.01 0.94 0.01 Friedman 7,9034_×10−11 6,7415_×10−11 Rank 3.07 1.54 3.85 1.54 5.00 1.83 4.00 2.72 5.00 1.44 Position 2 1 3 1 4 2 4 3 5 1

3.4 c o n c l u s i o n e s pa r c i a l e s d e l c a p í t u l o

Se mostró a través del estudio experimental con bases de datos internaciona- les el buen desempeño de los métodos KISSNN, tKISSNN y LDKISSNN lo cual se resume en:

1. El método _KISSNN basado en restricciones apareadas locales permite calcular una función de distancias de Mahalanobis que minimiza las distancias de los pares de instancias similares y maximiza las distancias de los pares de instancias no similares.

2. El método _KISSNN obtiene resultados comparables con los mejores ex- ponentes de su tipo a la vez que lo hace en tiempos significativamente menores.

3. El método_tKISSNNobtiene resultados mejores que el método_KISSNNen los datos complejos.

4. El método _LDKISSNN mejora los costos computacionales del método

En esta tesis presentan tres tres nuevos algoritmos de aprendizaje automático: KISSNN,tKISSNNyLDKISSNNque permiten resolver tareas de clasificación con niveles superiores de eficiencia y eficacia. Las nuevas propuestas, se basan en el aprendizaje de una o varias funciones de distancia a partir de los datos de aprendizaje y se aplican en diferentes contextos, desde los más simples donde el conjunto de aprendizaje es linealmente separable después de una transformación lineal hasta aquellos con una distribución multimodal. En su implementación se utiliza una estructura de datos del tipo árbol de cubrimiento, que se integra de manera natural con el nuevo método mientras que disminuye considerablemente el tiempo de aprendizaje. Esto permite que el algoritmo mantenga su buen comportamiento a medida que aumentan las dimensiones del problema de aprendizaje.

Mediante la realización de una amplia validación empírica se ha podido comprobar que los nuevos algoritmos son competitivo con otros semejantes del estado del arte a la vez que los supera en cuanto a eficiencia computacional. Los métodos implementados están disponible en las plataformas MatLab y Weka para su empleo en el laboratorio de Inteligencia Artificial en particular y por la comunidad científica en general.

A

M AT E M ÁT I C A B Á S I C A

a.1 á l g e b r a l i n e a l

Un vector de d-dimensional x y su transpuesto xT se pueden escribir como: x=       x1 x2 .. . xd       yxT = (x1,. . .,xd) (79)

Donde todos los componentes pueden tomar valores reales. Se denota una matriz rectangular de tamañon_×dy su transpuesto como:

M=       m11 m12 m13 · · · m1d m₂₁ m₂₂ m₂₃ _{· · ·} m_2d .. . ... ... . .. ... mn1 mn2 mn3 · · · mnd       ,MT =         m₁₁ m₂₁ _{· · ·} m_n1 m12 m22 · · · mn2 m13 m23 · · · mn3 .. . ... . .. ... m1d m2d · · · mnd         (80) a.1.1 Producto interno

El producto interno entre dos vectores que tienen la misma dimensión se

In document An Exact Bidirectional Approach to the Resource Constrained Project Scheduling Problem (Page 35-44)