CHAPTER 5: CONCLUSIONS AND RECOMMENDATIONS
E.4 Generating the Script
El algoritmo de agrupamiento basado en la intermediación diferencial fue incorporado al software GARLucene con el objetivo de obtener agrupamientos de mejor calidad en un menor tiempo.
En la Tabla 2-2 se muestran los tiempos de ejecución de los algoritmos de agrupamiento basados en la intermediación GN y en la intermediación DB aplicados a las cuatro colecciones conformadas para el estudio. Los resultados experimentales muestran que el algoritmo basado en la intermediación diferencial obtiene agrupamientos con un menor tiempo de ejecución que el algoritmo basado en la intermediación GN. El agrupamiento basado en la intermediación diferencial fue cuatro veces más rápido que el agrupamiento basado en GN para el corpus Biomed, seis veces más rápido al agrupar la colección Reuters, dos veces más rápido al agrupar CEC2006 y tres veces más rápido al agrupar PapersAI.
34 Tabla 2-2 Tiempo de ejecución de los algoritmos basados en la intermediación GN e intermediación DB (expresado en segundos) Corpus GN DB Biomed 0.578 0.141 Reuters 0.093 0.015 CEC2006 0.578 0.250 PapersAI 0.219 0.062
Estos resultados experimentales ilustran en la práctica la rapidez del método basado en la intermediación diferencial. Incluso, es importante notar que los corpus empleados en el estudio son muy pequeños, en corpus mayores se evidencia aun más las ventajas del método incorporado a GARLucene 2.0. Estos resultados eran esperados debido a que con este algoritmo se elimina el recálculo de la intermediación de las aristas y por tanto, como se demuestra en (Arco, 2008), tiene una complejidad temporal de O(mn) si se fija el tamaño de la c-vecindad, Vc,i – j, y de O(n2) para grafos dispersos, donde m es el número de aristas y n es el
número nodos del grafo. Incluso, bajo ciertas condiciones especiales, cuando es posible calcular los geodésicos en la vecindad, es posible alcanzar una complejidad temporal lineal: O(m) o O(n) para grafos dispersos. Sin embargo, el algoritmo basado en la intermediación GN es lento, necesita tiempo O(m2n).
No solo es importante verificar que efectivamente el agrupamiento basado en la intermediación diferencial es más rápido que el basado en la intermediación GN. Es necesario chequear la calidad del agrupamiento obtenido por cada uno de estos métodos, ya que en GARLucene 2.0 busca eficiencia y eficacia de los resultados obtenidos. Para ello hay que tener en cuenta medidas que permitan evaluar la calidad del agrupamiento.
Las medidas de evaluación del agrupamiento se clasifican en: globales y locales, subjetivas y objetivas, internas, externas y relativas, y supervisadas y no supervisadas (Höppner et al., 1999, Silberschatz and Tuzhilin, 1996, Kaufman and Rousseeuw, 1990). Una clasificación muy usada divide la validación del agrupamiento en: medidas internas y externas (Kaufman
35 and Rousseeuw, 1990, Theodoridis and Koutroubas, 1999). Las medidas internas evalúan considerando solamente los resultados del agrupamiento en términos de cantidades que involucran los vectores de datos. Las medidas externas se basan en un criterio externo que es impuesto sobre los datos, por ejemplo, una estructura previamente especificada que refleje la intuición que se tenga del agrupamiento de los datos. No es posible aplicar estas medidas a situaciones del mundo real donde usualmente no está disponible una clasificación de referencia. Sin embargo, para lograr una mejor validación del agrupamiento se conformaron corpus textuales que se encuentran previamente clasificados, de forma tal que es posible validar el agrupamiento usando medidas de validación externas.
Una de las medidas externas más utilizada es la medida-F global (Overall F-measure; OFM) (Steinbach et al., 2000). Esta medida usa la idea de precisión (precision) y cubrimiento (recall) del campo de la recuperación de información y las adaptan a la validación del agrupamiento. Precisión (Pr) y cubrimiento (Re) se calculan para un grupo j y una clase i dados, usando las expresiones Pr(i,j)=nij/nj y Re(i,j)=nij/ni, respectivamente; donde nij es el número de objetos de
la clase i en el grupo j, nj es el número de objetos del grupo j y ni es el número de objetos de la
clase i. La medida-F (F-measure) se obtiene calculando la media armónica de precisión y cubrimiento. Se puede variar el umbral (0 ≤ ≤ 1) para regular la influencia de precisión y cubrimiento en el cálculo de esta medida (Frankes, 1992). La medida-F global, se calcula usando el promedio ponderado de los valores máximos por clase de la medida-F sobre todos los grupos (Steinbach et al., 2000). La medida-F intenta capturar cuánto los grupos del agrupamiento obtenido se hacen corresponder correctamente con los grupos de referencia (Rosell et al., 2004).
(2.5) donde k es el número de clases, ni es el tamaño de la clase i, n es el número total de objetos
agrupados y F-Measure(i, j) se calcula según la expresión siguiente.
36 Si = 1 entonces F-Measure(i,j) coincide con precision, si = 0 entonces F-Measure(i,j) coincide con cubrimiento. = 0.5 significa igual peso para precisión y cubrimiento.
En la Tabla 2-3 se muestran los valores de la medida-F global obtenidos al aplicar los algoritmos basados en la intermediación GN y DB a los cuatro corpus textuales del estudio. Las configuraciones que aparecen para el algoritmo basado en DB representan valores aleatorios seleccionados para los cinco parámetros que necesita dicho algoritmo.
Tabla 2-3 Resultados de la medida-F global para los algoritmos basados en la intermediación GN e intermediación DB aplicados a los cuatro corpus textuales
Corpus GN DB Configuración 1 DB Configuración 2 DB Configuración 3 DB Configuración 4 Biomed 0.90 0.69 0.73 0.78 0.86 Reuters 0.68 0.70 0.85 0.96 0.67 CEC2006 0.75 0.80 0.68 0.88 1.00 PapersAI 0.97 0.95 1.00 0.67 0.84
Se observa en la Tabla 2-3 que en tres de los cuatro corpus fue posible encontrar alguna configuración de los parámetros de forma tal que se obtuvieran mayores valores de la medida- F global para el algoritmo basado en la intermediación diferencial, respecto a los valores obtenidos por el algoritmo intermediación GN. De esta forma se ilustra que el algoritmo basado en la intermediación diferencial arroja agrupamientos de mejor calidad para ciertas configuraciones, que el algoritmo basado en la intermediación GN.
Aquí surge otro problema, el algoritmo basado en la intermediación diferencial es susceptible a los valores de los parámetros de entrada, dado un mismo corpus textual, se pueden obtener excelentes resultados para una configuración y resultados pobres para otras. De ahí que es necesario estudiar y estimar los valores de los parámetros de entrada a este algoritmo.
37