• No results found

CHAPTER THREE: METHODOLOGY Qualitative vs Quantitative Research

Se presentó un algoritmo de agrupamiento basado en la disminución de las comparaciones entre los elementos en la fase de intercambio.

Se mostró que el algoritmo propuesto tiene un buen desempeño en el agrupamiento de cadenas con respecto a los algoritmos PAM y CLARA; a partir de la comparación de sus resultados con los producidos por estos algoritmos en 16 casos. Donde se evidenció una mejora sustancial en tiempo de ejecución e invariabilidad en la calidad de grupos formados.

3 INCORPORACIÓN DE CAMBIOS A LA HERRAMIENTA DBSTANDARDS

Las insuficiencias detectadas en el software DBStandardS en presencia de grandes volúmenes de información están concentradas fundamentalmente en el tiempo transcurrido en la formación de grupos; pero además de esto se detectó un aumento en la complejidad del análisis de las cadenas (examen realizado a los grupos post agrupamiento donde se detectan los errores por parte del analista) debido a que los grupos poseían muchos elementos. La solución a ambos problemas conforman los principales cambios añadidos a la segunda versión de la herramienta. A continuación se presenta la solución a la segunda problemática y la incorporación de ambas soluciones al software; así como algunos ejemplos de estandarización.

3.1 Agrupamiento dividiendo el conjunto de datos

Para el analista es muy difícil la búsqueda de errores en grupos con más de diez o quince elementos. Cuando se está en presencia de grandes volúmenes de información es inevitable una gran cantidad de objetos en los clusters. Esto se pudiera tratar de evitar con el aumento de grupos a formar, pero aún así no se garantiza, además, el usuario se agotaría navegando por tantos grupos.

Para eliminar la acumulación excesiva de elementos en los grupos se propone el siguiente proceso:

1. Dividir el conjunto de datos en partes o fragmentos de una longitud aproximada. Se plantea una longitud aproximada pues es imposible asegurar que la longitud deseada divida a la cantidad total de elementos del conjunto de datos, así que los objetos sobrantes se reparten en las diferentes partes.

La cantidad de partes está definida por la división entera de la cantidad total de elementos entre la longitud deseada.

2. Aplicar el algoritmo de agrupamiento seleccionado a cada parte.

De cada aplicación del algoritmo resulta una partición (arreglo de clusters), por lo que el resultado de este paso es un arreglo con todas las particiones resultantes, o sea, un arreglo de arreglos de clusters.

La estandarización se lleva a cabo mediante la exploración de todas las particiones, repitiendo el análisis tradicional (el llevado a cabo con los resultados de la otra variante de agrupamiento) con cada una de estas.

A pesar de que en este procedimiento hay más grupos a revisar, estos son más pequeños y demandan menos tiempo en su análisis. También, al pasar rápidamente de partición, aunque se examinen más clusters, da al usuario una sensación más agradable.

Con el objetivo de mostrar el comportamiento del procedimiento planteado se muestra una comparación en cuanto a cantidad de elementos de los grupos obtenidos en un conjunto de datos de 665 objetos, una cantidad de grupos a formar de 30 y una dimensión aproximada de las partes de 100. El algoritmo principal seleccionado es el propuesto en el capítulo dos.

Criterio p0 p1 p2 p3 p4 p5 p6

x < 10 16 28 26 27 28 27 28

10 < x < 20 6 2 4 3 2 3 2

20 < x < 30 0 0 0 0 0 0 0

x > 30 8 0 0 0 0 0 0

Tabla 3. 1: Comparación de la cantidad de elementos en los grupos formados aplicando las dos variantes de agrupamiento propuestas.

En la tabla 3.1 la x representa la cantidad de elementos en un grupo y los valores, a su vez, la cantidad de grupos que cumplen con el criterio de la primera columna. Las pi son las

particiones obtenidas, de forma tal que p0 es la correspondiente a la aplicación del

algoritmo con todo el conjunto de datos y las restantes, las de la aplicación del mismo algoritmo dividiendo el conjunto de datos como se ha descrito en esta sección.

Se puede observar la disminución de la cantidad de grupos con un tamaño mayor que diez lograda con la variante ofrecida. No obstante, con los gráficos siguientes no queda ninguna duda al respecto. En la figura 3.1 para las pi de la uno a la cinco la barra amarilla desaparece completamente, y la marrón nunca toma, ni siquiera el valor cinco, o sea, nunca más de cuatro grupos tienen entre diez y veinte elementos, además de un crecimiento de la azul con valores siempre mayores que 25, indicando por cientos grandes para tamaños menores que diez.

0 5 10 15 20 25 30 p0 p1 p2 p3 p4 p5 p6 Particiones C a n ti d ad d e el em en to s x < 10 10 < x < 20 x > 30 20 < x < 30

Figura 3. 1: Cantidad de elementos en las particiones obtenidas aplicando las dos variantes de agrupamiento propuestas.

En las figuras 3.2 y 3.3 se muestran los porcentajes de la cantidad de elementos de p0 y p2 (partición de la segunda variante con porcentajes más bajos para el primer criterio de la tabla 3.1) respectivamente. Al compararlas se reafirman los planteamientos que ya se vienen manejando de que la división de del conjunto de datos resuelve el problema de la excesiva acumulación de elementos en los grupos.

53% 20% 27% 0% x < 10 10 < x < 20 x > 30 20 < x < 30

Figura 3. 2: Gráfico de porcentajes para la partición obtenida con la aplicación del algoritmo con todo el conjunto de datos.

87% 13% 0% 0% x < 10 10 < x < 20 x > 30 20 < x < 30

Figura 3. 3: Gráfico de porcentajes para una de las particiones obtenidas con la aplicación del algoritmo dividiendo el conjunto de datos.