SUMMARY, CONCLUSIONS, AND RECOMMENDATIONS

La búsqueda de motifs es una tarea bien conocida en el área de bioinformática. Ese problema también despertó el interés de comunidades de miner´ıa de datos [Lin et al., 2007]. Los motifs son los patrones previamente desconocidos que ocurren con mayor frecuencia en los datos. Esos patrones pueden ser de particular importancia para otras tareas de miner´ıa de series temporales, tales como, identificación de agrupamientos, descubrimiento de reglas de asociación, identificación de anomal´ıas y análisis del comportamiento. Un algoritmo eficiente para el descubrimiento de motifs también puede ser útil como una herramienta para sumarización y visualización de grandes volúmenes de datos.

Las definiciones siguientes presentan un resumen de la terminolog´ıa, definida inicial- mente en [Lin et al., 2007] , usada para la definici´on del problema.

Banco de series temporales: Una base de datos de series temporales S es un conjunto no ordenado deN series temporales posiblemente de diferentes longitudes. R-Motif: Para definir el R−motif de un banco de datos de series temporales S

un par´ametro de tolerancia R es usado para decidir si dos series temporales son suficientemente similares para ser consideradas parte del motif.

k-Motif : Para definir el k−motif de un banco de datos de series temporales S

son usados los k elementos m´as pr´oximos entre s´ı.

Pair-Motif : Esta es una versión del problema, en el que se considera solo las dos sub-secuencias que están más próximas uno del otro, o sea, los que presentan la menor distancia entre s´ı. As´ı, el P air−M otif de un banco de datos de series temporalesS es el par no ordenadoL1;L2 enS que son lo más similares entre todos

los pares posibles.

es el cluster clasificado en la Kth _posici´_{on. As´ı se definen los}_{T opK}₋_{M otif s} _como los K patrones m´as frecuentes de la base, o sea los primeros Kmotif s.

A pesar de que muchos trabajos consideran el problema del descubrimiento demotif s

como la b´usqueda de los motif sen sub-secuencias de una serie temporal, esta definici´on tiene algunas cuestiones a resolver. Por ejemplo, se necesita definir si dos sub-secuencias seguidas son lo suficientemente diferentes como para ser consideradas dos sub-secuencias independientes, tal como puede ser visto en [Lin et al., 2007].As´ı por cuestiones de sim- plicidad se considera trabajar solo sobre bancos de datos de series temporales.

Intuitivamente, la noción de R−M otif,puede ser vista como el cluster más denso en una proyección 2D de las series. En la siguiente Figura representa esta idea. La Figura (a) ilustra las series temporales a ser analizadas, la Figura (b) representa elmotif encontrado y la Figura (b) representa la proyección de las series. Tenga en cuenta que si el motif es definido usando un parámetro de tolerancia R puede ser dif´ıcil saber cuál es el radio que mejor define el cluster más denso. Debido a que este parámetro es global y depende del dominio de los datos.

Por otro lado, si usamos la definición del k−M otif, en que el número de elementos en el motif es definido por el parámetro k, este es menos dependiente y más simple de ajustar. As´ı, el motif es definido por el radio del cluster más denso que contiene los k

elementos m´as pr´oximos entre s´ı.

Basado en el análisis previo de la definición del R−M otif y elk−M otif, de aqu´ı en adelante se usara la definición del k−M otif para definir los T opK −M otif s, o sea, se buscara los patrones mas frecuentes de la base conformados por los k primeros clústers, en el que cada clúster tiene k elementos.

Figura 3.18: Las series temporales que definen un motif [Ocsa Mamani, 2015]

Algoritmo de Fuerza Bruta

Para facilitar una descripción del algoritmo general para encontrar motifs, primero considere el algoritmo de fuerza bruta para la identificación de motifs. El algoritmo de fuerza bruta, tiene un costo que depende del costo del algoritmo de búsqueda kNN. As´ı, si el algoritmo de búsqueda es secuencial la complejidad del algoritmo es cuadrática y si el algoritmo de búsqueda es apoyado por métodos de indexación esta complejidad puede disminuir sustancialmente.

El algoritmo mantiene el menor candidato del motifs as´ı como su radio en cada itera- ci´on. Esas variables son actualizadas conforme el algoritmo encuentra cl´usters con radios

menores. Por lo tanto, el motif es el clúster con el menor radio. Tenga en cuenta que el algoritmo para la búsqueda del k-vecino más cercano es usado para generar clústers candidatos

Descubrimiento de motifs usando Random Projection

Debido a la complejidad cuadrática de los algoritmos exactos, los investigadores se han enfocado en soluciones aproximadas. Estas presentan, en general, la solución O(n) o O(nlogn) con elevados factores constantes [Mueen et al., 2009, Ocsa Mamani, 2015]. Los primeros trabajos que consideran ese enfoque [Chiu et al., 2003b, Buhler and Tompa, 2001], se basan en la investigación para el descubrimiento de patrones en secuencias de ADN de la comunidad bio-informática.

Los autores desarrollaron un algoritmo para encontrar motifs usando proyección aleatoria. El algoritmo de proyección aleatoria (Random Projection) básicamente usa vectores aleatorios provenientes de una distribución estable (landmarks). Después de un paso de discretización, usando la representación SAX [Lin et al., 2007, Ocsa Mamani, 2015], las secuencias son proyectadas en el espacio generado por esos vectores aleatorios.

Local Outlier Factor(LOF)

Para identificar valores at´ıpicos basados en consultas KNN aproximadas, utilizamos Factor de valores at´ıpicos locales, que es un algoritmo propuesto para encontrar puntos de datos at´ıpicos midiendo la desviación local de un punto de datos dado con respecto a sus vecinos [Breunig et al., 2000]. Es más significativo asignar a cada objeto un grado de ser un valor at´ıpico. Esa calificación se denomina factor at´ıpico local de un objeto.

no es una propiedad binaria. En cambio, le asignamos a cada objeto un factor at´ıpico, que es el grado en que el objeto est´a aislado. LOF comparte algunos conceptos con bases de datos como los conceptos de ”distancia de alcance”, que se usa para estimar la densidad local.

In document Student, Staff Advisor, and Faculty Advisor Perceptions of Academic Advising (Page 146-200)