La b´usqueda de motifs es una tarea bien conocida en el ´area de bioinform´atica. Ese problema tambi´en despert´o el inter´es de comunidades de miner´ıa de datos [Lin et al., 2007]. Los motifs son los patrones previamente desconocidos que ocurren con mayor frecuencia en los datos. Esos patrones pueden ser de particular importancia para otras tareas de miner´ıa de series temporales, tales como, identificaci´on de agrupamientos, descubrimiento de reglas de asociaci´on, identificaci´on de anomal´ıas y an´alisis del comportamiento. Un algoritmo eficiente para el descubrimiento de motifs tambi´en puede ser ´util como una herramienta para sumarizaci´on y visualizaci´on de grandes vol´umenes de datos.
Las definiciones siguientes presentan un resumen de la terminolog´ıa, definida inicial- mente en [Lin et al., 2007] , usada para la definici´on del problema.
Banco de series temporales: Una base de datos de series temporales S es un conjunto no ordenado deN series temporales posiblemente de diferentes longitudes. R-Motif: Para definir el R−motif de un banco de datos de series temporales S
un par´ametro de tolerancia R es usado para decidir si dos series temporales son suficientemente similares para ser consideradas parte del motif.
k-Motif : Para definir el k−motif de un banco de datos de series temporales S
son usados los k elementos m´as pr´oximos entre s´ı.
Pair-Motif : Esta es una versi´on del problema, en el que se considera solo las dos sub-secuencias que est´an m´as pr´oximas uno del otro, o sea, los que presentan la menor distancia entre s´ı. As´ı, el P air−M otif de un banco de datos de series temporalesS es el par no ordenadoL1;L2 enS que son lo m´as similares entre todos
los pares posibles.
es el cluster clasificado en la Kth posici´on. As´ı se definen losT opK−M otif s como los K patrones m´as frecuentes de la base, o sea los primeros Kmotif s.
A pesar de que muchos trabajos consideran el problema del descubrimiento demotif s
como la b´usqueda de los motif sen sub-secuencias de una serie temporal, esta definici´on tiene algunas cuestiones a resolver. Por ejemplo, se necesita definir si dos sub-secuencias seguidas son lo suficientemente diferentes como para ser consideradas dos sub-secuencias independientes, tal como puede ser visto en [Lin et al., 2007].As´ı por cuestiones de sim- plicidad se considera trabajar solo sobre bancos de datos de series temporales.
Intuitivamente, la noci´on de R−M otif,puede ser vista como el cluster m´as denso en una proyecci´on 2D de las series. En la siguiente Figura representa esta idea. La Figura (a) ilustra las series temporales a ser analizadas, la Figura (b) representa elmotif encontrado y la Figura (b) representa la proyecci´on de las series. Tenga en cuenta que si el motif es definido usando un par´ametro de tolerancia R puede ser dif´ıcil saber cu´al es el radio que mejor define el cluster m´as denso. Debido a que este par´ametro es global y depende del dominio de los datos.
Por otro lado, si usamos la definici´on del k−M otif, en que el n´umero de elementos en el motif es definido por el par´ametro k, este es menos dependiente y m´as simple de ajustar. As´ı, el motif es definido por el radio del cluster m´as denso que contiene los k
elementos m´as pr´oximos entre s´ı.
Basado en el an´alisis previo de la definici´on del R−M otif y elk−M otif, de aqu´ı en adelante se usara la definici´on del k−M otif para definir los T opK −M otif s, o sea, se buscara los patrones mas frecuentes de la base conformados por los k primeros cl´usters, en el que cada cl´uster tiene k elementos.
Figura 3.18: Las series temporales que definen un motif [Ocsa Mamani, 2015]
Algoritmo de Fuerza Bruta
Para facilitar una descripci´on del algoritmo general para encontrar motifs, primero considere el algoritmo de fuerza bruta para la identificaci´on de motifs. El algoritmo de fuerza bruta, tiene un costo que depende del costo del algoritmo de b´usqueda kNN. As´ı, si el algoritmo de b´usqueda es secuencial la complejidad del algoritmo es cuadr´atica y si el algoritmo de b´usqueda es apoyado por m´etodos de indexaci´on esta complejidad puede disminuir sustancialmente.
El algoritmo mantiene el menor candidato del motifs as´ı como su radio en cada itera- ci´on. Esas variables son actualizadas conforme el algoritmo encuentra cl´usters con radios
menores. Por lo tanto, el motif es el cl´uster con el menor radio. Tenga en cuenta que el algoritmo para la b´usqueda del k-vecino m´as cercano es usado para generar cl´usters candidatos
Descubrimiento de motifs usando Random Projection
Debido a la complejidad cuadr´atica de los algoritmos exactos, los investigadores se han enfocado en soluciones aproximadas. Estas presentan, en general, la soluci´on O(n) o O(nlogn) con elevados factores constantes [Mueen et al., 2009, Ocsa Mamani, 2015]. Los primeros trabajos que consideran ese enfoque [Chiu et al., 2003b, Buhler and Tompa, 2001], se basan en la investigaci´on para el descubrimiento de patrones en secuencias de ADN de la comunidad bio-inform´atica.
Los autores desarrollaron un algoritmo para encontrar motifs usando proyecci´on aleato- ria. El algoritmo de proyecci´on aleatoria (Random Projection) b´asicamente usa vectores aleatorios provenientes de una distribuci´on estable (landmarks). Despu´es de un paso de discretizaci´on, usando la representaci´on SAX [Lin et al., 2007, Ocsa Mamani, 2015], las secuencias son proyectadas en el espacio generado por esos vectores aleatorios.
Local Outlier Factor(LOF)
Para identificar valores at´ıpicos basados en consultas KNN aproximadas, utilizamos Factor de valores at´ıpicos locales, que es un algoritmo propuesto para encontrar puntos de datos at´ıpicos midiendo la desviaci´on local de un punto de datos dado con respecto a sus vecinos [Breunig et al., 2000]. Es m´as significativo asignar a cada objeto un grado de ser un valor at´ıpico. Esa calificaci´on se denomina factor at´ıpico local de un objeto.
no es una propiedad binaria. En cambio, le asignamos a cada objeto un factor at´ıpico, que es el grado en que el objeto est´a aislado. LOF comparte algunos conceptos con bases de datos como los conceptos de ”distancia de alcance”, que se usa para estimar la densidad local.