Una serie temporal es una colecci´on de observaciones recogidas secuencialmente a lo largo del tiempo. En cada punto de medici´on en el tiempo, pueden ser monitoreados uno o m´as atributos, y la serie temporal resultante es llamada univariada o multivariada, respec- tivamente. En muchos casos, una secuencia de s´ımbolos puede ser usada para representar una serie temporal.
Una serie temporal T = (T1, T2, . . . , Tn es un conjunto ordenado de n valores reales. Las series temporales pueden ser largas, a veces conteniendo miles de millones de obser- vaciones. Sin embargo, por lo general el inter´es no est´a en las propiedades globales de la serie, sino, en las sub-partes de las series, las cuales son llamadas sub-secuencias.
La Transformada Discreta de Fourier (DFT) [Agrawal et al., 1993] fue una de las formas de representaci´on propuesta por primera vez en el contexto de miner´ıa de datos. DFT transforma una serie temporal a partir de un dominio de tiempo a un dominio de frecuencia. Una Transformada DiscretaWavelet (Discrete Wavelet Transform DWT)
[Chan and Fu, 1999], transforma una serie temporal en espacio/frecuencia. El Singular Value decomposition (SVD) [Korn et al., 1997] realiza una transformaci´on global, girando el eje del conjunto de datos de tal modo que el primer eje explica una variaci´on m´axima, el segundo eje explica el m´aximo de varianza restante y es ortogonal al primer eje, y as´ı sucesivamente. Piecewise Aggregate Approximation (PAA) [Keogh et al., 2001] divide una serie temporal en segmentos de igual longitud y registra la media de los valores correspondientes de cada segmento.
Para agrupar series temporales similares, con un margen de ajuste variable, se necesita de m´etodos de aproximaci´on de series temporales. Entre esos, el SAXSymbolic Aggregate Approximation (SAX) [Lin et al., 2007] se muestra como una de las mejores t´ecnicas de representaci´on de series temporales para tareas de miner´ıa. El SAX usa el PAA como primer paso para la representaci´on y, en seguida, la serie resultante es transformada en una secuencia de s´ımbolos usando las propiedades de distribuci´on de probabilidad normal. Un ejemplo de representaci´on discreta SAX es ilustrado en la Figura La transformaci´on de la representaci´on PAA a una representaci´on discreta genera una secuencia de letras (palabras) para representar la serie temporal. La principal ventaja de SAX es obtener un modelo de representaci´on, que reduzca la dimensi´on, pero preserve las caracter´ısticas de la serie original. A pesar de perder alguna de las informaciones para el c´alculo de la media del Piece-wise Aggreagate aproximation(PAA), el SAX es bueno contra el ruido, a no ser
que las variaciones repentinas son inherentes al dominio de aplicaci´on.
Figura 3.14: Una serie temporal (l´ınea negra), ya normalizada, es discretizada, obteni´endo- se una representaci´on PPA(l´ınea gris gruesa). Despu´es los coeficientes PPA en letras (en negrita) son mapeados a una representaci´on discreta. En este ejemplo, una serie es dis- cretizada para la palabra cbccbaab [Lin et al., 2007]
Medidas de Similitud en Series Temporales
La definici´on de nuevas medidas de similitud ha sido una de las ´areas m´as investigadas en el campo de Miner´ıa de Series Temporales. Generalmente, las medidas de similitud est´an fuertemente relacionadas con el esquema de representaci´on aplicada a los datos originales. Sin embargo, existen
Figura 3.15: Una serie temporal T convertida en palabras SAX. (a) Con cardinalidad 4
{11,11,01,00} (b) con cardinalidad {1,1,0,0} [Lin et al., 2007, Mueen et al., 2009]
de las opciones de los investigadores se basan en la familia Minkowski Lp, que incluye la distancia euclidiana L2.
Otra medida de similitud que atrae mucha atenci´on es el Dynamic Time Warping (DTW) [Berndt and Clifford, 1994]. La principal ventaja de esa medida es permitir la aceleraci´on - desaceleraci´on de una serie a lo largo de la dimensi´on temporal (alineamientos no lineales son posibles). Sin embargo, el DTW es computacional-mente caro.
A pesar de ser simple de calcular, la distancia euclidiana produce resultados err´oneos para series temporales que son similares, pero presentan distorsiones en el eje del tiempo. DTW es una medida de similitud m´as eficiente en ese caso. Al contrario de la distancia Euclidiana, el DTW est´a basado en la idea de alineamientos no lineales entre series.
A pesar de ser simple de calcular, la distancia euclidiana produce resultados err´oneos para series temporales que son similares, pero presentan distorsiones en el eje del tiempo. DTW es una medida de similitud m´as eficiente en ese caso. Al contrario de la distancia Euclidiana, el DTW est´a basado en la idea de alineamientos no lineales entre series.
Figura 3.16: A pesar de que las dos series tienen formas similares, ellas no est´an ali- neadas en el eje del tiempo. La distancia Euclidiana genera una medida de disimilitud pesimista, ahora y el DTW produce una medida de disimilitud m´as intuitiva debido a los alineamientos no-lineales [Berndt and Clifford, 1994]
Consulta por Similitud en Series Temporales
Diversos trabajos se han realizado para realizar consultas sobre series temporales. La mayor´ıa de esos trabajos propone algoritmos eficientes que representan los datos (series
temporales) como vectores de longitud fija. Sin embargo, diversas ´areas de aplicaci´on generan series temporales sin restricci´on de longitud y, por lo tanto, consultas eficientes sobre esas series constituyen una importante tarea para recuperaci´on de informaci´on y tambi´en para miner´ıa de series.
las tareas de miner´ıa de series temporales m´as comunes son: identificaci´on de agrupa- mientos, clasificaci´on, identificaci´on de intrusos, descubrimiento de motifs, descubrimiento de reglas de asociaci´on y previsi´on. Una breve descripci´on de cada tarea es presentada a continuaci´on [Berndt and Clifford, 1994, Mueen et al., 2009].
Detecci´on de Agrupamiento:Busca grupos de series temporales en un banco de datos de modo que series temporales de un mismo grupo son semejantes unas a las otras, mientras series temporales de grupos distintos son diferentes entre s´ı.
Clasificaci´on: Atribuir una serie temporal a una clase pre-definida de modo que la serie sea mas parecida con las series de esa clase que con las series temporales de otras clases.
Detecci´on de Intrusos: Encuentra todas las series temporales que contienen un comportamiento diferente a lo esperado con respecto a un modelo base.
Detecci´on de patrones frecuentes(motifs): Encuentra patrones repetidos en series temporales que no sean previamente conocidas en el banco de datos
Detecci´on de reglas de asociaci´on:Deducir reglas de una o m´as series temporales describiendo el comportamiento m´as probable que pueden presentar en un punto espec´ıfico de tiempo (o rango).
Pron´ostico: Pronosticar eventos futuros con base en eventos pasados conocidos. En la mayor´ıa de los casos, la predicci´on se basa en un modelo y los resultados de otras tareas de miner´ıa.