DATA ANALYSIS - Student, Staff Advisor, and Faculty Advisor Perceptions of Academic Advising

Una serie temporal es una colección de observaciones recogidas secuencialmente a lo largo del tiempo. En cada punto de medición en el tiempo, pueden ser monitoreados uno o más atributos, y la serie temporal resultante es llamada univariada o multivariada, respec- tivamente. En muchos casos, una secuencia de s´ımbolos puede ser usada para representar una serie temporal.

Una serie temporal T = (T1, T2, . . . , Tn es un conjunto ordenado de n valores reales. Las series temporales pueden ser largas, a veces conteniendo miles de millones de observaciones. Sin embargo, por lo general el inter´es no est´a en las propiedades globales de la serie, sino, en las sub-partes de las series, las cuales son llamadas sub-secuencias.

La Transformada Discreta de Fourier (DFT) [Agrawal et al., 1993] fue una de las formas de representaci´on propuesta por primera vez en el contexto de miner´ıa de datos. DFT transforma una serie temporal a partir de un dominio de tiempo a un dominio de frecuencia. Una Transformada DiscretaWavelet (Discrete Wavelet Transform DWT)

[Chan and Fu, 1999], transforma una serie temporal en espacio/frecuencia. El Singular Value decomposition (SVD) [Korn et al., 1997] realiza una transformación global, girando el eje del conjunto de datos de tal modo que el primer eje explica una variación máxima, el segundo eje explica el máximo de varianza restante y es ortogonal al primer eje, y as´ı sucesivamente. Piecewise Aggregate Approximation (PAA) [Keogh et al., 2001] divide una serie temporal en segmentos de igual longitud y registra la media de los valores correspondientes de cada segmento.

Para agrupar series temporales similares, con un margen de ajuste variable, se necesita de métodos de aproximación de series temporales. Entre esos, el SAXSymbolic Aggregate Approximation (SAX) [Lin et al., 2007] se muestra como una de las mejores técnicas de representación de series temporales para tareas de miner´ıa. El SAX usa el PAA como primer paso para la representación y, en seguida, la serie resultante es transformada en una secuencia de s´ımbolos usando las propiedades de distribución de probabilidad normal. Un ejemplo de representación discreta SAX es ilustrado en la Figura La transformación de la representación PAA a una representación discreta genera una secuencia de letras (palabras) para representar la serie temporal. La principal ventaja de SAX es obtener un modelo de representación, que reduzca la dimensión, pero preserve las caracter´ısticas de la serie original. A pesar de perder alguna de las informaciones para el cálculo de la media del Piece-wise Aggreagate aproximation(PAA), el SAX es bueno contra el ruido, a no ser

que las variaciones repentinas son inherentes al dominio de aplicaci´on.

Figura 3.14: Una serie temporal (l´ınea negra), ya normalizada, es discretizada, obteniéndo- se una representación PPA(l´ınea gris gruesa). Después los coeficientes PPA en letras (en negrita) son mapeados a una representación discreta. En este ejemplo, una serie es discretizada para la palabra cbccbaab [Lin et al., 2007]

Medidas de Similitud en Series Temporales

La definición de nuevas medidas de similitud ha sido una de las áreas más investigadas en el campo de Miner´ıa de Series Temporales. Generalmente, las medidas de similitud están fuertemente relacionadas con el esquema de representación aplicada a los datos originales. Sin embargo, existen

Figura 3.15: Una serie temporal T convertida en palabras SAX. (a) Con cardinalidad 4

{11,11,01,00} (b) con cardinalidad {1,1,0,0} [Lin et al., 2007, Mueen et al., 2009]

de las opciones de los investigadores se basan en la familia Minkowski Lp, que incluye la distancia euclidiana L2.

Otra medida de similitud que atrae mucha atención es el Dynamic Time Warping (DTW) [Berndt and Clifford, 1994]. La principal ventaja de esa medida es permitir la aceleración - desaceleración de una serie a lo largo de la dimensión temporal (alineamientos no lineales son posibles). Sin embargo, el DTW es computacional-mente caro.

A pesar de ser simple de calcular, la distancia euclidiana produce resultados erróneos para series temporales que son similares, pero presentan distorsiones en el eje del tiempo. DTW es una medida de similitud más eficiente en ese caso. Al contrario de la distancia Euclidiana, el DTW está basado en la idea de alineamientos no lineales entre series.

Figura 3.16: A pesar de que las dos series tienen formas similares, ellas no est´an ali- neadas en el eje del tiempo. La distancia Euclidiana genera una medida de disimilitud pesimista, ahora y el DTW produce una medida de disimilitud m´as intuitiva debido a los alineamientos no-lineales [Berndt and Clifford, 1994]

Consulta por Similitud en Series Temporales

Diversos trabajos se han realizado para realizar consultas sobre series temporales. La mayor´ıa de esos trabajos propone algoritmos eficientes que representan los datos (series

temporales) como vectores de longitud fija. Sin embargo, diversas áreas de aplicación generan series temporales sin restricción de longitud y, por lo tanto, consultas eficientes sobre esas series constituyen una importante tarea para recuperación de información y también para miner´ıa de series.

las tareas de miner´ıa de series temporales más comunes son: identificación de agrupa- mientos, clasificación, identificación de intrusos, descubrimiento de motifs, descubrimiento de reglas de asociación y previsión. Una breve descripción de cada tarea es presentada a continuación [Berndt and Clifford, 1994, Mueen et al., 2009].

Detecci´on de Agrupamiento:Busca grupos de series temporales en un banco de datos de modo que series temporales de un mismo grupo son semejantes unas a las otras, mientras series temporales de grupos distintos son diferentes entre s´ı.

Clasificaci´on: Atribuir una serie temporal a una clase pre-definida de modo que la serie sea mas parecida con las series de esa clase que con las series temporales de otras clases.

Detecci´on de Intrusos: Encuentra todas las series temporales que contienen un comportamiento diferente a lo esperado con respecto a un modelo base.

Detecci´on de patrones frecuentes(motifs): Encuentra patrones repetidos en series temporales que no sean previamente conocidas en el banco de datos

Detección de reglas de asociación:Deducir reglas de una o más series temporales describiendo el comportamiento más probable que pueden presentar en un punto espec´ıfico de tiempo (o rango).

Pron´ostico: Pronosticar eventos futuros con base en eventos pasados conocidos. En la mayor´ıa de los casos, la predicci´on se basa en un modelo y los resultados de otras tareas de miner´ıa.

In document Student, Staff Advisor, and Faculty Advisor Perceptions of Academic Advising (Page 102-146)