Comma operator ( , )
1. if Statement : If statement have three forms
En esta sección se describen métodos de visualización para datos de alta dimensionalidad y se hacen comentarios respecto a que tan útiles son para resolver el problema de visualizar la bondad de ajuste de una función interpoladora.
Gröller et al. [Gröller, 1999] dividen a los métodos de visualización de alta dimensionalidad en cuatro categorías: mapeo de atributos, códigos geométricos, reducción de dimensiones y coordenadas paralelas.
A) Mapeo de atributos
En esta categoría se visualizan en dos o tres dimensiones primitivas geométricas como puntos, líneas o planos; los atributos de las primitivas se usan para visualizar las dimensiones faltantes, el atributo que más se usa es el color [Gröller, 1999] a lo que se denomina codificación en color.
Codificación en color
El color generalmente se utiliza para agregar una dimensión a casi cualquier técnica de visualización, la ventaja de la codificación en color es su facilidad de interpretación por lo que muchas personas están familiarizadas con este método [Wegenkittl, 1997]. Una desventaja de esta técnica es que los colores no tienen un orden natural, por lo que para representar datos con un orden ya sea numéricos o categóricos es posible utilizar la
saturación [Spears, 1999] o proponer un orden dependiendo de las características que se deseen visualizar.
Comentarios
Para visualizar la bondad de ajuste de una función interpoladora, es conveniente colocar en la gráfica los datos de entrenamiento y sus correspondientes datos interpolados así como la función interpoladora, estos datos se podrían diferenciar por medio de codificación en color, la cual es posible utilizar en casi cualquier método de visualización.
B) Códigos geométricos
En esta categoría se visualizan datos de alta dimensionalidad en un espacio de dos o tres dimensiones transformando los datos a atributos de diferentes objetos geométricos [Gröller, 1999]. En esta categoría los métodos más conocidos son los glifos e iconos.
Glifos
Los glifos son entidades gráficas cuya forma o apariencia se modifica para mapear valores de datos [Gröller, 1999]. Dos de los glifos más populares son glifos estrella y caras de Chernoff.
Caras de Chernoff: en este método cada dato se representa con un dibujo de una cara humana. El tamaño, forma, y separación de las partes de la cara (por ejemplo el tamaño y forma de sus ojos o su separación) representa la magnitud de las diferentes variables [Spears, 1999]. Debido a la capacidad del cerebro humano de reconocer rostros, con este método es posible detectar clusters y outliers [Wegenkittl, 1997]. Un outlier es un dato que no sigue el comportamiento general o modelo del resto de los datos [Han, 2006].
La desventaja de este método es que la claridad de las caras se degrada cuando se incrementa el número de muestras a visualizar [He, 2005].
Glifos estrella: son puntos con “rayos” saliendo de los mismos separados por el mismo ángulo. Para representar un punto de N dimensiones se utilizan N rayos, la longitud de cada rayo representa la magnitud de las distintas dimensiones [Spears, 1999]. Una desventaja de este método es que es difícil de interpretar cuando el conjunto de datos es grande, otra desventaja es la dificultad de comparar dos o más glifos estrella no adyacentes [Wegenkittl, 1997].
Iconos
En visualización de alta dimensionalidad un icono es una generalización del concepto de píxel a un espacio de alta dimensionalidad, un icono contiene atributos perceptibles como color, forma y textura los cuales se usan para representar las distintas dimensiones de un dato [Gröller, 1999]. En el despliegue de los iconos existe poco o nulo espacio entre éstos lo que resulta en un gráfico denso [Gristein, 2001].
Comentarios
De esta categoría las caras de Chernoff y los glifos estrella son los más convenientes para visualizar el ajuste de una función interpoladora, debido a que es posible notar la diferencia entre un dato de entrenamiento y su respectivo dato interpolado mediante un atributo distinto de la cara o un rayo que tenga diferente longitud. Para una mejor comparación es conveniente colocar en forma adyacente los glifos estrellas o caras de Chernoff que representen a un dato de entrenamiento y su correspondiente dato interpolado, para diferenciarlos se podría aplicar codificación en color.
Este método no es útil para muchos datos ya que al incrementar las muestras se reduce el espacio de visualización y los atributos de los glifos no se perciben bien, lo que da como consecuencia que una diferencia pequeña entre un dato de entrenamiento y su valor interpolado sea difícil de notar. Por otra parte una comparación visual de una gran cantidad de glifos provocaría cansancio al usuario.
C) Reducción de dimensiones
Esta categoría agrupa los métodos en los cuales se muestra sólo una parte del conjunto de datos de alta dimensionalidad, lo que se logra seleccionando subconjuntos y/o proyectando los datos a un espacio de dos o tres dimensiones [Gröller, 1999]. A continuación se presentan métodos de esta categoría.
Curvas de Andrews
Las curvas de Andrews [Andrews, 1978] mapean cada punto de alta dimensionalidad a una curva en dos dimensiones, esto se logra transformado cada dato x = (x1, x2, …, xk) a
una función de la forma:
fx(t) = x1/ 2 + x2 sen t + x3 cos t + x4 sen 2 t + x5 cos 2t + … (2.6)
Esta función se dibuja en el rango de –π < t < π. Esta técnica es muy usada porque los puntos multidimensionales que se encuentran agrupados en conjunto también lo estarán en la curva [Spears, 1999], lo que hace posible la detección de clusters.
Para representar el punto (-5, 3, 4, -2, 6, 1) en curvas de Andrews primero se obtiene la función, la cual es la siguiente:
fx(t) = -5/ 2 + 3 sen t +4cos t - 2sen 2 t + 6 cos 2t + 1sen3t (2.7)
-4 -3 -2 -1 0 1 2 3 4 -15 -10 -5 0 5 10 t f( t)
Fig. 2.1. Curva de Andrews del punto (-5, 3, 4, -2, 6, 1).
Este método es útil sólo cuando el número de datos a visualizar no es muy grande [Andrews, 1978].
Diagramas de dispersión en dos y tres dimensiones
Los diagramas de dispersión son uno de los métodos más antiguos y más usados para visualizar datos de alta dimensionalidad en un espacio de dos o tres dimensiones [He, 2005]. Los diagramas de dispersión en dos dimensiones [Rodrigues, 2004] son proyecciones en coordenadas cartesianas de dos variables elegidas de manera arbitraria de los datos originales (véase figura 2.2). Los diagramas de dispersión en tres dimensiones [Rodrigues, 2004] son una extensión de los diagramas de dispersión en dos dimensiones, a los cuales se les agrega una dimensión (véase figura 2.3). En este último método para obtener una mejor visualización es necesario agregar más interactividad como la operación de rotación.
En estos métodos se pueden aplicar muchas transformaciones. Los datos pueden contener diversos atributos como color, tamaño, forma, textura y aún sonido con los cuales sería posible visualizar más dimensiones [Gristein, 2001].
Fig. 2.2. Diagrama de dispersión en dos dimensiones de un conjunto de datos de 4 dimensiones, mostrándose las dos primeras.
Fig. 2.3. Diagrama de dispersión en tres dimensiones de un conjunto de datos de 4 dimensiones, mostrándose las tres primeras.
Los diagramas de dispersión en dos dimensiones son muy eficientes para revelar estructuras y relaciones entre las variables [Rodrigues, 2004]. Los diagramas de dispersión en tres dimensiones hacen posible identificar correlaciones entre tres variables [Rodrigues, 2004]. Las desventajas de ambos diagramas de dispersión es que es difícil descubrir relaciones entre un número de variables mayor a su dimensión y las vistas están limitadas a ser ortogonales [He, 2005]. Otra desventaja de los diagramas de
dispersión en tres dimensiones es que es difícil distinguir los puntos cuando el número de datos es grande [Rodrigues, 2004].
Matriz de dispersión
Una matriz de dispersión es un conjunto de diagramas de dispersión en dos dimensiones arreglados en forma matricial, en la cual se despliegan todas las posibles combinaciones de dos dimensiones. Para datos en n dimensiones se forman n(n-1)/2 combinaciones pero se despliegan n2 diagramas para mostrar la matriz completa [Gristein, 2001]. En la figura 2.4 se muestra una matriz de dispersión para datos de 4 dimensiones, por lo que se muestran 16 diagramas.
Fig. 2.4. Matriz de dispersión para datos de 4 dimensiones.
En la diagonal principal de la matriz debido a que las abcisas y ordenadas pertenecen a la misma dimensión, se forma una recta con pendiente 1, los diagramas del triángulo superior e inferior de la matriz, tienen el mismo par de dimensiones pero invertidas.
Este método tiene las mismas ventajas y desventajas que los diagramas de dispersión en dos dimensiones, una desventaja adicional es que cuando el número de dimensiones aumenta el espacio para visualizar cada proyección se reduce, por lo que la matriz de dispersión es más eficiente para un número pequeño de dimensiones [He, 2005].
Comentarios
Con el método de curvas de Andrews para visualizar que tan bien ajustada está una función interpoladora de los datos de entrenamiento sólo se colocarían en la gráfica las curvas que representan los datos de entrenamiento y los interpolados, diferenciándolas por un color distinto. La bondad de ajuste se observaría por la cercanía que existe entre la “curva de entrenamiento” y la “curva interpolada”. Este método es útil sólo para una pequeña cantidad de datos, debido a que con muchos datos es difícil de interpretar.
En el caso de los diagramas de dispersión y matriz de dispersión se retoma la idea de las curvas de Andrews de mostrar datos de entrenamiento y datos interpolados para visualizar la bondad de ajuste de la función interpoladora, pero en este caso cada entidad es sólo un punto por lo que aún con muchos datos la gráfica es interpretable.
En el caso de la matriz de dispersión es conveniente mostrar sólo el renglón o la columna que contiene la variable dependiente, es decir la dimensión interpolada, si en todas las proyecciones los datos reales son cercanos a los interpolados la función interpoladora tiene un buen ajuste. Un procedimiento similar se puede aplicar a los diagramas de dispersión en tres dimensiones, es decir visualizar todas las proyecciones de tres dimensiones que contengan a la dimensión interpolada.
D) Coordenadas paralelas
En coordenadas paralelas [Inselberg, 1990] se usan ejes verticales paralelos para representar las dimensiones de los datos, estos ejes son perpendiculares a un eje de referencia horizontal, tienen la misma longitud y están espaciados de manera uniforme. Cada punto de N-dimensiones se representa por una polilínea (formada por N-1 líneas) que conecta a los ejes en los valores apropiados. En la figura 2.5 se visualizan dos puntos de cuatro dimensiones por medio de coordenadas paralelas.
Una de las ventajas de este método es que la transformación de coordenadas cartesianas a paralelas es altamente estructurada desde el punto de vista matemático, por ejemplo los puntos de inflexión en coordenadas cartesianas son vértices en coordenadas paralelas, la rotación en coordenadas cartesianas corresponde a una traslación en coordenadas paralelas [Inselberg, 1990]. Otra ventaja es la posibilidad de detectar clusters y outliers usando operaciones de interactividad como selección y borrado de polilíneas [Wegenkittl, 1997].
La principal desventaja de este método es la dificultad de visualizar las polilíneas cuando se tienen un gran número de datos, otra desventaja es la dificultad de observar correlaciones entre dimensiones no adyacentes, además cuando el número de dimensiones aumenta el espacio entre los ejes paralelos se reduce lo que dificulta la detección de patrones o clusters [He, 2005]. A continuación se presentan algunas variantes del método de coordenadas paralelas.
Coordenadas paralelas extrudidas
El método de coordenadas paralelas extrudidas se presenta en [Wegenkittl, 1997] donde se utiliza para visualizar el comportamiento de sistemas dinámicos de más de tres dimensiones. En este método los datos se dibujan como en el método de coordenadas paralelas enseguida se mueven los ejes paralelos al tercer eje espacial z, por lo que el conjunto de polilíneas forma una superficie compleja. El procedimiento se muestra en la figura 2.6.
Fig. 2.6. Datos mapeados a coordenadas paralelas (izquierda) y a coordenadas paralelas extrudidas (derecha) [Wegenkittl, 1997].
En la figura anterior, los ejes paralelos representan variables de estado de un sistema dinámico, por lo que cada polilínea xtn representa el estado del sistema en el tiempo n, en
este caso el tercer eje espacial en que se mueven los ejes paralelos corresponde al tiempo. La desventaja de este método es que la gráfica es difícil de interpretar si el número de dimensiones y puntos es muy grande [He, 2005].
Coordenadas paralelas en tres dimensiones
En coordenadas paralelas cada eje representa una dimensión, en coordenadas paralelas en tres dimensiones [Wegenkittl, 1997] se combinan dos ejes para formar un plano bidimensional en el cual se observa una proyección en dos dimensiones de los datos de alta dimensionalidad. Los planos se muestran en un espacio tridimensional y se unen por superficies que conectan las proyecciones bidimensionales de los datos. Es posible mover o rotar los planos para facilitar su visualización (véase figura 2.7).
Fig. 2.7. Coordenadas paralelas en tres dimensiones para un sistema de cuatro dimensiones, a la derecha se muestran los planos traslapados [Wegenkittl, 1997].
Glifos paralelos
Los glifos paralelos [Fanea, 2005] son una combinación de coordenadas paralelas y glifos estrella. En este método las coordenadas paralelas se extienden a tres dimensiones para resolver el problema de traslape entre polilíneas, esto se logra desdoblando las coordenadas alrededor del eje de referencia, al aplicar este desdoblamiento aparecen los glifos estrella (véase figura 2.8), teniéndose uno por dimensión.
Fig. 2.8. Extensión en 3 dimensiones de coordenadas paralelas y aparición de los glifos estrella [Fanea, 2005].
Para comparar glifos estrella es posible cambiarlos de posición y rotarlos; en el caso de las coordenadas paralelas se puede seleccionar un grupo de polilíneas y desplazarlas al frente para fines de comparación.
Comentarios
En el método de coordenadas paralelas las polilíneas que corresponden a un dato de entrenamiento y su valor interpolado sólo son diferentes en el segmento de línea que conecta a la dimensión interpolada, por lo que el grado de traslape de estos segmentos proporciona la bondad de ajuste de la función interpoladora, para notarlo es necesario poder visualizar de forma clara cada polilínea.
La bondad de ajuste es difícil de visualizar para muchos datos, ya que se produce traslape y las polilíneas no se distinguen de forma independiente. Esto en parte es resuelto por los métodos de coordenadas paralelas extrudidas y glifos paralelos al desdoblar o rotar los ejes coordenados, pero aún es difícil distinguir de manera clara cada polilínea por lo que la bondad de ajuste es difícil de observar.