4.5 TED* Computation
4.5.7 Node Re-Canonization
Las neuronas de los sistemas sensoriales están adaptadas a las señales a las que están expuestas. Como estas señales en general no son equiprobables, es lógico pensar que los sistemas perceptuales son capaces de procesar mejor aquellas señales que ocurren con más frecuencia. De ahí que las propiedades estadísticas del entorno sean tan relevantes desde el punto de vista del procesamiento sensorial.
Si queremos describir de manera estadística conjuntos de imágenes, lo mejor es considerar cada imagen como una realización de un vector aleatorio. Cada vector de imagen representará un único punto en un espacio vectorial de alta dimensionalidad. El conjunto de imágenes naturales constituirá un subconjunto de este espacio. Basándonos en la frecuencia relativa de las imágenes naturales dentro del espacio global, podemos asignar a estas imágenes una función de densidad de probabilidad (fdp). Si conociéramos esta fdp, tendríamos una descripción estadística completa del conjunto de imágenes naturales. Sin embargo, esto no es posible en la práctica debido al elevado número de dimensiones del espacio de las imágenes, de modo que nos debemos conformar con caracterizar ciertos aspectos de la estadística de las imágenes naturales, algunos de los cuales los describiremos brevemente en los párrafos siguientes. También hay que tener en cuenta que las imágenes naturales son “no-estacionarias”, en el sentido de que se componen de objetos claramente delimitados y espacialmente localizados, de modo que la estadística es relativamente uniforme dentro de un objeto, pero cambia al pasar de un objeto a otro.
Las imágenes naturales son estadísticamente redundantes. Kersten (1987) demostró que en imágenes digitales de 4 bits, el contenido de información perceptual de un píxel es aproximadamente 1,4 bits, y que la redundancia en las imágenes naturales está en torno al 65%. Las técnicas de compresión de imágenes aprovechan precisamente esta redundancia para obtener nuevos formatos que permiten transmitir y almacenar las imágenes digitales de manera eficiente. La simple inspección de imágenes naturales permite ver que las posiciones espaciales vecinas están fuertemente correladas en intensidad. Esto puede verse en la Figura 3.6, donde se representan los valores de intensidad de pares de píxeles que están separados una distancia dada, para varias imágenes naturales. De una manera más formal, la correlación entre pares de píxeles viene dada por la función de autocorrelación, que en el ejemplo baja de 1 a 0,3 con la distancia (ver Figura 3.6). El carácter “no-estacionario” de las imágenes naturales que comentábamos antes, claramente se cumple en las correlaciones entre píxeles. Así, las correlaciones “intraobjeto”, esto es, entre píxeles de un mismo objeto, son elevadas,
mientras que las correlaciones “interobjeto”, entre píxeles pertenecientes a objetos diferentes, son prácticamente despreciables.
Figura 3.6: (a) Valores de intensidad de pares de píxeles separados una distancia dada. (b) Función de autocorrelación. (Simoncelli y Olshausen, 2001).
Si bien la mayor parte de la redundancia presente en las imágenes naturales está contenida en las correlaciones de segundo orden entre los píxeles, también existen dependencias estadísticas de más alto orden. El análisis de estas relaciones estadísticas demuestra que se trata de dependencias no-lineales a lo largo de la dimensión espacial, así como entre escalas y entre orientaciones (Wegmann y Zetzche, 1990; Simoncelli, 1997; Simoncelli y Schwartz, 1999). En la Figura 3.7 se muestra el histograma (a) conjunto y (b) condicional de las respuestas de dos campos receptivos lineales que no se solapan. El histograma condicional ilustra varios aspectos importantes de la relación entre las respuestas. Así vemos que las respuestas están (aproximadamente) decorreladas, ya que el valor esperado de la ordenada viene dado aproximadamente por el eje de abscisas. Sin embargo las respuestas no son independientes, puesto que la varianza de la ordenada depende fuertemente del valor de la abscisa. Además, estas
Figura 3.7: (a) Histograma conjunto de las respuestas de dos campos receptivos que no se solapan. (b) Histograma condicional de los mismos datos. El nivel de gris representa la probabilidad, salvo por el hecho de que cada columna se ha normalizado independientemente para abarcar todo el rango de niveles de gris posibles. (Simoncelli y Olshausen, 2001).
dependencias no pueden eliminarse con ninguna transformación lineal ulterior. Las dependencias estadísticas entre las respuestas de filtros orientados son debidas, al menos en parte, a la importancia de los contornos en las imágenes naturales. Geisler et al. (2001) examinaron empíricamente las distribuciones de orientaciones dominantes en posiciones vecinas y las utilizaron para predecir el resultado de una tarea psicofísica de detección de contornos. Asimismo, Sigman et al. (2001) mostraron que estas distribuciones coinciden con las de elementos orientados co-circulares y relacionaron este resultado con la conectividad de las neuronas en el córtex visual primario.
Por otro lado, se ha demostrado empíricamente que la potencia espectral de las imágenes naturales cae con la frecuencia f siguiendo una ley potencial 1/f p, con p ≈ 2 (Ruderman y Bialek, 1994). Un ejemplo se muestra en la Figura 3.8. Las causas de esta ley potencial todavía son motivo de especulación y debate. Comúnmente se cree que esto se debe a la invarianza a escala del mundo visual. Téngase en cuenta que las imágenes naturales son proyecciones sobre el plano imagen de conjuntos de objetos a diferentes distancias. Así, los objetos cercanos dan lugar a imágenes retinianas grandes, mientras que los mismos objetos, situados a distancias mayores, generan imágenes retinianas más pequeñas. Es por tanto razonable pensar que las imágenes naturales deben ser hasta cierto punto invariantes ante cambios de escala. La invarianza a escala significa que las propiedades estadísticas de las imágenes no cambian al cambiar la escala. En concreto, para que la potencia espectral no cambie bajo esta transformación,
debe caer siguiendo una ley potencial. Otra teoría es que la potencia espectral 1/f 2 se debe a la presencia de bordes en las imágenes, ya que estos bordes tienen una potencia espectral 1/f 2. Sin embargo Ruderman (1997) y Lee et al. (2001) han mostrado que lo que gobierna la caída espectral es la particular distribución de tamaños y distancias de los objetos en las imágenes naturales.
Figura 3.8: Potencia espectral, promediada sobre todas las orientaciones, de una imagen natural (línea continua), comparada con 1/f 2 (línea discontinua). (Simoncelli y Olshausen, 2001).
La invarianza a escala de las imágenes naturales, implica que éstas son en cierto modo fractales, en el sentido de que presentan autosemejanza estadística. No obstante, las imágenes naturales no son simples fractales, ya que presentan diferentes leyes potenciales, cuyos exponentes, además, no se pueden relacionar fácilmente. Esto es porque las imágenes naturales son multifractales (Turiel et al., 1998a, 1998b; Turiel y Parga, 2000a), de forma que sus propiedades de invarianza a escala requieren una descripción más complicada. Esta interesante propiedad geométrica está relacionada con otra forma de simetría de las imágenes naturales, a saber, el multiescalado (como cada componente fractal posee su propia dimensión fractal, cada una cambia de manera diferente ante un cierto cambio de escala).
Otro tipo de invarianza que se suele considerar en las imágenes naturales es la invarianza a traslación. La invarianza a traslación significa que la estadística de las imágenes naturales es invariante frente a traslaciones. Esta hipótesis es bastante
razonable puesto que las imágenes retinianas de hecho experimentan todo tipo de traslaciones a medida que el individuo explora su entorno mediante movimientos oculares sacádicos.
Bajo la condición de invarianza a traslación y siempre que la distribución de las imágenes naturales fuese gaussiana, la amplitud de la potencia espectral sería suficiente para caracterizar completamente la fdp de las imágenes naturales. Sin embargo, este no es el caso, ya que la distribución de las imágenes naturales es fuertemente no-gaussiana. De hecho, la fase espectral es mucho más importante que la amplitud espectral para caracterizar el contenido de una imagen natural (a partir de la amplitud espectral es imposible reconstruir una imagen, mientras que la información de fase da una idea detallada de la posición de los objetos en la imagen). Hay diferentes maneras de ver que la distribución de las imágenes naturales es no-gaussiana. Por ejemplo, si las imágenes naturales fuesen gaussianas (e invariantes a traslación), deberíamos ser capaces de obtener imágenes naturales a partir de un conjunto de coeficientes de Fourier gaussianos e independientes (esto es, ruido blanco gaussiano), multiplicándolos por 1/f 2
(“desblanqueo”) e invirtiendo seguidamente la transformada de Fourier. Sin embargo, si se hace esto, lo que se obtiene es una imagen sin bordes, contornos, ni muchas otras estructuras que estamos acostumbrados a ver en las imágenes naturales. Análogamente, si las imágenes naturales fuesen gaussianas (e invariantes a traslación), entonces la transformada de Fourier decorrelaría la distribución y, tras el “blanqueo”, obtendríamos coeficientes gaussianos independientes. Sin embargo, una imagen natural “blanqueada” todavía contiene claras estructuras (líneas, bordes, contornos, etc.). Field (1987) y Daugman (1989) proporcionaron otra prueba más del carácter no-gaussiano de las imágenes naturales. Estos investigadores mostraron que las distribuciones de las respuestas de filtros paso banda orientados (filtros de Gabor) presentan un fuerte pico en cero y colas más largas que las de una gaussiana (ver Figura 3.9). Esto es una prueba directa de que la fdp global no es una gaussiana, ya que la fdp en cualquier eje de una gaussiana multidimensional debe ser también una gaussiana. Debido a que las imágenes naturales están distribuidas de manera fuertemente no-gaussiana, es crucial para su correcta caracterización el considerar estadísticos de orden más alto que 2 (nótese que una distribución gaussiana queda completamente caracterizada conocidos sus estadísticos de primer y segundo orden).
Los primeros estudios sistemáticos de las propiedades estadísticas de las imágenes naturales, más allá de las correlaciones entre pares de coeficientes, son bastante recientes (Ruderman y Bialek, 1994; Turiel et al., 1998a, 1998b; Turiel y Parga, 2000a). Turiel et al. (1998a, 1998b) propusieron un nuevo método para entender las propiedades
estadísticas de las imágenes naturales, que permite caracterizar y explicar la estadística no-gaussiana de los cambios de contraste, utilizando un proceso estocástico multiplicativo (los cambios de contraste en una escala dada, se obtienen a partir de los de una escala más gruesa, multiplicando por una variable aleatoria independiente).
Figura 3.9: Histograma de las respuestas de un filtro de Gabor aplicado sobre una imagen natural (línea continua), comparado con una fdp gaussiana con la misma varianza (línea discontinua). (Simoncelli y Olshausen, 2001).
Los experimentos realizados por Ruderman (1994), ilustran muchas de las propiedades estadísticas de las imágenes naturales. Ruderman calculó para diferentes escalas los histogramas de los valores medios en ventanas pequeñas de los niveles de gris. Así pudo comprobar que: (i) los histogramas son similares para las diferentes escalas, lo que indica que la fdp global es invariante a escala; (ii) las formas de los histogramas difieren considerablemente de los que cabría esperar de una distribución gaussiana; (iii) para ventanas más grandes (esto es, promediando más píxeles), los histogramas siguen sin tener forma gaussiana, lo que quiere decir que el teorema del límite central no se cumple en este caso y, por tanto, que píxeles vecinos tienen una fuerte dependencia estadística entre sí.
Recapitulando, podemos señalar algunas propiedades estadísticas importantes de las imágenes naturales:
• Las imágenes naturales son “no-estacionarias”, de ahí que sea tan importante la descripción local y estadística de las mismas.
• Las imágenes naturales son muy redundantes. En gran parte la redundancia se debe a las dependencias estadísticas de segundo orden entre los niveles de gris de los píxeles, si bien también existen dependencias de más alto orden.
• Su estadística es invariante a escala e invariante a traslación. Además, las imágenes naturales son multifractales, por lo que presentan multiescalado.
• Los estadísticos de segundo orden y la potencia espectral no son suficientes para caracterizar las imágenes naturales.
• La estructura de las imágenes naturales está contenida en estadísticos de alto orden relacionados con la fase del espectro. Estructuras importantes son los alineamientos locales de fase (bordes).
• La distribución estadística de las imágenes naturales es complicada y fuertemente no-gaussiana.