• No results found

PROGRAM ACTIVITY REPORT

Section 4.14 ADDITIONAL COMPENSATION

En esta sección se discuten en detalle, las principales limitantes que presentan los sistemas adaptativos de inferencia neurodifusa y los modelos de redes neuronales para la predicción de precios de la electricidad.

2.1.1 Sistemas adaptativos de inferencia neurodifusa

Un sistema de inferencia difusa conformado por reglas de Takagi-Sugeno –véase a Sugeno y Kang (1988), Takagi y Sugeno (1983) y Takagi y Sugeno (1985)– puede ser interpretado como una red neurodifusa conocida como ANFIS (Jang, 1993). La Figura 2.1 presenta la arquitectura de ANFIS para un sistema de inferencia de dos variables difusas x y y:

if x ∈ A1 ∧ y ∈ B1⇒ z = p1x + q1y + r1

if x ∈ A1 ∧ y ∈ B2⇒ z = p2x + q2y + r2

if x ∈ A2 ∧ y ∈ B1⇒ z = p3x + q3y + r3

if x ∈ A2 ∧ y ∈ B2⇒ z = p4x + q4y + r4

(2.1)

donde el dominio de x está cubierto por los conjuntos borrosos A1y A2, y el dominio de y por B1y B2.

La función de pertenencia para dichos conjuntos borrosos se define, comúnmente, como la función de campana generalizada: Φ(x; α, β, γ) = 1 1 + u−γ α |2β| (2.2)

El proceso de inferencia para una entrada (x, y) implica: 1. Calcular µA1(x), µA2(x), µB1(y) y µB2(y) usando (2.2).

2. Estimar la inferencia Producto para cada regla wj=µA(x) · µB(y).

3. Establecer el porcentaje que cada regla aporta a la solución final ¯wj= wj PN

i=1wi.

4. Y, finalmente, calcular el resultado del sistema como: Pi ¯wifi.

Nótese que en (2.1) las variables que conforman los antecedentes de las reglas son las mismas que conforman sus consecuentes; y que el dominio de cada variable está cubierto por al menos dos conjuntos borrosos, de acuerdo con la definición de reglas de Takagi–Sugeno. Usualmente, la función especificada para el consecuente de las reglas es la combinación lineal de las entradas, pero en el caso general es posible usar funciones más complejas. La ecuación de la campana generalizada (2.2) es una elección común para modelar las funciones de pertenencia con que se especifican los conjuntos borrosos.

El sistema formado por (2.1) puede incluir tanto información proveniente del experto en la forma de reglas difusas, como reglas aprendidas a partir de información histórica de la serie temporal que se está modelando. Esto se logra a través del afinamiento de la cantidad y las funciones de pertenencia asociadas a cada una de las variables explicativas.

Un problema fundamental en la aplicación de la metodología es la selección de las variables que conformarán las reglas difusas, y el número de conjuntos borrosos asignados a cada variable. Jang (1994) propone el uso del algoritmo CART desarrollado por Breiman, Friedman, Olshen y Stone (1984) para determinar la estructura inicial de ANFIS, y posteriormente afinar los parámetros del modelo usando un algoritmo de optimización.

A1

A2

B1

B2

x

y

x y

x y

z

1 2 3 4

A1

A2

B1

B2

Figura 2.1: Arquitectura típica para ANFIS con reglas de Takagi–Sugeno, y partición inducida sobre el espacio de entrada

1. Cada variable independiente aparece tanto en el antecedente como en el consecuente de cada regla, y su dominio es particionado, al menos, en dos conjuntos borrosos. Ello implica que el número de parámetros del modelo aumente exponencialmente, y que se requiera una gran cantidad de información para series con unos pocos regresores.

2. Tanto CART como otros algoritmos para determinar la estructura inicial de ANFIS, se basan en incorporar cada variable independiente tanto en el antecedente como en el consecuente de cada regla, y dividir su dominio en al menos dos regiones. Por lo tanto, se refuerza el problema del numeral anterior.

2.1.2 Modelos de redes neuronales artificiales

En su forma más general, una red neuronal artificial es un modelo matemático que representa la estructura masivamente paralela del cerebro (Eberhart y Dobbins, 1990), y que puede ser interpretado desde un punto de vista estadístico, como un modelo no paramétrico de regresión no lineal (Sarle, 1994). Un perceptrón multicapa es un tipo de red neuronal que puede ser representado a través del siguiente modelo: yt =β∗+ H X h=1 βhg(α∗,h+ I X i=1 αi,hx(i)t ) + σt (2.3)

de parámetros {β∗, βh, α∗,h, αi,h, σ} con i = 1, . . . , I y h = 1, . . . , H, donde H representa la cantidad de

neuronas en la capa oculta, I es el número total de regresores, y g(˙) es la función de activación de las neuronas de la capa oculta. Su representación pictórica es presentada en la Figura 2.2. Este tipo de redes se caracterizan por ser muy tolerantes a información incompleta, inexacta o contaminada con ruido (Masters, 1993), por lo que han sido aplicadas ampliamente al modelado empírico de series temporales no lineales. Zhang, Patuwo y Hu (1998) presenta una revisión general sobre el estado del arte, mientras que Heravi, Osborn y Birchenhall (2004), Swanson y White (1997b), Swanson y White (1997a), Faraway y Chatfield (1998), Darbellay y Slama (2000) y Kuan y Liu (1995), entre muchos otros, presentan aplicaciones específicas.

En el contexto general del modelado y la predicción de series temporales, los perceptrones multicapa presentan serias limitaciones debido a que:

• Es prácticamente imposible interpretar los parámetros del modelo.

• No proveen información sobre el tipo de modelo paramétrico que podría ser adecuado para representar la dinámica de la serie analizada.

• Pueden memorizar información degradando ostensiblemente su capacidad predictiva (Masters, 1993).

• La superficie de la función de costo es compleja y poseen múltiples puntos de mínima haciendo muy difícil el proceso de estimación de los parámetros –véase a DasGupta, Siegelmann y Sontag (1995), Sontag y Sussmann (1989) y Fukumizu (2000). LeCun, Bottou, Orr y Muller (1998) han recopilado muchas heurísticas que pueden mejorar el desempeño de los algoritmos de optimización.

Figura 2.2: Perceptron multicapa con una capa oculta, tres neuronas de entrada, dos neuronas ocultas y una capa de salida.

• El modelo puede estar mal condicionado, lo cual es síntoma de que las diferencias entre las magnitudes de los pesos son muy grandes; ello puede causar que las neuronas en la capa oculta estén en su nivel de saturación (diferentes entradas netas producen la misma salida), y consecuentemente que el gradiente de la función de costo sea cercano a cero, por lo que la optimización numérica se hace ineficiente.

• El modelo no es estadísticamente identificable (Anders y Korn, 1999):

– Diversos modelos equivalentes –con la misma magnitud de la función de error– pueden obtenerse permutando las neuronas de la capa oculta.

– Para funciones de activación que cumplen con g(u) = sgn(u)|u|, es posible obtener el mismo valor de salida cambiando de signo los pesos de las conexiones que entran y salen de la misma neurona oculta.

– El modelo no es globalmente identificable si la salida de una neurona oculta es cero, ya que no es posible determinar el peso de la conexión que va de ella hacia la neurona de salida; igualmente, los pesos de las conexiones que llegan a una neurona oculta no son identificables, si el peso de la conexión que sale de ella es cero, ya que ellos pueden tomar cualquier valor

• Se ha encontrado [véase a Tang y Fishwick (1993), Masters (1993), Masters (1995), Kaastra y Boyd (1996) entre otros] que la correcta especificación del modelo –determinación de los regresores, el número de neuronas en la capa oculta, y los valores óptimos de los parámetros– está basada en una secuencia de recomendaciones heurísticas cuyos resultados son críticos, y que dependen de los juicios basados en la experiencia del pronosticador y del procedimiento particular utilizado –véase a Masters (1995) para una revisión extensa de la problemática, y a Kasabov (1998) para otras heurísticas más recientes.

• No existe un acuerdo sobre cuál es la estrategia más adecuada para realizar la selección del modelo (Reed, 1993).

Y, en relación a los requerimientos para la predicción de precios de la electricidad:

• Son homocedásticos, y, por tanto, no permiten representar directamente volatilidad cambiante en el tiempo y grupos de volatilidad similar.

• Sus parámetros son constantes, de tal forma, que se supone que las relaciones entre los regresores y el precio permanecen en el tiempo, y la permanencia de dinámica de la serie.

Related documents