4. Review of Non-market Valuation and Choice Modelling
4.4 Choice experiment analytical framework
4.4.6 Latent class model
Una vez determinadas las estructuras de redes Bayesianas que permiten la representación de los diferentes procesos hidrológicos de la cuenca y el número óptimo de episodios sintéticos que lleva a la estabilización de los parámetros de la red Bayesiana, se debe realizar el proceso de aprendizaje paramétrico de las redes Bayesianas. El aprendizaje paramétrico consiste en la obtención de las probabilidades de ocurrencia de los valores de cada variable en función de las diferentes combinaciones de valores de sus nodos padres, con lo que permitirá obtener las tablas de probabilidades condicionadas de los diferentes nodos que conforman las redes Bayesianas, a partir de los datos de las variables.
El aprendizaje paramétrico se realizará a partir del conjunto de variables obtenidas de la simulación del primer conjunto de episodios sintéticos. El tratamiento estadístico de este gran número de casos se ha realizado mediante la herramienta ‘Bayes Net Toolbox’ implementada en el entorno Matlab (KP Murphy, 2001).
La herramienta ‘Bayes Net Toolbox’ dispone de varios algoritmos de aprendizaje paramétrico de redes Bayesianas. En el presente estudio se ha utilizado el algoritmo ‘learn_params’ que obtiene la estimación de máxima verosimilitud de cada parámetro o posible combinación de valores de un nodo y sus padres, ya que se ha comprobado en diversos casos que este algoritmo produce resultados satisfactorios.
La presenta tesis considera una representación multicategórica de las variables que intervienen en el pronóstico, por lo que se utilizarán redes Bayesianas multinomiales. El aprendizaje se realizará sobre variables discretas, por lo que se deberán discretizar las variables de forma cualitativa en un número determinado de intervalos antes de aplicar el algoritmo de aprendizaje.
Una vez que se han obtenido las tablas de probabilidad condicionada de una red Bayesiana, se deberá evaluar la utilidad del pronóstico asociado a la misma, mediante la realización del
proceso de validación de las redes Bayesianas, mediante un segundo conjunto de datos sintéticos, comprobando la correspondencia entre los resultados probabilísticos de pronóstico suministrados por las redes y los resultados determinísticos que componen las observaciones. Este proceso se denomina validación o verificación de los pronósticos y se describe en el siguiente Capítulo.
Las estructuras de redes Bayesianas han quedado determinadas en el Apartado anterior para todos los elementos de la cuenca, excepto para la red que representa el proceso de transformación de la lluvia en caudal. En este caso tendremos una serie de posibles redes definidas a partir de diferentes valoraciones de los resultados del estudio de dependencia entre variables. La selección de la estructura de red que conduce a una mejor aplicación como herramienta de pronóstico, se realizará en función de los resultados de la verificación de las diferentes redes y de la cuantificación de la calidad de los pronósticos y su utilidad como herramientas de ayuda en la toma de decisiones.
6 VALIDACIÓN DEL MODELO PROBABILÍSTICO
La validación del modelo probabilístico de pronóstico basado en redes Bayesianas se realizará sobre el segundo conjunto de episodios simulados. Se realizará el proceso de inferencia de las redes Bayesianas, obteniendo las probabilidades de pronóstico de las variables de salida de cada uno de las estructuras de red Bayesiana, para varios intervalos de tiempo futuros. Debido al gran número de ejecuciones del proceso de inferencia de la red Bayesiana (el segundo conjunto de episodios sintéticos está formado por 7350 episodios, con 144 intervalos de tiempo cada uno, es decir, 1.252.800 ejecuciones para cada intervalo de tiempo de pronóstico), se deberá desarrollar una herramienta que permita la realización sucesiva del proceso de inferencia de las redes Bayesianas, variando los datos de entrada al modelo y permitiendo el almacenamiento de los resultados probabilísticos de salida del modelo.
La herramienta generada deberá realizar el almacenamiento, en una matriz, tanto de los datos observados como de los resultados de pronóstico, facilitando el tratamiento estadístico posterior de los mismos. Los valores de probabilidad de pronóstico serán almacenados en las categorías correspondientes con valores comprendidos entre 0 y 1. Los datos observados serán almacenados con valor 1 en la categoría en la que se encuadra el valor del dato observado y valor 0 en el resto de categorías (Tabla 6.1).
Categorías de pronóstico Intervalo de valores de la variable Probabilidad de pronóstico Datos observados
Valor del dato observado 1
≤
25 m3/s 0 0 2 >25 -≤
50 m3/s 0 0 3 >50 -≤
150 m3/s 0 0 4 >150 -≤
300 m3/s 0.39 0 5 >300 -≤
500 m3/s 0.53 1 350 m3/s 6 >500 -≤
700 m3/s 0.08 0 7 >700 -≤
900 m3/s 0 0 8 >900 -≤
1100 m3/s 0 0 9 >1100 -≤
1500 m3/s 0 0 10 >1500 m3/s 0 0Tabla 6.1. Esquema de almacenamiento de los resultados probabilísticos del modelo en una matriz.
Mediante esta metodología se obtendrán matrices resumen (Figura 6.1) que contengan los valores de probabilidad de pronóstico (Cuadrado izquierdo de la Figura 6.1) y los datos observados (Cuadrado derecho de la Figura 6.1). Cada una de las filas representa un evento, mientras que las columnas representan las categorías en las que se ha discretizado los valores de la variable pronosticada.
Los resultados probabilísticos del pronóstico se deberán comparar con los valores de los datos observados. La comparación resulta mucho más compleja que en el caso de un pronóstico determinístico, ya que habrá que comparar resultados probabilísticos con datos observados o determinísticos, es decir, habrá que comparar una distribución de probabilidad con un valor observado.
No existe una sola medida que sea capaz de capturar todos los aspectos que intervienen en la calidad de un pronóstico probabilístico. Por ello, se ha desarrollado una metodología de
verificación que permita la cuantificación de la calidad de los diferentes atributos que influyen en el resultado final de un pronóstico probabilístico, mediante un conjunto de medidas y gráficos, siguiendo una aproximación orientada a distribuciones (‘Distributions-oriented approach’).
Figura 6.1. Matriz resumen de los resultados probabilísticos de pronóstico y datos observados
6.1. INTRODUCCIÓN
La verificación de un pronóstico depende de tres tipos de bondad: Consistencia, calidad y valor. La ‘consistencia’ representa la correspondencia existente entre el ‘pronóstico’ dado (hablado o escrito) y los datos de los que dispone el pronosticador para realizar su ‘juicio de valor’ anterior al ‘pronóstico’. En la presente tesis se considera que el ‘pronóstico’ no supone ninguna modificación con respecto al ‘juicio de valor’, ya que éste se realizará únicamente a partir de la base de conocimiento obtenida de los resultados del modelo de redes Bayesianas. De esta forma, podemos considerar que el ‘pronóstico’ (f) es igual al ‘juicio de valor’ del pronosticador (p), por lo que obtendríamos los valores más altos de consistencia (Murphy, 1993). Además, un pronóstico probabilístico presenta una mejor consistencia que un pronóstico continuo o categórico ya que tiene en cuenta la incertidumbre inherente a cualquier pronóstico.
Por otra parte, el ‘valor’ de un pronóstico representa las pérdidas y beneficios que supone a los individuos u organizaciones el uso del pronóstico en el proceso de toma de decisiones. La evaluación del valor del pronóstico queda fuera del ámbito del estudio, ya que para ello deberíamos conocer la influencia económica del pronóstico en los usuarios.
Por tanto, la evaluación de la bondad del pronóstico se centrará en la verificación de la ‘calidad’ del mismo, analizando la correspondencia entre los pronósticos y los datos observados mediante la cuantificación de los atributos que determinan la calidad del pronóstico. ‘La verificación de pronósticos es el proceso y práctica de determinar la calidad de las predicciones’ (Murphy y Winkler, 1987).
La metodología de verificación depende del tipo de pronóstico probabilístico que estemos evaluando. El modelo de pronóstico basado en redes Bayesianas suministra ‘pronósticos probabilísticos multicategóricos’, por lo que la verificación se puede realizar de dos formas diferentes:
- Desde un punto de vista multicategórico, es decir, analizando la relación entre los valores acumulados de los pronósticos y de los datos observados del evento en conjunto (Tabla 6.2).
Categorías
del evento Pronóstico (f) Observación (x) ∑f ∑
x
1 0.10 0 0.10 0
2 0.30 0 0.40 0
3 0.40 1 0.80 1
4 0.20 0 1 1
Total 1 1 2.30 2
Tabla 6.2. Obtención de valores acumulados de las probabilidades de pronóstico y de los datos observados para realizar la evaluación multicategórica del pronóstico.
Este tipo de verificación se fundamenta en el análisis de la ‘función de distribución de la probabilidad acumulada de predicción’ (Figura 6.2.).
Figura 6.2. Función de distribución de la probabilidad acumulada de predicción.
- Desde un punto de vista dicotómico, es decir, analizando la relación entre pronósticos y datos observados (valores no acumulados) de cada una de las categorías, considerando que cada pareja de pronósticos y datos observados que conforman el evento es un pronóstico independiente (Tabla 6.3.).
Categorías
del evento Pronóstico (f) Observación (x) 1 0.15 0 2 0.30 1 3 0.45 0 4 0.10 0
Total 1 1
Tabla 6.3. Valores de pronósticos y datos observados para realizar la evaluación dicotómica del pronóstico.