CHAPTER 2: Germany’s international identity and normative power
21 I would include Stanley Hoffmann, Raymond Aron and E.H.Carr in this group o f classic realists who accepted that politics in not averse to normative considerations, where questions o f identity, legitimacy
2.2.1. Constructivism, foreign policy change and power
3.3.1.2 Elaboració dels models predictius univariants
Una vegada hem vist les dades que tenim, hem comprovat que la sèrie temporal millor informada i amb dades més consistents de les que disposem és el volum d’aigua en els embassaments en hectòmetres cúbics i l’hem coneguda una mica més a través de l’anàlisi estadístic, procedim a l’elaboració dels models predictius.
Partirem de la informació que hem obtingut de l’anàlisi de l’estat de l’art, en el sentit d’orientar-nos als models que podem tenir en compte. També ens serviran per orientar l’optimització de paràmetres, que pot arribar a ser molt costosa computacionalment i també inassumible temporalment. Per tant, necessitem aquesta petita guia de punt de partida per no perdre’ns en la infinitat d’opcions que se’ns poden presentar a l’hora de parametritzar el model, sobretot pel que fa a les xarxes neuronals, on aquesta problemàtica es fa més palesa.
L’altre aspecte clau que cal tenir en compte és què volem predir i a partir de quines dades. Hem vist diferents exemples en l’apartat de l’estat de l’art on la majoria de casos, a partir d’un interval temporal normalment reduït, prediuen el valor immediatament següent (Üneş et al. (2015), Hipni et al. (2013), Çimen i Kisi (2009), Kilinç i Cigizoglu (2005), per exemple). També hem vist casos que, a partir d’una entrada com la que acabem de descriure, prediuen algun interval futur més enllà de l’immediatament següent: a Rani i Parekh (2014) trobem el cas més ampli on, a partir dels 10 dies anteriors, prediuen els 10 dies següents o a Onidmu i Murase (2007), on a partir del 6 mesos anteriors, prediuen el valor dels 4 mesos següents, però amb dades per mitjanes mensuals. Així, conceptualment prediuen a mesos vista, però realment a partir de 6 dades consecutives d’entrada, prediuen les 4 següents.
Per tant, estem davant d’articles amb prediccions poc llunyanes en referència a les dades que utilitzen. O sigui, no és el mateix predir a quatre mesos vista a partir de dades diàries, que voldria dir predir les següents 120 observacions a partir de l’entrada, que predir a 4 observacions vista amb dades mensuals. Tornarem a analitzar aquest aspecte a l’apartat d’avaluació del models, ja que en el desenvolupament del treball veurem que aquest és un aspecte especialment crític i que, d’alguna manera, explica l’opció a curt termini que hem vist en els articles revisats.
Evidentment, com més valors futurs vulguem predir, més dificultats o més desafiant és el repte pel grau d’incertesa que acumulem en cada pas. Per tant, hem de buscar un equilibri entre una predicció significativa sense condemnar el model a un mal resultat. Per aquesta raó, els articles vistos adopten una actitud conservadora, per assegurar- se un bon model.
Realitzarem diferents proves de prediccions futures per buscar aquest equilibri. Començarem buscant un resultat optimista, fent una predicció a 15 dies. I anirem variant el plantejament si obtenim uns resultats molts allunyats del que seria acceptable. Diem optimista perquè predir a 15 dies o, més concretament, a 15 passos temporals futurs, no ho hem vist en cap article.
Com ja hem dit anteriorment, intentarem elaborar tres tipus de models: xarxes neuronals, support vector manchines i el classificador Random forest. Tractem amb sèries temporals de volum d’aigua en embassaments i estem intentant predir valors futurs d’aquest volum d’aigua. Per tant, estem davant d’un problema de regressió,
definit per tenir com a dada objectiu a predir un valor numèric continu, com no hi ha dubte que és el nostre cas.
3.3.1.2.1 Estratègies de predicció i format de les dades
Seguint a Brownlee J. (2018), segons els passos temporals (time steps) que volem predir, podem distingir entre:
- One-step forecast: on prediem el valor següent de la sèrie temporal.
- Multi-step forecast: on prediem més d’un valor següent.
Per tant, el nostre projecte, tal com està plantejat, estaria enquadrat en el multi-step forecast, ja que la intenció inicial és predir a 15 dies vista.
Aquest multi-step forecast es pot tractar de diferents maneres. I el model escollit per portar a terme la predicció és clau en aquest aspecte, ja que alguns models, per la naturalesa del seu algoritme, assumeixen fàcilment una sortida amb més d’un pas temporal o, per contra, els pot resultar impossible.
Per aquesta problemàtica del multi-step forecast, podem distingir tres estratègies diferents per abordar el problema (Yukun Bao et al., 2014):
- Estratègia iterativa:
En la qual es realitza un model per predir el següent pas temporal (one-step forecast) i s’incorpora el valor predit a l’entrada del model per predir el següent. D’aquesta manera, de forma iterativa, es van predient els següents time steps, un a un, realimentant el model amb els valors de les prediccions.
- Estratègia directa:
Aquest model no utilitza els valors predits per predir el següent, sinó que genera un model per a cada time step de sortida. O sigui, a partir només d’observacions reals històriques, sense les prediccions, genera un model per cada sortida desitjada. Hi haurà un model que predigui el següent valor de la sèrie temporal (yt+1), un altre de diferent que predigui yt+2, etc. Però sempre a
partir de les observacions reals històriques.
- Estratègia MIMO (multi-input multi-output):
Estratègia en la qual és un sol model que genera les múltiples sortides a partir de les múltiples entrades.
Dels models que ens ocupen, l’únic que de forma natural pot assumir l’estratègia MIMO són les xarxes neuronals. El Random forest només té una possible sortida a predir, però aquesta pot ser un vector. Llavors, buscant el vector de sortida podrem assumir també estratègies MIMO. Els support vector machines estan dissenyats per una sola sortida, per tant, a priori, només podrien ser utilitzats en les dues primeres estratègies, la iterativa i la directa.
A la llibreria de Python sklearn, trobem el mòdul multioutput, que es pot utilitzar per generar múltiples sortides en aquells models que no estan expressament dissenyats per poder-les tenir. Utilitzarem la classe MultiOutputRegressor, que el que ens fa és una estratègia directa computant un model diferent per a cada variable a predir de la sortida, en el nostre cas serien els n passos temporals futurs que vulguem predir.
En tots els casos, transformarem la sèrie temporal en un problema d’aprenentatge supervisat, o sigui, en seqüències d’entrada que tenen com a objectiu predir el valor o seqüència de sortida. Per tant, haurem d’aplicar les transformacions necessàries per deixar les dades en el format:
X Y
X1, X2, X3 ... Xn Xn+1, Xn+2 X2, X3, X4 ... Xn+1 Xn+2, Xn+3 X3, X4, X5...Xn+2 Xn+3, Xn+4
... ...