CHAPTER 4. TAMING ENERGY CONSUMPTION IN DATA CENTERS WITH
4.3.1 Live Migration
Tomado el autómata celular en su aspecto más general, las reglas de transición son criterios para calcular el futuro estado de una célula a partir de la configuración actual de su entorno. Al aplicarse a todas las celdas del mapa, la regla de transición determina la composición del mundo en función de su estado en la generación previa. En nuestro caso particular una simulación evolutiva la célula es un individuo que ha de adoptar una estrategia entre las disponibles en su vecindario (incluyendo la propia), y por ello el único factor relevante del entorno es la suma total de pagos que él y sus vecinos han obtenido en el transcurso de los juegos. Que una estrategia se encuentre entre las disponibles para ser copiadas por un jugador A quiere decir que ha sido previamente utilizada por el propio A o por alguno de los sus vecinos, con los cuales A ha jugado y a quienes A puede observar. La última versión de mi simulación cuenta con cuatro reglas de transición, que paso a detallar.
1) Replicator Dynamics. Esta regla toma el nombre que Schuster y Sigmund195 dieron a la ecuación ideada por Maynard Smith para determinar las frecuencias relativas de diferentes estrategias presentes en una población, en función del éxito obtenido por cada estrategia en la generación previa. Formalmente se puede expresar como196:
W H W p p'= ( )
Donde p’ es la frecuencia de una cierta estrategia en la generación que estamos calculando, y p es la frecuencia de dicha estrategia en la generación previa. Por su parte, W(H) es el rendimiento medio de la estrategia en la generación anterior, mientras que W es el rendimiento promedio de
todas las estrategias, también en la generación anterior. La idea puede expresarse de manera más
intuitiva diciendo simplemente que el número de individuos p’ usando la estrategia H será en la próxima generación proporcional al éxito que H ha obtenido en relación con el éxito medio de todas las estrategias presentes en la población. En lo que sigue nos valdremos de los nombres que da Skyrms a estas variables que intervienen en la ecuación:
If the payoffs to a strategy are measured in terms of Darwinian fitness —as average number of offspring— then the game carries with its own dynamics. From the proportion of the population in one generation playing various strategies and the payoffs for one strategy played against another, we get the population proportions for the next generation.
195 Cfr. Schuster y Sigmund, 1983 196 Maynard Smith, 1977, p. 13
If U(A) is the average fitness of strategy A, and U is the average fitness of the population, then the crucial quantity to consider is their ratio, U(A) / U. The population proportion of strategy A in the next generation is just the population proportion in the current population multiplied by this ratio. If A has greater average fitness than the population, then the proportion of the population using strategy A increases. If the average fitness of A is less than that of the population, then the proportion of the population using A decreases.197
Por ejemplo, supongamos una población de 1000 individuos, en la que 250 usan la estrategia A, 250 la estrategia B, 250 la estrategia C, y los restantes 250 la estrategia D. Al cabo de una generación, se suman los pagos obtenidos por cada jugador, y se calcula con ello el rendimiento global de cada una de las cuatro estrategias. Imaginemos el siguiente resultado, donde el rendimiento promedio de la población, U, sería 100198:
Tabla 4
Estrategia U(x) “puntos” Ratio U(x) / U Población actual de
individuos usando x Próxima población A 100 1 250 250 . 1 = 250 B 150 1,5 250 250 . 1,5 = 375 C 25 0,25 250 250 . 0,25 = 63 D 125 1,25 250 250 . 1,25 = 312
En la última columna, pues, tenemos la cantidad de individuos que emplearán las diversas estrategias en la siguiente generación.
Esta regla de transición es la más habitual en simulaciones evolutivas, incluso en aquellas que no responden al esquema espacial del autómata celular, y que por tanto hacen impropio hablar de “regla de transición” en el sentido originario que tiene la expresión (determinar el estado de una célula según el estado de su vecindario). Recordemos por tanto que replicator dynamics es sólo una regla de transición en el contexto del autómata celular, y que en sí misma es una ecuación para calcular el cambio en la frecuencia relativa de las estrategias en el paso de una generación a otra. Sin embargo, no por ser la regla más frecuente es la más evidente199.
197 Skyrms, 1996, pp. 51 – 52.
198 [U(A) + U(B) + U(C) + U(D)] / 4 = [100 + 150 + 25 + 125] / 4 = 100
199 Cabe preguntarse por qué ha de ser exactamente U(x)/U la tasa de reproducción de las diferentes estrategias, y no,
2) MaxiMax. Quizá la regla más obvia consista simplemente en observar qué individuo, entre aquellos que nos rodean200 —e incluyéndonos a nosotros mismos—, ha obtenido una puntuación más alta, limitándonos a adoptar la estrategia que él haya empleado. Tal es el criterio que siguen, por ejemplo, los jugadores del modelo espacial de Axelrod201.
Este primer criterio, pues, tiene en cuenta el éxito de las estrategias tomando aisladamente los jugadores que las han empleado. Podemos denominar a esta regla MaxiMax, por la analogía que guarda con el correspondiente procedimiento de decisión que en teoría de juegos lleva el mismo nombre, tal como enseguida paso a explicar202. Estamos teniendo en cuenta que una cierta estrategia, empleada por uno de nuestros vecinos ha sido en ese caso la más exitosa, pero no
estamos atendiendo a si esa misma estrategia, empleada por otros jugadores, ha o habría proporcionado rendimientos más bajos. En teoría de juegos se suelen representar mediante una
tabla como la siguiente situaciones en la que se ha de escoger entre ciertas opciones (filas) que en función de posibles acontecimientos (columnas) dan lugar a unos resultados, mejores o peores (representados por las cifras) para el agente que decide.
Tabla 5
Acontecimiento X Acontecimiento Y Acontecimiento Z
Opción A 10 $ 50 $ 100 $
Opción B 60 $ 60 $ 60 $
La regla MaxiMax escogería la opción A. Para ello se consideran primero los valores máximos que ofrecen, como posibilidad, las dos opciones: en este caso 100 y 60, respectivamente. Entonces se escoge entre estos dos el valor máximo, que es 100, proporcionado por la opción A. La regla MaxiMax no cuenta con las probabilidades de los acontecimientos, o incluso si no se conocen las probabilidades de éstos, tampoco asigna una probabilidad subjetiva a cada uno (en
200 En sus variantes más sencillas y manejables, los agentes artificiales “miran” los rendimientos de aquellos con
quienes han interactuado. Pero no tiene por qué ser siempre así: los jugadores pueden atender también a vecinos con los que no han jugado y/o pasar por alto a otros a quienes sí se han enfrentado. En el autómata celular se distinguen, pues, el llamado “vecindario de interacción” del “vecindario de imitación”. Véase por ejemplo Skyrms (2004, pp. 42 – 43) o el software de Siebrasse en
http://law.unb.ca/Siebrasse/GameTheory.htm#SpatialGames
201 Cfr. Axelrod, 1986, p. 151.
Nuevamente hay que insistir en el sentido metafórico de expresiones como adoptar o imitar, las cuales sólo podrían tomarse literalmente en el caso de que estuviésemos representando con el modelo una situación en la que, efectivamente, los agentes obrasen conscientemente de este modo. La suma de puntos será en la mayoría de las interpretaciones lo que Skyrms (1996, p. 51) denomina Darwinian fitness, es decir, un índice que representaría el grado de éxito de un cierto individuo, cualesquiera sean los factores materiales que se desee introducir en el esquema formal del DP (alimento, territorio, oportunidades de aparearse, etc.), los cuales en último término redundarían en una probabilidad más alta de reproducirse y perpetuar sus genes.
nuestro ejemplo podría ser 0,33 para cada suceso, si decidiésemos adoptar el principio de “razón insuficiente”203). Es por consiguiente un criterio optimista, que no da la debida importancia a la posibilidad, en nuestro ejemplo, de que ocurra el acontecimiento X, en cuyo caso la opción A sólo nos proporcionaría 10$.204
Un ejemplo de tabla análoga a esta representación que en teoría de juegos se hace para las elecciones de los agentes, tomando ahora las estrategias empleadas por nuestros vecinos y los resultados que hemos obtenido cada uno, podría ser el siguiente:
Tabla 6
“Uno mismo” Norte Sur Este Oeste
Estrategia A ? 45 100 ? ?
Estrategia B ? ? ? 70 70
Estrategia C 50 ? ? ? ?
Los valores máximos que ha obtenido cada estrategia, respectivamente, han sido 100 (estrategia A, empleada por el jugador Sur), 70 (estrategia B, usada por los jugadores Este y Oeste) y 50 (estrategia C, usada por el propio jugador que “delibera” qué estrategia escogerá para la próxima generación205). Aplicando la regla MaxiMax, entonces, se atendería el mayor de estos resultados, es decir, 100, y por lo tanto a la estrategia con la cual se ha obtenido (A), sin importar que esta
misma estrategia, usada por el jugador Norte, haya obtenido el peor resultado conocido (45).
Esto es lo que hace, pues, la regla de transición MaxiMax, cuando selecciona cuál será la estrategia que un cierto agente usará en la próxima generación.
3) MaxiMin. Si el criterio MaxiMax resultaba demasiado optimista, en el criterio MaxiMin tenemos la contrapartida pesimista. En teoría de juegos, este criterio considera el peor resultado posible (mínimo) que podría resultar de cada decisión, y escoge la opción que maximice ese resultado mínimo206. Si volvemos a la tabla 5, un agente que emplease este criterio escogería ahora la opción B, pues el mínimo que puede esperar con B es 60$, mientras que con la opción A el mínimo sería sólo 10$. Del mismo modo, observando ahora la tabla 6, un agente que tuviese que medir el éxito de las estrategias disponibles según la regla MaxiMin, copiaría la estrategia B (70 puntos), ignorando los 100 puntos obtenidos por la estrategia A cuando el jugador Sur se ha valido de ella.
203 Según este principio formulado por Laplace, a falta de cualquier información acerca de la probabilidad de
acontecimientos mutuamente excluyentes, se asigna a cada uno la misma probabilidad de que ocurra. También conocido como principio de indiferencia, afirma que si las n posibilidades son indistinguibles excepto por sus nombres, entonces se asigna a cada posibilidad una probabilidad igual a 1/n. (Cfr. Resnik, 1987, pp. 35 – 37).
204 Considerada desde la teoría de la utilidad esperada —de la que nos ocuparemos enseguida— se trataría de un
criterio de elección irracional, pues la utilidad esperada de la opción B (= 60) es mayor que la de la opción A (= 53,3).
205 También se puede expresarlo como: qué estrategia le “enseñará a su hijo”. Recordemos que las celdas pierden en
el paso de una generación a otra la memoria de interacciones pasadas (cfr. supra 3.2.1).
Al igual que la regla MaxiMax, la regla MaxiMin no tiene en cuenta las probabilidades de los posibles sucesos. La irracionalidad que supone no contar con las probabilidades de los acontecimientos —aunque sean tan sólo subjetivas— es lo que Harsanyi intenta mostrar en su crítica a Rawls acerca de qué tipo de sociedad escoger en la llamada “posición original”207. Aunque este debate no toca directamente a nuestro tema, el argumento es igualmente aplicable a nuestro caso:
Conceptually, the basic trouble with the maximin principle is that violates an important continuity requirement: It is extremely irrational to make your behaviour wholly dependent on some highly unlikely unfavorable contingencies regardless of how little probability you are willing to assign
them.208
Por decirlo con un ejemplo aún más claro del propio Harsanyi209, si siguiésemos este principio no deberíamos salir de casa, en prevención de posibles desastres como ser atropellados por un coche, o que nos caiga un piano en la cabeza. Como alternativa, Harsanyi propone el principio de “utilidad promedio”, equivalente a la maximización de la utilidad esperada en teoría de la decisión210. De este principio toma el nombre la última de las reglas de transición que analizaremos.
4) Utilidad esperada . Probablemente sea ésta la regla de transición más equilibrada, por tener su correlato en el criterio de decisión que le da nombre. Esta idea de maximizar la utilidad
esperada es ampliamente aceptada en economía, especialmente desde la formalización que le
proporcionó Savage en Foundations of Statistics (sus antecedentes pueden encontrarse en las obras de Ramsey, “Truth and probability” y “Further considerations”211, y en von Neumann y Morgenstern, Theory of Games and Economic Behaviour). Sin embargo, la noción de utilidad esperada ha sido también objeto de crítica, especialmente en su vertiente descriptiva, pues numerosos experimentos y estudios realizados con agentes reales muestran que los seres humanos a menudo no tomamos decisiones siguiendo este principio212.
207 Cfr. Rawls, 1999, pp. 178 – 204. Básicamente, la idea de Rawls es que una sociedad A, es preferible a otra, B, si
los menos privilegiados en A se encuentran de todos modos en una mejor posición que los menos privilegiados en B.
208 Harsanyi, 1976b, p. 40 209 Harsanyi, 1976b, p. 40
210 Harsanyi, 1976b, pp. 45 – 46. Dicho sea de paso, en el marco de la discusión con Rawls en torno a la elección de
un principio de justicia, el criterio de la utilidad promedio presenta también sus inconvenientes. Contradiría nuestras intuiciones morales, por ejemplo, aceptar una sociedad en la que hubiese algunos esclavos, simplemente porque en ésta la mayoría de los individuos (libres) viven tan bien, que la utilidad promedio es superior a otra hipotética sociedad, donde no hay esclavos y la utilidad promedio es inferior.
211 Cfr. Ramsey, 1954
212 En Schoemaker (1982) se encuentra una exposición muy bien ordenada de los matices que el concepto de
“utilidad esperada” adopta en diversos autores, así como sus limitaciones, especialmente a la luz de experiencias realizadas tanto en laboratorios como en estudios de mercado.
Sin embargo, aquí no se trata de discutir la mayor o menor validez de este principio para prescribir o describir la conducta humana. El objetivo ahora es presentarlo como una de las posibles reglas de transición que determinan el paso de una generación a otra en el autómata celular. Así, el procedimiento consiste en considerar no la estrategia que en alguna instancia individual (agente) ha sido la más exitosa, sino aquella que ha obtenido el mayor rendimiento
promedio, computados todos los agentes que la han empleado entre aquellos observados por el
individuo que tiene que copiar o “heredar”.
Sin embargo, en la teoría de la decisión la utilidad esperada no es un promedio de utilidades, sino que se calcula contando la utilidad de cada resultado posible, y ponderando cada una de estas utilidades de acuerdo con la probabilidad de que ocurran los acontecimientos a los que se asocian dichos niveles de utilidad (aunque tan sólo sea una probabilidad subjetiva, a falta de probabilidades objetivas). Pero en el marco de la simulación sí podemos considerarlo como el promedio de los rendimientos obtenidos por las diversas estrategias. Ello se debe a la irrelevancia de la frecuencia relativa de cada una —lo cual equivaldría a la probabilidad—, precisamente porque la adopción de una estrategia es algo que decidiremos, y no algo que ocurrirá. Por tanto, a la hora de trazar la analogía entre esta regla de transición y su correspondiente principio de decisión, podemos simplemente considerar que las diferentes estrategias que intervienen en la deliberación son equiprobables213.
Si atendemos nuevamente a la tabla 5, la utilidad esperada de la opción A es: 10 · 1/3 + 50 · 1/3 + 100 · 1/3 = 53,28
mientras que la utilidad esperada de la opción B es:
60 · 1/3 + 60 · 1/3 + 60 · 1/3 = 60
Y ahora podemos aplicar un cálculo semejante sobre los datos contenidos en la tabla 6, si bien aquí nos son totalmente desconocidos ciertos resultados, a saber, el rendimiento que habrían obtenido ciertas estrategias de haber sido usadas por otros individuos que de hecho no las emplearon. Por ejemplo, no sabemos qué suma de pagos habría obtenido el agente Norte de
213 Ya habíamos indicado más arriba que esta asignación de probabilidades idénticas a una serie de acontecimientos
excluyentes entre sí, responde al llamado “principio de razón insuficiente”. Queda por ensayar una regla de transición aun más refinada, que sí daría cabida a ponderaciones diferentes —análogas a acontecimientos no equiprobables— según el número de vecinos que hayan utilizado una cierta estrategia. Si se trata de calcular qué disposición es la más eficaz en un contexto evolutivo, la cantidad de agentes que emplean una cierta estrategia sí sería un indicio de su rendimiento.
haber usado la estrategia B o C. Aun así, podemos calcular la media de rendimientos obtenidos por una cierta estrategia, contando todos los casos (agentes) que sí la utilizaron. De este modo la “utilidad esperada” —por usar este término análogamente— de cada una de las tres estrategias, serían las siguientes:
Estrategia A: 45 · 1/2 + 100 · 1/2 = 72,5 Estrategia B: 70 · 1/2 + 70 · 1/2 = 70
Estrategia C: 50 · 1 = 50
Aplicada a la dinámica del autómata celular, esta regla de transición, que podríamos denominar “utilidad esperada” o “mejor promedio”, escogería por tanto la estrategia A para la próxima generación.
3.3.2 Limitaciones de Replicator dynamics para simular la evolución cultural: