• No results found

Hypotheses Development

In document the case of accommodation sharing (Page 67-72)

IV. Study 2: Quantitative Research using Secondary Data

4.3. Hypotheses Development

del aprendizaje en vida

Desde el punto de vista de un organismo natural o artificial el ambiente externo no provee ninguna pista directa sobre c´omo el agente deber´ıa actuar para alcanzar una meta dada. Sin embargo, los agentes reciben una gran cantidad de informaci´on del ambiente a trav´es de los sensores. Tal informaci´on, la cual es una funci´on de la es- tructura ambiental y de las acciones del motor del agente puede ser utilizada no s´olo para determinar c´omo reaccionar en diferentes circunstancias ambientales, sino tambi´en para adaptarse al ambiente actual a trav´es del aprendizaje en vida. Por ejemplo, un robot puede aprender las consecuencias de diferentes acciones en diferentes contextos ambientales.

Al principio, en una poblaci´on en evoluci´on, ninguna habilidad la cual puede ser adquirida a trav´es del aprendizaje en vida puede tambi´en ser gen´eticamente adquirida a trav´es de la evoluci´on. No obstante estas dos maneras de adaptaci´on al ambiente difieren en un aspecto importante: la adaptaci´on ontogen´etica puede depender de una muy rica, aunque menos expl´ıcita, cantidad de supervisi´on. Desde el punto de vista de la adaptaci´on filogen´etica, los individuos son evaluados solo una vez en la base de un solo valor, el cual codifica que tan bien estuvieron adaptados a su ambiente a lo largo de todo su tiempo de vida (i.e. el n´umero de hijos en el caso de evoluci´on natural y el valor de aptitud en el caso de evoluci´on artificial). En cambio, desde el punto de

vista de la adaptaci´on ontogen´etica, los individuos reciben informaci´on del ambiente a trav´es de sus sensores a lo largo de toda su vida. Sin embargo, esta enorme cantidad de informaci´on codifica s´olo muy indirectamente que tan bien lo hizo un individuo en diferentes momentos de su propia vida o c´omo deber´ıa modificar el comportamiento para incrementar su propia aptitud. El problema es entonces el entender c´omo tal informaci´on puede ser transformada en una indicaci´on de lo que el agente deber´ıa hacer o que tan bien lo est´a haciendo.

Por los problemas que se discutieron en secciones anteriores, es probablemente dif´ıcil dise˜nar un sistema capaz de realizar una buena transformaci´on. Por otro lado, podemos esperar que la evoluci´on resuelva este tipo de problema produciendo subsis- temas capaces de extraer aut´onomamente informaci´on de supervisi´on que puede ser usada para aprendizaje r´apido en vida. Esto ha sido mostrado en dos experimentos computacionales llevados a cabo por Ackley y Littman , 1992, y Nolfi y Parisi , 1997. En ambos casos la arquitectura controladora fue dividida en dos subm´odulos de los cuales, el primero tiene la funci´on de determinar c´omo reaccionar al estado sensorial actual y el ´ultimo tiene la funci´on de generar una se˜nal de ense˜nanza para el primero. En Ackley y Littman los estados de los sensores fueron transformados en se˜nales de reforzamiento, mientras en Nolfi y Parisi los estados de los sensores fueron transforma- dos en se˜nales de ense˜nanza autogeneradas. Estos ´ultimos sujetando los pesos de las dos subredes a un proceso evolutivo, los autores reportaron la evoluci´on de individuos que aprenden durante su vida a adaptarse al ambiente a trav´es de se˜nales autogen- eradas, transformando la informaci´on sensorial en se˜nales de reforzamiento utiles o se˜nales de ense˜nanza. Como mostraron Miller y Todd , 1990, un resultado similar puede ser obtenido evolucionando redes neuronales con topolog´ıas que pueden variar evolutivamente y que aprenden a lo largo de su vida con aprendizaje no supervisado. En estos casos las restricciones en la arquitectura canalizan los cambios manejados por

los estados de los sensores en las direcciones correctas.

Como se mencion´o anteriormente, lo que puede ser obtenido con evoluci´on y apren- dizaje puede tambien ser obtenido s´olo con evoluci´on. En un nivel alto de descripci´on, por ejemplo, un individuo que nace con una estrategia general capaz de producir un comportamiento el cual es efectivo en un conjunto de diferentes ambientes, es equiva- lente a otro individuo capaz de adaptarse a cada ambiente a trav´es del aprendizaje en vida. Por otro lado, en un nivel m´as bajo de descripci´on es claro que estos dos indi- viduos est´an organizados en diferentes maneras. Individuos que no comienzan con una estrategia general pero se adaptan a lo largo de su vida deber´ıan ser capaces de detectar el ambiente en el que est´an localizados, y asimismo deber´ıan ser capaces de modificar su estrategia de manera acorde (llamaremos a estos individuos maleables). Por otro lado, los individuos que tienen una estrategia general ya lista para diferentes ambientes no necesitan cambiar (llamaremos a estos individuos completos). Desde este punto de vista los individuos completos ser´an m´as efectivos que los individuos maleables porque no tienen que sufrir un proceso de adaptaci´on a trav´es de su vida. Sin embargo, puede suceder que en ciertas condiciones los individuos completos no puedan ser seleccionados porque una estrategia completa no existe (o porque es demasiado complejo y por lo tanto la probabilidad de ser seleccionado es muy baja). Si este es el caso, una soluci´on maleable es la ´unica opci´on disponible.

In document the case of accommodation sharing (Page 67-72)