Hypotheses Development - Study 2: Quantitative Research using Secondary Data

IV. Study 2: Quantitative Research using Secondary Data

4.3. Hypotheses Development

del aprendizaje en vida

Desde el punto de vista de un organismo natural o artificial el ambiente externo no provee ninguna pista directa sobre cómo el agente deber´ıa actuar para alcanzar una meta dada. Sin embargo, los agentes reciben una gran cantidad de información del ambiente a través de los sensores. Tal información, la cual es una función de la es- tructura ambiental y de las acciones del motor del agente puede ser utilizada no sólo para determinar cómo reaccionar en diferentes circunstancias ambientales, sino también para adaptarse al ambiente actual a través del aprendizaje en vida. Por ejemplo, un robot puede aprender las consecuencias de diferentes acciones en diferentes contextos ambientales.

Al principio, en una población en evolución, ninguna habilidad la cual puede ser adquirida a través del aprendizaje en vida puede también ser genéticamente adquirida a través de la evolución. No obstante estas dos maneras de adaptación al ambiente difieren en un aspecto importante: la adaptación ontogenética puede depender de una muy rica, aunque menos expl´ıcita, cantidad de supervisión. Desde el punto de vista de la adaptación filogenética, los individuos son evaluados solo una vez en la base de un solo valor, el cual codifica que tan bien estuvieron adaptados a su ambiente a lo largo de todo su tiempo de vida (i.e. el número de hijos en el caso de evolución natural y el valor de aptitud en el caso de evolución artificial). En cambio, desde el punto de

vista de la adaptación ontogenética, los individuos reciben información del ambiente a través de sus sensores a lo largo de toda su vida. Sin embargo, esta enorme cantidad de información codifica sólo muy indirectamente que tan bien lo hizo un individuo en diferentes momentos de su propia vida o cómo deber´ıa modificar el comportamiento para incrementar su propia aptitud. El problema es entonces el entender cómo tal información puede ser transformada en una indicación de lo que el agente deber´ıa hacer o que tan bien lo está haciendo.

Por los problemas que se discutieron en secciones anteriores, es probablemente dif´ıcil diseñar un sistema capaz de realizar una buena transformación. Por otro lado, podemos esperar que la evolución resuelva este tipo de problema produciendo subsis- temas capaces de extraer autónomamente información de supervisión que puede ser usada para aprendizaje rápido en vida. Esto ha sido mostrado en dos experimentos computacionales llevados a cabo por Ackley y Littman , 1992, y Nolfi y Parisi , 1997. En ambos casos la arquitectura controladora fue dividida en dos submódulos de los cuales, el primero tiene la función de determinar cómo reaccionar al estado sensorial actual y el último tiene la función de generar una señal de enseñanza para el primero. En Ackley y Littman los estados de los sensores fueron transformados en señales de reforzamiento, mientras en Nolfi y Parisi los estados de los sensores fueron transformados en señales de enseñanza autogeneradas. Estos últimos sujetando los pesos de las dos subredes a un proceso evolutivo, los autores reportaron la evolución de individuos que aprenden durante su vida a adaptarse al ambiente a través de señales autogeneradas, transformando la información sensorial en señales de reforzamiento utiles o señales de enseñanza. Como mostraron Miller y Todd , 1990, un resultado similar puede ser obtenido evolucionando redes neuronales con topolog´ıas que pueden variar evolutivamente y que aprenden a lo largo de su vida con aprendizaje no supervisado. En estos casos las restricciones en la arquitectura canalizan los cambios manejados por

los estados de los sensores en las direcciones correctas.

Como se mencionó anteriormente, lo que puede ser obtenido con evolución y aprendizaje puede tambien ser obtenido sólo con evolución. En un nivel alto de descripción, por ejemplo, un individuo que nace con una estrategia general capaz de producir un comportamiento el cual es efectivo en un conjunto de diferentes ambientes, es equiva- lente a otro individuo capaz de adaptarse a cada ambiente a través del aprendizaje en vida. Por otro lado, en un nivel más bajo de descripción es claro que estos dos individuos están organizados en diferentes maneras. Individuos que no comienzan con una estrategia general pero se adaptan a lo largo de su vida deber´ıan ser capaces de detectar el ambiente en el que están localizados, y asimismo deber´ıan ser capaces de modificar su estrategia de manera acorde (llamaremos a estos individuos maleables). Por otro lado, los individuos que tienen una estrategia general ya lista para diferentes ambientes no necesitan cambiar (llamaremos a estos individuos completos). Desde este punto de vista los individuos completos serán más efectivos que los individuos maleables porque no tienen que sufrir un proceso de adaptación a través de su vida. Sin embargo, puede suceder que en ciertas condiciones los individuos completos no puedan ser seleccionados porque una estrategia completa no existe (o porque es demasiado complejo y por lo tanto la probabilidad de ser seleccionado es muy baja). Si este es el caso, una solución maleable es la única opción disponible.

In document the case of accommodation sharing (Page 67-72)