3.3.1 Aprendizaje supervisado
Un ingrediente esencial en el aprendizaje activo o supervisado es la disponibilidad de un maestro externo, como se puede apreciar en la figura (3.3).
Figura 3.3 Diagrama de bloques del aprendizaje supervisado
Conceptualmente, podemos pensar que el maestro, como conocedor del entorno que es, está representado por un conjunto de ejemplos entrada-salida. Sin embargo, el entorno es desconocido para la red neuronal de interés. Supongamos ahora que tanto el maestro como la red neuronal son sometidos a un vector de entrenamiento sacado del entorno. El maestro es capaz de proporcionar a la red neuronal la respuesta deseada (o respuesta objetivo) para ese vector de entrenamiento. Además, la respuesta deseada representa la acción óptima a ser realizada por la red neuronal. Los parámetros de la red son ajustados bajo la influencia combinada del vector de entrenamiento y la señal de error; la señal de error se define como la diferencia entre la respuesta actual de la red y la respuesta deseada. Este ajuste es llevado a cabo paso a paso iterativamente con el objetivo de hacer que la red neuronal, eventualmente, emule al maestro; se supone que la emulación es óptima en algún sentido estadístico. En otras palabras, el conocimiento del entorno por parte del maestro es transferido a la red neuronal en la mayor medida posible. Cuando se alcanza esta condición, podemos prescindir del maestro y dejar a la red neuronal tratar con el entorno por sí misma.
La forma de aprendizaje supervisado que acabamos de describir es, en realidad, el aprendizaje por corrección de error descrito en la sección (3.2.1). Se trata de un sistema realimentado de bucle cerrado en el que el entorno desconocido no se encuentra en el bucle. Como medida de actuación para este sistema, podemos pensar en términos de error cuadrático medio (es decir, el valor esperado de la suma de los errores cuadráticos) definido como una función de los parámetros libres del sistema. Esta función puede ser visualizada como una superficie de error multidimensional o como una superficie de error simple, con los parámetros libres como
Entorno Maestro Sistema de aprendizaje Respuesta deseada Respuesta actual Señal de error Vector que describe el
coordenadas. La verdadera superficie de error es medida sobre todos los posibles ejemplos entrada- salida. Cualquier operación del sistema bajo la supervisión del maestro es representada como un punto en la superficie de error. La red deberá ir desplazando, con ayuda del maestro, el punto de operación hacia un mínimo global de dicha superficie. Un sistema de aprendizaje supervisado es capaz de hacer esto gracias a la información que posee acerca del gradiente de la superficie de error correspondiente al comportamiento actual del sistema. El gradiente de la superficie de error en cualquier punto es un vector que apunta a la dirección de mayor descenso. De hecho, en el caso de aprendizaje supervisado a partir de ejemplos, el sistema usa un estimador instantáneo del vector gradiente, de forma que dado un adecuado conjunto de ejemplos entrada-salida, y dado un tiempo suficiente de entrenamiento, este algoritmo de aprendizaje es capaz de realizar tareas como clasificación de patrones y aproximación de funciones satisfactoriamente.
Ejemplos de algoritmos de aprendizaje supervisado son el algoritmo LMS (least-mean-
square algorithm) y su generalización, conocida como algoritmo de propagación hacia atrás ó BP
(backpropagation). Este último es mucho más poderoso que el primero, el cual se considera un caso especial del BP. El aprendizaje supervisado puede llevarse a cabo de dos maneras diferentes:
1. Off-line. Se usa aquí una facilidad computacional para diseñar el sistema de aprendizaje supervisado. Una vez conseguido el rendimiento deseado, el diseño es 'congelado', es decir, a partir de aquí, la red neuronal opera de una manera estática.
2. On-line. En este caso, el proceso de aprendizaje es implementado por el sistema en sí mismo, es decir, no requiere una facilidad de cómputo adicional. En otras palabras, el aprendizaje es realizado en tiempo real, con lo que la red neuronal resultante es dinámica. Una desventaja del aprendizaje supervisado es el hecho de que, sin maestro, una red neuronal no puede aprender nuevas estrategias para situaciones particulares que no estén cubiertas por el conjunto de ejemplos usados para entrenar la red.
3.3.2 Aprendizaje reforzado
El aprendizaje reforzado es un aprendizaje en tiempo real consistente en un mapeado entrada-salida a través de un proceso de prueba y error diseñado para maximizar un índice de rendimiento escalar llamado señal de refuerzo.
El término de 'aprendizaje reforzado' fue acuñado por Minsky (1961) en sus primeros estudios de inteligencia artificial, y luego en teoría de control por Waltz y Fu (1965). Sin embargo, la idea básica de 'refuerzo' tuvo sus orígenes en estudios experimentales de aprendizaje animal en psicología (Hampson, 1990). En este contexto, es particularmente llamativo hacer referencia a la ley de efecto de Thorndike (1911):
"De varias respuestas obtenidas ante la misma situación, aquellas que son acompañadas o seguidas inmediatamente de una satisfacción para el animal, estarán más conectadas con esta situación, de forma que, si ocurre la misma situación, serán más propensas a darse de nuevo; aquellas que sean acompañadas o seguidas inmediatamente por disconformidad por parte del animal, tendrán debilitadas sus conexiones con esta situación, de forma que, si
ocurre la misma situación, serán menos propensas a ocurrir. A mayor satisfacción o disconformidad, mayo fuerza o debilidad del vínculo."
Aunque no puede decirse que este principio proporcione un modelo completo de comportamiento biológico, su simplicidad y su planteamiento de sentido común hacen que sea una regla de aprendizaje influyente. En realidad, podemos reescribir la ley de efecto de Thorndike para ofrecer la siguiente definición de aprendizaje reforzado:
"Si una acción llevada a cabo por un sistema de aprendizaje es seguida por un estado satisfactorio, entonces la tendencia del sistema para producir esa acción particular es reforzada. Si estuviéramos en la situación opuesta, la tendencia del sistema a producir esa acción es debilitada."
El paradigma de aprendizaje reforzado puede ser de dos tipos: 1. Aprendizaje reforzado no asociativo.
Aquí, el sistema de aprendizaje tiene la tarea de seleccionar una única acción óptima más que asociar diferentes acciones a diferentes estímulos. En este problema de aprendizaje el refuerzo es la única entrada que recibe el sistema de aprendizaje de su entorno. El aprendizaje reforzado no asociativo ha sido estudiado como una función de optimización bajo la protección de algoritmos genéticos.
2. Aprendizaje reforzado asociativo.
En este caso, el entorno proporciona formas adicionales de información además del reforzamiento. Aquí, se debe aprender un mapeado en la forma de asociación de estímulos con acciones. El aprendizaje reforzado asociativo es el representado mayoritariamente por investigación en redes neuronales. En el contexto de aplicación, está unido a teoría de control óptima.
3.3.3 Aprendizaje no supervisado
En el aprendizaje no supervisado o auto-organizado no hay maestro externo para supervisar el proceso de aprendizaje, como podemos ver en la figura (2.3), en la que se representa el diagrama de bloques del aprendizaje no supervisado. En otras palabras, no hay ejemplos específicos de la función que ha de ser aprendida por la red. En su lugar, tenemos una medida independiente de la tarea de la calidad de representación que la red requiere aprender, y los parámetros libres de la red se optimizan respecto a esa medida. Una vez que la red se ha sintonizado a las regularidades estadísticas de los datos de entrada, se desarrolla la habilidad para formar representaciones internas de características codificadas de la entrada y, por tanto, crear nuevas clases automáticamente.
Figura 3.4 Diagrama de bloques del aprendizaje no supervisado