4.2 AN EMPIRICAL STUDY OF SYSTEMATIC OBJECT-ORIENTED
4.2.7 Interpretation of Results
La aparición de las RNA ha estado vinculada a las investigaciones del sistema nervioso biológico, en especial el humano. El elemento de procesado del sistema nervioso es la neurona y, por tanto, su fisonomía es una de las claves que permiten que el cerebro exhiba esas propiedades tan interesantes. En 1888 Ramón y Cajal, gracias a sus aportaciones a la teoría reticular, demostró que el cerebro está compuesto, en realidad, por una red de células (neuronas), compuestas de axones, somas y dendritas. Más tarde postuló que las neuronas, como células altamente especializadas, determinan la dirección de transmisión de la información dentro del sistema nervioso. De esta forma concibió el cerebro como un órgano altamente complejo, paralelo y jerarquizado.
Alan Turing, en 1936, fue el primero en estudiar el cerebro como una forma de ver el mundo de la computación, sin embargo no fue hasta que en 1943 W.McCulloch, neurofisiólogo, y W.Pitts, matemático, dieron una teoría acerca de la forma de trabajar de las neuronas y constituyeron los fundamentos de la computación neuronal. Confeccionaron el primer prototipo de neurona artificial, un modelo muy simple pero que contenía todas las características básicas de las neuronas. Ambos demostraron que mediante combinaciones de sus neuronas se podía construir cualquier función lógica.
Una de las primeras aportaciones importantes en el aprendizaje de los sistemas biológicos fue proporcionada por D. Hebb en 1949. Poco tiempo antes se había descubierto que la transmisión de información, dentro del sistema nervioso, tiene lugar en las uniones o sinapsis entre neuronas. Hebb propuso que el reforzamiento de la sinapsis entre dos neuronas era proporcional a la actividad de la conexión: “… cuando un axón presináptico causa la activación de cierta neurona postsináptica, la eficacia de la sinapsis que las relaciona se refuerza”[136].
El trabajo experimental posterior ha confirmado en parte esta teoría demostrando la presencia de este tipo de aprendizaje en la neurona biológica aunque
en coexistencia con otros esquemas. Esta regla de aprendizaje, en principio obtenida en el campo biológico, ha resultado muy útil para resolver determinados problemas tecnológicos.
Fue necesario esperar hasta 1957 para que F.Rosenblatt construyera el Perceptrón, la primera red neuronal artificial con proyección comercial, basándose en la estructura y funcionamiento de las neuronas receptivas de la retina. Su primera aplicación fue la clasificación de patrones visuales. El Perceptrón simple (Figura 15) estaba constituido por una sola neurona que, a diferencia de la neurona de McCulloch que tenía arquitectura fija, permitía adaptarse a diferentes tareas modificando las conexiones de las entradas gracias a un algoritmo ideado por el propio Rosenblatt[137].
Figura 15. Esquema del perceptrón.
En 1959, B.Widrow y M.Hoff desarrollaron una variante del Perceptrón al que dieron el nombre de ADALINE (ADAptative Lineal Neuron). Modificaba sus conexiones en función de la tarea a realizar mediante un nuevo algoritmo al que llamaron LMS (Least Mean Square)[138]. Su enorme potencialidad pronto se aprovechó en diferentes ambientes, especialmente en el campo de la comunicación donde se aplicó como cancelador de ecos o ecualizador de canal.
Entradas Salida
Conexiones variables
que, en 1969, Marvin Minsky y Seymour Papert publicaron Perceptrons, un famoso libro en el que demostraban la incapacidad del perceptrón simple y la adalina para resolver problemas de clasificación que no fueran separables linealmente y donde se hacía la conjetura que la extensión a varias capas de neuronas no sería de utilidad. A partir de este libro, surgieron numerosas críticas en contra de las redes que frenaron el crecimiento de las investigaciones sobre las redes neuronales.
Figura 16. Grupos no separables mediante el perceptrón lineal.
No se consiguió resolver el problema de la extensión del perceptrón simple a uno de varias capas (multicapa) y, por tanto, solucionar el problema de la separabilidad lineal (Figura 16) hasta que Werbos, en 1974, publicó un algoritmo que permitía ajustar las conexiones de las neuronas en las redes multicapa (con conexiones hacia delante). El algoritmo, muy popular en el entorno de las redes neuronales artificiales, es conocido como backpropagation. Desafortunadamente el trabajo de Werbos permaneció desconocido en la comunidad científica. En 1982 Parker redescubrió la técnica y la publicó en el Instituto de Tecnología de Massachussets. No mucho después Rumelhart, Hinton y Williams la volvieron a descubrir y la popularizaron. Es uno de los mayores avances en redes neuronales puesto que abrió el camino para lo que más tarde ha sido la red neuronal más aplicada, el perceptrón multicapa.
Otros grandes avances en el campo de las redes neuronales han llegado al intentar emular el funcionamiento y particularidades del cerebro. Una de las singularidades más relevantes de la memoria humana es la habilidad que tiene para aprender nuevos conceptos sin por ello olvidar los aprendidos en el pasado. Sin
frontera de decisión lineal
clase 1 clase 2
embargo, muchos de los modelos de redes neuronales artificiales pierden gran parte de la información aprendida cuando se les entrena por segunda vez. En 1986, con la intención de resolver este problema, que se ha dado en llamar el dilema de la estabilidad y plasticidad en el aprendizaje, Grossberg y Carpenter presentaron su red ART[139]. La idea consiste en agrupar la información de entrada en función de la similitud que presenta frente a prototipos creados por la red, creando nuevas clases si el grado de semejanza no supera cierto umbral con lo que se evita destruir categorías anteriormente creadas.
Existen muchas evidencias sobre la organización de las neuronas de forma que las informaciones captadas del entorno a través de los órganos sensoriales se representan internamente en forma de mapas bidimensionales. Es probable que parte de ella se origine mediante el aprendizaje. Por tanto, el cerebro podría poseer la capacidad inherente de formar mapas topológicos de las informaciones recibidas del exterior. Teuvo Kohonen presentó en 1982 un modelo de red neuronal, denominado SOM (Self Organization Maps), con capacidad para formar mapas de características de manera similar a como ocurre en el cerebro[140].
Otra de las redes que más repercusión ha tenido es el Neocognitrón. Es una red diseñada por K. Fukushima, en 1982, para tareas de procesado de imágenes tales como reconocimiento de caracteres. Las características que hacen esta red única es una conectividad selectiva a lo largo de sus capas jerarquizadas. Las características de la imagen de bajo nivel son detectadas en las primeras capas y combinadas para formar objetos más generales en las siguientes capas. Se ha demostrado que es capaz de reconocer objetos independientemente de su localización en una imagen, de las deformaciones o de oclusiones parciales del objeto[141].
Otro de los principales responsables del desarrollo que ha experimentado el campo de la computación neuronal ha sido J. Hopfield quien construyó un modelo de
de las ideas de la red ART y la de Hopfield para desarrollar su Adaptative Bidireccional Associative Memory (BAM), un modelo de red que emplea diferentes reglas de aprendizaje.
Una alternativa a los modelos neuronales descritos son las redes estocásticas cuya salida se obtiene de forma probabilística y con mecanismos de aprendizaje también estocásticos, basados en la idea de seleccionar de forma aleatoria valores para los pesos de las conexiones y comprobar el efecto en el rendimiento de la red. La cualidad más interesante es la capacidad para escapar de los mínimos locales gracias a su comportamiento aleatorio. La red más conocida que responde a este funcionamiento estocástico es la denominada máquina de Boltzman, ideada en 1984 por Hinton, Sejnowski y Ackley. La máquina de Cauchy, concebida por Szu (1986), es una versión mejorada de la máquina de Boltzman con una arquitectura y funcionamiento idénticos excepto en lo que concierne a la función de probabilidad y a la función de temperatura que establece el plan de templado o enfriamiento de la red[139].