SAR Systems
6.3 Simulation Results and Bit Rate Optimization
El condicionamiento operante es, según la mayor parte de los especialistas, una modalidad del condicionamiento instrumental. En sentido estricto, se trata de un proceso en el cual la frecuencia con que se produce una conducta depende de las consecuencias que tiene esa conducta. Si las consecuencias son agradables, la conducta tenderá a repetirse; si la conducta es desfavorable, la conducta tenderá a desaparecer. Es una versión de la ley del efecto de Thorndike que, en versión de Skinner, será la ley del refuerzo.
En sentido más amplio, el condicionamiento operante constituye una verdadera comente psicológica protagonizada por Skinner, que acentúa el análisis experimental y el carácter determinista de la conducta. Skinner afirma que la conducta humana está determinada y que los únicos determinantes que pueden ser analizados experimentalmente son los determinantes ambientales. Estudiar la conducta experimentalmente es estudiar los factores ambientales de los cuales depende (o es una función) la conducta humana. Se distinguen dos determinantes de la conducta, contemporáneos e históricos.
Los determinantes contemporáneos o actuales de la conducta se pueden analizar experimentalmente mediante la observación y la experimentación. Los determinantes históricos son más difíciles de espe-cificíur, pero sabemos que si un cambio en la experiencia conduce a un cambio en la conducta, la primera es un reflejo de la segunda.
La respuesta o conducta operante (propia del condicionamiento operante) difiere claramente de la conducta respondiente (propia del condicionamiento clásico de Pavlov). La conducta respondiente es innata, producida por tanto necesariamente por el estímulo que le precede. Se trata, por lo general, de respuestas reflejas que tienen una misión protectora respecto a la supervivencia del animal (un soplo de aire hace bajar el párpado). Además,'la relación entre estímülo-respuesta es necesaria y está basada en la estructura heredada del organismo. En este caso, la frecuencia con que se produce esta conducta depende sólo de la frecuencia con que se presenta el estímulo evocador, de manera que para aumentar o reducir la frecuencia de esta conducta basta con aumentar o reducir la frecuencia del estímulo. Por otra parte; las consecuencias que tiene la conducta no tienen influencia sobre esa misma conducta.
Por el contrario, la conducta operante no es provocada necesariamente por el estímulo, sino que es emitida por el organismo de forma espontánea: correr, volar, comer, salir, son conductas operantes. Se puede llamar por tanto conducta operante a cualquier conducta espontánea que emite el organismo sin ser provocada por un estímulo determinado del ambiente. Y se llama operante, porque opera o produce algún efecto en el ambiente. Abrir la puerta o descolgar el teléfono son conductas operantes, porque operan en el ambiente produciendo un efecto, el refuerzo que, en el caso de la puerta, es la visita que esperábamos, y en el caso del teléfono, oírla voz del amigo. Al ir seguida la operante de un refuerzo, la obtención de éste se hace funcionalmente dependiente de la conducta operante y aprendemos que, para recibir la visita agradable, tenemos que abrir la puerta. Frente a la conducta respondiente, unas operantes ocurren más frecuentemente que otras, pero la frecuencia está influida, en gran parte, por las consecuencias que esa conducta produce (por los efectos que le siguen), de carácter positivo o negativo.
Después de analizar la naturaleza de la respuesta o conducta operante, y las diferencias entre la conducta operante y la conducta respondiente, conviene señalar la naturaleza y la función de los estí- mulos. En la conducta respondiente intervienen, como ya hemos señalado, los estímulos elidíanles o evocadores que preceden a las respuestas o conductas y evocan respuestas relativamente fijas y estereotipadas. En el condicionamiento operante interesan especialmente los estímulos reforzantes y discriminad vos.
Los estímulos reforzantes son sucesos ambientales que van detrás de la respuesta e incrementan la probabilidad de que estas respuestas (operantes) ocurran en la conducta futura del organismo. Los estímulos discriminativos acompañan o preceden a las respuestas, y aumentan la probabilidad de las respuestas operantes que han sido reforzadas en el pasado en presencia de los mismos estímulos discriminativos.
Cuando suena el timbre del teléfono, por ejemplo, estamos en presencia de un estímulo discriminativo que nos indica que el teléfono puede ser contestado, pero no obliga a contestar, no provoca necesariamente la respuesta,
como lo hace el estímulo elicitante. La respuesta al teléfono es una conducta operante que conduce a la conversación telefónica, al refuerzo.
El proceso de condicionamiento es extremadamente simple, tanto cuando se realiza en la vida diaria como cuando se provoca en situaciones de laboratorio, es decir, la caja de Skinner. Concretamente, en esta caja hay una palanca (o un disco) que, al ser apretada (conducta operante), hace caer la comida (estímulo reforzante). El proceso tiene, por lo general, dos partes; en la primera se aprende o constituye la operante, y en la segunda se consoli da. Cuando se introduce, por ejemplo, una paloma en la situación experimental, hay que esperar a que el animal accione la palanca (presione la operante) para facilitar la comida. Como este proceso o aprendizaje puede llevar mucho tiempo, conviene acelerar la constitución de la operante mediante el método llamado de aproximaciones sucesivas (shaping) o moldeamiento, es decir, facilitando la comida cada vez que el animal se acerca a la palanca o se sitúa en la dirección correcta, logrando así llevarle hasta ella y hacer que la presione.
Una vez que la operante está ya constituida, y el animal ha aprendido a presionar la palanca (operante) para obtener la comida, puede entrar en juego el estímulo discriminativo, ordinariamente una luz que permanece encendida siempre que este dispositivo de la comida está en funcionamiento, y apagada cuando el dispositivo no funciona. De esta forma, el animal aprenderá a operar la palanca cuando la luz esté encendida (porque detrás de la operante -presión de la palanca aparecerá la comida) y a no presionarla cuando la luz esté apagada.
Conviene tener en cuenta que mientras en él condicionamiento clásico la conducta es provocada por el estímulo (presentado por el experimentador), en el condicionamiento operante es el refuerzo, experimentado consecuentemente a la exteriorización de una forma de comportamiento, lo que ocasiona la repetida aparición de la conducta que precede a dicho refuerzo.
Las leyes del condicionamiento operante son semejantes a las del condicionamiento clásico ya descritas. Los procesos de adquisición del condicionamiento operante son, sin embargo, más sensibles que los del condicionamiento clásico al incremento del refuerzo. Los procesos de generalización y discriminación se producen en condiciones semejantes. Respecto a la extinción, la operante es menos extinguible y tiene una mayor flexibilidad, como se puede comprobar por las múltiples formas en que el animal puede realizar la operante -presionar la palanca —, mientras que la respuesta clásica es una respuesta uniforme y estereotipada. Pero, al igual que en el condicionamiento clásico, la tasa de respuesta disminuye con el alejamiento del refuerzo. También se produce una recuperación espontánea. Si hay un período de descanso después de la extinción, el sujeto comenzará a emitir la conducta operante espontáneamente, es decir, comenzará a presionar la palanca.
• Contracondicionamiento
El contracondicionamiento implica establecer una respuesta instrumental nueva incompatible con la respuesta no deseada. Por ejemplo, algunos niños tienden a llorar mucho más que otros, incluso . aunque tengan buena salud y estén atendidos por sus padres. En algunos casos, los padres pueden reforzar indirectamente el llanto sin darse cuenta de ello. Entonces, una manera de reducir el llanto excesivo podría ser reforzar una respuesta que sea in- compatible con el llanto. Por ejemplo, sonreír y llorar al mismo tiempo es difícil. Si los padres refuerzan tantas instancias de sonrisa como sea posible :.en el niño, es probable que la sonrisa del niño aumente con frecuencia. A
causa de la incompatibilidad de la sonrisa con el llanto; la frecuencia del llanto disminuirá. De hecho, la reducción del llanto en los niños por contracondicionamiento de la respuesta de sonrisa está perfectamente demostrada.
• Programa de refuerzos
Un capítulo importante del condicionamiento operante es aquel que se refiere a los programas de refuerzos. Los refuerzos pueden ser positivos o negativos. Refuerzo positivo es aquel que el sujeto busca y, una vez encontrado, trata de mantener; refuerzo negativo es aquel que el sujeto rechaza o elimina. El refuerzo puede ser primario o secundario. Refuerzo primario (innato o inaprendido) es el que refuerza o aumenta la probabilidad de una respuesta por sí mismo, sin haber tenido que ser condicionado para ello. El refuerzo secundario (o condicionado) es aquel que no lo es originalmente, sino que adquiere su capacidad reforzadora a través de su asociación repetida con el reforzador primario. La alabanza, por ejemplo, es un caso típico de refuerzo secundario. Las palabras que los padres usan para alabar a un niño pueden ser reforzantes porque los padres las han usado mientras premiaban al niño de otra manera en el pasado; por ejemplo, la madre puede haber dicho «buena chica* mientras alimentaba a su hija. Al principio, las palabras «buena chica» pueden haber sido un estímulo neutro, pero después de haber sido asociadas consistentemente con reforzadores primarios biológicos como la comida, pueden funcionar como un reforzador positivo.
El refuerzo se llama generalizado cuando ha estado asociado con varios reforzadores primarios. La ventaja del reforzador generalizado, como el dinero, por ejemplo, es que, debido a su múltiple historia de refuerzo, es capaz de
reforzar al organismo aun cuando el individuo no se encuentre en situación de penuria, mientras que los refuerzos no generalizados sólo refuerzan cuando el sujeto está afectado de esa necesidad.
Se llama programa de refuerzos a la forma de distribuir los refuerzos que siguen a la respuesta en una situación experimental. El refuerzo puede suministrarse, en primer lugar, de forma continua (cada vez que se produce una respuesta)* o intermitente (sólo se refuerzan algunas respuestas). El refuerzo intermitente tiene mayor fuerza que el continuo, pues hace que la respuesta sea más estable y más resistente a la extinción. El refuerzo continuo, por su misma naturaleza, puede saciar. El refuerzo intermitente se puede suministrar en función del tiempo, o en función de las respuestas que hace el sujeto. Cuando el refuerzo se suministra en función del tiempo, puede adoptar dos modalidades: un programa de intervalo fijo o un programa de intervalo variable.
Intervalo fijo. En el programa de intervalo fijo, el refuerzo se suministra a intervalos regulares (cada minuto, cada 10
minutos), indiferentemente de la tasa de respuestas del sujeto, con tal de que dé al menos una respuesta correcta. Si el programa es, por ejemplo, de un minuto, después del primer refuerzo tiene que transcurrir un plazo de un minuto antes de reforzar de nuevo las respuestas y, una vez transcurrido este plazo, se refuerza la primera res - puesta que se produce, comenzando a contar de nuevo un intervalo de un minuto hasta que se sumi nistre el refuerzo siguiente. Así se pagan muchos salarios, al fin de cada semana o cada mes.
Intervalo variable. Los intervalos de este tipo de programa no son fijos, sino variables, de forma que los períodos
pueden ser cortos p largos, pero en conjunto tienen un valor promedio. Por ejemplo, el programa de intervalo variable de 2 minutos puede estar organizado en períodos de 50, 100, 130, 140, 180 segundos. El sujeto recibiría el refuerzo después de 50 segundos; luego, pasados otros 100 segundos; más tarde, pasados 130 segundos, de manera que no se pueda adivinar la secuencia ni cuándo va a caer el refuerzo. Ahora bien, todos estos períodos tienen un valor promedio de 2 minutos. Las respuestas condicionadas que siguen este tipo de programa son difíciles de extinguir, como ocurre en algunos tipos de refuerzo social o personal conocidos.
Razón fija. En el programa de razón fija, el refuerzo no depende del tiempo, sino de las respuestas que da el sujeto.
Si queremos reforzar a un sujeto, por ejemplo, cada 10 respuestas, la razón de respuestas reforzadas respecto a las no reforzadas es de 1 a 10; esto quiere decir que, una vez suministrado el refuerzo, éste no se vuelve a repetir hasta que el sujeto no haya completado otras 10 respuestas. El comisionado que gana un porcentaje de las ventas que consigue seguiría este sistema de gratificación. Se utiliza este sistema de pago abundantemente en los trabajos profesionales, en algunas empresas y en la educación. Ahora bien, este tipo de programa puede producir una disminución del interés, una vez que se ha completado una tarea, un informe o un contrato.
Conducta supersticiosa
Se llama conducta supersticiosa a la conducta que se produce como una consecuencia de refuerzos accidentales, es decir, la conducta que continúa aun cuando no esté verdaderamente relacionada con el refuerzo. Muchas personas realizan conductas supersticiosas, como cruzar los dedos para tener suerte, adoptar diversas posturas corporales o expresiones faciales estereotipadas; todas estas conductas se mantendrán si van siendo reforzadas por un programa de refuerzo parcial. El origen de estas conductas está en un refuerzo que el sujeto recibe justamente cuando está emitiendo una respuesta sin que haya ningún tipo de relación entre refuerzo y respuesta. El jugador que un buen día obtiene un gran éxito vuelve a ponerse la camiseta que llevaba ese día, pensando que esa camiseta le traerá buena suerte, y cada vez que se repita el éxito llevando la camiseta, reforzará esa conducta supersticiosa. Es esta asociación accidental entre éxito y determinados objetos o conductas lo que lleva a muchas personas a realizar verdaderos rituales o mecanismos, a llevar determinadas prendas o amuletos de la suerte o, negativamente, a evitar objetos, actividades o conductas qué podrían comprometer su éxito en la vida.
Los animales también pueden adquirir conductas supersticiosas, como Skinner ha demostrado con las palomas a las que alimentaba cada 15 segundos sin tener en cuenta lo que estuvieran haciendo. Cuando una paloma recibía la comida mientras estaba saltando, relacionaba esa actividad con la comida, y más tarde esperaba la comida saltando, en la seguridad de que ése era el remedio infalible para conseguirla. Estas asociaciones accidentales han constituido la base de muchas curas no científicas.
Razón variable. De la misma manera que se puede variar el tiempo, se puede variar también la razón, a ñn de
evitar el cansancio o el agotamiento. El programa de razón variable suministra el refuerzo siguiendo un número variable de respuestas, de manera que el tamaño de la razón va cambiando al azar, ensayo a ensayo, pero siempre en torno a un promedio determinado.
Por ejemplo, después que una respuesta ha sido reforzada, se podría exigir que el sujeto diera 12 respuestas, y se aplica el refuerzo; 13, y se aplica el refuerzo; y así sucesivamente después de 18,27 y 30 respuestas. El número de
respuestas promedio requerido, en este caso, es de 20, y la razón es de 1:20. Este es el sistema de las máquinas tragaperras. El cliente sabe que la máquina está programada para pagar de acuerdo con un tipo de promedio que a la larga dará dinero a la casa, pero que ocasionalmente hace grandes pagos; por eso sigue jugando, en la esperanza de alcanzar alguno de ellos.
• Indefensión aprendida
Hace unos años, Seligman30 descubrió un inesperado y sorprendente fenómeno mientras realiza->a unos
experimentos con los perros a los que estaba dando condicionamiento clásico con unos tonos seguidos de descargas eléctricas moderadamente dolorosas, aunque no producían daño físico. En realidad, ninguna respuesta voluntaria del animal podía afectar a la descarga eléctrica, ya que su comienzo, duración y terminación estaban determinados por el experimentador. Eran, pues, descargas de las que no podía escapar el animal. Después de esta experiencia, colocó a los perros en una caja de vaivén, una cámara de dos compartimientos, en la que cuando un perro salta una barrera, pasando de un lado a otro de la caja, hace cesar la descarga y escapa de ella. Es el modelo clásico de condicionamiento de escape. El salto puede evitar también descargas, si se produce antes de que ésta comience; en este caso, el modelo de condicionamiento es de evitación. Se pretendía en realidad hacerles aprender la conducta de evitación de la descarga.
En condiciones normales, lo que ocurre es que el animal aprende esa conducta, al princiipio, por en sayo y error y, luego, sistemáticamente, el animal se sitúa sobre la barrera y, al percibir la señal de la descarga, la salta y no vuelve a recibir más descargas. Sin embargo, en esta ocasión, uno de los perros que antes había recibido descargas de las que no podía escapar adoptó una conducta totalmente diferente: corrió desesperadamente durante 30 segundos, se quedó quieto, se tumbó y comenzó a gemir suavemente. Pasado un minuto, se retiró la descarga; el perro no había cruzado la barrera y no había escapado de la descarga. Al siguiente ensayo, el perro volvió a hacer lo mismo. El perro no trató de escapar a la descarga en ninguno de los siguientes ensayos.
Estas pruebas demuestran que en un organismo que ha experimentado una situación traumática que no ha, podido controlar, su motivación para responder a posteriores situaciones traumáticas disminuye. Es más, aunque responda y la respuesta le consiga liberar de la situación, le resulta difícil aprender a percibir y creer que aquélla ha sido efi - caz. Su equilibrio emocional queda además perturbado, y varios índices revelan un estado de depresión y ansiedad. Este es el cuadro que Seligman llamó de indefensión aprendida. Es la convicción que tiene el animal o la persona de que ha perdido el control, de que el destino no está en sus manos, de que nada de lo que haga podrá cambiar su vida. Esta desmoralización se observa en gatos, ratas, primates y también en los seres humanos y hasta en las instituciones. Lo que provoca la indefensión aprendida es la creencia de que no se puede hacer nada para cambiar las cosas. Claro está que cuando se conocen las reglas del aprendizaje de la conducta también se conocen las leyes para extinguirla. Los perros llegaron a aprender aquello que podía detener las descargas, consiguiéndose recuperaciones completas y duraderas.
Los resultados de Seligman confirman igualmente que los perros qué habían pasado diez pruebas en las que podían escapar de las descargas, no padecían después él estado de indefensión, y también que los perros que habían crecido en jaulas en las que no controlaban prácticamente ningún aspecto de su vida eran más susceptibles a la indefensión que otros perros. Esto puede tener una gran importancia en la vida de los seres humanos y el proceso de socialización, ya que si se quiere educar a los niños para que realicen el máximo esfuerzo por mejorar su situación en la vida, debe infundirse en ellos enseguida la creencia de que pueden hacerlo. Por eso los padres deberán tener una gran sensibilidad para responder a las necesidades objetivas de los niños a través de las señales o claves que ellos misinos ofrecen. Por ejemplo, cuando el bebé llora, los padres deberían tomar al niño y darle de comer, o cambiarle de ropa, mostrando así al niño que puede mejorar su situación actual; lo mismo pasa con los adultos. Los seres humanos aprenden a través de sus experiencias diarias. Cuando el aprendizaje les enseña que tienen poco control sobre su vida, puede apoderarse de ellos un sentimiento de desaliento o indefensión. Cuando ven que son capaces de cambiar o mejorar su situación, se sienten animados y motivados a disfrutar de la vida.