Convergence scenarios - Multi-core parallelism in a column-store

5.4 Algorithm

5.4.3 Convergence scenarios

Ione Esquer Terrazas

Un programa de reforzamiento es un programa o regla, que determina cómo y cuando la ocurrencia de una respuesta irá seguida de un reforzador. Influye tanto en la forma de aprender una respuesta instrumental como en la forma en que se mantiene por el reforzamiento.

Programas simples de reforzamiento intermitente Programas de razón

El reforzamiento depende sólo del número de respuestas que el organismo realiza. Si este número es uno, este tipo de programa se denomina reforzamiento continuo (RFC).

Las situaciones en las que la respuesta se refuerza sólo alguna vez involucran un reforzamiento parcial o intermitente. Razón fija

Hay una razón fija entre el número de respuestas que la rata realiza y el número de reforzadores que consigue. Un programa de reforzamiento continuo constituye también un programa de razón fija.

En un programa de reforzamiento continuo, los organismos suelen responder a una tasa constante pero moderada. Solo se dan pausas breves e impredecibles.

El problema es que se da una tasa constante y alta una vez que la conducta se ha iniciado, pero se puede tardar un tiempo antes de comenzar, el número requerido de respuestas.

La tasa cero de respuesta que se observa justo después del reforzamiento se denomina pausa posreforzamiento. La tasa de respuesta alta y estable que completa cada requerimiento de la razón se denomina carrera de razón. Si el requerimiento de la razón sufre un incremento súbito y significativo es probable que el animal realice una pausa periódica cada vez que complete la razón requerida; tensión de la razón.

La pausa postreforzamiento se da en los programas de razón fija, y sucede siempre que se requerir un número de respuestas predeciblemente alto para producir la recompensa siguiente.

Razón variable

Procedimiento en el que se necesita un número de respuestas distinto para la entrega de cada recompensa. Los programas de razón variable se encuentran en la vida cotidiana siempre y cuando se requiera una cantidad impredecible de esfuerzo para obtener un reforzador.

Las pausas predecibles en la tasa de respuesta son menos probables con los programas de RV que con los programas de RF.

Los organismos suelen responder a una tasa claramente estable en los programas de RV.

La tasa global de respuesta en los programas de RF y RV es similar siempre y cuando, como promedio, se requieran números similares de respuestas.

Se observa un patrón más estable de respuesta con los programas RV. Programas de intervalo

Las respuestas son reforzadas sólo si ocurren cuando ha transcurrido una cierta cantidad de tiempo. Intervalo fijo

Una respuesta se refuerza sólo si se da después de que haya transcurrido un tiempo desde la última entrega del reforzador.

El tiempo establecido no varía de una ocasión a la siguiente.

Se dan en situaciones donde se requiere una cantidad fija de tiempo para dispensar el reforzador.

A medida que el tiempo para la disponibilidad del próximo reforzador, se acerca, la tasa de respuesta aumenta. Este aumento en la tasa de respuesta se manifiesta como una aceleración en el registro acumulativo hacia el final del IF. El patrón de respuesta que se desarrolla con los programas de reforzamiento de IF se denomina festón del intervalo fijo.

La pausa posreforzamiento y la aceleración posterior hacia el final del intervalo reflejan una habilidad rudimentaria para contar el tiempo.

El intervalo determina sólo cuando el reforzador está disponible, no cuando se entrega. Intervalo variable

Las respuestas se refuerzan si se dan tras haber transcurrido un intervalo variable desde la administración del reforzador previo (o desde el comienzo del programa).

Los programas de intervalo variable se hallan en situaciones donde se requiere una cantidad de tiempo impredecible para preparar o dispensar el reforzador.

Como en los programas de intervalo fijo, el sujeto en los programas de IV tiene que realizar la respuesta instrumental para obtener el reforzador.

Como los programas de razón variable, los programas de IV mantienen tasas de respuesta constantes y estables sin pausas regulares.

El tipo de restricción en cuando al tiempo que permanece el reforzador disponible se denomina; espera limitada. Comparación de los programas de razón y de intervalo

Tanto los programas de razón fija como los de intervalo fijo producen una pausa posreforzamiento después de la administración de cada reforzador.

Tanto los programas de RF como los de IF producen altas tasas de respuesta justo antes de la administración del siguiente reforzados.

DOMJAM – Programas de reforzamiento y conducta de elección – --

Tema 16. Programas de reforzamiento y conductas de elección

Ione Esquer Terrazas Los programas de razón variable y de intervalo variable mantienen tasas estables de respuesta, sin pausas predecibles. La conducta mantenía por programas de intervalo está medida por el sentido temporal del organismo.

La primera evidencia sobre las diferencias fundamentales entre los programas de razón y de intervalo fue proporcionada por un importante experimento de Reynolds.

Reforzamiento diferencial del tiempo interrespuesta

Los programas de razón son capaces de producir tasas de respuesta más altas que los programas de intervalo. El intervalo entre una respuesta y la siguiente se denomina tiempo interrrespuesta (TIR).

Un programa de razón favorece que no se espere mucho entre las respuestas, favorece tiempos interrespuesta cortos.

Los programas de intervalo no favorecen los tiempos interrespuestas cortos, sino una ejecución con TIRs largos.

Los programas de intervalo favorecen específicamente TIRs largos y esto deriva en tasas de respuesta más bajas que las que se observan en los programas de razón.

Programas de reforzamiento de tasas de respuesta

Los programas de tasas de respuesta requieren específicamente que el organismo responda a una tasa particular para obtener el reforzador.

Reforzamiento diferencial de tasas altas; una respuesta se refuerza sólo si ocurre antes de que haya transcurrido cierta cantidad de tiempo tras la respuesta precedente.

Reforzamiento diferencial de tasas bajas; se consigue el resultado opuesto si se refuerza una respuesta sólo si ocurre después de que haya transcurrido cierta cantidad de tiempo desde la respuesta previa. Fomentan que los sujetos respondan lentamente.

Conducta de elección; programas concurrentes

Skinner; investigación sobre conducta de elección en los laberintos T.

Programa concurrente; cuando dos programas funcionan al mismo tiempo (o concurrentemente) y el sujeto es libre de cambiar de una tecla de respuesta a la otra.

Medidas de la conducta de elección

La conducta de elección de un individuo en un programa concurrente se refleja en la distribución de su conducta entre dos respuestas alternativas. Una técnica común es calcular la tasa relativa de respuesta de cada alternativa.

La forma en que un organismo distribuye su conducta entre las dos alternativas de respuesta está muy influida por el programa de reforzamiento de cada respuesta.

La ley de la igualación

Hernstein estudió los efectos de varios programas concurrentes IV-IV. La tasa relativa de respuesta en una alternativa dad estaba siempre muy cercana a igualar la tasa relativa de reforzamiento logrado en esa alternativa.

Ley de igualación; la tasa relativa de respuesta en una alternativa se iguala con la tasa relativa de reforzamiento en esa alternativa.

Incluso las situaciones de respuesta única pueden involucrar una elección. La elección es entre realizar la respuesta especificada y ocuparse en otras posibles actividades.

Infraigualación, supraigualación y sesgo de respuesta

La ley de igualación indica claramente que las elecciones no se hacen de forma caprichosa; son una función ordenada de las tasas de reforzamiento.

Infarigualación; sensibilidad reducida de la conducta de elección a las tasas relativas de reforzamiento. Supraigualación; la tasa de relativa de respuesta es más sensible a la tasa relativa de reforzamiento de lo que se predice para una igualación perfecta.

Mecanismos de la ley de la igualación

La ley de la igualación describe cómo los organismos distribuyen sus respuestas en una situación de elección per no explica que mecanismos responsables de esta distribución de respuesta.

Igualación y maximización de las tasas de reforzamiento

Los organismos distribuyen sus acciones entre las alternativas de respuesta para recibir la máxima cantidad de reforzamiento posible en la situación. Los animales cambian una y otra vez entre las alternativas para recibir tantos reforzadores como les sea posible.

Elección con compromiso

En un programa concurrente de reforzamiento estándar, dos o más alternativas de respuesta están disponibles al mismo tiempo, y se puede alternar de una a otra en cualquier momento.

Para tomar la decisión se necesita considerar metas a largo plazo.

Se dice a la gente que carece de autocontrol si elige una recompensa pequeña a corto plazo en lugar de esperar para conseguir un beneficio mayor pero más demorado.

Programas concurrentes encadenados

La técnica básica en esta área de investigación es el programa concurrente encadenado de reforzamiento. Involucra al menos dos fases; una de eslabón de elección y una de eslabón terminal.

Tema 16. Programas de reforzamiento y conductas de elección

Ione Esquer Terrazas Los estudios de este tipo han mostrado que los sujetos prefieren la alternativa de razón variable. La consecuencia inmediata de una respuesta en un eslabón inicial es un estímulo que está asociado con el eslabón terminal elegido.

La opinión consensuada es que la conducta de elección está gobernada tanto por los programas del eslabón terminal como por cualquier programa que funcione en el enlace inicial.

Estudios de autocontrol

Experimento de Rachlin y Green. Las preferencias cambian a favor de cualquier recompensa grande demorada si se requiere que los participantes esperen más tiempo para recibir cualquier recompensa tras realizar su elección.

Si las recompensas se entregan rápidamente tras una respuesta de elección, los sujetos generalmente prefieren una recompensa pequeña inmediata más que una recompensa grande demorada.

Sin embargo, si se añade una demora constante a la entrega de ambas recompensas, es más probable que los individuos muestren autocontrol y prefieran la recompensa grande demorada.

Explicaciones del autocontrol

El valor de un reforzador se reduce en función de cuánto tiempo se tiene que esperar para obtenerlo. La función matemática que describe esta disminución en el valor se denomina función descontadora del valor.

Si el reforzador es entregado sin demora, el valor del reforzador está directamente relacionado con su magnitud.

Cuanto más se demora el reforzador, menor es su valor.

Incrementar la demora de las recompensas grande y pequeña hace más fácil que se muestre autocontrol seleccionando el reforzador más grande pero con más demora.

Las funciones descontadoras y los problemas de autocontrol en la adicción a la droga

Las funciones descontadoras de la recompensa eran mucho más acusadas para los adictos a la heroína. Esta función acusada del descuento de la recompensa indica una falta de control y por tanto, impulsividad.

¿Puede entrenarse el autocontrol?

Algunos han sugerido que el autocontrol es un componente crítico de la socialización y del ajuste emocional. Entrenar a las personas con recompensas demoradas parece tener efectos generalizados en incrementar su tolerancia a la recompensa demorada.

TERMINOS CLAVE

Carrera de razón; tasa de respuesta alta y estable que se observa tras la pausa posreforzamiento en los programas de reforzamiento de razón fija. La carrera de razón finaliza cuando se ha llevado a cabo el número necesario de respuestas y el sujeto es reforzado.

Espera limitada; restricción en cuánto tiempo permanece disponible el reforzamiento. Para que una respuesta sea reforzada, debe ocurrir durante el periodo de espera limitada.

Festón del intervalo fijo; incremento gradual de la tasa de respuesta que ocurre entre reforzamientos sucesivos en un programa de intervalo fijo.

Función descontadora del valor; función matemática que describe cómo disminuye el valor del reforzador en función del tiempo que el sujeto tiene que esperar para la administración del reforzador.

Infraigualación; sensibilidad menor de la predicha por una igualación perfecta a la tasa relativa de reforzamiento. Supraigualación; sensibilidad mayor de la predicha por una igualación perfecta a la tasa relativa de refrozamiento. Ley de la igualación; regla de la conducta instrumental propuesta por Hernstein que establece que la tasa relativa de respuesta en una alternativa de respuesta particular es igual a la tasa relativa de reforzamiento para esa alternativa de respuesta.

Mejoramiento; mecanismos para alcanzar la igualación respondiendo para mejorar las tasa locales de reforzamiento en las alternativas de respuesta.

Pausa posreforzamiento; pausa en el responder que sucede normalmente tras la administración del reforzador en los programas de reforzamiento de razón fija e intervalo fijo.

Tensión de la razón; deterioro en la respuesta que sucede cuando el requerimiento de respuesta de una razón fija se incrementa demasiado rápido.

Tiempo de respuesta o TIR; intervalo entre una respuesta y la siguiente. Los TIRs pueden ser diferencialmente reforzados de la misma manera que otros aspectos de la conducta, como la fuerza de la respuesta o la variabilidad.

In document Multi-core parallelism in a column-store (Page 107-109)