Efectos de variar la probabilidad de las reversiones en descuento demorado y demora de la gratificación

Raúl Ávila; Violeta Olguín; Emmanuel Castro; Migdalia Pérez

Recepción: 13 Febrero 2018

Aprobación: 31 Mayo 2018

DOI: https://doi.org/10.5514/rmac.v44.i1.65350

Financiamiento

Fuente: PAPIIT

Nº de contrato: IN-302916

Beneficiario: Raúl Ávila

Resumen: En este estudio se averiguaron los efectos de variar la probabilidad de reforzar las respuestas de reversión en los procedimientos de descuento demorado y demora de la gratificación. Las respuestas de reversión se definieron como la primera respuesta a la opción chica inmediata durante la demora de entrega del reforzador grande. Ambos procedimientos consistieron en elecciones entre la entrega de una cantidad de agua con una demora dada o una cantidad menor de agua entregada de manera inmediata; se varió la demora de entrega del reforzador de mayor magnitud entre 0 y 32 s. En el Experimento 1 se expuso a dos grupos de cinco ratas a uno de los procedimientos en tres bloques de 25 sesiones. En el Experimento 2 se expuso a diez ratas a seis condiciones consecutivas, en las cuales se varió la probabilidad de reforzamiento de respuestas de reversión de 0.00 a 1.00. En todas las demoras probadas, se encontró que conforme aumentó la probabilidad de reforzamiento se redujo la proporción de respuestas de reversión. Estos datos sugieren que los procedimientos de descuento demorado y demora de la gratificación podrían ser parte de un continuo de probabilidad de reforzamiento de las respuestas de reversión.

Palabras clave: probabilidad de reforzamiento, descuento demorado, demora de la gratificación, ratas.

Abstract: In this experiment, the effects of modulating the probability of reinforcement of reversion responses in a delay-discounting and a delay-of-gratification procedure was assessed. Reversion responses were defined as the first response to the smaller immediate reinforcer during the delay period to obtain the larger later one. Both procedures consisted of series of choices between the delivery of a relatively large amount of water after a delay or a smaller amount of water delivered immediately; the delay of delivery of the larger reinforcer varied between 0 and 32 s. In Experiment 1, five rats were exposed to each of the procedures in three blocks of 25 sessions each. In Experiment 2, ten rats were exposed to six consecutive experimental conditions, in which the probability of reinforcement of a reversion response varied from 0.00 to 1.00. In all of the delays tested, the proportion of reversion responses decreased as the probability of reinforcement of these responses increased. This finding suggests that delay-discounting and delay-of-gratification procedures are part of a continuum of the probability of reinforcement of reversion responses.

Keywords: probability of reinforcement, delay discounting, delay of gratification, rats.

Dos procedimientos que comúnmente se emplean para estudiar la conducta autocontrolada, y su antónimo la conducta impulsiva, son el de descuento demorado y el de demora de la gratificación. En el primero se expone a los sujetos, en ensayos de una duración dada a elecciones entre pares de reforzadores que difieren en magnitud y demora de entrega. Así, una de las elecciones resulta en la entrega de un reforzador relativamente chico después de un periodo de tiempo corto (usualmente cero segundos), seguida por un tiempo fuera hasta que está disponible el siguiente ensayo de elección. En contraste, la otra elección resulta en la entrega de un reforzador relativamente grande y demorado; en este caso la duración de la demora generalmente es igual a la duración del ensayo de elección. Este procedimiento se caracteriza como uno de elección con “compromiso” porque en cada ensayo de elección, una vez que el sujeto elige uno de los dos reforzadores, no puede cambiar su elección hasta que se inicie el siguiente ensayo (e.g., Rachlin, 2000; Rachlin, & Green, 1972).

El procedimiento de descuento demorado ha permitido estudiar el descuento del valor subjetivo de un reforzador en función de la demora. Para estimar el valor subjetivo y su descuento se calcula un punto de indiferencia en varias demoras, esto es, la magnitud de la recompensa chica cuando la elección de un sujeto es indiferente entre la recompensa chica y la recompensa grande. Por lo general los puntos de indiferencia se obtienen por medio del ajuste de la magnitud de la recompensa chica dependiendo de las elecciones previas. Las tasas de descuento son descritas por la función hiperbólica (Mazur, 1987):

v = bV/(1+kD)

En la ecuación, . representa el valor descontado del reforzador, . es el valor del reforzador grande demorado, . indica la tasa de descuento del valor del reforzador, mientras que . es un parámetro que se ha utilizado recientemente para indicar el sesgo en la elección por un reforzador grande o chico (véase Reynolds, de Wit, & Richards, 2002).

Por otro lado, en el procedimiento de demora de la gratificación también se expone a un sujeto a la elección entre un reforzador chico e inmediato o uno grande y demorado pero a diferencia del procedimiento previo, si el sujeto elige el reforzador grande y demorado, durante el periodo de espera de éste, está disponible el reforzador chico e inmediato. Así, el sujeto puede “revertir” su elección; esto es, interrumpir el periodo de espera por el reforzador grande y cancelar la entrega de este último para recibir inmediatamente el reforzador chico (e.g., Mischel & Ebbesen, 1970). Este procedimiento permite estudiar la elección sostenida del sujeto, es decir, esperar por el reforzador grande demorado cuando el reforzador chico e inmediato continúa disponible.

En breve, los procedimientos de descuento demorado y de demora de la gratificación son operacionalmente similares en el sentido de que en ambos el sujeto debe elegir entre un reforzador chico e inmediato y otro grande pero demorado; sin embargo, en el primer caso la elección es “con compromiso” y en el otro pueden ocurrir respuestas de reversión.

Algunos teóricos han sugerido que estos procedimientos son equivalentes (e.g., Green, Fry, & Myerson, 1994) y que comparten los mismos procesos (e.g., Rachlin, 2000). Conforme a estas sugerencias, se han hecho algunas comparaciones entre ambos con las variables dependientes típicas de los procedimientos de autocontrol, tales como las elecciones a cada uno de los reforzadores disponibles (e.g., Forzano, Michels, Carapella, Conway, & Chelonis, 2011). En particular, Reynolds, de Wit, y Richards (2002), en un diseño de grupos, expusieron a ratas privadas de agua a un procedimiento de descuento demorado o a uno de demora de la gratificación, en los cuales los sujetos eligieron entre dos opciones que diferían en magnitud y demora de entrega de agua como reforzador. En ambos procedimientos, los sujetos tenían que introducir la nariz en un agujero, ubicado al centro de una de las paredes de la caja experimental, para iniciar un ensayo y después tenían que interrumpir uno de los fotorreceptores que estaban colocados en los accesos a dos dispensadores de agua que se encontraban a los lados del agujero central. La interrupción de cualquiera de los fotorreceptores resultaba en la entrega inmediata de un poco de agua (reforzador chico) o de una cantidad de agua relativamente mayor (reforzador grande) después de una demora. En elecciones sucesivas, la magnitud del reforzador grande se mantuvo constante, mientras que la magnitud del reforzador más chico varió conforme a un procedimiento de ajuste de la magnitud. En bloques de 25 sesiones, los autores establecieron las demoras de entrega del reforzador grande en 0, 4, 8, 16 y 32 s. Cada demora estuvo vigente una sesión en días consecutivos de forma contrabalanceada, de tal manera que en un bloque, cada una se presentó cinco veces. Así, los procedimientos de descuento demorado y de demora de la gratificación fueron similares, con la única excepción de que en el primer caso durante el periodo de demora de entrega del reforzador grande, las respuestas a la opción chica inmediata sólo se registraron y no tuvieron consecuencias programadas; en contraste, en el procedimiento de demora de la gratificación, estas respuestas resultaron en la entrega inmediata del reforzador chico. Los autores conceptualizaron las respuestas del sujeto al reforzador chico durante la demora de entrega del reforzador grande como respuestas de reversión, independientemente de si estas respuestas tenían consecuencias programadas o no.

Reynolds et al. (2002) no encontraron diferencias en las tasas de descuento en función de la demora, ni en las elecciones iniciales en ambos grupos de sujetos; sin embargo, encontraron que los sujetos expuestos al procedimiento de descuento demorado emitieron más respuestas de reversión conforme aumentó la demora de entrega del reforzador grande que los sujetos expuestos al procedimiento de demora de la gratificación. Reynolds et al. sugirieron que las respuestas de reversión en el procedimiento de descuento demorado podían estar mantenidas por reforzamiento intermitente; esto es, podía ocurrir más de una respuesta de reversión antes de la entrega del reforzador grande demorado. Por otro lado, en el procedimiento de demora de la gratificación, estas respuestas estaban mantenidas por reforzamiento continuo; en este caso la primera respuesta de reversión que ocurría durante el periodo de demora era reforzada inmediatamente.

Conforme a esta idea de reforzamiento intermitente de Reynolds et al. (2002), los procedimientos de demora de la gratificación y de descuento demorado se pueden conceptualizar como casos en los cuales la probabilidad de reforzar una respuesta de reversión es igual a 1.0 o igual a 0.0, respectivamente. Por lo tanto, el propósito de este estudio fue contribuir al análisis de ambos procedimientos a través de una variable común: la probabilidad de reforzar una respuesta de reversión, como una extensión del estudio reportado por Reynolds et al. Así, en este estudio se probó esta idea del reforzamiento intermitente de las respuestas de reversión manipulando la probabilidad de reforzar la primera respuesta por el reforzador chico inmediato durante la demora de entrega del reforzador grande.

Por las facilidades de instrumentación disponibles en el laboratorio de los autores, hubo algunas diferencias con el estudio de Reynolds et al. (2002). Por esta razón, en el Experimento 1 se condujo una replicación sistemática del procedimiento de Reynolds et al., y en el Experimento 2 se implementó la manipulación de probabilidad de reforzar una respuesta de reversión.

Experimento 1

Método

Sujetos

Se usaron 10 ratas Wistar macho sin historia experimental, de cuatro meses de edad al inicio de la investigación y se alojaron en cajas habitación individuales con acceso libre a alimento. Durante todo el experimento se mantuvo a las ratas en un régimen de privación de agua de 23 horas de lunes a jueves; esto es, al final de cada sesión experimental, los sujetos tenían acceso a agua durante una hora. Después de finalizar la sesión experimental el viernes, las ratas tenían acceso libre a agua hasta el domingo a mediodía. La mitad de los sujetos se expuso a un procedimiento de descuento demorado, y la otra mitad se expuso a un procedimiento de demora de la gratificación.

Aparatos

Para el presente estudio se emplearon dos cámaras de condicionamiento operante estándar (MED Mod. ENV-008-VP) equipadas en una de sus paredes con dos palancas de respuesta (MED Mod. ENV-110M) y un foco LED (3V) arriba de cada una. Un orificio entre las palancas, equidistante a estas, dio acceso a un receptáculo en el que se entregó agua como reforzador, por medio de una pipeta conectada a una bomba que reguló la magnitud del reforzador entregado. En la pared posterior se colocó un foco (MED Mod. ENV-215M) que sirvió como luz general de la cámara experimental y un generador de tonos de 65 dB. Cada cámara de condicionamiento operante estuvo equipada con un ventilador y una bocina con ruido blanco para enmascarar los ruidos externos.

Procedimiento

Se implementó un procedimiento de ensayo discreto de elección entre reforzadores que variaron en magnitud y demora de entrega, tan parecido como fue posible al empleado por Reynolds et al. (2002). Sin embargo, hubo algunas diferencias: en el estudio de Reynolds et al., el sujeto iniciaba cada ensayo de elección con la interrupción de un fotorreceptor ubicado en un agujero central de una de las paredes de la caja; además, la respuesta de elección consistió en la interrupción del fotorreceptor de uno de los agujeros laterales asociados al reforzador grande demorado o al pequeño inmediato. En contraste, en el presente estudio se eliminó la respuesta que inició cada ensayo y la respuesta de elección consistió en presionar una de dos palancas. Finalmente, la magnitud del reforzador en el estudio de Reynolds et al. se calculó como cantidad (µl de agua), mientras que, en el presente estudio la magnitud de los reforzadores se estimó por medio del tiempo de activación de la pipeta que entregó el reforzador.

Cada sesión inició con un periodo de 40 s con todas las luces de la caja experimental apagadas y las palancas de respuesta inoperativas. Posteriormente, los focos ubicados arriba de las palancas izquierda y derecha se iluminaron de verde y de azul, respectivamente. Una presión en cualquiera de las palancas iniciaba un ensayo de 40 s durante el cual se entregó un reforzador conforme a una de dos contingencias: si el sujeto presionaba la palanca derecha (opción de reforzamiento chico e inmediato), se apagaban todas las luces, se encendía un foco iluminado de blanco sobre el receptáculo de agua, se activaba la pipeta de agua por 0.3 s y se entregaban aproximadamente 125 µl de agua de forma inmediata. Por el contrario, si el sujeto presionaba la palanca izquierda, se apagaba el foco sobre la palanca derecha e iniciaba una demora señalada por un tono de 65 dB, una vez que terminaba la demora, se apagaba el tono, se activó la pipeta por 0.6 s y se entregaban aproximadamente 250 µl de agua; esta fue la opción de reforzamiento grande demorado. Para ambas opciones de reforzamiento, después de la entrega del reforzador se apagaban todas las luces de la caja experimental y las palancas se mantenían inoperativas hasta completar los 40 s de duración del ensayo.

En el primer ensayo, el tiempo que la pipeta estuvo activa para entregar el reforzador chico fue igual a la mitad de la magnitud del reforzador grande; en los ensayos siguientes el tiempo, y por lo tanto la cantidad de agua que se entregó, varió conforme a un procedimiento de ajuste de la magnitud, esto es, se sumó o restó 15% de la magnitud inicial del reforzador chico inmediato al último valor registrado de la misma (hasta un máximo de 0.6 s de activación del tiempo de la pipeta o un mínimo de 0 s), dependiendo de las elecciones del sujeto. Obtener el reforzador chico inmediato por una respuesta a la palanca derecha o por una respuesta de reversión, disminuía la magnitud del reforzador chico inmediato para el siguiente ensayo; por otro lado, responder en la palanca izquierda para obtener el reforzador grande demorado aumentaba la magnitud del reforzador chico. Si el sujeto respondía a la misma opción en dos ensayos de elección consecutivos, el siguiente ensayo era forzado en la opción opuesta; esto es, se mantenía operativa solo la palanca correspondiente. Cada sesión consistió en 60 ensayos de elección y un número variable de ensayos forzados.

Manteniendo constantes los aspectos de procedimiento previamente descritos, se implementaron los dos procedimientos de autocontrol. En el procedimiento de descuento demorado, durante el periodo de demora por el reforzador grande, se registró la primera presión a la palanca derecha por el reforzador chico, pero no había consecuencias programadas. En el procedimiento de demora de la gratificación, la primera presión a la palanca derecha durante el periodo de demora por el reforzador grande resultaban en la entrega del reforzador chico e inmediato y la cancelación del reforzador grande demorado. Para los dos procedimientos, las duraciones de la demora de entrega del reforzador grande fueron de 0, 4, 8, 16 y 32 s. El experimento se condujo en tres bloques de 25 sesiones cada uno. Cada bloque, a su vez, se dividió en cinco períodos de cinco días, con una demora de reforzamiento vigente por día. Las demoras se asignaron conforme a una secuencia predeterminada a cada uno de los cinco días de cada periodo (véase Reynolds, de Wit, & Richards, 2002). Así, al final del experimento cada demora estuvo vigente durante 15 sesiones. Las sesiones se condujeron de lunes a viernes, aproximadamente a la misma hora.

Figura 1
Proporción de reforzadores obtenidos

Proporción de reforzadores grandes (rombos vacíos) y chicos obtenidos (triángulos rellenos) para las ratas expuestas al procedimiento de descuento demorado y para las ratas expuestas al procedimiento de demora de la gratificación.

ResultadosResultados

En este experimento se registraron los reforzadores grandes demorados y chicos inmediatos obtenidos, así como las respuestas de reversión durante la demora por el reforzador grande. También se estimaron los puntos de indiferencia entre reforzadores como la mediana de las magnitudes obtenidas del reforzador chico por sesión.

En la Figura 1, se muestra la proporción de reforzadores grandes demorados y chicos inmediatos obtenidos en cada demora, para todos los sujetos expuestos al procedimiento de descuento demorado (hilera superior) y para los sujetos expuestos al de demora de la gratificación (hilera inferior). Las columnas muestran los tres bloques de sesiones de exposición al procedimiento. Los datos están basados en los promedios de la variable dependiente de los cinco sujetos expuestos a cada procedimiento.

En todos los bloques y en ambos procedimientos, se encontró que cuando la demora de reforzamiento fue de 0 s, los sujetos eligieron con más frecuencia el reforzador grande. Esta elección cambió en cuanto la demora de entrega del reforzador grande se estableció en 4 s y alargar aún más esta demora resultó en una disminución gradual del número de reforzadores grandes obtenidos, así como en un aumento notorio del número de reforzadores chicos e inmediatos entregados.

Figura 2
Ajustes hiperbólicos para cada sujeto

Ajustes hiperbólicos para cada sujeto expuesto al procedimiento de descuento demorado o de demora de la gratificación

Por otro lado, se encontró que la diferencia en la proporción de reforzadores obtenidos para las dos opciones disminuyó de un bloque a otro, principalmente para los sujetos expuestos al procedimiento de descuento demorado.

En la Figura 2, se muestran los ajustes hiperbólicos de los puntos de indiferencia para cada uno de los sujetos expuestos al procedimiento de descuento demorado (columna izquierda) y de los sujetos expuestos a la situación de demora de la gratificación (columna derecha). Como se explicó en el método, Reynolds et al. calcularon los μl de agua entregada como reforzador inmediato, en contraste, en este experimento se estimó la magnitud del reforzador como tiempo de entrega de este. Así, los puntos de indiferencia que se muestran en esta figura están basados en la mediana del tiempo de entrega del reforzador inmediato para cada demora de reforzamiento. En cada panel, se muestran los parámetros k, R. y . del ajuste hiperbólico correspondiente. Para los sujetos expuestos al procedimiento de descuento demorado los coeficientes de determinación variaron entre 0.77 y 0.97, los valores de . variaron entre 0.19 y 0.30 y los valores de . oscilaron entre 0.60 y 0.99. Como mencionan Reynolds, de Wit, y Richards (2002) los valores de . muestran el sesgo hacia el reforzador grande demorado (.>1.0) o por el reforzador chico e inmediato (.<1.0). Así, en este estudio los cinco sujetos mostraron sesgo hacia el reforzador chico inmediato. Para los sujetos expuestos al procedimiento de demora de la gratificación, los coeficientes de determinación variaron entre 0.93 y 0.99, el parámetro . varió entre 0.29 y 0.85 y . varió entre 0.58 y 0.84. Igual que en el estudio de Reynolds et al., en este experimento se encontró que los parámetros R., k y b fueron iguales para los sujetos expuestos a los dos procedimientos de autocontrol (para k, t(8)=-3.131, .> 0.05; para R., t(8)=-0.96 .> 0.05; para b, t(8)=1.494, .> 0.05).

Además de los ajustes hiperbólicos de los puntos de indiferencia, se realizó un análisis de varianza mixto de dos factores para esta variable dependiente (demora como factor intra sujetos: 0, 4, 8, 16 y 32 s; procedimiento de autocontrol como factor entre grupos: demora de la gratificación, descuento demorado). Dado, que no se cumplió el supuestos de esfericidad para ambas variables, se utilizó la corrección de traza de Pillai para estimar el coeficiente . y se encontró un efecto significativo para la variable dependiente de acuerdo a la demora (. (4,8) = 49.523, .< 0.05) y una diferencia significativa entre los procedimientos de autocontrol (. (1,8)=12.233, .< 0.05). La interacción entre tipos de procedimientos de autocontrol y la duración de la demora no fue significativa (. (4,8)= 0.465, .> 0.05).

En la Figura 3, se muestra el promedio de la proporción de respuestas de reversión en las cinco sesiones que estuvo vigente cada demora, tanto para el procedimiento de descuento demorado (símbolos negros) como para el procedimiento de demora de la gratificación (símbolos claros). Cada panel de la figura representa un bloque de sesiones y la variable dependiente se muestra en función de la demora de entrega del reforzador grande.

Figura 3
Proporción de respuestas de reversión

Proporción de respuestas de reversión de las ratas expuestas al procedimiento de descuento demorado (cuadros rellenos) y de las ratas expuestas al procedimiento de demora de la gratificación (círculos vacíos), en cada bloque de sesiones.

En los tres bloques de sesiones, se observó una proporción de respuestas de reversión mayor en los sujetos expuestos al procedimiento de descuento demorado que en los sujetos expuestos a la situación de demora de la gratificación.

La diferencia entre las proporciones aumentó ligeramente del primer al tercer bloque de sesiones.

Al igual que Reynolds et al. (2002), se realizó un análisis de varianza mixto de dos factores con las respuestas de reversión como variable dependiente (procedimientos de autocontrol como factor entre sujetos: demora de la gratificación, descuento demorado; cinco duraciones de la demora de reforzamiento como factor intra sujetos: 0, 4, 8, 16 y 32 s). En ninguna de las variables no se cumplió el supuesto de esfericidad, para calcular los coeficientes . correspondientes se utilizó la corrección de Greenhouse-Geisser. Se encontró un efecto significativo por la demora (. (1.286, 32)= 50.748, .< 0.05) y un efecto significativo por el tipo de procedimiento de autocontrol (. (1,8) = 19.500 .< 0.05). Dado que la interacción entre las variables fue significativa (. (1.286, 32)= 7.800, .< 0.05), se condujo un análisis post hoc y se encontraron diferencias significativas entre los dos procedimientos de autocontrol en las demoras de 4, 8 y 16 s (.= 582.914, .< 0.05; .=48.788, .< 0.05; y .=7.374, .< 0.05, respectivamente).

Discusión

El principal propósito de este experimento fue conducir una replicación sistemática del estudio de Reynolds et al. (2002), dadas las diferencias de procedimiento introducidas por las limitaciones técnicas del laboratorio de los autores de este manuscrito. Entre estas diferencias, la más importante fue eliminar una operante para iniciar cada ensayo de elección y cambiar la operante de elección de la interrupción de un fotorreceptor a una presión de palanca. A pesar de esta diferencia de operandos, como se mostró en la sección de resultados, se reprodujeron los hallazgos de Reynolds et al. en términos del número de reforzadores obtenidos, los ajustes hiperbólicos de los puntos de indiferencia y de la proporción de respuestas de reversión, observados tanto en el procedimiento de descuento demorado como en el de demora de la gratificación. Encontrar los mismos resultados que Reynolds et al. sugieren una clase de “generalización de respuestas” (e.g., Critchfield & Lattal, 1993; Sidman, 1960) en el sentido de que las operantes empleadas por Reynolds et al., fueron las interrupciones de fotorreceptores y en este estudio fueron presiones a palancas. Reproducir los mismos resultados con operantes diferentes muestra la viabilidad de los procedimientos de descuento demorado y demora de la gratificación para estudiar la conducta autocontrolada o impulsiva con cualquier ejemplo de conducta operante. Por lo tanto, con la confianza de que la diferencia de operandos no afectó la replicación de los hallazgos del estudio previo, en el experimento que se describe a continuación se manipuló la probabilidad de reforzar una respuesta de reversión en los procedimientos de descuento demorado y demora de la gratificación.

Experimento 2

Los procedimientos de descuento demorado y de demora de la gratificación, tal como los implementaron Reynolds et al. y como se replicaron en este estudio, se pueden conceptualizar como similares en términos del reforzamiento continuo o intermitente de la primera respuesta por el reforzador chico inmediato, una vez que se emite la respuesta inicial por un reforzador grande y demorado. Una manera de reproducir esta situación de reforzamiento continuo o intermitente es manipulando la probabilidad de reforzamiento. Así, se puede estudiar ambos procedimientos en términos de la probabilidad de reforzar las respuestas de reversión que, en el caso del procedimiento de descuento demorado, es igual a 0.0 y en la situación de demora de la gratificación es igual a 1.0. Por lo tanto, en este experimento se reprodujeron estos dos procedimientos y se exploraron valores intermedios de la probabilidad de reforzamiento con el propósito de documentar los cambios en el número de reversiones del procedimiento de demora de la gratificación al procedimiento de descuento demorado y viceversa.

Método

Sujetos

Sirvieron como sujetos 10 ratas Wistar machos sin historia experimental, de cuatro meses de edad al inicio de la investigación. Los sujetos se alojaron en cajas habitación individuales con acceso libre a alimento y mantenidas en un régimen de privación de agua de 23 horas previas a la sesión experimental. Una vez concluida la sesión, los sujetos tuvieron acceso libre a agua durante una hora de lunes a jueves durante todo el experimento. Los viernes tuvieron acceso libre a agua desde que terminó la sesión hasta el domingo a mediodía.

Aparatos

Los mismos que en el Experimento 1.

Procedimiento

Este experimento estuvo compuesto por seis condiciones experimentales sucesivas. Dado que en el Experimento 1 se encontraron datos estables desde el primer bloque de 25 sesiones, en este experimento cada condición estuvo vigente solo un bloque de sesiones.

Tabla 1
Secuencia de exposición a las probabilidades de reforzamiento de la respuesta de reversión

En la primera condición, se expuso a cinco ratas a un procedimiento de descuento demorado, en el que la probabilidad de reforzar las respuestas de reversión (por brevedad, p(ER|rr)) fue de 0.0; por claridad, a estas ratas se les identificará como Grupo 1. Otras cinco ratas se expusieron al procedimiento de demora de la gratificación, en el cual p(ER|rr) = 1.0; a estas ratas se les denominará Grupo 2. En la segunda condición, para las ratas del Grupo 1, p(ER|rr) se cambió de 0.0 a 1.0 y para las ratas del Grupo 2, p(ER|rr) cambió de 1.0 a 0.0. A partir de la tercera condición, se expuso a las ratas a un procedimiento en el cual se varió la probabilidad de reforzamiento de las respuestas de reversión. Las probabilidades probadas fueron de 0.5 en la tercera condición para todas las ratas; en la cuarta y quinta condiciones, tres ratas de cada grupo fueron expuestas a p(ER|rr) = 0.75 y las otras dos ratas se expusieron a p(ER|rr) = 0.25. La sexta condición consistió en una redeterminación de la probabilidad que estuvo vigente en la primera condición a la que se expuso a los sujetos. La secuencia de exposición se muestran en la Tabla 1.

Resultados

En la Figura 4, se muestran los ajustes hiperbólicos de los puntos de indiferencia para cada p(ER|rr) para los cinco sujetos del Grupo 1 y del Grupo 2, respectivamente. Los datos están basados en las medias de los puntos de indiferencia obtenidos por los sujetos expuestos a cada demora en las diferentes probabilidades de reforzamiento. Para facilitar la comparación de los efectos de la misma p(ER|rr) entre los dos grupos de sujetos, las dos hileras de la Figura 4 se ordenaron conforme a esta variable, de 0.0 a 1.0.

Figura 4
Ajustes hiperbólicos

Ajustes hiperbólicos para cada grupo de sujetos en cada condición.

Para todos los sujetos, independientemente del orden en el que se expusieron a la p(ER|rr), el parámetro k varió entre 0.26 y 0.38, el coeficiente de determinación osciló entre 0.95 y 0.99 y el parámetro b entre 0.68 y 0.92 igual que los sujetos del experimento anterior; en este caso independientemente de la p(ER|rr), los sujetos mostraron una “preferencia” por el reforzador inmediato.

En la Figura 5 se muestra la proporción de respuestas de reversión para los sujetos del Grupo 1 y 2, expuestos en la primera condición (panel superior izquierdo) a la p(ER|rr)= 0.0 o p(ER|rr)= 1.0. También se muestra la variable dependiente de los mismos sujetos expuestos en la última condición a las mismas probabilidades (panel superior derecho). En los paneles inferior izquierdo y derecho se muestra la proporción de respuestas de reversión tanto para los sujetos del Grupo 1 (panel inferior izquierdo) como para los sujetos del Grupo 2 (panel inferior derecho) expuestos a la p(ER|rr)= 0.0, p(ER|rr)= 1.0 y para las redeterminaciones correspondientes (línea punteada).

Como se observa en el panel superior izquierdo, durante la primera condición, la proporción de respuestas de reversión es similar en ambos procedimientos. En la redeterminación (panel superior derecho), el número de respuestas de reversión de los sujetos del Grupo 1 fue notablemente más alto que la proporción de respuestas de reversión observadas en los sujetos del Grupo 2.

En las comparaciones intra grupo, se encontró para el Grupo 1 que la proporción de reversiones en la primera exposición a p(ER|rr)= 0.0 fue mayor que cuando se estableció p(ER|rr) en 1.0; la variable dependiente aumentó notablemente cuando se redeterminaron los efectos de p(ER|rr)= 0.0. En el Grupo 2, el número de respuestas de reversión en la exposición inicial a p(ER|rr)= 1.0 fue menor que el nivel de la variable dependiente en la exposición a p(ER|rr)= 0.0; en la redeterminación de la exposición a p(ER|rr)= 1.0, aumentó la diferencia en la proporción de reversiones con respecto a la condición anterior.

Figura 5
Proporción de respuestas de reversión

Proporción de respuestas de reversión para los sujetos expuestos en la primera condición a p(ER|rr)=0.0 o a p(ER|rr)=0.0 (panel superior izquierdo) y su redeterminación (panel superior derecho). Proporción de respuestas de reversión para los sujetos del Grupo 1 (panel inferior izquierdo) y para los sujetos del Grupo 2 (panel inferior derecho), las líneas punteadas muestran las redeterminaciones pertinentes.

En la Figura 6 se muestra la proporción de respuestas de reversión para todos los sujetos, ordenada de acuerdo a cada p(ER|rr) de 0.0 a 1.0, para cada demora de entrega del reforzador grande. Cada barra corresponde a una probabilidad de entrega; las barras del mismo sombreado muestran los resultados de la primera condición y su redeterminación, respectivamente.

Para ambos grupos, las respuestas de reversión disminuyeron conforme aumentó p(ER|rr), aunque esta tendencia fue menos clara en la demora de reforzamiento de 32 s. En el Grupo 1, la proporción de reversiones fue globalmente menor que la observada en el Grupo 2. En la redeterminación de los efectos de la variable, la proporción de reversiones aumentó para el Grupo 1 (segunda barra blanca, panel superior); mientras que la variable dependiente disminuyó en la redeterminación del Grupo 2 (segunda barra negra, panel inferior).

Figura 6
Proporción de respuestas de reversión

Proporción de respuestas de reversión de las ratas expuestas inicialmente a la p(ER|rr)= 0.0 (Grupo 1) y de las ratas inicialmente expuestas a la p(ER|rr)= 1.0 (Grupo 2). Estos datos se muestran para la probabilidad de reforzamiento de respuestas de reversión en cada demora de reforzamiento.

Para clarificar los efectos de variar la probabilidad de reforzamiento sobre las respuestas de reversión, se condujo para cada grupo de sujetos un análisis de varianza de medidas repetidas de dos factores (demora de reforzamiento: 0, 4, 8. 16 y 32 s; probabilidad de reforzamiento: 0.0, 0.25, 0.50, 0.75, 1.0, redeterminación). Para el Grupo 1, se encontró un efecto significativo por la demora de reforzamiento (F (4,16)= 138.961, p<.05) y por la probabilidad de reforzamiento (F (5,20)= 8.58, p<.05). La interacción entre la probabilidad y demora de reforzamiento fue significativa (F (20,80)= 2.6590, p<.05). En la Tabla 2 se muestran los coeficientes F de las comparaciones entre las variables que fueron significativas. Para el Grupo 2, dado que no se cumplió el supuesto de esfericidad, se utilizó la corrección de Greenhouse-Geisser, para calcular los coeficientes F y se encontró un efecto significativo por demora de reforzamiento (F (1.36, 16)= 81.758, p<.05) y por la probabilidad de reforzamiento (F (2.73,20)= 24.289, p<.05). La interacción entre la probabilidad y demora de reforzamiento fue significativa (F (3.08,12.30)= 7.67, p<.05); por lo tanto, se condujeron las pruebas post hoc correspondientes y se encontraron diferencias significativas en los efectos de varias combinaciones de las variables, que se muestran en la Tabla 2.

Tabla 2.
Contrastes de pares significativos

Contrastes de pares significativos en la proporción de respuestas de reversión. Cada p(ER|rr) se compara con la redeterminación correspondiente y cada demora se compara con 32 s

Discusión

El propósito general de este estudio fue probar los efectos de reforzamiento intermitente de las respuestas de reversión en los procedimientos de descuento demorado y demora de la gratificación. Se probó el reforzamiento intermitente variando la probabilidad de reforzar la primera respuesta de reversión en los dos procedimientos de autocontrol. Los autores dedujeron esta manipulación de la sugerencia de Reynolds et al. respecto de que los dos procedimientos podían caracterizarse como casos de reforzamiento intermitente o continuo de las respuestas de reversión. El principal resultado de este experimento fue que se reprodujeron los hallazgos principales de Reynolds et al. respecto de la proporción de las reversiones entre grupos de sujetos (ver paneles superiores de la Figura 5). Una ganancia de conceptualizar los procedimientos en términos de la variable de la probabilidad de reforzamiento fue que se pudieron reproducir los hallazgos de Reynolds et al. en un diseño intrasujetos (ver paneles inferiores de la Figura 5).

Aunque la proporción de respuestas de reversión fue ligeramente mayor para el grupo inicialmente expuesto al procedimiento de demora de la gratificación (p(ER|rr)=1) en comparación con el grupo inicialmente expuesto a descuento demorado (p(ER|rr)=0), en ambos grupos se observó una tendencia decreciente de la proporción de respuestas de reversión conforme aumentó p(ER|rr) (Figura 6). Estos resultados sugieren que el decremento de la variable dependiente se debió principalmente a la probabilidad de reforzamiento de las respuestas de reversión. Por otro lado, la diferencia del nivel de la variable dependiente entre grupos podría deberse a un efecto de historia. Ávila, Ortega, & Miranda (en preparación) encontraron que exponer a participantes a un procedimiento de descuento demorado antes de exponerlos al procedimiento de demora de la gratificación, tiende a reducir las respuestas de reversión.

Otro hallazgo del Experimento 2 fue que la demora de entrega del reforzador grande moduló los efectos de variar p(ER|rr); esto es, a medida que se alargó la demora de entrega del reforzador grande, el efecto de variar p(ER|rr) disminuyó.

Se desconocen estudios en los cuales se hayan comparado con un diseño intra sujeto los efectos de exponer a los sujetos a los procedimientos de descuento demorado y demora de la gratificación en condiciones sucesivas. Sin embargo, conforme a la variable continua de p(ER|rr), se puede sugerir que los dos procedimientos son igualmente efectivos para estudiar tanto la preferencia entre reforzadores que varían en magnitud y demora como el mantenimiento de esta elección durante el periodo de espera del reforzador grande cuando se eligió esta última (véase Grosch & Neuringer, 1981; Mazur, 1987).

Discusión general

En la literatura general sobre conducta autocontrolada han proliferado los procedimientos para estudiar este ejemplo de conducta. Como se mencionó en la introducción, dos de los más utilizados son los de descuento demorado y los de demora de la gratificación. Estos procedimientos se propusieron en áreas diferentes de la psicología: el primero se desarrolló en el análisis experimental de la conducta con palomas como sujetos experimentales principalmente (e.g., Mazur, 1987; Rachlin & Green, 1972), mientras que el segundo se propuso originalmente en la psicología del desarrollo (Mischel & Ebbesen, 1970). Por esta razón, tradicionalmente se ha considerado a estos procedimientos como fundamentalmente diferentes entre sí (véase Logue, 1988). Sin embargo, recientemente se han intentado comparaciones entre estos procedimientos siguiendo diseños de grupos con humanos y ratas como sujetos experimentales (Forzano, Michels, Carapella, Conway, & Chelonis, 2011; Reynolds, de Wit & Richards, 2002; Delgado, 2014). En este contexto, los hallazgos de los experimentos que se reportan en este estudio confirmaron la estrategia de comparar entre grupos estos procedimientos de demora y extendieron a una metodología intrasujetos la comparación entre los mismos. Esto último se logró conceptualizando la probabilidad de reforzamiento de las respuestas de reversión como una variable independiente común a ambos procedimientos. Así, en lugar de sugerir que ambas situaciones capturan diferentes procesos de la conducta autocontrolada, como la preferencia o el mantenimiento de la elección, es viable sugerir que el proceso que se capture se reduce a valores específicos de una variable común a los dos procedimientos. Finalmente, si en términos de la variable de p(ER|rr), cuando ésta se estableció en 1.0 se identificó el procedimiento como uno de demora de la gratificación y cuando esta variable se estableció en 0.0 se conceptualizó a la situación como una de descuento demorado; cabe preguntar ¿cómo deberíamos llamar a los casos intermedios de p(ER|rr)? Tal vez, en lugar de buscar nuevos conceptos para explicar estas variaciones de procedimiento, sólo debemos destacar a la variable independiente a la cual se pueden organizar (véase Cabrer, Daza, & Ribes, 1975).

Agradecimientos

El experimento se condujo con el apoyo del proyecto PAPIIT IN-302916, otorgado por la Dirección General de Asuntos del Personal Académico al primer autor. Los autores expresan su gratitud a César A. Corona Palma por su colaboración en la preparación del manuscrito.

Referencias

Cabrer, F., Daza, B. C., & Ribes, E. (1975). Teoría de la conducta: ¿Nuevos conceptos o nuevos parámetros? Revista Mexicana de Análisis de la Conducta, 1, 191-212. http://dx.doi.org/10.5514/rmac.v1.i2.27164

Critchfield, T. S., & Lattal, K. A. (1993). Acquisition of a spatially defined operant with delayed reinforcement. Journal of Experimental Analysis of Behavior, 59, 373–387. 10.1901/jeab.1993.59-373

Delgado, E. E., (2014). Similitudes y diferencias entre cuatro procedimientos de autocontrol: un estudio exploratorio. (Tesis de maestría no publicada). Universidad de Guadalajara, México.

Forzano, L. B., Michels, J. L., Carapella R. K., Conway, P., & Chelonis, J. J. (2011). Self-control and impulsivity in children: multiple behavioral Measures. The Psychological Record, 61, 425-448.

Green, L., Fry, A. F., & Myerson J. (1994). Discounting of delayed rewards: A lifespan comparison. Psychological Science, 5, 33–36. 10.1111/j.1467-9280.1994. tb00610.x

Grosch, J., & Neuringer, A. (1981). Self-control in pigeons under the Mischel paradigm. Journal of the Experimental Analysis of Behavior, 35, 3-21. 10.1901/ jeab.1981.35-3

Logue, A. W. (1988). Research on self-control: An integrating framework. Behavioral and Brain Sciences, 11, 665-709. 10.1017S0140525X00053978

Mazur, J. E. (1987). An adjusting procedure for studying delayed reinforcement. En M. L. Commons, J. E. Mazur, J. A. Nevin & H. Rachlin (Eds.), Quantitative Analyses of Behavior. Vol. 5: The Effect of Delay and of Intervening Events on Reinforcement Value. (pp. 55-73). Mahwah, NJ: Erlbaum.

Rachlin, H. (2000). The science of self-control. Cambridge, MA: Harvard University Press.

Rachlin, H., & Green, L. (1972). Commitment, choice and self-control. Journal of the Experimental Analysis of Behavior, 17, 15-22. http://dx.doi.org/10.1901/ jeab.1972.17-15

Reynolds, B., de Wit, H., & Richards, J., (2002), Delay of gratification and delay discounting in rats. Behavioural Processes, 59, 157–168. 10.1016/ S0376-6357(02)00088-8

Sidman, M. (1960). Tactics of Scientific Research: Evaluating Experimental Data in Psychology. New York, NY: Basic Books.