Parámetros de la demora de la gratificación en humanos

Raúl Ávila; Brenda E Ortega; Dalia K Jardines

Artículos

(Parameters of delayed gratification in human behavior)

Raúl Ávila raulas@unam.mx

Universidad Nacional Autónoma de México, México

Brenda E Ortega beompsicol@gmail.com

Universidad Nacional Autónoma de México, México

Dalia K Jardines daliajardines@gmail.com

Universidad Nacional Autónoma de México, México

Parámetros de la demora de la gratificación en humanos

Acta Comportamentalia: Revista Latina de Análisis de Comportamiento, vol. 26, núm. 1, pp. 15-27, 2018

Universidad Veracruzana

Esta obra está bajo una Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional.

Recepción: 15 Agosto 2017

Aprobación: 12 Noviembre 2017

Resumen: El procedimiento de demora de la gratificación consiste en exponer a un sujeto a la elección entre una recompensa pequeña-inmediata y una grande-demorada. Después de la elección de esta última, durante el periodo de demora la recompensa pequeña-inmediata permanece disponible por lo que es posible cambiar la elección inicial (reversión de preferencias). La demostración con humanos consiste en un ensayo de elección único; en contraste, con otras especies se expone a los sujetos durante varias sesiones y ensayos de elección. Esta diferencia de procedimiento puede limitar la comparación de los resultados entre especies. Por lo tanto, se evaluó el efecto de exponer a humanos al procedimiento a más de una sesión y de un ensayo. En el Experimento 1, se expuso a 15 participantes a una prueba de demora de la gratificación por computadora durante una sesión de 30 ensayos. En el Experimento 2, cinco adultos respondieron la misma prueba durante dos sesiones de 30 ensayos con cinco demoras diferentes. Se encontró que la reversión de preferencias ocurrió durante los primeros ensayos de la sesión y en los primeros 10 s del periodo de demora y este efecto fue parcialmente modulado por la duración de la demora de la recompensa-grande.

Palabras clave: elección, demora de la gratificación, generalidad entre especies, humanos.

Abstract: The delay-of-gratification procedure consists in exposing the subject to a sole choice between an immediate, small reward and a delayed, larger one. If the subject chooses the delayed, larger reward, the immediate, small one is present during the delay period and the subject may consume it at any time (preference reversal). Even though the generality of this procedure has been proved between humans and non-human animals, there have been methodological differences, such as the number of trials and sessions of exposure. To contribute to the generality of the delay-of-gratification procedure, in the present study two experiments were conducted in which adults were exposed for several sessions of several trials to a delay-of-gratification computer task. In the first experiment, 15 participants were exposed to the task for one session of 30 trials. In Experiment 2, five participants were exposed to the same task for two sessions of 30 trials to each of the following delays of the larger reward: 0, 4, 8, 16 and 32 s. It was found that preference-reversal responses occurred in the first trials of the session and during the first 10 s of the delay period (Experiment 1), and this effect was modulated by the duration of the larger delayed reward (Experiment 2). It was concluded that the delay-of-gratification behavior was modulated by variables such as the number of trials, number of sessions, and the duration of the delay period for the larger reward.

Keywords: choice, delay of gratification, species generality, humans.

Mischel y sus colaboradores (Mischel, & Ebbesen, 1970; Mischel, 1974) reportaron un procedimiento para estudiar auto-control en niños que denominaron demora de la gratificación y consiste en lo siguiente: se expone a niños de entre 3 y 4 años de edad a la elección entre un par de recompensas, una poco preferida que pueden recibir de inmediato o una recompensa más preferida que pueden recibir después de un periodo de espera; esto es, una demora de entrega de la misma. Cuando los niños eligen la recompensa más preferida, durante el periodo de demora la recompensa menos preferida permanece presente por lo que tienen la opción de cambiar su elección y recibir inmediatamente esta recompensa

En estudios longitudinales posteriores se ha sugerido que la conducta de los niños de esperar por una recompensa demorada es un buen predictor de su bienestar personal y social en la edad adulta. Por ejemplo, con muestras relativamente grandes de niños, se ha encontrado una correlación significativa entre su ejecución en la tarea y una buena calidad de vida económica, social y de salud (e.g., Schlam, Wilson, Shoda, Mischel, & Ayduk, 2013; White, Moffitt, Caspi, Bartusch, Needles, & Stouthamer-Loeber, 1994).

Además de la ubicuidad del procedimiento de demora de la gratificación en la psicología del desarrollo, en el análisis de la conducta se han estudiado los parámetros involucrados en el mismo. Por ejemplo, Grosch y Neuringer (1981) implementaron una tarea de demora de la gratificación para estudiar autocontrol con palomas. En breve, se entrenó a dos palomas a picar una tecla de respuestas para recibir de inmediato una recompensa pequeña y poco “preferida” o esperar un periodo de tiempo alternando entre 5 y 15 s en ensayos sucesivos, para recibir una recompensa grande y más “preferida”. Así, la entrega de la recompensa pequeña y menos preferida fue contingente a un picotazo a la tecla y la recompensa más preferida fue contingente a “esperar” y no responder

Los autores encontraron que el número de ensayos en los cuales las palomas esperaron por la recompensa grande preferida y demorada aumentó conforme transcurrieron las sesiones de exposición al procedimiento. En otro estudio, Reynolds, de Wit y Richards (2002) usaron ratas como sujetos y diseñaron una variación del procedimiento de demora de la gratificación en el cual se expuso a ratas privadas de agua a la elección entre una cantidad pequeña pero inmediata de agua o una cantidad más grande pero demorada de la misma recompensa. Los autores variaron la demora de entrega de la recompensa grande, la cual podía ser 0, 4, 8, 16 o 32 s, y emplearon un método de ajuste de la magnitud conforme al cual la cantidad de la recompensa chica e inmediata aumentaba o disminuía dependiendo de las “elecciones” del sujeto. Durante el periodo de demora por la recompensa grande, el sujeto tuvo la opción de responder por la recompensa inmediata, “revertir su elección”, como en el procedimiento de demora de la gratificación de Mischel, pero entre dos magnitudes de la misma recompensa y no entre recompensas que difirieran en preferencia. A pesar de esta diferencia de procedimiento con los estudios con humanos, Reynolds, et al. encontraron que los sujetos “revirtieron” sus preferencias y estas reversiones aumentaron monotónicamente conforme se alargó la demora de entrega de la recompensa grande. En otros estudios, se reportaron hallazgos similares a los de Grosch y Neuringer y a los de Reynolds, et al, con chimpancés (Beran, Savage-Rumbaugh, Pate & Rumbaugh, 1999; Beran, 2002) y recientemente con perros como sujetos experimentales (Brucks, Soliani, Range & Marschall, 2017).

En resumen, los hallazgos reportados con ratas, chimpancés y perros, fueron paralelos a los obtenidos por Mischel y sus colaboradores. Sin embargo, la comparación entre especies podría no ser tan directa, dado que hay diferencias de procedimiento fundamentales entre los experimentos con animales y los estudios reportados por Mischel. Por ejemplo, el número de ensayos y sesiones de exposición al procedimiento es diferente entre ambos tipos de estudios; específicamente en experimentos con humanos, se expone a los participantes a una única sesión con sólo un ensayo de elección. En contraste, en los experimentos con palomas y ratas se expone a los sujetos al menos a 10 sesiones con 30 ensayos por sesión. Esta diferencia de método debilita la generalidad entre especies del procedimiento de demora de la gratificación porque, como Grosch y Neuringer, y Reynolds, et al., señalaron, en los experimentos con animales, la conducta de “esperar” de los sujetos aumenta conforme transcurren las sesiones experimentales. Este hallazgo es irreproducible en humanos utilizando el procedimiento original de Mischel (e.g. Forzano, et al., 2011).

En este contexto, en el presente estudio se determinó el efecto de emplear varios ensayos en un procedimiento de demora de la gratificación por computadora sobre la conducta de autocontrol y la reversión de preferencias en humanos.

Experimento 1

Método

Participantes

Participaron 7 mujeres y 8 hombres con un promedio de edad de 25 años (D.E.= 3.4) habitantes de diferentes zonas de la ciudad de México. El único requisito de inclusión fue que tuvieran entre 18 y 30 años de edad y haber cursado al menos el bachillerato. Todos los participantes recibieron una compensación económica de $50.00 al finalizar la sesión.

Aparatos

El experimento se condujo en un cubículo dividido en tres espacios con muros de tablaroca; en cada espacio se colocó una silla frente a un escritorio y una computadora portátil marca Toshiba® y Sony VAIO® Windows 7®. El equipo de cómputo se utilizó para presentar la Prueba de Demora de la Gratificación (PDG), que se programó con Java® v8 y se utilizó el reproductor multimedia VCL® para presentar la tarea. Se proporcionó a cada participante un par de audífonos y se utilizó un ruido blanco durante la sesión para enmascarar cualquier ruido externo. Previo a la sesión experimental, se preguntó a cada participante sobre su video favorito de internet, su programa favorito de TV o su película favorita, al cual por brevedad llamaremos video. Este video, se utilizó como recompensa para cada participante durante la PDG. Se empleó como operando el botón izquierdo del mouse para elegir entre pares de videos de diferente duración y demora de entrega; y para escuchar el audio del video (conducta consumatoria) se utilizó la barra espaciadora del teclado de la computadora. En la literatura se ha reportado que los videos son reforzadores eficaces en los procedimientos de elección con humanos y que pueden ser metafóricamente “consumidos” (e.g., Darcheville, Riviere & Wearden, 1992; Hackenberg & Pietras, 2000). Se emplearon videos como reforzadores con el propósito de hacer el procedimiento lo más similar a los procedimientos empleados con sujetos no-humanos, en los cuales comúnmente se utilizan reforzadores que pueden ser consumidos durante la sesión.

Procedimiento

Entrenamiento preliminar

Se expuso a los participantes a una condición de entrenamiento preliminar que consistió en la presentación de 20 ensayos forzados y 10 ensayos de elección para familiarizarlos con las contingencias programadas en la PDG.

Para iniciar el primero de 10 ensayos forzados con la recompensa pequeña e inmediata, se pidió al participante que presionara un recuadro con la leyenda “Iniciar”, ubicado en la esquina inferior derecha de la pantalla de la computadora. Cada uno de los ensayos consistió en la presentación de la pantalla en color rojo durante 2 s, seguido de 8 s de un video seleccionado previamente por el experimentador (un documental de la fauna de México, por brevedad, video neutro). Posteriormente, se presentaron 10 ensayos forzados con la recompensa grande demorada; para este caso, transcurrió un periodo de demora de 8 s con la pantalla en color verde, seguido de 32 s de reproducción del video.

Al finalizar los 10 ensayos forzados con la recompensa grande y demorada, se presentaron 10 ensayos de elección. Al inicio del ensayo se mostraron dos recuadros con una imagen del video, ambos centrados en la pantalla y equidistantes entre sí, con marcos de diferente color y tamaño. El recuadro a la izquierda era pequeño (7 cm de largo y 5 cm de alto) con un marco de color rojo; el recuadro a la derecha era más grande (13.7 cm de largo y 10.3 cm de alto) y con un marco de color verde. Debajo de cada recuadro había un ícono de “play”. Cada vez que el participante presionó el ícono del recuadro de la izquierda, la pantalla de la computadora cambió a color rojo durante 2 s, seguido por la reproducción del video durante 8 s. Sí el participante presionó el ícono del recuadro derecho, la pantalla cambió a color verde durante 8 s e inmediatamente después se presentó el video durante 32 s.

Durante la reproducción del video, en todos los ensayos, forzados o de elección, un ruido blanco independiente del empleado para minimizar distracciones externas durante la sesión, enmascaró el audio del video. Concurrente con la reproducción del video, en la esquina superior derecha de la pantalla se presentó una imagen de un teclado blanco con la barra espaciadora señalada por un rectángulo rojo parpadeando. De esta forma, se entrenó al participante a mantener presionada la barra espaciadora del teclado para interrumpir el ruido blanco y poder escuchar el audio del video. Esta operante se conceptualizó como el análogo de la conducta “consumatoria” de las palomas de consumir el grano del dispensador; es decir, el participante “consumió” el video por tanto tiempo como mantuvo presionada la barra espaciadora para poder escucharlo.

Después del primer ensayo forzado, la reproducción del video inició justo donde se interrumpió en el ensayo anterior.

Dado que los ensayos de entrenamiento sirvieron únicamente para que los participantes aprendieran las contingencias programadas en la PDG sin instrucciones verbales o escritas, en el presente estudio no se presentaron datos del entrenamiento preliminar.

Prueba de Demora de la Gratificación

Al terminar el entrenamiento preliminar, se expuso a los participantes a una sesión de la PDG, la cual consistió en 30 ensayos similares a los ensayos de elección descritos en la sección anterior.

Antes de iniciar la sesión, a cada participante se le proporcionó una hoja impresa con las siguientes instrucciones:

“Por favor observa cuidadosamente. No pidas información adicional en relación a lo que estás a punto de hacer. La tarea es tener acceso al video. Después de que des click en “Inicio”, la pantalla puede permanecer de un mismo color por cierto tiempo, no es una falla de la computadora. Observa, tal vez debas o no hacer clic en la pantalla para acceder al video.

El programa te notificará cuando la sesión termine con el mensaje “¡Gracias por tu participación!”. Por favor, avísale al experimentador una vez que aparezca el mensaje.

Estas fueron las únicas instrucciones que recibió el participante quién, después de leerlas se puso los audífonos para iniciar la sesión.

Un ruido breve señaló el inicio y final de cada ensayo cuya duración fue de 64 s. En cada ensayo se mostraron los dos recuadros de diferente tamaño y color descritos en los ensayos de elección del entrenamiento preliminar. Cuando el participante presionó el ícono “play” del recuadro izquierdo, la pantalla cambió a color rojo durante 2 s, seguido por 8 s de reproducción del video favorito del participante, previamente sugerido por él. Al finalizar la reproducción del video, la pantalla permaneció de color negro señalando un tiempo fuera de 54 s. Por otro lado, si el participante presionó sobre el ícono del recuadro derecho, la pantalla de la computadora cambió a color verde durante un periodo de demora de 32 s, seguido por 32 s de reproducción de su video favorito. Se mantuvieron constantes los colores de la pantalla y la posición de los recuadros durante toda la sesión y para todos los sujetos.

A diferencia de los ensayos de elección del entrenamiento preliminar, en los ensayos en los que el participante seleccionó la recompensa grande demorada en el PDG, estuvo presente un recuadro rojo durante el periodo de demora, que el participante podía presionar para interrumpir la demora, es decir, tuvo la posibilidad de revertir su preferencia; y de ser el caso, se canceló la entrega del video de 32 s para recibir inmediatamente el video durante 8 s. Este video fue seguido por un tiempo fuera que terminó una vez concluidos los 64 s programados del ensayo. No se dio instrucciones sobre la posibilidad de reversión de preferencias para mantener el procedimiento lo más similar posible al empleado con sujetos no humanos (cf. Grosch & Neuringer, 1981; Reynolds, de Wit & Richards, 2002).

Conforme a este procedimiento la reversión de preferencias solo podía ocurrir durante el periodo de demora de 32 s antes de entregar la recompensa grande; una vez que se entregaba cualquiera de los dos videos no se podían cancelar su reproducción durante su duración programada; 8 s como recompensa chica e inmediata o 32 s como recompensa grande demorada.

Resultados

Se observó variabilidad intra y entre participantes en sus elecciones de la recompensa grande demorada o de la pequeña e inmediata. Sin embargo, como en la investigación con palomas expuestas a procedimientos de autocontrol similares al empleado en este estudio (cf. Cole, Coll, & Schoenfeld, 1990), se puede clasificar la conducta de los participantes como autocontrolada si eligen al menos el 80% de las recompensas grandes demoradas. Con este criterio, se agrupó la conducta de los participantes en tres conjuntos; a saber, los sujetos que eligieron la recompensa grande demorada entre 80% y 100% de los ensayos, en algún porcentaje que varió entre 21% y 79%, o entre 0% y 20% de los ensayos. Así, en la Figura 1 se muestran para cada sujeto las elecciones de la recompensa demorada (barras vacías RD) y de la recompensa inmediata (barras rellenas RI) en cada uno de los 30 ensayos de la sesión de prueba.

Figura 1

Recompensas demoradas (RD) e inmediatas (RI) obtenidas en los ensayos consecutivos de exposición al procedimiento y para cada participante (paneles)

Ocho participantes eligieron el 80% o más de las recompensas demoradas (P10, P11, P15, P14, P1, P5, P3, P2); cuatro participantes eligieron entre el 21% y 79% de las recompensas (P12,P9, P6, P7) y otros tres participantes eligieron menos del 20% de las recompensas demoradas durante toda la sesión (P8, P4,P13).

En la Figura 2 se presenta para todos los participantes las reversiones en el ensayo en el que ocurrieron (abscisa) y la latencia de las mismas (ordenada).

Figura 2

Latencia de las reversiones para cada participante (paneles).

Como se observa en la Figura 2, 12 de los 15 participantes cambiaron su elección al menos una vez en la sesión. Sin embargo, el número de reversiones permaneció relativamente bajo; hubo entre 0 y 9 reversiones en la sesión. La mayoría de las reversiones ocurrieron en los primeros 15 ensayos y durante los primeros 10 s del periodo de demora (de cada ensayo) en 12 de los 15 sujetos.

Experimento 2

En el Experimento 1, se probó la dinámica de la conducta de demora de la gratificación en humanos al ser expuestos a más de un ensayo a la PDG. Globalmente, se encontró que la conducta de los sujetos no se mantuvo estable conforme transcurrieron los ensayos de la sesión. Esto pudo deberse al valor de la demora por la recompensa grande demorada empleada. A saber, Reynolds, et al. (2002) encontraron que conforme aumentó la duración de la demora de entrega de la recompensa grande demorada, incrementó el número de reversiones en ratas. De esta forma, el siguiente paso consistió en averiguar el efecto de la demora por la recompensa grande en la conducta de espera en humanos. Con este propósito, en el Experimento 2 se aumentó el número de sesiones de exposición a la PDG y se variaron los valores de la demora de la recompensa grande, conforme al arreglo de Reynolds, et al. (2002)

Método

Participantes

Participaron 4 mujeres y 1 hombre con una media de edad de 19 años (D. E. = 0.7) todos estudiantes de segundo semestre de la carrera de psicología. El único requisito de inclusión fue que tuvieran entre 18 y 30 años de edad y que vivieran en la Ciudad de México. Todos los participantes recibieron una compensación económica de $100.00 al finalizar la sesión.

Aparatos

Para la conducción del experimento, se emplearon los mismos aparatos y el mismo cubículo, descritos en el Experimento 1. También se utilizaron videos como reforzador en la PDG. En esta ocasión, se pidió a los participantes que indicaran 10 de sus videos favoritos previo a la primera sesión. Se utilizó un video por sesión.

Procedimiento

Se expuso a los participantes a la misma sesión de entrenamiento preliminar descrita en el Experimento 1, con el único objetivo de que aprendieran a emitir la operante de elección entre dos recompensas de diferente duración y demora de entrega; así como la emisión de la conducta consumatoria.

Posteriormente, se expuso a los participantes a la PDG utilizada en el Experimento 1, con las siguientes modificaciones. La duración de la recompensa pequeña e inmediata se mantuvo en 16 s de reproducción de su video favorito y de 32 s para la grande demorada. Ambas duraciones se mantuvieron constantes durante todo el experimento. Las contingencias programadas fueron idénticas a las descritas en el Experimento 1; esto es, eligieron entre la recompensa chica e inmediata o la grande demora y en este último caso durante el periodo de demora los participantes podían “revertir” su elección. Sin embargo, conforme a un diseño intrasujeto, en este experimento se expuso a cada participante a demoras de 0, 4, 8, 16 y 32 s, por la recompensa grande demorada. Cada demora estuvo vigente durante 30 ensayos en cada una de dos sesiones y cada demora se presentó de manera semi-aleatoria (cf. Reynolds et al. 2002) como se muestra en la Tabla 1. La duración del ensayo dependió de la duración de la recompensa grande demorada (32 s) más la duración de su demora de entrega. Por lo tanto, la duración entre sesiones varió conforme a la duración de la demora de la recompensa grande demorada presentada en cada sesión.

Tabla 1

	Sesiones
Participante	1	2	3	4	5	6	7	8	9	10
P16	16	0	8	4	32	4	8	32	0	16
P17	0	32	16	8	4	8	16	4	32	0
P18	32	4	0	16	8	16	0	8	4	32
P19	4	8	32	0	16	0	32	16	8	4
P20	8	16	4	32	0	32	4	0	16	8

Orden de presentación de las demoras de la recompensa grande.

Resultados

Como en el Experimento 1, se siguió el criterio de obtener al menos el 80% de las recompensas grandes demoradas por sesión para describir la conducta del participante como de autocontrol. En la Figura 3 se muestra el número de recompensas grandes-demoradas (barras vacías RD) y pequeñas-inmediatas (barras rellenas RI) elegidas por cada participante (hileras) en los 30 ensayos en que estuvo disponible cada demora de entrega de la recompensa (columnas). Estos datos se muestran para las dos sesiones en las que estuvo disponible cada demora (divididas por la línea vertical punteada paralela a la ordenada).

Figura 3

Recompensas demoradas (RD) e inmediatas (RI) obtenidas en los ensayos consecutivos de exposición a cada una de las dos sesiones en las que estuvo vigente cada demora de reforzamiento (columnas). Los datos se muestran para cada uno de los participantes (hileras)

Se observó variabilidad intra y entre los valores de la demora empleadas. Los participantes P16 y P19 eligieron únicamente la recompensa pequeña e inmediata en las dos sesiones de exposición a las demoras de 0 a 16 s. El participante P20 eligió sólo la recompensa grande demorada en todos los ensayos de las dos sesiones de exposición a cada demora de la recompensa. En el participante P17 se observó casi el 80% de recompensas grandes demoradas ganadas en la primera sesión de exposición a la demora de 0 s. En las demás sesiones y demoras predominó la elección de la recompensa pequeñas e inmediata. En el participante P18 se observó un patrón de elecciones de la recompensa grande demorada en la mayoría de los ensayos de exposición a las demoras de 0 a 16 s y un 63% de elecciones de la recompensa grande en la primera sesión de exposición a la demora de 32 s, en la segunda sesión se observó un 0% de elecciones de la recompensa grande.

En la Figura 4 se presentan las reversiones en los ensayos en los cuales ocurrieron (abscisa) y la latencia de cada una (ordenada). Los datos se muestran para cada demora empleada (columnas) y para cada sujeto (hileras).

Figura 4

Latencia de las reversiones. Los datos se muestran para cada demora (columnas) y participantes (hileras). En cada panel la línea punteada separa las dos sesiones de exposición a cada demora de entrega de la recompensa grande.

En las cuatro demoras programadas y para todos los sujetos se observó al menos una reversión. Sin embargo, el número de reversiones fue relativamente bajo en comparación al Experimento 1; hubo menos de 5 reversiones por sesión. Las reversiones ocurrieron al inicio de la sesión y durante los primeros 5 s del periodo de demora.

Discusión General

Como en el caso de cualquier procedimiento de operante libre que se emplea para estudiar la conducta autocontrolada con animales (cf. Logan & Ferraro, 1970), la ejecución en el procedimiento de demora de la gratificación en humanos está modulada por el número de ensayos de elección, el número de sesiones de exposición al procedimiento y por variables independientes como la duración de la demora de reforzamiento. A continuación se describirán los detalles de cada experimento que apoyan esta conclusión general.

Una característica del procedimiento clásico de Mischel y Ebbesen (1970) es la exposición de los participantes a una única sesión con solo un ensayo en el cual pueden elegir entre una recompensa pequeña e inmediata o una grande demorada. En contraste, en el Experimento 1 de este estudio, se expuso a 15 participantes al procedimiento de demora de la gratificación durante una sesión compuesta de 30 ensayos de elección. Se encontró mucha variabilidad intra y entre sujetos en sus elecciones por la recompensa pequeña o la grande y en las reversiones de sus preferencias. Conforme a estos resultados se sugiere que clasificar la conducta de un participante, con base en su ejecución en solo una sesión y solo un ensayo, como “impulsiva o autocontrolada” es, en el mejor de los casos, una clasificación desafortunada. El hecho es que la exposición a ensayos sucesivos del procedimiento de demora de la gratificación modula las elecciones de los participantes, y en particular las reversiones de las elecciones durante la sesión. Como se puede ver en la Figura 2, para la mayoría de los participantes las reversiones ocurrieron durante los primeros ensayos de la sesión y en general en los primeros 10 segundos del periodo de demora.

En el Experimento 2, además de averiguar los efectos del número de ensayos, también se expuso a los participantes, en dos sesiones consecutivas, a cinco demoras de entrega de la recompensa grande. Se emplearon los valores de la demora usados por Reynolds, et al. (2002) con ratas: 0, 4, 8, 16 y 32 s. Se encontró que, como se muestra en la Figura 4, la mayoría de los participantes realizaron pocas reversiones (número de barras en cada panel) y estas ocurrieron en los primeros ensayos de las sesiones (ensayos en la abscisa con barras); aún más, las reversiones ocurrieron en los primeros segundos del periodo de demora. Estos datos son comparables sólo tangencialmente con los reportados por Grosch y Neuringer (1981) con palomas y por Reynolds et al., con ratas, dado que en los estudios de dichos autores se expuso a los sujetos a las condiciones experimentales durante varias sesiones. Sin embargo, el presente estudio muestra que en principio, las mismas variables independientes como el tiempo de exposición al procedimiento o la demora de entrega de la recompensa, tienen efectos similares con humanos y con sujetos no-humanos.

En el Experimento 2, se encontró una relación marginal entre la duración de la demora de entrega de la recompensa grande y el número de elecciones de la misma. Como se aprecia en la Figura 3, los participantes siempre eligieron la recompensa chica e inmediata o la grande demorada en la mayoría de los ensayos y en las dos sesiones de exposición a cada demora, independientemente de la duración de esta última. Este resultado, aparentemente negativo, contrasta con el reportado por Reynolds, et al., quienes encontraron que el número de elecciones disminuyó conforme aumentó la demora de entrega de la recompensa grande con ratas como sujetos. Sin embargo, la diferencia en resultados entre ambos estudios, lejos de representar una diferencia fundamental entre especies, o detalles de procedimientos como el tipo de reforzadores empleados, puede deberse a la duración relativa de la demora empleada. Es muy posible, que en el presente estudio las demoras de 4 a 32 s solo representan un extremo de un rango mucho más amplio de demoras que se pueden usar con humanos. Por ejemplo, en procedimientos de elección con humanos como sujetos experimentales se han empleado demoras de minutos (e.g., Fry & Preston, 1980; Steelandt, Thierry, Broihanne & Dufour, 2012). También en el procedimiento clásico de demora de la gratificación con humanos se utilizaron demoras de varios minutos (cf. Mischel y Ebbesen, 1970).

Mischel (1966) sugirió que el procedimiento de demora de la gratificación es una medición de la “habilidad” de un sujeto para sostener la elección de una recompensa demorada, mientras está continuamente disponible una recompensa pequeña e inmediata. Los datos de los dos experimentos de este estudio sugieren que tal “habilidad” para sostener la elección por una recompensa más grande a largo plazo, tiene parámetros como el número de ensayos y de sesiones de exposición al procedimiento, como se ha documentado en estudios con sujetos no humanos. Sin embargo, los datos reportados en este estudio son pistas preliminares y, por esta razón es necesario probar en futuros estudios parámetros de tiempo más grandes. La acumulación de evidencia de este tipo eventualmente podrá corroborar que la “habilidad” de los humanos, comentada por Mischel, depende, como cualquier otra operante reportada en la literatura del análisis de la conducta, de la duración de la demora de reforzamiento (cf. Renner, 1964; Tarpy & Sawabini, 1974).

Referencias

Beran, M. J. (2002). Maintenance of self-imposed delay of gratification by four chimpanzees (Pan troglodytes) and an orangutan (Pongo pygmaeus). The Journal of General Psychology, 129(1), 49-66. DOI: http://dx.doi.org/10.1080/00221300209602032

Beran, M. J., Savage‐Rumbaugh, E. S., Pate, J. L., & Rumbaugh, D. M. (1999). Delay of gratification in chimpanzees (Pan troglodytes). Developmental Psychobiology, 34(2), 119-127. DOI: 10.1002/(SICI)1098-2302(199903)34:2<119: AID-DEV5>3.0.CO;2-P

Brucks, D., Soliani, M., Range, F., & Marshall-Pescini, S. (2017). Reward type and behavioural patterns predict dogs’ success in a delay of gratification paradigm. Scientific Reports, 7, 1-10. DOI: 10.1038/srep42459

Cole, B. K., Coll, G., & Schoenfeld, W. N. (1990). Análisis experimental del autocontrol. En E. Ribes y P. Harzem (Eds.), Lenguaje y conducta (pp. 169-192). México: Trillas.

Darcheville, J. C., Rivière, V., y Wearden, J. H. (1992). Fixed-interval performance and self-control in children. Journal of the Experimental Analysis of Behavior. 46, 243-257. doi: 10.1901/jeab.1992.57-187

Forzano, L. B., Michels, J. L., Carapella, R. K., Conway, P., & Chelonis, J. J. (2011). Self-control and impulsivity in children: Multiple behavioral measures. The Psychological Record, 61(3), 425-448.

Fry, P. S., & Preston, J. (1980). Children's delay of gratification as a function of task contingency and the reward-related contents of task. Journal of Social Psychology, 111(2), 281.

Grosch, J., & Neuringer, A. (1981). Self‐control in pigeons under the Mischel paradigm. Journal of the Experimental Analysis of Behavior, 35(1), 3-21. DOI: 10.1901/jeab.1981.35-3

Hackenberg, T. D. & Pietras, C. (2000). Video access as a reinforcer in a self- control paradigm: a method and some data. Experimental Analysis of Human Behavior Bulletin, 18, 1-5.

Logan, F. A. & Ferraro, D. P. (1970). From free responding to discrete trials. En W. N. Schoenfeld (Ed.) The theory of reinforcement schedules. New York: Appleton Century Crofts.

Mischel, W. (1966). A social-learning view of sex differences in behavior. The development of sex differences, 56, 81.

Mischel, W. & Ebbesen, E. B. (1970). Attention in delay of gratification. Journal of Personality and Social Psychology, 16 (2), 329.

Mischel, W. (1974). Processes in delay of gratification. Advances in Experimental Social Psychology, 7, 249-292. DOI: https://doi.org/10.1016/S0065-2601(08)60039-8

Renner, K.E. (1964). Delay of reinforcement: A historical review. Psychological Bulletin, 61 (5). 341. DOI: http://dx.doi.org/10.1037/h0048335

Reynolds, B., De Wit, H. & Richards, J. B. (2002). Delay of gratification and delay discounting in rats. Behavioural Processes, 59 (3), 157 – 168. DOI: https://doi.org/10.1016/S0376-6357(02)00088-8

Schlam, T. R., Wilson, N. L., Shoda, Y., Mischel, W., & Ayduk, O. (2013). Preschoolers' delay of gratification predicts their body mass 30 years later.The Journal of pediatrics, 162(1), 90-93.

Steelandt, S., Thierry, B., Broihanne, M. H., & Dufour, V. (2012). The ability of children to delay gratification in an exchange task. Cognition, 122(3), 416- 425.

Tarpy, R. M., & Sawabini, F. L. (1974). Reinforcement delay: A selective review of the last decade. Psychological Bulletin, 81(12), 984. DOI: http://dx.doi.org/10.1037/h0037428

White, J. L., Moffitt, T. E., Caspi, A., Bartusch, D. J., Needles, D. J., & Stouthamer-Loeber, M. (1994), Measuring impulsivity and examining its relationship to delinquency. Journal of Abnormal Psychology, 103 (2), 192. DOI: http://dx.doi.org/10.1037/0021-843X.103.2.192