Respuestas de observación con estímulos verbales seriales descriptivos y arbitrarios

Katya Quiñones-Orozco; Rogelio Escobar

resúmenes

secciones

referencias

imágenes

Resumen: Para determinar el control que adquieren estímulos seriales verbales o arbitrarios sobre las respuestas de observación en humanos, estudiantes universitarios se expusieron a un programa de reforzamiento mixto en el que alternaron componentes de extinción de 90, 60 ó 30 s y un componente de reforzamiento de 30 s en el que se acumularon puntos intercambiables por dinero. Cada componente de extinción se dividió en subcomponentes de 30 s de tal forma que cada respuesta de observación resultó en un estímulo de 5 s que señaló el paso del tiempo durante extinción (E-) o el componente de reforzamiento (E+). En condiciones sucesivas se usaron estímulos verbales arbitrarios (letras) o descriptivos (una descripción de la disponibilidad del reforzador). Para dos participantes el orden de las condiciones fue arbitrarios, descriptivos, arbitrarios y para otros dos fue descriptivos, arbitrarios, descriptivos. En la primera condición las respuestas que produjeron estímulos arbitrarios fueron más frecuentes que las que no tenían consecuencias programadas. Se observó el efecto opuesto con estímulos descriptivos. Los siguientes cambios en las condiciones o la posición serial de los estímulos tuvieron un efecto sistemático. Los hallazgos sugieren que los participantes forman reglas que pueden producir insensibilidad a los cambios en el programa.

Palabras clave:Respuestas de observaciónRespuestas de observación, estímulos seriales estímulos seriales, estímulos verbales descriptivos estímulos verbales descriptivos, estímulos verbales arbitrarios estímulos verbales arbitrarios, conducta gobernada por reglas conducta gobernada por reglas, humanos humanos.

Abstract: To determine the control of verbal or arbitrary serial stimuli on observing responses by humans, college students were exposed to a mixed schedule of reinforcement in which extinction components of 30, 60, or 90 s alternated strictly with a 30-s reinforcement component. Accumulated points were exchanged for money. Each extinction component was divided in 1, 2, or 3, 30-s subintervals, and each observing response produced a 5-s stimulus (S-) associated with each subinterval, signaling the passage of time during extinction, or the reinforcement component (S+). In successive conditions, arbitrary stimuli (letters) or descriptive verbal stimuli (descriptions of the availability of reinforcement) were used. For two participants, the order of the conditions was arbitrary-descriptive-arbitrary and for the other two, descriptive-arbitrary-descriptive. In the first condition, observing responses that produced arbitrary stimuli were more frequent than responses with no programmed consequences. The opposite effect was found when descriptive stimuli were used. Subsequent changes in the conditions or the serial position of stimuli had no systematic effects. These findings suggest that human participants quickly form rules that describe whether stimuli are "useful" or “bad news”, and such rules result in insensitivity to subsequent changes in contingencies.

Keywords: Observing responses, serial stimuli, verbal descriptive stimuli, verbal arbitrary stimuli, rule-governed behavior, humans.

Carátula del artículo

Respuestas de observación con estímulos verbales seriales descriptivos y arbitrarios

Observing responses with arbitrary and descriptive verbal stimuli

Katya Quiñones-Orozco katy.quioro@gmail.com

Universidad Nacional Autónoma de México, México

Rogelio Escobar rescobar@unam.mx

Universidad Nacional Autónoma de México, México

Acta Comportamentalia: Revista Latina de Análisis de Comportamiento, vol. 26, núm. 3, pp. 285-299, 2018
Universidad Veracruzana

Recepción: 24 Enero 2018

Aprobación: 12 Abril 2018

Para establecer una discriminación es necesario en primer lugar que los organismos hagan contacto con los estímulos presentados (Spence, 1940). Spence notó que aunque analizar este contacto podría aportar información sobre el proceso de discriminación, era difícil determinaren qué momento un organismo orienta sus receptores hacia la fuente de estimulación.

Wyckoff (1952, 1969) describió un procedimiento que permitió estudiar las respuestas que describió Spence (1940). El procedimiento, en términos generales, consistió en exponer alos sujetos a un programa de reforzamiento similar a un mixto con dos componentes: uno de reforzamiento y uno de extinción. Durante ambos componentes se tuvo disponibilidad a dos operanda. Las respuestas en un operandum producían el reforzador conforme a un programa de reforzamiento vigente durante el componente de reforzamiento. En el segundo operan dumlas respuestas producían estímulos asociados diferencialmente con los componentes del programa(i.e. luz roja y luz verde). Wyckoff nombró respuesta de observación a las respuestas que encendían los estímulos. Debido a que las respuestas de observación se establecieron y mantuvieron a pesar de no alterar la frecuencia del reforzador primario, podría afirmarse que los estímulos originalmente neutros, en este caso las luces asociadas a cada componente, funcionaron como reforzadores condicionados de las respuestas de observación. Sin embargo, el hecho de que el procedimiento incluyera estímulos asociados con el componente de extinciónha generado problemas de interpretación en el análisis de la conducta (véanse Dinsmoor,1983, Fantino, 1977).

Si los principios del reforzamiento condicionado son paralelos a los principios del condicionamientoclásico (e.g., Kelleher & Gollub, 1962), un estímulo asociado con un componentede reforzamiento (E+) debería adquirir propiedades reforzantes y aumentar las respuestasque lo producen (cf. Shahan, 2010). En contraste, un estímulo asociado con extinción (E-)debería adquirir propiedades de estímulo aversivo condicionado y disminuir la conducta (e.g.,Rilling, Askew, Ahlskog, & Kramer, 1969). En la literatura sobre respuestas de observación, esta afirmación se conoce como hipótesis del reforzamiento condicionado. Conforme a estahipótesis las respuestas de observación ocurren debido al efecto reforzante del E+ asociadocon el reforzador y los organismos evitan o escapan del E-.

Sin embargo, otra explicación que se conoce como hipótesis de la reducción de la incertidumbre es que los estímulos, independientemente de su asociación con la presencia o ausencia del reforzador, funcionan como reforzadores debido a que reducen la incertidumbre sobre el estado del programa de reforzamiento (véase Hendry, 1969). La hipótesis de la reducción de la incertidumbre sugiere que tanto los E+ como los E- mantienen las respuestas de observación debido a que reducen la incertidumbre sobre la presencia o la ausencia del reforzador.En otras palabras las malas noticias deberían ser tan reforzantes como las buenas noticias.

Numerosos estudios sobre respuestas de observación han mostrado el efecto reforzante del E+ tanto con animales no humanos como palomas (e.g., Mueller & Dinsmoor, 1984: DeFulio & Hackenberg, 2008); monos (e.g., Lieberman, 1972), peces dorados (e.g., Purdy& Peel, 1988), ratas (e.g., Escobar & Bruner, 2002) así como con humanos (e.g., Perone & Baron, 1980: Fantino & Case, 1983; Fantino & Silberberg. 2010).

El efecto del E-, sin embargo, ha sido objeto de debate durante algunas décadas. Por un lado la mayoría de los estudios con animales no humanos mostraron que el E- era aversivo o no mantenía las respuestas de observación por si mismo, lo cual es consistente con la hipótesis del reforzamiento condicionado (véase Dinsmoor, 1983). Sin embargo, existen algunos hallazgos contradictorios con esta hipótesis. Por ejemplo, Lieberman (1972), con monoscomo sujetos, mostró que eliminar la presentación del E- produce una disminución de las respuestas de observación lo cual se esperaría si el E- tuviera una función reforzante. A partir de este hallazgo, Lieberman sugirió que el E- podría tener una función aversiva en palomasy ratas pero reforzante en primates. Posteriormente, la explicación sobre la función del E- secomplicó más cuando los hallazgos con humanos también sugirieron un efecto reforzante del E- (e.g., Perone y Baron, 1980). Perone y Baron (1980) encontraron que si exponían a participantes a un procedimiento en el que podían elegir entre presionar un botón que producía tanto el E+ como el E- o un botón que producía solamente el E+, los participantes presionaban el botón que producía ambos estímulos. Este hallazgo sugiere que los E- adquirieron propiedades reforzantes en participantes humanos.

Cuatro estudiantes universitarios; dos hombres y dos mujeres entre 18 y 22 años de edad accedieron a participar de manera voluntaria en el experimento descrito como aprendizaje y toma de decisiones. En la primera sesión firmaron un consentimiento informado donde se les explicó que ganarían dinero según fuera su desempeño durante la sesión. El total de puntos de una sesión se les entregó al final de cada una de las sesiones en pesos. Cada punto tuvo un valor de $1.00 peso. Los participantes obtuvieron en promedio $40 pesos por sesión.

En un grupo de estudios realizados por Fantino y sus colaboradores, (e.g., Case, Ploog,& Fantino, 1990; Fantino & Case, 1983), expusieron a participantes humanos a procedimientosde respuestas de observación bajo numerosas condiciones y no encontraron evidencia deque el E- funcionara como reforzador condicionado. Fantino y su grupo sugirieron que el hallazgo de Perone y Baron (1980) podía ser explicado sin apelar a la reducción de la incertidumbre y argumentaron que artefactos en el procedimiento como el esfuerzo físico de losparticipantes al realizar la tarea podrían explicar los resultados. Perone y Kaminski (1992) encontraron diferencias importantes en los procedimientos de Perone y Baron (1980) y en los de Fantino y sus colaboradores (e.g., Case, et al., 1990) que podrían explicar la incongruenciade los resultados. La diferencia era que Perone y Baron dieron instrucciones mínimas a losparticipantes acerca del procedimiento de observación y, por el contrario, en los estudios del grupo de Fantino, las instrucciones describieron accidentalmente las contingencias vigentesdurante cada componente del programa de reforzamiento.

Perone y Kaminski (1992) realizaron una serie de experimentos para determinar el papelde las instrucciones verbales en el establecimiento de los E-s como reforzadores condicionados.Expusieron a estudiantes a un procedimiento de observación en el que entregaron puntos conforme a un programa de reforzamiento mixto intervalo variable (IV) 27 s extinción 30 s.Las respuestas de observación producían estímulos que aparecían en un monitor. Durante losExperimentos 1 y 2, estos estímulos podían ser verbales descriptivos, es decir que el letrerodescribía el estado del programa en términos de la probabilidad de poder o no ganar puntos,por ejemplo “En este momento la probabilidad de puntos es el doble de lo normal” comoE+. Estos estímulos fueron análogos a las instrucciones detalladas que dieron Fantino y suscolaboradores. Mientras que durante el Experimento 3 usaron estímulos verbales arbitrariosque únicamente consistían de una letra que no proporcionaba información verbal sobre elfuncionamiento del programa, por ejemplo “El estado del programa es: B” como E-. Estosson análogos a los estímulos que se utilizan en animales no humanos y en el procedimientode Perone y Baron (1980) en el que no describieron el funcionamiento del programa en lasinstrucciones que dieron a sus participantes. Las presiones en uno de los botones de observaciónproducían el E+, las presiones en otro botón producían el E- y las presiones en un tercerbotón producían letreros no correlacionados con el componente en curso por ejemplo “En estemomento puedes o no ganar puntos” o “El estado del programa es: A o B”.

Perone y Kaminski (1992) encontraron en la condición con estímulos verbales descriptivos que los participantes produjeron más frecuentemente los letreros no correlacionados con el programa que los letreros asociados únicamente con extinción. Sin embargo, en la condición con estímulos verbales arbitrarios los participantes produjeron más frecuentemente el E- que el estímulo no correlacionado con los componentes del programa. Los resultados de Perone y Kaminski (1992) sugieren que en los experimentos de Case et al. (1990), los participantes humanos pudieron haber evitado la presentación del E- debido al control instruccional, específicamente a que las instrucciones hicieron explícita su asociación con extinción. La segunda es que cuando se utilizan estímulos verbales arbitrarios, los E- podrían funcionar como reforzadores condicionados de la conducta de observación aunque no es claro por qué.

Una explicación para la función reforzante del E- es que accidentalmente los estímulos se asocian con la entrega del reforzador (véase Escobar & Bruner, 2009; Silberberg & Fantino,2010). Específicamente la ausencia del estímulo correlaciona con la entrega del reforzador por lo que los estímulos que nominalmente se presentan durante extinción podrían señalar el reforzador con una demora y convertirse en reforzadores condicionados. Escobar y Bruner(2009) reportaron un hallazgo que ejemplifica este efecto. El único E- usado en los estudios previos con procedimientos de respuestas de observación se sustituyó por diferentes estímulos que presentaron en serie durante el componente de extinción, de tal forma que los estímulos se presentaron siempre en el mismo orden y siempre con una posición temporal fija hacia el reforzador dentro de 5 sub intervalos de un componente de extinción de duración variable.Escobar y Bruner encontraron que las respuestas de observación aumentaron del inicio al final del componente de extinción. Este hallazgo sugirió que el E- que ocurrió en proximidad temporal con el componente de reforzamiento funcionó como un reforzador condicionado yel E- que se encontraba al inicio del intervalo entre reforzadores funcionó como un estímulo aversivo.

Aunque el hallazgo de Escobar y Bruner (2009) podría explicar el efecto reforzante delE- cuando se usan estímulos arbitrarios (e.g., Perone & Baron, 1980), este efecto únicamentese ha reportado con ratas como sujetos (véase también Silberberg & Fantino, 2010, para una demostración similar con palomas). Por lo tanto, el primer propósito del presente estudio fuedeterminar la generalidad entre especies de los resultados de Escobar y Bruner (2009) usandoparticipantes humanos. Debido a que se desconoce la posible interacción entre la modalidad del estímulo (arbitrario o descriptivo) y el uso de estímulos en serie, el segundo propósito fue replicar sistemáticamente el hallazgo de Perone y Kaminski (1992), quienes presentaron las modalidades de estímulo verbal arbitrario y descriptivo, utilizando tres estímulos en seriedurante el componente de extinción.

MÉTODO

Participantes

Aparatos

Se utilizó la pantalla de un ordenador portátil (HP Pavilion x360) en la que se presentaron los eventos experimentales a los participantes. Se construyó una caja de mando de 13 x 7.5 x5 cm, con cuatro botones para hacer el procedimiento comparable con el de Perone y Kaminski(1992). El mando contaba con dos botones negros (botón de observación E- y botón de observación E+), dos rojos (botón de reforzamiento y botón de recolección) y cuatro dio dos emisores de luz (LEDs) ubicados 2 centímetros arriba de cada botón que señalaban la disponibilidad de cada botón. El mando se conectó al puerto USB del ordenador mediante la interfazArduino -Visual Basic descrita por Escobar y Pérez-Herrera (2015). Para evitar distraccionesse reprodujo un ruido blanco en formato mp3 a través de unos audífonos de diadema.

Procedimiento

Instrucciones y procedimiento general. Los participantes se sentaron en una silla frente a un escritorio en el que se encontraba el monitor detrás de la caja de mando con botones y se lescolocaron los audífonos con el audio de ruido blanco. Antes de comenzar el experimento,en el monitor aparecieron las siguientes instrucciones similares a las de Perone y Kaminski(1992):

Mientras la sesión esté en efecto tú estás a cargo de trabajar con el aparato. Depende deti determinar cómo operarlo para sacar el mayor provecho. Mientras la sesión esté en efectopuedes presionar los botones como tú decidas, pero recuerda que el dinero que ganas dependede tu ejecución. Fíjate en los cuatro botones. Cada botón funciona únicamente cuando la luzencima de él está encendida y no funciona si se presiona más de un botón simultáneamente.Debes dejar de presionar cada botón antes de presionarlo de nuevo o antes de presionar otrobotón. Cuando estés listo solicita que inicie la sesión.

Cuando el participante indicó que estaba listo, comenzó la sesión con una pantalla de color azul al fondo y dos recuadros blancos de 8.5 x 9 cm. En el recuadro ubicado a la izquierda de la pantalla se mostraron letreros con descripciones verbales arbitrarias o descriptivas de las condiciones en curso de acuerdo con el programa vigente. En el recuadro ubicado a la derechase presentó el letrero asociado al programa de reforzamiento que consistió en la leyenda:“¡Anotaste! Presiona el botón de Recolectar”. El experimento duró 9 días y se llevaron a cabo sesiones diarias de 20 minutos entre lunes y viernes.

Programa de reforzamiento mixto. Durante el experimento estuvo vigente un programade reforzamiento mixto con dos componentes: intervalo al azar (IA) 10 s (generado con ciclosde 1 s y p = 0.1) y extinción que se presentó en estricta alternación. El componente de IA tuvouna duración de 30 s y el componente de extinción duró en promedio 60 s con tres posibles duraciones 90, 60 y 30 s que se eligieron de manera semi aleatoria de tal forma que cada duración se presentó cinco veces durante la sesión, pero nunca se presentaron más de tres duraciones iguales en sucesión. Durante el componente de extinción estuvieron encendidas las luces correspondientes a los botones negros: botón de observación E- y botón de observación E+. Conforme al programa de reforzamiento de IA 10 s se reforzaron las presiones en el botón de reforzamiento con un letrero (ver Instrucciones y procedimiento general) que señalaba la disponibilidad del reforzador durante 5 s. Una vez que el reforzador estuvo disponible los participantes recolectaron el punto que ganaron presionando el botón de recolección y éste resultó en la presentación de un letrero de 5.5 x 7 cm al centro del monitor, entre los dos recuadros grandes, con la leyenda “Se añadió 1 peso a tu cuenta” durante 2 segundos. Durante este componente se encendieron los dos LEDs correspondientes a los botones rojos: botón de reforzamiento y botón de recolección y se apagó únicamente el LED correspondiente al botón de observación E-.

Respuestas de observación. Durante 9 sesiones cada respuesta en uno de los botones deobservación convirtió el programa de reforzamiento mixto en un programa múltiple durante5 s. Contingente a la presión del botón de observación E- aparecieron los estímulos asociados a extinción (E-) y la presión al botón de observación E+ resultó en la presentación de los estímulos asociados al programa IA 10 s (E+). Los estímulos consistieron en letreros que se presentaron en la parte izquierda del monitor. Para presentar estímulos en serie durante el componente de extinción, cada sub componente de extinción se dividió en periodos de 30 s. Cuando la duración del subcomponente fue de 90 s se presentaron tres periodos, cuando la duración fue de 60 s se presentaron dos periodos y cuando la duración fue de 30 s solamente se presentó un periodo. De esta forma cada sub componente mantuvo una relación temporal fija con el componente de reforzamiento. Cada presión en el botón de observación E- durante el Subcomponente 1 de extinción, entre 90 y 61 s, produjo el estímulo E1-. Cada presión en el mismo botón durante el Sub componente 2 de extinción, entre 60 y 31 s, produjo el estímuloE2- y cada presión en el botón durante el Sub componente 3 de extinción, entre 30 y 1 s, produjo el E3-. La Tabla 1 señala los tiempos de cada sub componente en el orden que aparecieron así como los estímulos descriptivos y arbitrarios en cada componente.

Comparación: estímulos verbales descriptivos y verbales arbitrarios. Los participantesestuvieron bajo tres condiciones, cada condición estuvo vigente durante 3 sesiones. Con undiseño ABA se alternó la presentación de los estímulos descriptivos o verbales entre cadacondición. Para dos participantes, en la primera condición cada presión a los botones de observaciónresultó en la presentación de los letreros con estímulos descriptivos. En la siguientecondición cada respuesta de observación resultó en la presentación de los estímulos verbalesarbitrarios y finalmente en la última condición se presentaron, contingentes a las presionesen los botones de observación, nuevamente los letreros con estímulos descriptivos de maneracontingente a las presiones en los botones de observación. Para aislar un posible efecto del or-

Tabla 1.
Letreros usados con ambas modalidades de estímulos: arbitrarios y descriptivos durante cada componente del programa mixto. Se muestra también el tiempo dentro del componente de extinción en el que se presentó cada sub componente

den de las condiciones dos participantes diferentes comenzaron en la condición donde estaban vigentes los letreros con estímulos verbales arbitrarios, posteriormente se expusieron a la condición con estímulos verbales descriptivos y finalizaron con estímulos verbales arbitrarios.

Resultados

Se calculó el número de respuestas de observación en cada uno de los subcomponentes de extinción y el componente de reforzamiento. Debido a que los subcomponentes de extinción se presentaron en un número diferente de ocasiones, el total de respuestas de observación por subcomponente y durante el componente de reforzamiento se corrigió tomando en cuenta el número de respuestas de observación totales en cada subcomponente dividiéndolo entre el número de veces que estuvo disponible dicho componente durante la sesión. Las respuestas de observación en el Subcomponente 1 de extinción se calcularon con el total de respuestas de observación/5; las respuestas de observación en el Subcomponente 2 de extinción fueron igual al total de respuestas de observación/10; las respuestas de observación en el Subcomponente 3 de extinción se calcularon con el total de respuestas de observación/15 y finalmente las respuestas de observación en el componente de reforzamiento fueron resultado del total de respuestas de observación/15. Con este número corregido se calculó la media de las respuestas de observación durante las nueve sesiones para los componentes de reforzamiento y extinción, dicha información se muestra en la Figura 1. Los paneles superiores corresponden a los participantes a quienes se les presentaron estímulos descriptivos en la primera condición y los paneles inferiores corresponden a los dos participantes para los que las presiones a los botones de observación resultaron en estímulos verbales arbitrarios. (Error 1: La referencia: Figura 1 está ligada a un elemento que ya no existe)

Figura 1
Media individual de las respuestas de observación durante los tres componentes de extinción (1, 2, 3) y en el componente de reforzamiento (4). Las líneas verticales en cada punto muestran la desviación estandar (± 1). Se excluyen las respuestas que no tenían consecuencias programadas durante los estímulos.

No se encontraron diferencias sistemáticas entre las respuestas durante los subcomponentes de extinción sucesivos (1, 2, 3) para los cuatro participantes. Durante las tres condiciones el número global de respuestas de observación fue mayor en los participantes PB3 y PB4 en comparación con los participantes PB1 y PB2. Para el participante PB1 las respuestas de observación aumentaron ligeramente durante extinción al cambiar de la condición con estímulos descriptivos a la condición con estímulos arbitrarios. Para los participantes PB3 y PB4 se observó un ligero aumento al cambiar de la condición con estímulos arbitrarios a la condición con estímulos descriptivos. Un aspecto notable en la Figura 1 es que una vez que se estableció un patrón de respuestas en la primera condición este patrón tendió a mantenerse relativamente estable durante el resto de las condiciones. (Error 2: La referencia: Figura 1 está ligada a un elemento que ya no existe)

La Figura 2 muestra el número de presiones a los cuatro botones del mando para las tres condiciones durante los tres subcomponentes de extinción (1, 2, 3) y el componente de reforzamiento (4). El número de presiones en cada botón se corrigió en función del número de veces que se presentó cada subcomponente durante el programa de extinción. Los paneles superiores corresponden a los participantes que comenzaron con estímulos descriptivos en la primera condición y los paneles inferiores corresponden a los participantes que estuvieron expuestos a estímulos arbitrarios en la primera y última condición. (Error 3: La referencia: Figura 2 está ligada a un elemento que ya no existe)

Figura 2.
Media individual de las presiones en cada botón del mando durante los tres sub componentes de extinción (1, 2, 3) y el componente de reforzamiento (4). Las respuestas en los botones de observación incluyen tanto las respuestas de observación como las respuestas sin consecuencias programadas que podían ocurrir durante la presentación de los estímulos.

Para los participantes PB1 y PB2 las presiones al botón de observación E+ fueron frecuentes durante los componentes de extinción y disminuyeron notablemente durante el componente de reforzamiento. La frecuencia de las presiones al botón de reforzamiento fue relativamente alta durante los tres sub componentes de extinción (1, 2 y 3) y aumentó durante el componente de reforzamiento. Las presiones al botón de observación E- y el botón de recolección se mantuvieron relativamente bajas durante los sub componentes de extinción (1, 2 y 3), sin embargo, las presiones al botón de observación E- aumentaron durante el componente de reforzamiento (4). Para los participantes PB3 y PB4 las presiones al botón de reforzamiento aumentaron cuando se cambió de la condición con estímulos arbitrarios a la condición con estímulos descriptivos. Las presiones en el botón de recolección se mantuvieron cercanas a cero durante extinción y aumentaron ligeramente durante el componente de reforzamiento.

Para analizar la preferencia por producir los E- en relación con un presionar un botón en el que las respuestas no tenían consecuencias programadas durante extinción, se analizó la proporción de presiones al botón de observación E- durante los tres subcomponentes de extinción (1, 2, 3) relativo a las presiones al botón en el que las respuestas no tenían consecuencias programadas durante extinción pero producían el E+ durante el componente de reforzamiento (respuestas de observación en el botón de observación E- [E-] / respuestas de observación en el botón de observación E- [E-] + respuestas de observación en el botón de observación E+[E+]). Este dato se muestra en la Figura 3 donde los tres paneles superiores corresponden a los participantes que estuvieron expuestos a estímulos descriptivos en la primera y última condición mientras que los paneles inferiores corresponden a los participantes quienes estuvieron en contacto con estímulos arbitrarios en la primera y última condición. (Error 4: La referencia: Figura 3 está ligada a un elemento que ya no existe)

Figura 3.
Proporción de respuestas que producían estímulos negativos relativo a las respuestas en los dos botones de observación durante los tres sub componentes de extinción (1, 2, 3). Los valores arriba de la línea punteada sugieren una preferencia por el E- y las respuestas debajo de la línea una preferencia por las respuestas sin consecuencias programadas.

Los resultados fueron consistentes entre los participantes de cada condición. Para los participantes que se les presentaron estímulos descriptivos en la primera y última condición (PB1 y PB2), la proporción de respuestas al botón de observación E- se mantuvo por debajo de 0.5 durante las tres condiciones. Lo cual sugiere una preferencia por el botón en el que las respuestas no tenían consecuencias programadas durante extinción. Por el contrario los participantes PB3 y PB4 a quienes se les presentaron las condiciones de estímulos arbitrarios, descriptivos y finalmente arbitrarios, mostraron una proporción de respuestas al E- por encima de 0.5 durante los tres subcomponentes de extinción. Lo cual evidencia una preferencia por presionar el botón en el que las respuestas producían el E- relativo a presionar el botón sin consecuencias programadas durante extinción.

Al finalizar cada condición del experimento se pidió a los participantes que contestaran tres preguntas: 1) ¿Qué ocurría cuando presionabas cada uno de los botones?; 2) ¿Seguiste alguna estrategia o secuencia para obtener puntos? y 3) ¿Podrías describir la estrategia brevemente? Algunas de las respuestas que fueron congruentes con la ejecución en el programa se describen en la sección de discusión.

Discusión

En el presente estudio se utilizaron estímulos en serie, durante extinción, con el propósito de replicar con humanos el efecto de la distancia temporal entre E- seriales y el componente de reforzamiento que reportaron Escobar y Bruner (2009). Estos autores observaron que la conducta de observación en ratas aumentó del inicio al final del componente de extinción, lo que es congruente con la noción de que los E- próximos al componente de reforzamiento podrían funcionar como reforzadores condicionados dada su relación accidental con el reforzador. Debido a que en estudios previos (e.g., Perone & Kaminski, 1992) con humanos solamente los E- verbales arbitrarios y no los descriptivos funcionaron como reforzadores condicionados, en el presente estudio se usaron ambos tipos de estímulos. Los resultados del presente experimento no mostraron diferencias sistemáticas entre las respuestas durante los subcomponentes de extinción sucesivos (1, 2, 3) con ninguna de las dos modalidades de estímulo. Una explicación para este resultado es que la formación de reglas en participantes humanos pudo limitar el contacto de la conducta con las contingencias directas. La falta de replicación en humanos de efectos de variables temporales sobre la conducta operante de animales no humanos no es nuevo, por ejemplo, en programas de intervalo fijo el patrón temporal de respuestas característico en este tipo de programas frecuentemente no se observa en participantes humanos (e.g., Weiner, 1969). La explicación para la diferencia es que en humanos pueden autogenerarse dos reglas: responder tan rápido como sea posible, que produce un patrón de respuestas constante en el intervalo entre reforzadores, o responder un cierto número de veces con algunas pausas intercaladas, lo que produce un patrón repetitivo de respuestas innecesarias para el reforzamiento que son seguidas de la respuesta procuradora del reforzador. Por lo tanto, es necesario realizar más investigación para determinar el origen de las diferencias entre especies en los estudios sobre respuestas de observación. Por el momento, la hipótesis del que el E- es reforzante debido a que se asocia accidentalmente con el reforzador demorado en participantes humanos (véase Escobar & Bruner, 2009; Silberberg & Fantino, 2010) no parece sostenerse.

Los resultados, sin embargo, muestran la generalidad entre procedimientos de los resultados de Perone y Kaminski (1992) quienes también usaron estímulos verbales arbitrarios y descriptivos. Perone y Kaminski mostraron que la preferencia por el E- fue mayor relativo a un estímulo que no estaba asociado con el programa cuando usaron estímulos verbales arbitrarios. Adicionalmente, mostraron el efecto inverso cuando usaron estímulos verbales descriptivos. Esto es, la preferencia por el E- fue menor que por estímulos no correlacionados con el programa.

En el presente estudio, durante la primera condición, el número de respuestas de observación fue mayor en los participantes PB3 y PB4, quienes estuvieron expuestos a estímulos arbitrarios en esta primera condición, en comparación con las respuestas de los participantes PB1 y PB2 quienes comenzaron las sesiones con estímulos descriptivos. También se compararon las respuestas de observación que producían el E- con las respuestas de observación que no tenían consecuencias programadas. De esta forma pudo determinarse el valor reforzante o aversivo de los estímulos en términos de preferencia y no solamente de tasa o número de respuestas.

Para los participantes PB1 y PB2 quienes comenzaron el experimento con estímulos descriptivos durante la primera condición, las presiones que produjeron E- fueron menos frecuentes que las respuestas que no tenían consecuencias programadas. Este resultado sugiere que los E- descriptivos adquirieron una función aversiva lo cual es congruente con los resultados de Fantino y Case (1983), Case et al. (1990), y Fantino y Silberberg (2010) quienes reportaron que el E- tiene una función aversiva en los procedimientos de respuestas de observación con participantes humanos. Aunque dicho hallazgo es congruente con la hipótesis del reforzamiento condicionado, como notaron Perone y Kaminski, pudo depender del uso de instrucciones que describen el funcionamiento del programa. Cabe señalar que el uso de estímulos verbales descriptivos puede conceptualizarse como un sustituto de las instrucciones detalladas que usaron en los estudios de Fantino y Case, Case et al y Fantino y Silberberg.

Cuando se usaron estímulos verbales arbitrarios durante la primera condición, se encontró que ocurrieron más respuestas de observación que producían el E- relativo a las respuestas que no tenían consecuencias programadas. En contraste, ocurrieron más respuestas de observación que no tenían consecuencias programadas que respuestas que producían el E- cuando se usaron estímulos verbales descriptivos. Estos hallazgos, aunados a los resultados de Perone y Baron (1980) muestran que si se usan estímulos verbales arbitrarios con participantes humanos, el E- adquiere una función reforzante.

Si bien con este resultado podría afirmarse que, con base en una definición funcional, el E- es de hecho un E+, esta afirmación no resuelve el verdadero problema que consiste en explicar cómo es que adquiere propiedades reforzantes dicho estímulo independientemente de si se define como E- o E+. Si el estímulo funciona como E+ y como reforzador debido a la reducción de la incertidumbre sobre el estado del programa de reforzamiento (hipótesis de la reducción de la incertidumbre) o debido a su asociación con el refozador primario (hipótesis del reforzamiento condicionado) ha sido objeto de numerosos debates (véase e.g., Dinsmoor, 1983; Fantino, 1977).

Los hallazgos del presente experimento, así como los hallazgos de Perone y Baron (1980), y Perone y Kaminski (1992) son difíciles de explicar conforme a la hipótesis del reforzamiento condicionado, debido a que el E- debería adquirir propiedades aversivas al señalar la ausencia del reforzador. La generalidad del hallazgo entre procedimientos sugiere que este hallazgo no es un artefacto del procedimiento como lo señalaron Fantino y Case, y Case et al (e.g., esfuerzo para emitir la respuestas de observación) y que puede observarse incluso con variaciones en el procedimiento como el uso de estímulos seriales. Si este resultado se debe a la reducción de la incertidumbre o a algún otro proceso involucrado en estos experimentos es todavía difícil de determinar.

En el presente experimento los estímulos arbitrarios y descriptivos se alternaron entre condicionaes para cada participante. Sin embargo, esta manipulación no tuvo un efecto sistemático. Una vez que se estableció un patron de respuestas en la primera condición, este se mantuvo durante el resto del experimento. Una explicación para este efecto es que los participantes pudieron haber formado una regla desde la primera condición y una vez que se formuló esta regla a partir de la interacción con el programa, sus respuestas se volvieron insensibles al cambio en las condiciones durante el experimento. Dicha suposición se apoya en algunos de los reportes verbales de los participantes. Por ejemplo, “Cuando comencé presionaba un primer botón Negro, aparecían de dos a tres leyendas en donde cambiaba el formato a las primeras sesiones y me sentía más tranquilo porque era el mismo mecanismo al anterior solo cambiaban las leyendas.” (PB2, Condición 2).

De acuerdo con Skinner (1969) una regla es una descripción verbal de una contingencia. Para Skinner las reglas adquieren una función como estímulos discriminativos al señalar la ocasión para que la conducta sea reforzada. Por ejemplo, en el presente estudio el E+ podría estar acompañado de una regla que consiste en describir verbalmente que cuando se presenta el E+, una presión en el botón de reforzamiento produce puntos. En este caso, la formación de la regla podría acompañar la contingencia vigente e incluso puede acelerar el establecimiento de la respuesta de observación. Ésta función de la regla podría ayudar a explicar por qué en la primera condición con estímulos descriptivos las presiones en el botón de reforzamiento fue más alta que con estímulos arbitrarios. Algunos de los reportes de los participantes fueron: “Después que identifiqué qué es lo que aparecía en cada uno de los botones, supe que depende del mensaje que me apareciera, era el tiempo que tenía que esperar […] ya que dejaba de aparecer un mensaje en el primer botón presionaba rápidamente, el primero y el tercero y así obtenía más puntos.” (PB1, Condición 3). “Cuando aparecía una frase en el segundo botón solamente me enfocaba en el tercer botón para poder crear puntos y así presionar el cuarto botón para recolectar los puntos”. (PB2, Condición 3).

Además de la función discriminativa, las reglas también pueden tener una función como eventos alteradores de la función de otros estímulos (Schlinger & Blakely, 1987); por ejemplo, un estímulo originalmente neutro puede adquirir una función como estímulo aversivo condicionado a partir de la formación de una regla. Una regla puede alterar el valor reforzante o aversivo de un evento debido a su asociaón previa con un reforzador. En casos cotidianos, una descripción verbal como “este postre sabe horrible” puede aumentar el valor aversivo (o disminuir el valor reforzante) del postre en cuestión si en la historia de reforzamiento de la persona que escucha la regla, las descripciones verbales de la persona que las emite fueron seguidas consistentemente por la consecuencia descrita. En el presente estudio con los estímulos arbitrarios, la regla pudo haber sido que los E- fueron “útiles”. Es decir que a pesar de no tener una descripción del estado del programa, los letreros “podrían ser útiles” para ganar puntos. En cuanto a los estímulos descriptivos, la regla pudo haber sugerido que los E- son “malas noticias” debido a que describen explícitamente que no se podían ganar puntos en su presencia. Siguiendo ésta lógica, los participantes respondieron infrecuentemente para producir E- cuando la regla autogenerada aparentemente los estableció como estímulos aversivos o “malas noticias” y, por el contrario, respondían frecuentemente cuando la regla los estableció como reforzadores condicionados o “útiles”. Estas suposiciones se apoyan en algunos reportes de los participantes. Por ejemplo, “Presionar el botón primero de la izquierda hasta que dejara de aparecer la leyenda. Posteriormente presionar el segundo botón de izquierda a derecha hasta que aparecía la leyenda de sistema en estado “S””. (PB3, Condición 1). “Como en el primer botón de mi lado izquierdo me aparecía que el estado era Y, H o D, no presionaba ningún botón ya que si lo hacía no obtenía nada, hasta que el estado cambiaba a "S" entonces presionaba solamente el botón que está a lado, del que dice recolectar, o sea el botón 3 y es cuando acumulaba más pesos, siempre y cuando fuera rápido” (PB1, Condición 2).

El hecho de que la conducta gobernada por reglas sea relativamente insensible a las contingencias directas de reforzamiento, podría deberse a que una vez que la conducta ocurre por la regla y hace contacto con el reforzador, la conducta puede mantenerse por el reforzamiento accidental incluso cuando hay cambios en las contingencias vigentes (e.g., Galizio, 1979). En el presente trabajo este efecto podría estar relacionado con el hecho de que el cambio de estímulos arbitrarios a estímulos descriptivos, y viceversa, no tuviera un efecto sistemático en la conducta de observación. Es importante señalar que la explicación del efecto reforzante del E- sobre la conducta de observación en humanos basado en la conducta gobernada por reglas es, al menos por el momento, especulativa debido a que se apoya en un número límitado de descripciones verbales. Sin embargo, podría ser una alternativa viable a la explicación basada en la hipótesis de la reducción de la incertidumbre que en diferentes estudios (e.g., Wilton & Clements, 1971) ha resultado en predicciones incorrectas de la conducta observación en animales no humanos.

Material suplementario

Referencias

Case, D. A., Ploog, B. O., & Fantino, E. (1990). Observing behavior in a computer game. Journal of the Experimental Analysis of Behavior, 54, 185–199. https://doi.org/10.1901/jeab.1990.54-185

DeFulio, A., & Hackenberg, T. D. (2008). Combinations of Response-Dependent and Response-Independent Schedule-Correlated Stimulus Presentation in an Observing Procedure. Journal of the Experimental Analysis of Behavior, 89(3), 299–309. https://doi.org/10.1901/jeab.2008.89-299

Dinsmoor, J. A. (1983). Observing and conditioned reinforcement. Behavioral and Brain Sciences, 6, 693-704. https://doi.org/10.1017/s0140525x00017969

Escobar, R., & Bruner, C. A. (2002). Efectos de la frecuencia de reforzamiento y la duración del componente de extinción en un programa de reforzamiento mixto sobre las respuestas de observación en ratas. Revista Mexicana de Análisis de la Conducta, 28, 41-46. https://doi.org/10.5514/rmac.v28.i1.23550

Escobar, R., & Bruner, C. A. (2009). Observing responses and serial stimuli: Searching for the reinforcing properties of the S-. Journal of the Experimental Analysis of Behavior, 92, 215–231. https://doi.org/10.1901/jeab.2009.92-215

Escobar, R., & Perez-Herrera, C. (2015). Low-cost USB interface for operant research using Arduino and Visual Basic. Journal of the Experimental Analysis of Behavior, 103, 427-435. https://doi.org/10.1002/jeab.135

Fantino, E. (1977). Conditioned reinforcement: Choice and information. En W. Honig & J. E. R. Staddon (Eds.), Handbook of operant behavior (pp. 313-339). Englewood Cliffs, NJ: Prentice-Hall.

Fantino, E., & Case, D. A. (1983). Human observing: Maintained by stimuli correlated with reinforcement but not extinction. Journal of the Experimental Analysis of Behavior, 40, 193–210. https://doi.org/10.1901/jeab.1983.40-193

Fantino, E., & Silberberg, A. (2010). Revisiting the Role of Bad News in Maintaining Human Observing Behavior. Journal of the Experimental Analysis of Behavior, 93, 157–170. https://doi.org/10.1901/jeab.2010.93-157

Galizio, M. (1979). Contingency-shaped and rule-governed behavior: instructional control of human loss avoidance. Journal of the Experimental Analysis of Behavior, 31, 53–70. https://doi.org/10.1901/jeab.1979.31-53

Hendry, D. P. (1969). Introduction. En Hendry, D. P. (Eds.), Conditioned reinforcement (pp. 1-35). Homewood, III: Dorsey Press.

Kelleher, R. T., & Gollub, L. R. (1962). A review of positive conditioned reinforcement. Journal of the Experimental Analysis of Behavior, 5, 543-597. https://doi.org/10.1901/jeab.1962.5-s543

Lieberman, D. A. (1972). Secondary reinforcement and information as determinants of observing behavior in monkeys (Macaca mulatta). Learning and Motivation, 3, 341-358. https://doi.org/10.1016/0023-9690(72)90030-6

Mueller, K. L., & Dinsmoor, J. A. (1984). Testing the reinforcing properties of S-: A replication of Lieberman’s procedure. Journal of the Experimental Analysis of Behavior, 41, 17-25. https://doi.org/10.1901/jeab.1984.41-17

Perone, M., & Baron, A. (1980). Reinforcement of human observing behavior by a stimulus correlated with extinction or increased effort. Journal of the Experimental Analysis of Behavior, 34, 239-261. https://doi.org/10.1901/jeab.1980.34-239

Perone, M., & Kaminski, B. J. (1992). Conditioned reinforcement of human observing behavior by descriptive and arbitrary verbal stimuli. Journal of the Experimental Analysis of Behavior, 58, 557–575. https://doi.org/10.1901/jeab.1992.58-557

Purdy, J. E., & Peel, J. L. (1988). Observing response in goldfish (Carassius auratus). Journal of Comparative Psychology, 102, 160-168. https://doi.org/10.1037/0735-7036.102.2.160

Rilling, M., Askew, H. R., Ahlskog, J. E., & Kramer, T. J. (1969). Aversive properties of the negative stimulus in a successive discrimination. Journal of the Experimental Analysis of Behavior, 12, 917-932. https://doi.org/10.1901/jeab.1969.12-917

Shahan, T. A. (2010). Conditioned Reinforcement and Response Strength. Journal of the Experimental Analysis of Behavior, 93, 269–289. https://doi.org/10.1901/jeab.2010.93-269

Schlinger, H., & Blakely, E. (1987). Function-Altering effects of Contingency-specifying stimuli. The Behavior Analyst, 10, 41-45. https://doi.org/10.1007/bf03392405

Silberberg, A., & Fantino, E. (2010). Observing Responses: Maintained by Good News Only? Behavioural Processes, 85, 80–82. https://doi.org/10.1016/j.beproc.2010.06.002

Spence, K. W. (1940). Continuous versus non-continuous interpretations of discrimination learning. Psychological Review, 47, 271-288. http://dx.doi.org/10.1037/h0054336

Weiner, H. (1969). Controlling human fixed-interval performance. Journal of the Experimental Analysis of Behavior, 12, 349-373. https://doi.org/10.1901/jeab.1969.12-349

Wilton, R. N. & Clements, R. O. (1971). The role of information in the emission of observing responses: A test of two hypotheses. Journal of the Experimental Analysis of Behavior, 16, 161-166. https://doi.org/10.1901/jeab.1971.16-161

Wyckoff, L. B., Jr. (1952). The role of observing responses in discrimination learning. Part I. Psychological Review, 59, 431-442. https://doi.org/10.1037/h0053932

Wyckoff, L. B., Jr. (1969). The role of observing responses in discrimination learning. Part II. En Hendry, D. P. (Eds.), Conditioned reinforcement (pp. 237-260). Homewood, III: Dorsey Press.

Notas