Resumen: La Teoría de Aprendizaje por Contingencias (TAC) unifica el aprendizaje Pavloviano e instrumental y es usada para comprender psicopatologías (Byrom & Murphy, 2018). En la primera sección del artículo presentamos formas matemáticas de la TAC: analítica y computacional (o de procesos). En la segunda sección, describimos métodos experimentales para estudiar contingencias en humanos: secuencia rápida de estímulos, basada en la observación de contingencias entre estímulos; y operante libre, la cual requiere respuestas instrumentales. El primer método es pasivo y permite estudiar percepción de contingencias. El segundo método es activo en el cual los participantes usan sus acciones para controlar efectos (sentido de agencia e ilusión de causalidad). En la tercera sección, ejemplificamos como la TAC es usada para entender diferencias individuales relacionadas a depresión y esquizotipia. Por un lado, las personas con rasgos altos de depresión suelen estar protegidos contra sesgos optimistas de control, i.e., ‘realismo depresivo’. Esto sugiere insensibilidad a su propio control similar a personas con esquizotipia alta que son menos sensibles a los efectos de sus acciones. Con esta revisión esperamos incentivar el uso de la TAC en psicopatología experimental con fin de entender características transdiagnósticas en condiciones psiquiátricas en las cuales el aprendizaje causal sea central.
Palabras clave: aprendizaje asociativo, Teoría deAprendizaje por Contingencias, modelos mentales causales, diferencias individuales, psiquiatría computacional.
Abstract: Contingency Learning Theory (CLT) provides a computational background to develop models to understand causality. CLT provides a unifying account of Pavlovian and instrumental learning, and is used to understand mechanism underlying psychopathologies rather than simply describing symptomology (Byrom & Murphy, 2018). In this manuscript we present an overview of models and methods used within this theoretical perspective, and we describe applications in experimental psychopathology. In the first section, we present CLT in two mathematical forms: an analytical form (Delta-P rule) and computational form (or process-based; e.g., Rescorla-Wagner Model). In the second section, we describe two experimental methods used to study contingency learning in humans: the rapid- streaming trial procedure, which relies on perception and observation, and the free- operant, which involves participants’ instrumental and agentic responding. The former is a passive model that considers the study of contingency perception and the psychophysics of learning. The latter is an active method where participants use their own actions to control possible outcomes, this allows the study of the sense of agency and illusion of causality. Finally, in the third section, we provide examples of how CLT is used to understand individual differences related to affect (depression dimension) and schizotypy (psychosis dimension). People with higher depressive scores tend to be protected against optimist control biases, i.e., ‘depressive realism’, but may show insensitivity to their control. In comparison, people with high schizotypy scores or with psychosis are less sensitive to the correlation between action-outcome or the causal powers of their actions. With this work we aim to link CLT −a formalized theory based on the principles of experimental behaviour analysis− and its applications in experimental and computational psychopathology. We believe this would improve the tools to understand transdiagnostic features of distinct psychiatric conditions in which causal understanding is central.
Keywords: associative learning, Contingency Learning Theory, causal mental models, individual differences, computational psychiatry.
Contingencias como Modelos de Causalidad en Psicopatología
Contingencies as Models of Causation in Psychopathology

Recepción: 09 Febrero 2024
Aprobación: 02 Mayo 2024
Un agente es un tomador de decisiones capaz de planear secuencias complejas de acciones y navegar el constante flujo conductual (Schoenfeld & Farmer, 1970) dentro del cambiante bombardeo de sensaciones que ofrece el mundo. Una forma de adaptarse al ambiente es anticiparse a estados del mundo y actuar con base en ellos. Dentro del flujo conductual las acciones que van teniendo relevancia son aquellas que logran predecir los estados futuros del mundo. Para anticiparse a estos estados, es fundamental aprender relaciones causales entre eventos (e.g., Darredeau et al., 2009). Una primera aproximación a la causalidad parte de la idea de predictibilidad, entender secuencias de eventos y saber qué ocurre después de qué. Los agentes aprendemos mediante la experiencia sensorial probando hipótesis al actuar, discriminando complejas configuraciones de estímulos y detectando la regularidad de patrones o reglas (ver Murphy et al., 2004, 2008).
En la primera sección de este artículo describimos la Teoría de Aprendizaje por Contingencias (TAC), además caracterizamos el modelo analítico, así como el modelo basado en procesos (o computacional), ambos sustentan matemáticamente esta teoría. Segundo, introducimos dos métodos para el estudio de contingencias en humanos. Tercero, revelamos hallazgos de la TAC en diferencias individuales y aplicaciones a condiciones psiquiátricas. Finalmente, terminamos el artículo con una síntesis de aprendizaje causal en psicopatología y desarrollamos ideas que vinculan el presente trabajo con la psiquiatría computacional y la psiquiatría de precisión.
Una contingencia es una relación dependiente, condicional (Ribes, 1995), o estadística entre eventos, tanto estimulo-estímulo, estímulo-respuesta, o respuesta- consecuencia. Estas relaciones condicionales implican una cierta temporalidad entre los eventos contingentes, pero no son exclusivamente relaciones temporales (Ribes, 1995), sino que son dependientes en términos informativos. Una relación estadística implica certeza e incertidumbre, es decir, un evento provee información sobre la ocurrencia o ausencia de otro (e.g., la pasta de dientes predice la ausencia de vino tinto ¡gracias a Dios!, pero el jugo de naranja puede predecir huevos estrellados). Los agentes aprendemos a predecir estados en el mundo mediante la experiencia, por lo que a este tipo de aprendizaje también se le conoce como aprendizaje predictivo. Además, se considera que el aprendizaje predictivo es la base de cómo los agentes generan modelos mentales causales para entender el mundo (Baker et al., 1996, 2005). Aprender el valor predictivo de una señal sobre un desenlace (i.e., una relación entre dos eventos) puede ser relativamente sencillo. Sin embargo, en el mundo no solo existen relaciones entre dos eventos, sino que ocasionalmente muchas señales o causas potenciales coocurren (i.e., competencia de señales) lo cual vuelve más complejo decidir que señales causan ciertos efectos (ver Baetu et al., 2005; Baker & Mackintosh, 1979; Byrom & Murphy, 2019; Murphy et al., 2001b; Shanks, 1985, 1995).
Para ejemplificar la competencia entre señales, es decir, donde muchas causas predicen un efecto, se han utilizado tareas experimentales presentadas en computadora para humanos (Byrom & Murphy, 2019). En estos experimentos, los participantes son expuestos a ensayos con ciertas contingencias entre señales y desenlaces. Los participantes suelen emitir respuestas predictivas y finalmente emiten un juicio de contingencia entre las señales (e.g., fertilizantes o comida) y desenlaces (e.g., crecimiento de plantíos o alergias; Baetu & Baker, 2009). Un ejemplo es la tarea del tanque y el avión (tank and plane task; Baker, et al., 1993), donde participantes juegan en la computadora y aprenden a prevenir la destrucción de un tanque (desenlace) con base en una señal dependiente del participante (camuflaje del tanque) y otra señal independiente del participante (un avión que pasa por la pantalla). Los participantes aprenden la relación entre el camuflaje y el avión (señales) con la destrucción del tanque (desenlace). Sin embargo, cuando ambas señales predicen el desenlace, se observó un efecto de descuento. Esto es que cuando el avión fue un predictor perfecto y el camuflaje un predictor moderado del desenlace, entonces los participantes reducen sus juicios de contingencia para el camuflaje, lo cual sugiere que el valor predictivo de una señal es relativo al valor predictivo de otras señales que coocurren ∆P (Baker et al., 1993, 2000). En otras palabras, el avión descontó o bloqueó la contingencia del camuflaje.
Este aparentemente simple experimento y su resultado muestran la fascinante complejidad de cómo el valor predictivo de las señales interactúa entre sí. Por ejemplo, tengo gripa y me siento mal, entonces para sentirme bien tomo homeopatía (A), me hago un té (B) y me arropo en cama (C). Entonces me siento bien. Sin embargo, cómo saber si el “sentirme bien” es debido a A, B, o C. Lo que está claro es que cuando muchas señales sensoriales están presentes los agentes siguen estrategias para determinar cuál es o cuales son las causas de un efecto. Si bien, el problema de competencia de señales es complejo, existen muchas posibles soluciones y muchos modelos proponen distintas soluciones a cómo este proceso ocurre, desde modelos de condicionamiento clásico (Pearce & Hall, 1980; Rescorla & Wagner, 1972) hasta Redes Neuronales Artificiales (RNA; Delamater, 2012; Donahoe et al., 1993). Si el lector desea revisar más sobre competencia entre señales (o estímulos) y RNA puede consultar las siguientes referencias: i) en modalidad de elección Pavloviana o automoldeada con palomas (Castiello, Burgos, et al., 2020) y disminución de impulsividad (Aguayo-Mendoza et al., 2024), ii) en ensombrecimiento y ensombrecimiento mutuo en ratas (Ojeda-Aguilar et al., 2023), y iii) en discriminación de rasgo negativo (en lógica booleana XOR) con ratas (Castiello et al., 2021). En la siguiente sección revisamos la Teoría de Aprendizaje por Contingencias y posteriormente la implementación de un algoritmo que resuelve competencia de señales.
La TAC es un marco común para el aprendizaje pavloviano e instrumental, así como para el aprendizaje causal en humanos (Baker et al., 2005; Dickinson, 2001). Estos tipos de aprendizaje comparten principios neurocomputacionales similares, mismos que parecen críticos para teorías evolutivas (Burgos, 1997; Donahoe et al., 1993). Para ser más precisos sobre la definición de contingencias entre dos eventos, nos referiremos a una contingencia como el valor ∆P (Delta P; Allan, 1980); sin embargo, para ver más detalles sobre formas analíticas de contingencias ver a Perales et al (1999). Cuando dos eventos E1 y E2 han sido experimentados en conjunción o contingencia positiva entonces la presencia de E1 predice la presencia de E2, i.e., coocurrencia, así como la ausencia de E1 señala la ausencia de E2, i.e., ausencia mutua. Por otro lado, la disyunción o contingencia negativa es cuando la presencia de E1 señala la ausencia de E2 y viceversa. Entonces, aprender la estructura causal del mundo puede ser vista como la habilidad para predecir la ocurrencia y ausencia de eventos en función de otros eventos. Por esto, se ha usado como un modelo mental de causalidad (Baker et al., 1993, 2005; Dickinson et al., 1984; Shanks & Dickinson, 1987; Vallée-Tourangeau et al., 2005). Además de contingencia, otro factor es la contigüidad temporal como factor necesario, pero no suficiente, para el aprendizaje predictivo (Miller & Barnet, 1993; Ribes, 1995; para una revisión ver Savastano & Miller, 1998). Sin embargo, debido a los objetivos de este trabajo solo nos enfocaremos en el factor de contingencia.
La contingencia (∆P) entre dos eventos es función del número de coocurrencias entre E1 y E2 (A; ver Tabla 1), el número de ocurrencias de E1 solo (B), el número de ocurrencias de E2 solo (C), y el número de ausencias mutuas de E1 y E2 (D), y es definido como la diferencia entre probabilidades condicionales de E2 dado la presencia de E1 [p(E2|E1)], y la presencia de E2 dada la ausencia (~) de E1 [p(E2|~E1)] (Allan, 1980); por lo que:

Al igual que un coeficiente de correlación, cuando no existe relación entre los dos eventos, es decir ∆P = 0, el E1 no provee información sobre la ocurrencia y ausencia de E2. Por otro lado, si ∆P > 0, la presencia de E1 señala un incremento en la probabilidad de la presencia de E2, y si ∆P < 0, entonces la presencia de E1 señala un decremento en la probabilidad de la ocurrencia de E2. Con base en las cuatro celdas o ensayos de la Tabla 1 y la eq. 1 se puede concluir que el incremento de ensayos A, incrementa los juicios de contingencia (e.g., Murphy et al., 2011). Sin embargo, y de forma menos intuitiva, incrementar el número de veces donde los eventos están ausentes, celda o ensayos D (Tabla 1), también debería incrementar la contingencia y, por ende, la percepción de una contingencia positiva (Castiello et al., 2022). En contraste, el incremento de ensayos B y C, debería reducir la contingencia percibida (Murphy et al., 2022).
Sin embargo, experimentos previos que han manipulado los cuatro tipos de ensayos demuestran que no afectan los juicios de contingencia de la misma forma (Murphy et al., 2022). Particularmente, se ha encontrado que los participantes ponderan los ensayos (Tabla 1) de la forma A > (B ≈ C) > D (Kao & Wasserman, 1993; Wasserman et al., 1993). Esto tiene sentido ya que la saliencia de A es mayor a D −debido a que se procesan dos estímulos en A y no se procesan estímulos en D−. Sin embargo, es particularmente interesante que la información ausente sea considerada con menor peso. Ya que la información ausente no es ausencia de información (ver Apéndice A donde describimos la relación entre TAC y la Teoría de la Información). Por ejemplo, la ausencia de síntomas clínicos es importante para el diagnóstico diferencial médico y se pueden usar como evidencia para confirmar o desconfirmar una hipótesis (ver Murphy et al., 2017). Por otro lado, cuando alguien cree que la homeopatía le funciona quizás es porque no recuerda la información ausente, es decir, la gente no recuerda cuando no tomo homeopatía y además se sintió bien (información contrafactual; cf. Castiello et al., 2022). Deeste modo, podrían estar viviendo un sesgo de solo recordar cuando si tomaron homeopatía y se sintieron bien.

Además de ∆P, la TAC puede derivarse de un modelo basado en proceso, es decir un modelo que aprende por cada nueva pieza de información en lugar de un cálculo basado en toda la información entre dos eventos. El modelo Rescorla- Wagner (RW; Rescorla & Wagner, 1972) es un algoritmo de aprendizaje por refuerzo (Sutton & Barto, 2018) que provee una forma de calcular el valor predictivo (o valor causal) entre eventos y además converge en ∆P (Baker et al., 1989). El modelo RW calcula los valores predictivos, vt4, entre señales, ct (vector booleano de presencia y ausencia de señales), y el error de predicción, δt, en cada ensayo t. El modelo sigue la siguiente forma:

Donde θ representa la tasa de aprendizaje. Usualmente, el modelo RW asume que θ = α*β0*β1 el cual es el producto entre tasa de aprendizaje (α), sensibilidad para ausencia de desenlace o recompensa (β0), y sensibilidad para presencia de desenlace o recompensa (β1; Murphy et al.,2001). Además θ pondera al factor δt, error de predicción, es decir, la diferencia entre lo ocurrido (desenlace o reforzador; λt) y el valor predictivo esperado de todas las señales presentes (ct • vt; producto punto el cual es la suma de las multiplicaciones individuales de cada par de elementos de ambos vectores). El error de predicción es un escalar y se calcula:

Sin embargo, como todos los modelos, el RW tiene limitaciones (Miller et al., 1995), si bien no es el objetivo de este artículo profundizar en ellas. Además, otras extensiones de este modelo permiten usar contrafactuales y tasa de olvido (Rossi- Goldthorpe et al., 2024). Otras versiones permiten un θ dinámico y se ajustan a la volatilidad del ambiente (ver Mackintosh, 1975; Pearce & Hall, 1980). Si el lector desea indagar más puede acceder a nuestro simulador de acceso abierto que hemos desarrollado junto con el Prof. Andrew Delamater en GitHub: https://github.com/ santiagocdo/ALANN5.
En un estudio que publicamos recientemente, utilizamos el modelo RW para inferir los errores de predicción a partir de la conducta de los participantes mientras resolvían una tarea de Bloqueo de Kamin en aprendizaje causal con múltiples señales (Ongchoco et al., 2023). Encontramos que el pensamiento teleológico (pensamiento basado en propósito; ver también relación de teleología y paranoia en Castiello et al., 2024) puede ser explicado por excesivos errores de predicciones (δ) o simple aprendizaje asociativo en lugar de procesos complejos como lógica proposicional que hacen referencia a niveles altos de cognición como razonamiento. Pare ver un desglose de este modelo y otras variantes partiendo de principios similares ver Capítulo 5 de mi Disertación Doctoral (Castiello de Obeso, 2023).
Enesta sección describimos dos métodos que son usados para estudiaraprendizaje de contingencias. El primero está basado en aprender contingencias mediante exposición rápida de estímulos visuales, es decir, aprendizaje de contingencias de forma pasiva. El segundo está basado en aprendizaje de contingencias activas, es decir involucra la elección del actuar por parte del agente.
El procedimiento de secuencia rápida de ensayos (en inglés streamed-trial procedure) fue desarrollado por Crump et al (2007) y consiste en la presentación rápida, en milisegundos, de ensayos para evaluar contingencias entre estímulos. Esto permite estudiar mayor cantidad de ∆Ps (Crump et al., 2007) a diferencia de otros procedimientos clásicos (donde los ensayos duran segundos). En este tipo de procedimientos las secuencias rápidas contienen cualquier tipo de ∆P, al igual que arreglos con estímulos simultáneos o demorados, con varios estímulos, etc. Los ensayos se presentan a los participantes y al final de la secuencia rápida de ensayos los participantes emiten un juicio de contingencia (ver Figura 1), ya sea en una escala continua, o emiten una respuesta binaria de detección de contingencia positiva, negativa, o nula.

Nota: figura adaptada de Castiello et al. (2022). Panel izquierdo presenta los tipos de ensayos, y panel derecho presenta el ejemplo de una secuencia de ensayos que concluye en un juicio de contingencia que corresponde al ∆P, desde valores negativos hasta positivos.
Lo que se suele observar sistemáticamente es que los humanos suelen ser sensibles al ∆P. Además, este procedimiento ha sido capaz de integrar diferentes fenómenos de aprendizaje y teorías perceptuales como la Teoría de Detección de Señales (Allan et al., 2005, 2008; Jozefowiez, 2021; Jozefowiez et al., 2022; Maia et al., 2018; Siegel et al., 2009); la interacción de señales, como ensombrecimiento y descuento (Alcalá et al., 2023; Hannah et al., 2009; Laux et al., 2010; Mutter & Arnold, 2021); la sensibilidad a la frecuencia y duración de ensayos (Castiello et al., 2022; Murphy et al., 2022); y la extinción (Jozefowiez et al., 2020; Witnauer et al., 2022). Desde la perspectiva de un participante, muchas veces después de ver una secuencia rápida no se suele sentir certidumbre sobre la contingencia programada, sin embargo, los participantes suelen juzgar las secuencias con razonable precisión. Esto sugiere que aprender contingencias es algo que ocurre en niveles bajos de la jerarquía del procesamiento del humano, más cerca a la percepción (low-level) que a la cognición (high-level). En otras palabras, percibir causa-efecto ―en términos de contingencias― no requieren niveles altos de la cognición (e.g., razonamiento). Percibir contingencias pueden ser tan primario como la percepción de intensiones (Castiello et al., 2024).
Operante libre se denomina al procedimiento en el cual los participantes pueden elegir emitir una acción (o no emitirla) en cualquier momento dentro de un determinado intervalo temporal, o bloque experimental. Originalmente, este procedimiento fue diseñado para el estudio con animales (Ferster & Skinner, 1957; Hammond, 1980), Sin embargo, la adaptación en humanos funciona de manera similar y permite estudiar el sentido de agencia e ilusión de causalidad en humanos (Blanco, 2017; Pitliya & Murphy, 2024). Sentido de agencia se refiere a la sensación de ser uno mismo el que produce las acciones y, por ende, el responsable de las consecuencias que ocurren (Moore, 2016). Este sentido está cercanamente vinculado con que el agente es capaz de controlar consecuencias (i.e., sentido de control), es decir, producir consecuencias específicas que correspondan con sus planes. En otras palabras, predecir consecuencias mediante el uso de las acciones (Pitliya & Murphy, 2024).
En este tipo de tareas se establece un ∆P entre una acción (picar una tecla del teclado) y un desenlace (prender un foco de luz); entonces, se les pide a los participantes que aprendan qué tanto controlan el desenlace. Por ejemplo, si el ∆P = p(Acción) – p(~Acción) = 0, la acción no controla el desenlace, pero los humanos tendemos a mostrar la ilusión de control, i.e., sobre estimación en generar o prevenir un desenlace (Langer, 1975). La ilusión de control está positivamente relacionada con pensamiento supersticioso (Griffiths et al., 2019), lo cual podría sugerir cómo la formación de creencias podría estar sustentada en cómo aprendemos y nos comportamos (Blanco et al., 2011, 2015).
En un experimento con operante libre en humanos estudiamos el sentido de control en personas con rasgos de depresión (Castiello, Senan, et al., 2020). Los participantes pasaron por cuatro contingencias, una por cada bloque de 40 ensayos (Figura 2A). Dependiendo del tratamiento al que los participantes fueron asignados aleatoriamente, los participantes cambiaban de contingencias o no (e.g., iniciar con ∆P = 1 en el primer bloque, pero terminaron el cuarto bloque con ∆P = 0; Figura 2B). Dentro de cada bloque los participantes experimentaron cuarenta ensayos en los cuales podrían emitir o no una respuesta (i.e., picar una tecla) y entonces aprender qué su control sobre un desenlace (i.e., escuchar música; Figura 2C). A la mitad y al final de cada bloque los participantes hacían dos juicios de control, i) el control que ellos aprendieron, y ii) el control que factores externos tienen sobre el desenlace. Lo que encontramos es que las personas con depresión suelen minimizar el control de factores externos. Sobre este punto, ahondaremos más en la siguiente sección. Lo más importante de esta tarea es que permite que participantes decidan a voluntad cuándo actuar y cuándo no, y con base en eso aprender la relación causal de sus acciones.

Nota: figura adaptada de Castiello, Senan, et al. (2020). A presenta los 4 bloques y el contexto distinto en cada uno. B presenta la trayectoria de las contingencias de los 4 grupos durante los 4 bloques (dentro de cada bloque hubo dos juicios de contingencia). C flujograma de ensayos y juicios causales durante cada bloque. Durante cada bloque los participantes hicieron dos juicios de contingencias al después del ensayo 20 y al final del bloque en el ensayo 40.
Tanto el aprendizaje de relaciones causales mediante observación de la realidad (pasivo), así como el aprendizaje de los efectos de nuestras acciones (activo), parecieran ser factores importantes para que los agentes se adapten a la volatilidad del mundo. Sin embargo, otro factor sumamente importante es cómo los individuos que aprenden son distintos entre sí, i.e., diferencias individuales en aprendizaje (Murphy & Msetfi, 2014). Mediante la TAC y el estudio de diferencias individuales, se ha encontrado que variaciones en el aprendizaje se relacionan con variables psicológicas como el afecto o la personalidad, y pueden ser características diagnósticas de psicopatologías (Byrom & Murphy, 2018). En esta última sección describimos en términos generales algunos resultados experimentales y su relación con diferencias individuales vinculadas a psicopatología. Para ver más a detalle investigación con diferencias individuales, puede consultar los siguientes estudios: en depresión (Castiello, Senan, et al., 2020; Msetfi et al., 2007; Murphy et al., 2005), autismo (Cuve et al., 2021), interferencia emocional (Saylik et al., 2021), múltiples dimensiones psicológicas (Treviño et al., 2023), y teleología (Ongchoco et al., 2023). En las siguientes secciones expondremos dos rasgos psicológicos y sus instanciaciones conductuales. Primero será el caso de personas con rasgos depresivos y el caso del “realismo depresivo”. Segundo, la esquizotipia y la sensibilidad a las contingencias.
El primer caso es el del “realismo depresivo” (Alloy & Abramson, 1979), el cual se basa en que la ilusión de causalidad (o control) ocurre por un sesgo optimista (Baker et al., 2012). Esta explicación asume que todos los agentes sobrevaloramos (en línea base) las relaciones causales, ya que esto incrementa la probabilidad de detección de relaciones potencialmente importantes, en lugar de sentir que no producimos nada, como una especie de indefensión aprendida (Blanco, 2017). Sin embargo, personas con rasgos de depresión o con diagnósticos de depresión tienden a estimar contingencias de forma más precisa (o realista), lo cual pudiera ser una ‘vacuna’ ante el sesgo optimista.
El efecto de la ausencia de eventos (celda D; Tabla 1) pareciera jugar un rol importante en cómo las personas con rasgos depresivos integran la información cuando los estímulos objetivo para una asociación dada están ausentes (Byrom et al., 2015; Msetfi et al., 2005, 2013, 2017; cf. Dev et al., 2022). Estudios farmacológicos sugieren que el medicamento antidepresivo escitalopram (Inhibidor Selectivo de la Recaptación de Serotonina) incrementa la discriminación entre acción y contexto en personas con puntajes moderados de depresión (Msetfi et al., 2016). Varios mecanismos cognitivos podrían soportar los resultados previos, por ejemplo, modalidades de procesamiento configuracional, es decir, cómo los agentes integran diferentes estímulos (Msetfi et al., 2015), o qué tan sensibles son a la percepción del tiempo durante el aprendizaje de una contingencia (Msetfi et al., 2012). Para ver posibles mecanismos subyacentes de aprendizaje de estímulos ausentes ver Castiello et al. (2022).
En síntesis, los humanos tendemos a exhibir ilusión de causalidad (o de control) ―sentir que producimos (o controlamos) algo cuando en realidad no es así― la cual puede estar basada en el sesgo optimista (Baker et al., 2012). Personas con puntajes moderados o altos de depresión parecen no mostrar un sesgo optimista y sí un “realismo depresivo” (Blanco et al., 2012; Msetfi et al., 2005, 2007; Murphy et al., 2005). Finalmente, estos resultados tienen que ver con cómo las personas juzgan la ausencia de eventos (celda D, Tabla 1) o procesan el contexto solo. En las personas con rasgos de depresión la percepción de control (respuesta-consecuencia) que tienen factores externos (e.g., el contexto) es reducida (Castiello, Senan, et al., 2020). Por lo cual, la responsabilidad sobre sus acciones ―por contraste― podría estar aumentada y eso generar el distrés emocional. Por ejemplo: “Si mi pareja terminó conmigo, no creo que sea por algo que ella esté viviendo, debe ser por algo de mi”.
El segundo caso es sobre personas con rasgos altos esquizotípicos o diagnósticos del espectro de la psicosis. Apofenia es la tendencia de conectar eventos que no están relacionados (e.g., si pienso en alguien y al mismo tiempo esa persona me manda un mensaje, concluyo que pensar en la persona invoca la voluntad de aquella persona para escribirme). La apofenia tiene que ver con la sensibilidad que tenemos a asociar eventos, y suele ser un síntoma de personas con psicosis.
En población general, se ha mostrado que la sorpresa se relaciona con puntajes altos de delirios (Moore et al., 2011). Sorpresa es entendida como el valor absoluto de un error de predicción (i.e., |δ|), los cuales parecen ser una ‘firma’ ―o característica representativa― neurobiológica de la psicosis y la dimensión esquizotípica (Corlett et al., 2007; Corlett & Fletcher, 2012; Sterzer et al., 2018). Este exceso de errores de predicción (sorpresa) provoca que la coincidencia de eventos no relacionados pueda establecer asociaciones, como el caso de la apofenia. Por otro lado, el sentido de agencia se ha encontrado afectado en personas con esquizotipia alta o con diagnósticos de psicosis (Asai & Tanno, 2008;Balzan et al., 2013; Daprati et al., 1997; Salgado-Pineda et al., 2021). Cuando un agente controla consecuencias con sus acciones, existe una relación predictiva entre respuesta→consecuencia por lo que el agente no experimentará sorpresa. Sin embargo, la psicosis se ha teorizado como un estado de saliencia aberrante con mayor cantidad de errores de predicción (Kapur, 2003). Por lo que, a mayor cantidad de errores de predicción (sorpresa) entre acción-consecuencia menor sentido de agencia (mayor sorpresividad). En síntesis, exceso de errores de predicción se relacionan con una tendencia a asociar eventos (apofenia) y con una reducción del sentido de agencia.
El significado de una acción tiene que ver con cómo el agente juzga la retroalimentación de esta. En un estudio en pacientes con esquizofrenia usando procedimiento de operante libre con dos respuestas posibles, los autores evaluaron la devaluación de recompensa y la degradación de contingencias (Morris et al., 2018), es decir, cómo las personas actualizan el valor de la recompensa y cómo establecen relaciones causales entre sus respuestas y las consecuencias. Para ello, los participantes tenían que elegir entre emitir o no una de dos posibles respuestas para obtener dulces (entregados al final del experimento). Morris y cols. (2018) encontraron que no hay un déficit en aprender las relaciones causales entre respuesta y recompensa (aprendizaje basado en metas). Sin embargo, encontraron que cuando la contingencia de una acción se degradaba (i.e., de tener un ∆P > 0 se cambia a un ∆P = 0) entonces los pacientes con esquizofrenia no cambiaban su tasa de respuesta. Estos datos sugieren que el déficit está en la relación causal establecida entre acción-consecuencia, y no tanto en al aprendizaje basado en metas. Además, dicha conducta parece estar moderada por hipoactividad en el núcleo caudado (área vinculada con inhibición motora; Morris et al., 2015). También se han encontrado déficits en otras tareas de ilusión de control (Moritz et al., 2014; Na et al., 2022), y correlación ilusoria (Balzan et al., 2013; Lee et al., 2005). Algunos autores han propuesto que esta forma de procesar contingencias de forma distinta pudiera ser lo que promueve el incremento en creatividad en población esquizotípica (Claridge, 2018; Mohr & Claridge, 2015).
En este artículo hemos presentado tres ideas generales. Primero, un marco global para estudiar las relaciones de eventos o el aprendizaje asociativo en múltiples especies, incluyendo humanos: la Teoría de Aprendizaje por Contingencias (TAC). Esta teoría tiene un componente analítico que puede usarse para cuantificar la relación estadística entre dos eventos (estímulos o respuestas) y tiene un segundo componente basado en procesos, o computacional, que permite estimar el valor causal o predictivo de eventos o potenciales causas. Segundo, presentamos dos métodos para el estudio de la TAC. El primer método puede ser visto como ‘pasivo’ (o Pavloviano), donde los agentes perciben eventos y estiman las relaciones entre ellos. El segundo método es ‘activo’ (o instrumental) en el sentido que los participantes utilizan sus acciones para establecer relaciones causales con efectos deseados o cualquier otro tipo de consecuencia relevante para un momento dado. Tercero, elaboramos cómo los conceptos y métodos de la TAC son utilizados para entender mecanismos subyacentes de distintos rasgos individuales como son la afectividad y esquizotipia o sus correspondientes psicopatologías, la depresión y la psicosis.
La TAC ha sido desarrollada y mejorada por décadas, tiene diversos métodos para su estudio, y provee modelos matemáticos para defender sus premisas. Sin embargo, en los últimos años la neurociencia ha tomado la delantera como modelo explicativo de enfermedades mentales, pero al final de cuentas, como ha sido discutido anteriormente, el “piso verdadero” (en inglés, ground truth) sigue siendo la conducta, “la neurociencia necesita a la conducta” (Krakauer et al., 2017). Los métodos presentados aquí son puramente conductuales, permiten evaluar juicios de contingencias y conductas emitidas usadas para establecer creencias de causa-efecto. Los modelos computacionales pueden ser usados para ajustarse a la conducta de los participantes y estimar parámetros latentes de cada agente (aproximación desde las diferencias individuales), lo cual es una parte fundamental de los objetivos de la psiquiatría computacional (Corlett & Fletcher, 2014). La psiquiatría computacional utiliza métodos precisos de mediciones de la psique y es la piedra angular de la psiquiatría de precisión (Fernandes et al., 2017) la cual busca “tratar personas y no enfermedades”. La tesis fundamental de este artículo es que la TAC puede ser la ciencia básica de la psiquiatría computacional, y ésta la piedra angular de la psiquiatría de precisión. Con esto se la da un propósito a la psicología conductual y cognitiva dentro de la psiquiatría de punta. Para finalizar, y considerando lo anterior, nos gustaría finalizar el artículo resaltando que el uso de la TAC en psicopatología experimental es ideal para generar hipótesis explicativas alternativas a las que suelen ser usadas en psiquiatría clásica. La enfermedad mental es muy difícil para quien la sufre, pero sobre todo para los familiares que la hemos sufrido, por lo que todos los abordajes son bienvenidos para intentar promover una mejor ciencia e intentar resolver estos problemas de naturaleza biopsicosociales.
SCDO es asesor científico de Gabu®, empresa de videojuegos que genera ambientes de videojuegos seguros para niños. Ellos no financiaron el presente trabajo.
Agradezco a mi asesor de doctorado el Prof. Robin A. Murphy y al asesor de mi asesor el Prof. Andy Baker por haberme dado la oportunidad de aprender junto con ellos del fascinante mundo de las teorías del aprendizaje. Además, agradezco a mi co-supervisor Prof. Michael Browining por su retroalimentación en mi disertación. De igual manera quiero extender mis agradecimientos a los profesores del Centro de Estudios e Investigaciones en Comportamiento (CEIC) de la Universidad de Guadalajara −donde realicé mi maestría−, ya que es ahí donde aprendí el valor de y rigor de la ciencia. Finalmente, nos gustaría agradecer a los revisores anónimos de Acta Comportamentalia ya que sus comentarios mejoraron considerablemente el manuscrito.


Nota: figura adaptada de Castiello et al. (2022). Panel izquierdo presenta los tipos de ensayos, y panel derecho presenta el ejemplo de una secuencia de ensayos que concluye en un juicio de contingencia que corresponde al ∆P, desde valores negativos hasta positivos.

Nota: figura adaptada de Castiello, Senan, et al. (2020). A presenta los 4 bloques y el contexto distinto en cada uno. B presenta la trayectoria de las contingencias de los 4 grupos durante los 4 bloques (dentro de cada bloque hubo dos juicios de contingencia). C flujograma de ensayos y juicios causales durante cada bloque. Durante cada bloque los participantes hicieron dos juicios de contingencias al después del ensayo 20 y al final del bloque en el ensayo 40.