Resumen: Aunque se han elaborado numerosas versiones abreviadas del Big Five Inventory (BFI), las propiedades psicométricas obtenidas a nivel mundial presentan inconsistencias insoslayables. En este trabajo se propone reducir este inventario a partir de la teoría de respuesta al ítem como soporte metodológico, con una muestra de 987 adultos (55.3 % mujeres; Medad = 38; DEedad =13.9) residentes en el área metropolitana de Buenos Aires, Argentina. La reducción de ítems se realizó de manera progresiva por medio del modelo de respuesta graduada -con los supuestos de unidimensionalidad de cada escala por separado, independencia local de los ítems, y ajuste al modelo-, con lo cual se alcanzó una versión de 20 ítems libres de funcionamiento diferencial según el género. Las correlaciones entre las escalas originales y las reducidas fueron superiores a .73. Adicionalmente, se replicó la estructura del modelo pentafactorial con un análisis factorial confirmatorio y se aportaron evidencias de validez basadas en la relación con tests que miden sintomatología y facetas de neuroticismo. Como resultado, los índices de consistencia interna globales de la versión abreviada mostraron valores aceptables, pero las funciones de información revelaron que las escalas disminuyen su precisión en los niveles altos de los rasgos. Se recomienda ensayar nuevos ítems para disminuir el error en estos niveles en futuros estudios.
Palabras clave: Modelo de los cinco factores, modelo de los cinco grandes, teoría de respuesta al ítem, evaluación de la personalidad.
Abstract: Although numerous abbreviated versions of the Big Five Inventory (BFI) have been developed, the psychometric properties obtained worldwide present unavoidable inconsistencies. In this paper, it is proposed to reduce this inventory based on item response theory as methodological support, with a sample of 987 adults (55.3% women; Mage = 38; SDage = 13.9) residing in the metropolitan area of Buenos Aires, Argentina. The reduction of items was carried out progressively through the graded response model -with the assumptions of unidimensionality of each scale separately, local independence of the items, and fit to the model-, which resulted in a 20-item version free of differential functioning according to gender. The correlations between the original and reduced scales were greater than .73. Additionally, the structure of the five-factor model was replicated with a confirmatory factor analysis and evidence of validity was provided based on the relationship with tests that measure symptomatology and facets of neuroticism. As a result, the global internal consistency indices of the abbreviated version showed acceptable values, but the information functions revealed that the scales decrease their precision at high levels of the traits. It is recommended to test new items to reduce the error at these levels in future studies.
Keywords: Five factor model, big five model, item response theory, personality assessment.
Artículos
Big Five Inventory abreviado con la teoría de respuesta al ítem en una muestra argentina
Big Five Inventory Abbreviated from the Item Response Theory
Received: 21 May 2022
Revised document received: 21 February 2024
Accepted: 15 May 2024
En el marco de las teorías de los rasgos, el modelo de los cinco grandes -Big Five Model, BFM- (Digman, 1990; Goldberg, 1993; McCrae & Costa, 2003) es actualmente reconocido como la taxonomía más apropiada para sistematizar los diferentes dominios de la personalidad normal.
Específicamente, el BFM propone la descripción de la personalidad por medio de cinco rasgos generales cuyas combinaciones darían lugar a la variabilidad individual manifiesta en cada ser humano. Más allá de algunas diferencias mínimas entre las distintas corrientes que integran este modelo, estos factores son conocidos como extraversión (vs. introversión), agradabilidad (vs. antagonismo), responsabilidad (vs. falta de responsabilidad), neuroticismo (vs. estabilidad emocional) y apertura a la experiencia (vs. cerrado a la experiencia).
Este modelo ha logrado convertirse en hegemônico para la psicología de la personalidad, en parte porque ha conseguido unificar los aportes de distintos teóricos -como Cattel, Guilford y Eysenck- (Colom, 2018; John, 2021), así como por su vinculación conceptual con la perspectiva dimensional propuesta en el Manual diagnóstico y estadístico de los trastornos mentales (quinta edición) -conocido como DSM-5- en relación con los trastornos de personalidad (Widiger et al., 2015).
Entre sus características, el estudio de la fundamen-tación biológica y bioquímica de las diferencias entre los factores (Allen & DeYoung, 2017), así como la replicación de la estructura pentafactorial en diferentes culturas (McCrae, 2017), constituyen las bases empíricas que fundamentan el carácter universal del modelo.
Con el fin de operacionalizar el BFM, distintos investigadores han creado diversos instrumentos, pero el Big Five Inventory (John et al., 1991) es uno de los más elegidos cuando se requiere de una medición rápida (44 ítems) y confiable de los cinco dominios. De hecho, esta prueba cuenta con adaptaciones a múltiples idiomas (Alansari, 2016; Carciofo et al., 2016; Ubbiali et al., 2013; Rammstedt, 1997), lo que refleja la magnitud de su trascendencia en el plano internacional, y recientemente se encuentran adaptaciones de investigadores de América Latina (Dominguez-Lara et al., 2018; Reyes Zamorano et al., 2014; Salgado et al., 2016) que evidencian la vigencia del BFI en la región.
Ahora bien, en los últimos años se ha visto acrecentado el interés por mejorar las medidas derivadas del BFI, sobre todo en dos líneas: (a) en consolidar la estructura jerárquica del modelo, al identificar las subdimensiones más relevantes de cada dominio y así alcanzar una mejor representatividad del contenido -objetivo con el cual se desarrolló el Big Five Inventory 2 (BFI-2; Soto & John, 2017)-; y (b) en conseguir formas aún más breves que el BFI para optimizar la medición de los dominios -línea clave para el presente estudio- (Minkov et al., 2019; Rammstedt et al., 2020; Soto & John, 2019), pues los instrumentos breves muestran potentes ventajas cuando las condiciones de evaluación no permiten o no requieren recolectar información exhaustiva sobre la personalidad; aspecto que se observa principalmente en estudios a gran escala en los que se busca reducir los tiempos de administración, o cuando la personalidad no es el objetivo principal de la investigación sino una de las variables de control.
Entre las versiones breves del BFI que han alcanzado más popularidad se encuentran el BFI-10 (Rammstedt, 2007; Rammstedt & John, 2007) y el BFI-15 (Gerlitz & Schupp, 2005), los cuales utilizan solo dos y tres ítems respectivamente para la medición de cada dominio.
No obstante, las adaptaciones en estudios internacionales del BFI-10 presentan resultados dispares, pues mientras que algunos autores publican propiedades psicométricas óptimas (Courtois et al., 2020; Guido et al, 2015; Rammstedt et al., 2013; Rammstedt et al., 2020), otros trabajos abren cuestionamientos importantes respecto a distintos aspectos, como la dificultad para replicar la estructura de cinco factores esperables a nivel teórico (Balgiu, 2018; Brown & Sotardi, 2019; Dominguez-Lara & Merino-Soto, 2018), posibles predicciones espurias con indicadores de salud (Chapman & Elliot, 2019; Weiss & Costa, 2014), e indicadores de confiabilidad deficitarios (Carciofo et al., 2016; Ludeke & Larsen, 2017; Sleep et al., 2021). Asimismo, a pesar de que cuenta con más ítems y más cantidad de opciones de respuesta que el BFI-10, la consistencia interna de las escalas no mejora para el BFI-15, pues las escalas de agradabilidad, apertura a la experiencia y responsabilidad reportaron valores de alfa de Cronbach iguales o inferiores a .60 en población alemana-para la que fue desarrollada esta versión- (Hahn et al., 2012).
Esta ausencia de resultados consistentes entre las adaptaciones de las versiones breves del BFI deja en evidencia, en principio, la necesidad de revisar los criterios aplicados originalmente para reducir el instrumento, a lo cual se le suma el potencial impacto de las variaciones culturales en los contenidos que representan los ítems seleccionados. En este sentido, parece razonable proponer una nueva selección de ítems del BFI basada en criterios empíricos que se deriven de un análisis psicométrico pormenorizado.
Respecto al análisis psicométrico de las pruebas, el crecimiento que ha tenido la aplicación de la teoría de respuesta al ítem (TRI) en tests de comportamiento típico ha permitido importantes avances tanto para el desarrollo de nuevos instrumentos como para la revisión de la calidad psicométrica de pruebas validadas en el marco de la teoría clásica de los test (TCT) (Reise & Revicki, 2015; Thomas, 2019).
Una de las ventajas más relevantes de la TRI respecto a la perspectiva clásica es la posibilidad de estudiar el comportamiento de los ítems mediante el ajuste a un modelo que explica la probabilidad de respuesta para cada una de las opciones en función del nivel de rasgo del sujeto (Muñiz, 2018). Esto permite realizar un análisis de ítems más riguroso y exhaustivo que el que se alcanza desde la teoría clásica y, por esta razón, es usado con frecuencia para decidir qué elementos conviene conservar cuando se busca generar versiones reducidas de los instrumentos (Chiesi et al., 2018; Chio et al., 2018; Colledani et al., 2018; Maples-Keller et al., 2019; Sekely et al., 2018; Stein et al., 2019).
En suma, el objetivo de este trabajo es analizar, a partir dela TRI, la calidad psicométrica de los ítems del BFI, y con ello alcanzar una versión reducida que optimice la medición de las dimensiones de la personalidad propuestas por el BFM. De esta manera, se busca brindar una nueva medida breve que contemple las características de la población local, basada en un modelo teórico reconocido a nivel internacional y con evidencias de validez y confiabilidad derivadas de una metodología de vanguardia.
Según los criterios clasificatorios de Ato et al. (2013), se llevó a cabo un estudio instrumental, pues el objetivo principal de la investigación fue analizar las propiedades psicométricas de un instrumento de medida.
Se contó con la participación de 987 adultos de 18 a 81 años (M = 38, DE=13.9), residentes en el área metropolitana de Buenos Aires, Argentina, seleccionados mediante un muestreo no probabilístico por accesibilidad. Específicamente, el 55.3 % indicó que se identificaba con el género femenino; el 79.5 % afirmó estar empleado en trabajos de medio tiempo o tiempo completo; la mayoría completó el nivel educativo secundario (52.2 %) y universitario (27.4 %); el 47.7 % registró que su estado civil era casado/a (o en unión civil); el 44 % manifestó tener al menos un hijo; y el 69.6 % afirmó tener un nivel socioeconómico medio.
Big Five Inventory (John et al., 1991)
El BFI es un inventario compuesto por 44 ítems con formato de respuesta politómica de cinco opciones (desde "completo desacuerdo" a "completo acuerdo"), en el que las dimensiones de extraversión y neuroticismo se miden a partir de ocho ítems, mientras que las de agradabilidad y responsabilidad cuentan con nueve ítems, y la de apertura a la experiencia, con 10 ítems.
Este instrumento cuenta con una versión en español desarrollada por Benet-Martínez y John (1998), pero se escogió la adaptación de Castro Solano (2002) por considerarla más ajustada a las características lingüísticas del medio local. Los ítems tienen un encabezado general ("Yo me veo a mí mismo/a como alguien...") que se complementa con las sentencias específicas de cada elemento (p. ej., 15. "... que es ingenioso/a").
Banco de ítems de neuroticismo (Abal et al., 2019)
Este instrumento consta de 54 ítems con formato de respuesta politómica ("en desacuerdo", "ligeramente en desacuerdo", "ligeramente de acuerdo" y "de acuerdo") que operacionalizan las seis facetas propuestas por McCrae y Costa (2010): ansiedad, hostilidad, depresión, autoconciencia, impulsividad y vulnerabilidad. El instrumento cuenta con evidencias de validez basadas en la estructura interna, sus ítems están calibrados con el modelo de respuesta graduada (MRG) de la TRI, y los coeficientes de consistencia interna -alfa de Cronbach- en este estudio oscilaron entre .70 (hostilidady vulnerabilidad) y .83 (depresión), lo que indica valores aceptables de confiablidad.
Inventario de síntomas SCL-90-R (Derogatis, 1994)
El SCL-90-R está compuesto por 90 ítems con formato de respuesta de cinco opciones (de "nada" a "mucho"), que examinan patrones de síntomas psicológicos, y que se agrupan para configurar nueve dimensiones clínicas (somatización, obsesiones/compulsiones, sensitividad interpersonal, depresión, ansiedad, hostilidad, ansiedad fóbica, ideación paranoide y psicoticismo). Este instrumento cuenta con evidencias de validez y confiabilidad en el contexto local (Sánchez & Ledesma, 2009), y en el presente estudio el análisis de la consistencia interna de las nueve dimensiones sintomatológicas registró valores alfa de Cronbach de .77 (ansiedad fóbica) a .86 (depresión).
Los participantes fueron contactados por psicólogos y alumnos avanzados de la carrera de Psicología de la Universidad de Buenos Aires, quienes colaboraron en las tareas de administración de manera supervisada. Los administradores fueron debidamente entrenados para garantizar que las tomas se realizaran de manera individual en entornos físicos acordes con las coordenadas deseables para un adecuado setting de evaluación.
Los evaluados contestaron un protocolo en formato de lápiz y papel que constaba, en primera instancia, de un consentimiento informado en el que se detallaban los objetivos de la investigación y las condiciones establecidas para la participación en el estudio, así como el carácter voluntario de su participación y la posibilidad de abandonar la evaluación en cualquier momento si así se deseaba, las garantías de anonimato y confidencialidad de las respuestas, y que no recibirían alguna devolución de resultados individuales ni retribución económica. Posteriormente, luego de firmar este consentimiento, los participantes podían acceder a la sección del protocolo que incluía los instrumentos. Al finalizar la aplicación, los evaluados recibieron información de contacto de los responsables de la investigación por si eventualmente surgían consultas. No se estableció un tiempo límite, pero se estima que todos los participantes respondieron el protocolo en un tiempo alrededor de los 20 a 25 minutos.
El diseño de este estudio fue evaluado y aprobado por el Comité de Conductas Responsables de la Facultad de Psicología de la Universidad de Buenos Aires. Se trata de un estudio de bajo riesgo, en virtud de que se realiza la recolección de la información mediante cuestionarios que no identifican a los sujetos, y no se efectúan intervenciones sobre variables psicológicas del evaluado. Se contemplaron pautas éticas locales del ejercicio profesional de la Psicología (Federación de Psicólogos de la República Argentina, 2013) y normativas internacionales para la adaptación y validación de tests usados en la práctica de la evaluación psicológica (International Test Commission, 2014).
Se aplicó el modelo de respuesta graduada (MRG) de Samejima, con base en la consideración de sus aspectos teóricos, metodológicos y empíricos (Penfield, 2014). Desde una perspectiva teórica, porque se ha demostrado ampliamente la utilidad de los parámetros del MRG para describir la respuesta a un ítem con respuesta tipo Likert (Reise & Revicki, 2015); a nivel metodológico, porque se alcanzó un tamaño muestral adecuado para responder a los requerimientos de estimación de los parámetros del modelo; y a nivel empírico, porque los datos recolectados en esta investigación permitieron examinar y corroborar empíricamente el ajuste del modelo.
Previo a la aplicación de la TRI, se verificaron los supuestos requeridos por el MRG. Por tanto, se corroboró el supuesto de unidimensionalidad por separado para cada dimensión a partir de análisis factoriales confirmatorios (AFC); y se estimaron los parámetros con el método robusto de mínimos cuadrados ponderados (WLSMV) usando la matriz de correlaciones policóricas. Por otra parte, se analizó el ajuste con los criterios definidos por Byrne (2012): CFI y TLI ≥ .90, y RMSEA ≤ .08; y se estudió el supuesto de independencia local de los ítems con el estadístico X2LD, en el que se aceptan los valores inferiores a 10 (Reise & Rodríguez, 2016).
También se estimaron los parámetros de los ítems del MRG con el método de máxima verosimilitud marginal. Por tanto, para cada ítem se estimó un parámetro de pendiente (a) y cuatro parámetros de umbral (b1 , b2, b3 y b4) que permiten conocer la localización de cada una de las categorías de respuesta en el continuo del rasgo latente; y se analizó el ajuste del MRG a los datos, ítem por ítem, con el índice S-X2, considerándose adecuados si obtenían un p > .05 (Kang & Chen, 2011).
Para la reducción de cada una de las dimensiones del BFI, se realizó una reducción progresiva, eliminando los ítems que no cumplían con los requerimientos de calidad psicométrica de la TRI: supuestos de independencia local y unidimensionalidad, y, posteriormente, desajuste al MRG.
Luego de alcanzar la versión depurada, se realizaron estudios para aportar evidencias de validez y confiabilidad. Específicamente, se analizó el funcionamiento diferencial de los ítems (Differential Item Functioning, DIF) en función del género con el test de Wald modificado, se analizó el ajuste al modelo pentafactorial mediante un AFC, y se estudió la asociación de los puntajes de cada escala original con la puntuación total obtenida luego de la depuración. Asimismo, se correlacionaron los 9 estimados para cada sujeto con las variables que mide el inventario SCL-90-R y el BIN. En lo que respecta a los estudios de confiabilidad, se analizó la consistencia interna con coeficientes globales derivados de la TCT (alfa de Cronbach, alfa ordinal y omega) y de la TRI (fiabilidad marginal). Aprovechando las ventajas que proporciona la TRI con medidas locales de precisión, se analizaron las funciones de información y de error estándar del test.
Finalmente, es importante mencionar que se utilizaron los programas Mplus (Muthén & Muthén, 2010) para el AFC, y el paquete user friendly science (Peters, 2014) del programa R para los coeficientes alfa de Cronbach, alfa ordinal y omega con sus respectivos intervalos de confianza al 95 %. El resto de los análisis se realizó con el IRTPRO 4.2 (Cai et al., 2011).
La depuración progresiva de los ítems de cada escala permitió reducir el inventario de 44 a 20 ítems. En términos generales, la principal causa que justificó la eliminación de los ítems fue la violación del supuesto de independencia local (15 ítems), resultado esperable en virtud de la presencia de pares de ítems con contenidos redundantes, ya sea por la similitud del indicador o por su negación en la redacción inversa. Solo un ítem perteneciente a la escala de apertura fue eliminado por presentar bajo pesaje (inferior a .30) en la aplicación del AFC. Al considerar la calibración de los ítems con el MRG, se descartaron seis ítems que evidenciaron problemas de ajuste según los valores del índice S-X2(p < .001). Por último, se decidió eliminar dos ítems con funcionamiento psicométrico adecuado de las escalas agradabilidad y responsabilidad con el objetivo de alcanzar la misma cantidad de elementos en la medición de todos los dominios. Por esta razón, se escogieron reactivos con menores cargas factoriales. Estas decisiones mostraron resultados satisfactorios en los indicadores de la TRI; motivo por el cual no fue necesario eliminar otros ítems de las escalas.
Aplicación de la TRI a la versión reducida
En la Tabla 1 se resumen los resultados obtenidos para cada dimensión del BFI en la verificación de los supuestos de unidimensionalidad e independencia local. Los valores de CFI y TLI superiores a .90 y los límites superiores de los intervalos de confianza de los RMSEA por debajo de .08 demuestran que cada uno de los rasgos evaluados responde a un modelo unidimensional. Asimismo, todas las cargas factoriales fueron estadísticamente significativas (p < .05), con pesajes adecuados, y, finalmente, los valores de x2LD registrados para cada dominio fueron suficientes como para aceptar que los ítems son localmente independientes (x2LD < 10).

Por otra parte, en la Tabla 2 se presentan los resultados de la calibración de los ítems de cada una de las dimensiones con el MRG. Como se puede corroborar, todos los estadísticos S-χ2 mostraron un p-value superior a .01, el cual refleja un ajuste satisfactorio del MRG a los datos. Además, el promedio de los parámetros a osciló entre 1.45 (neuroticismo) y 1.86 (extraversión); y cinco parámetros de umbral b1 (dos pertenecientes a ítems de responsabilidad y tres a agradabilidad) se localizaron por debajo del límite inferior esperado (-3). Ambos constructos también tendieron a presentar valores de b4 en torno a θ = 0. No obstante, los valores obtenidos en estas estimaciones parecen razonables considerando que los contenidos de estos ítems podrían ser sensibles a la deseabilidad social por el hecho de referirse a hábitos de trabajo valorados (autopercibirse como eficaz y digno de confianza) y comportamientos solidarios (cooperación, amabilidad y capacidad para perdonar).

En la Tabla 2 también se incluyen los resultados obtenidos en el test de Wald al analizar el funcionamiento diferencial de los ítems según el género del evaluado. Como se puede observar, dado que todos los p-values son superiores a .05, es posible descartar la presencia de DIF en los ítems de la versión reducida. Esto quiere decir que no se registran diferencias estadísticamente significativas al comparar los parámetros de los ítems estimados para varones y mujeres, por lo que se asume que el instrumento arroja mediciones invariantes entre estos grupos.
Ahora bien, para analizar el impacto de la variación de contenido ocasionado por la reducción de ítems, se correlacionaron, para cada dimensión, los puntajes totales de la prueba en su versión original y en la versión abreviada en este estudio. Con esto, se encontró que todas las correlaciones resultaron iguales o superiores a .90, que también se redujeron al controlar la naturaleza espuria de estas asociaciones con la corrección de Levy (1967): responsabilidad (r = .79), agradabilidad (r = .78), extraversión (r=.75), neuroticismo (r = .73) y apertura (r = .73).
Por otra parte, el estudio factorial confirmatorio con los ítems de la versión reducida mostró un ajuste aceptable al modelo pentafactorial (X2(gl = 160) = 456.1; p < .001; CFI = .93; TLI = .92; RMSEA = .048, 90 IC [.024; .072]).
Como era esperable, el X2 resultó significativo, aunque el tamaño muestral es lo suficientemente grande como para aceptar que el rechazo del ajuste se debe a la sensibilidad del estadístico. Además, las saturaciones factoriales fueron mayores a .40 y significativas para un valor p < .05 (Figura 1); y las correlaciones interfactores presentaron intensidades entre bajas y moderadas. El rasgo de neuroticismo registró las asociaciones más elevadas, junto con agradabilidad (r=-.27) y responsabilidad (r=-.35).

Finalmente, en la Tabla 3 se presentan los resultados de las correlaciones de los cinco dominios con las variables del BIN y el SCL-90-R. Aquí, destaca la asociación entre los puntajes totales de neuroticismo del BIN y BFI reducido, aun cuando existe una gran diferencia en la extensión de ambos instrumentos (54 ítems vs. 4 ítems). A su vez, al medir el neuroticismo con el BIN, también se registraron correlaciones similares a las reportadas con agradabilidad (r = -.37) y responsabilidad (r = -.40). Además, si se repara en las facetas de neuroticismo del BIN, es posible identificar hallazgos acordes a lo esperable a nivel teórico, como las correlaciones entre agradabilidad y hostilidad, entre extraversión y autoconciencia, y entre responsabilidad y vulnerabilidad. Finalmente, neuroticismo y responsabilidad mostraron las correlaciones más intensas con respecto a las dimensiones sintomáticas medidas con el SCL-90-R.

Por último, y como era previsible, dada la corta extensión de las escalas, los coeficientes de consistencia interna alfa de Cronbach mostraron valores al límite de ser considerados aceptables, como sucede con neuroticismo (.66) y apertura (.63). No obstante, se registran mejoras si se emplean coeficientes que contemplan la naturaleza ordinal del formato de respuesta de los ítems (Tabla 4); con este ajuste, los alfas y omegas ordinales resultaron mayores a .70 para todas las dimensiones. En el marco TRI, los indicadores globales de confiabilidad (fiabilidad marginal) también fueron aceptables.

Finalmente, para profundizar en el estudio de la precisión de las mediciones, se representaron las funciones de los errores estándares de estimación de cada uno de los cinco factores medidos por el BFI reducido (Figura 2). En el gráfico, se destacan los rangos de los respectivos θ en los que las funciones presentan errores superiores a .55 (equivalente a una confiabilidad clásica de .70). Aunque con mayor error, la función de neuroticismo es la única relativamente simétrica y se encuentra centrada en los niveles medios del rasgo. En el resto de las curvas, los errores tendieron a mantenerse constantes para los niveles medio y bajo. Ninguna de las escalas mostró precisión aceptable para la medición de los valores extremos del polo superior.

Los tests abreviados de personalidad ofrecen una solución tentadora ante una situación de evaluación que requiera medir un constructo por demás complejo, apelando a una economía en los tiempos de administración. Sin embargo, el beneficio que se registra en la práctica se consigue necesariamente a expensas de resignar calidad psicométrica, tratando de alcanzar un equilibrio entre la exhaustividad en la cobertura del contenido y un grado aceptable de consistencia interna a partir de ítems heterogéneos (Baldasaro et al., 2013; Credé et al., 2012; Milojev et al., 2013; Morizot, 2014; Sibley, 2012; Ziegler et al., 2014). En estas circunstancias es que cobra relevancia la explicitación de los criterios tomados en la reducción de los ítems y se impone la necesidad de hallar evidencia empírica rigurosa que legitime la calidad de las medidas abreviadas.
El análisis psicométrico realizado en este estudio permitió reducir el BFI de 44 ítems a 20 ítems. Si bien existen escalas más breves, como el BFI-10 o el BFI-15, se decidió que eliminar una mayor cantidad de elementos podría afectar a la consistencia interna de la prueba. En efecto, dos escalas (neuroticismo y apertura) registraron coeficientes de consistencia interna al límite de lo aceptable según el criterio de DeVellis (2016). No obstante, dada la escasa cantidad de ítems que componen cada una de las escalas, parece razonable que se alcancen coeficientes con estos valores. A partir de esto, se puede afirmar que una adecuada representatividad de los contenidos de factores que tienen una gran complejidad conceptual exige la inclusión de indicadores con un menor grado de asociación, lo cual repercute en la consistencia interna de la prueba.
También se decidió eliminar dos ítems con funcionamiento psicométrico adecuado para que todos los factores tuvieran la misma cantidad de elementos. Aunque este criterio no resulta estrictamente necesario, dado que no es preciso que los dominios se midan con el mismo número de ítems, se priorizó un criterio práctico que lleva a reducir los tiempos de administración, sin poner en riesgo las propiedades psicométricas de las escalas.
Respecto a las asociaciones entre las escalas originales y las versiones abreviadas, se encontró que aportan una importante evidencia de validez concurrente y permiten concluir que la reducción de contenido no incidió sustantivamente en la medición de los dominios. Además, el estudio del DIF en función del género mostró que la versión reducida arrojó mediciones invariantes para varones y mujeres, lo cual aporta mayor evidencia de su validez.
Ahora bien, los criterios usados en esta investigación para seleccionar los ítems de la versión abreviada se asientan principalmente en las herramientas analíticas que brinda la TRI, siendo la violación del supuesto de independencia local la razón que propició la mayor cantidad de elementos eliminados (62.5 %). Al respecto, se debe tener en cuenta que el BFI fue desarrollado desde la teoría clásica, y en esta perspectiva es habitual el uso y abuso de ítems redundantes (Lloret Segura et al., 2014), empleados con frecuencia para comprobar la coherencia de las respuestas de los evaluados, aumentar artificialmente la consistencia interna de la escala o conseguir una estructura factorial clara y bien definida (Diaz-Morales, 2006; Ferrando & Anguiano-Carrasco, 2010). En cambio, desde la TRI, la inclusión de estos ítems puede afectar de manera significativa a la estimación de los parámetros, dado que la respuesta a un elemento no es estadísticamente independiente de la respuesta a otro elemento (Attorresi et al., 2009).
Un hallazgo que conviene discutir es la escasa cantidad de ítems inversos conservados en esta versión reducida (solo dos ítems pertenecientes a la dimensión extraversión, de un total de 15 ítems de la prueba original). Para Rammstedt y John (2007), la utilidad de incluir ítems redactados en ambos sentidos del rasgo busca mejorar la cobertura del contenido y permite una mejor representación de cada uno de los polos; no obstante, el análisis con la TRI reveló que los ítems pueden localizarse en los extremos inferior o superior del constructo, con independencia del sentido de la redacción. En efecto, los ítems inversos (21 y 31) de extraversión mostraron capacidad discriminativa en niveles del rasgo más altos que los ítems directos (1 y 36).
A esto se suma que la bibliografía especializada más tradicional recomienda combinar ítems directos e inversos para controlar el sesgo en el estilo de respuesta aquiescente, aunque en los últimos años esta estrategia recibió cuestionamientos importantes (Suárez-Álvarez et al., 2018). Siguiendo esta línea, en el proceso de reducción del instrumento se priorizó la selección de ítems con mejores propiedades psicométricas, sin considerar el sentido de su redacción. En su mayoría, los ítems inversos del BFI presentaron algún par que expresaba una idea similar, pero redactada en sentido positivo (p. ej., 27R. "... que puedo ser frío/a y distante" y 32."...que es muy considerado/a y amable con los demás"). Consecuentemente, también registraron valores elevados de x2LD que justificaban su eliminación. Desde la teoría clásica, otros autores también refieren dificultades psicométricas en ítems inversos, o deciden a priori no incluirlos para evitar introducir varianza irrelevante en la medición de los constructos (Dominguez-Lara & Merino-Soto, 2018; Gouveia et al., 2021).
Por otra parte, tanto las correlaciones interfactores como las asociaciones halladas con las facetas de neu-roticismo del BIN responden a un patrón de relaciones coherentes a las expectativas teóricas (McCrae & Costa, 2010), de manera que, por ejemplo, niveles elevados de neuroticismo tenderán a mantener vínculos interpersonales conflictivos (baja agradabilidad) y a autopercibirse como poco eficientes (baja responsabilidad), basándose en su pobre autoestima. Asimismo, las asociaciones con las dimensiones sintomatológicas del SCL-90-R son consistentes con los hallazgos reportados en la literatura, siendo neuroticismo y responsabilidad los dominios mencionados con más frecuencia como factores de riesgo (Castellanos-Ryan et al., 2016; Jeronimus et al, 2016; Menéndez et al., 2019) y factores protectores (Bogg & Roberts, 2004; Sutin et al., 2018), respectivamente, para el desarrollo y mantenimiento de diversas psicopatologías.
En cuanto al análisis de las Funciones de Información de los Tests (FIT), se encontró una debilidad de la prueba en su conformación actual que permanece oculta para los coeficientes de confiabilidad globales de la teoría clásica. Idealmente, cuando un instrumento está destinado para la población general, como el BFI, se espera que los ítems se ubiquen a lo largo del espectro de cada dimensión y la FIT resulte relativamente simétrica en torno a θ = 0. No obstante, en términos generales, los ítems conservados tendieron a ubicarse por debajo de las medias de los respectivos rasgos, en tanto que, como se observa en las FIT, en cuatro dimensiones la medición de los niveles más elevados tuvo una menor precisión -aunque debe exceptuarse el factor neuroticismo, cuya FIT es menos elevada que la del resto de las dimensiones, pero más simétrica-. En consecuencia, aunque los coeficientes de fiabilidad clásicos fueron aceptables, en futuros estudios se recomienda ensayar nuevos elementos que puedan reemplazar alguno de los ítems actuales, con el objetivo de alcanzar una mayor precisión para medir niveles elevados de los rasgos.
Finalmente, entre las limitaciones propias de la metodología TRI aplicada, se encuentra que el estadístico S-X2, empleado en el análisis del ajuste del MRG, puede verse afectado por el tamaño de la muestra y la extensión de la prueba (Sueiro & Abad, 2009). Además, la presente investigación se asienta en la aplicación de modelos de la TRI unidimensionales para el análisis de un constructo multidimensional (Makransky et al., 2013; Reckase, 2009); pero el estudio del instrumento a través de un modelo multidimensional de la TRI podría introducir mejoras en la estimación de los parámetros y alcanzar interpretaciones más exhaustivas que reconozcan la complejidad conceptual de un fenómeno como la personalidad.





