Análisis Empírico del Coeficiente Alfa de Cronbach según Opciones de Respuesta, Muestra y Observaciones Atípicas
Empirical Analysis of Cronbach’s Alpha Coefficient as a Function of Question Response Options, Sample Size and Outliers
Análisis Empírico del Coeficiente Alfa de Cronbach según Opciones de Respuesta, Muestra y Observaciones Atípicas
Revista Iberoamericana de Diagnóstico y Evaluación - e Avaliação Psicológica, vol. 2, núm. 63, p. 17, 2022
Associação Iberoamericana de Diagnóstico e Avaliação Psicológica
Resumen: El coeficiente alfa de Cronbach ampliamente utilizado en la investigación psicológica, ha sido criticado por las variaciones que presenta en distintas condiciones metodológicas. El propósito del estudio fue evaluar empíricamente la pertinencia del uso de este coeficiente variando las opciones de respuesta tipo Likert, los tamaños muestrales, y la presencia o ausencia de outliers. Se contó con una muestra de 501 participantes residentes en México (48.7%) y Colombia (51.3%), quienes respondieron la Escala Interpersonal de Celos (IJS), y el Cuestionario de Celos Patológicos (CECLA). Entre los resultados se encontró que el alfa de Cronbach no varía en las escalas tipo Likert inferiores a cinco opciones de respuesta, pero sí cambia con mayor número de opciones de respuesta. Además, se incrementa si hay presencia de outliers, y es relativo a las variaciones entre tamaños muestrales obtenidos de forma aleatoria de una muestra general. Se recomienda acompañar este coeficiente con otros indicadores como evidencia de fiabilidad de los test.
Palabras clave: Alfa de Cronbach, análisis factorial, consistencia interna.
Abstract: Cronbach’s Alpha coefficient is well-known in psychological research, but it has been criticized for lack of systematic results under specific methodological conditions. The main objective of this research was to evaluate variations of Cronbach's Alpha coefficient as a function of question number response options of Likert type scales, sample size, and outliers. Results showed that Cronbach's Alpha does not vary in the Likert-type scales from three to five response options, but it does change with a greater number of response options (five to nine). Also, the value of the coefficient increases with outlier presence, with small sample sizes and questions with response options greater than five. This research shows that Cronbach's Alpha coefficient should be used with caution, and recommends the use of other indicators as evidence of the tests’ internal consistency.
Keywords: Cronbach’s alpha, factor analysis, internal consistency.
Introducción
El coeficiente alfa de Cronbach fue propuesto en 1951 por Lee J. Cronbach, para medir la confiabilidad de un instrumento, como un caso especial del coeficiente Kuder-Richardson (KR-20 y KR-21; Kuder & Richardson, 1937). Se calcula a partir de la varianza de los ítems individuales y de la varianza de la suma de los ítems de cada participante, cuando los ítems de una escala se encuentran correlacionados. Esta varianza se refiere a la diferencia entre los valores reales y esperados, y permite inferir la confiabilidad del test a través de la consistencia interna, además, cuando un ítem es eliminado, si el alfa aumenta indica que el ítem no se correlaciona con los demás de la escala (Cronbach, 1951; Streiner, 2003). Por lo tanto, en escalas con ítems de varias alternativas de respuesta, usando los principios de la correlación asume que la proporción de varianza es consistente con la tendencia de respuestas de los participantes, según la ecuación 1:
En la ecuación 1, el N representa el número de ítems de la escala,
la varianza de los puntajes observados, y
la varianza de los ítems . por cada persona . (Vaske et al., 2016). El valor obtenido está en un rango que va de -1 hasta 1, los valores negativos indican correlaciones negativas entre ítems, los valores positivos aceptables van por consenso desde .65 hasta .80 para ser considerados adecuados para las medidas en psicología (Komorita & Graham, 1965). Según las indicaciones de George y Mallery (2003), valores con rangos <.5 son inaceptables, >.5 pobres, >.6 cuestionable, >.7 aceptable, >.8 bueno, y >.9 excelente.
Este indicador ha sido el estadístico de fiabilidad más usado e importante en la construcción de los test, particularmente aquellos compuestos por múltiples ítems (Schmitt, 1996), y ha sido sinónimo de calidad de los instrumentos psicométricos hasta la fecha (Taber, 2018). En una revisión de publicaciones sobre el coeficiente . como un estimador de consistencia interna y fiabilidad en procesos de construcción, adaptación y validación de instrumentos, se analizaron 31 artículos y se presentaron diferentes críticas frente al uso de este coeficiente. Primero, existe una sobreestimación de su aplicación, en el que se debería tener en cuenta el límite inferior de confiabilidad (lowest bound). Segundo, el uso incorrecto de su interpretación como medida de consistencia interna como confiabilidad del test. Tercero, se usa como única evidencia de la confiabilidad (Da Silva et al., 2015). Adicionalmente, se ha identificado que depende de la homogeneidad/heterogeneidad de las muestras (Waller, 2008) y del esfuerzo de los participantes por responder (Carden et al., 2018), entre otros.
La toma de decisiones en los procesos de evaluación psicológica depende de la calidad técnica de los test aplicados, y en los últimos años, diversas investigaciones han señalado el frecuente uso erróneo del Coeficiente Alpha de Cronbach como estimador de confiabilidad (McNeish, 2018; Raykov & Marcoulides, 2017; Yang & Green, 2011). Ante esto, se reconoce que coeficiente Alpha de Cronbach es el más usado, pero también ha sido el peor interpretado, dado que suele confundir consistencia interna con confiabilidad (Cho & Kim, 2014; Koekstra et al., & Kruyen, 2018). Al respecto, se ha sugerido el uso del coeficiente McDonald’s Omega como medida de confiabilidad (McDonald, 1999; Ventura-León & Caycho-Rodríguez, 2017), este coeficiente al igual que el Rho de Jöreskog (1971), trabaja con variables estandarizadas, una transformación que estabiliza los cálculos y refleja el verdadero nivel de fiabilidad, no dependiente del número de ítems.
A manera de antecedente, Elosua y Zumbo (2008), estudiaron el uso del coeficiente alfa en escalas de tipo ordinal. Para tal fin usaron tres conjuntos de datos, con dos, tres y cinco categorías de respuesta (correcto/incorrecto, una escala de personalidad con 3 opciones de respuesta y otra escala de personalidad con 5 opciones en una escala de respuesta graduada). Encontraron que el uso del alfa de Cronbach como medida de consistencia interna, en escalas ordinales, cuando se asume que la variable es continua, tiene efectos negativos en el coeficiente. Cuando la asimetría aumenta y se disminuye el número de categorías de respuesta, aumenta también el sesgo negativo producido en la estimación del coeficiente alfa. Además, comprobaron que, en una escala compuesta por 14 ítems con 3 categorías de respuesta, y un índice de asimetría media de -1 la estimación de alfa decreció del valor teórico de .80 al valor estimado de .66. Sin embargo, mediante el uso de la estimación ordinal de alfa, se recuperó correctamente el valor del parámetro. En revisiones como la propuesta en la obra de Hancock et al. (2019), es recomendable el uso de escalas continuas, aunque en el caso de los test las escalas no deben generar inconvenientes en el análisis estadístico si cuentan al menos con cinco opciones de respuesta, un aspecto a tener en cuenta en las conclusiones de estudios como el de Elosua y Zumbo (2008), en el que optaron por escalas de tres opciones en adelante.
En un estudio meta-analítico, Inal et al. (2017) compararon el coeficiente alfa de Cronbach obtenido de instrumentos con diferente número de opciones de respuesta (entre 2 y 9 opciones) y encontraron diferencia significativa en la comparación general de todos los grupos y en las parejas de opciones 2-3, 2-4, 2-5, 2-6, 2-7, 2-9, 3-4, 4-5, 4-6, 4-7 y 4-9, obteniendo un rango promedio mayor en los coeficientes de instrumentos con 9 opciones de respuesta.
Asimismo, una variable que ha sido poco estudiada es la escala de respuesta de los reactivos de la cual depende la variabilidad de los puntajes. Las escalas de respuesta categóricas ordinales con cuatro o cinco opciones o las nominales suelen ser las más frecuentemente utilizadas en los estudios psicométricos en Psicología, sin que todavía exista suficiente evidencia de su pertinencia y efecto sobre la estimación de la consistencia interna cuando se comparan con escalas de respuesta numérica. El alfa de Cronbach varía en las escalas tipo Likert de tres y cinco opciones de respuesta, el valor aumenta si varían de dos hasta cinco opciones (Zumbo, et al, 2007). Otros estudios han demostrado que el alfa de Cronbach se incrementa si hay presencia de outliers (sesgo positivo por contaminación; Liu, Wu, & Zumbo, 2009) y es relativo al primer autovalor y los tamaños muestrales (eigenvalue de 6 con .=30, 3 y 6 con .=100, menor de 3 con .>100, con un valor esperado de .70; Bujang, Omar, & Baharum, 2018; Yurdugul, 2008). Además, este coeficiente es menos robusto que el Omega de Mc Donald según simulaciones usando modelado con ecuaciones estructurales[1] (CFI y RMSEA; Cho & Kim, 2014).
Objetivo de la investigación e hipótesis
Evaluar empíricamente el uso del coeficiente alfa de Cronbach en diferentes condiciones poblacionales e instrumentales, permitiría verificar si la evidencia demuestra que la estimación de la consistencia interna se afecta por diferentes condiciones metodológicas, el impacto científico, tecnológico y social, se evidenciará en tres hipótesis. La primera indica que el valor alfa de Cronbach varía en las escalas tipo Likert de tres hasta nueve opciones de respuesta, con un valor incremental con respecto al aumento de las opciones de respuesta. La segunda indica que el valor del alfa de Cronbach varía si hay presencia de outliers (sesgo positivo por contaminación). La tercera indica que el alfa de Cronbach es sensible a los tamaños muestrales, dada la dependencia entre la cantidad de ítems, cantidad de participantes y autovalores del primer factor.
Método
Participantes
Se conformó una muestra final de 501 participantes (34.9% hombres, 65.1% mujeres), residentes en México (48.7%) y Colombia (51.3%), con una edad media de 32.88 años (DE=12.22, rango entre 18 y 73). Indicaron que estaban solteros (58.3%), casados, (25.7%), en unión libre (11.4%), y separados (4.4%), con unos niveles de escolaridad distribuidos principalmente en preparatoria (26.5%), licenciatura (42.5%), y postgrado (30.5%). Además, reportaron entre sus principales ocupaciones ser empleados (52.9%), estudiantes (24.2%), trabajadores independientes (16.8%), y pensionados (2%).
Instrumentos
Interpersonal Jealous Scale [IJS]. Adaptada a población colombiana por Martínez-León et al. (2018). Consta de 18 ítems y permite evaluar el nivel de celos de la persona. Tiene una escala de 9 puntos, desde “absolutamente falso, en desacuerdo completamente” (1), “ni verdadero ni falso” (5) hasta “absolutamente verdadero, completamente de acuerdo”. Los índices de bondad de ajuste del Análisis factorial confirmatorio del modelo unidimensional con 18 ítems, fueron los siguientes: la razón entre el valor de ji-cuadrado (χ.) y el número de grados de libertad correspondientes cuyo valor fue χ./gl=2.66 (valor esperable menor a 5), CFI=0.94 (valor esperable por encima de 0.90), el error cuadrado de aproximación a las raíces medias (Root Mean Square Error of Approximation), RMSEA=0.05 y el intervalo de confianza osciló entre [0.045 y 0.060] (valor esperable menor a 0.08). Los anteriores indicadores fueron alcanzados con la muestra colombiana.
Instrumento para evaluar celos patológicos [CECLA]. Este instrumento se compone de 19 ítems que evalúan tres clases de celos: pasionales, obsesivos y delirantes (Avendaño eet al., 2016). La escala de valoración con cinco opciones de respuesta utilizada fue la siguiente: Nunca / Casi nunca (menos del 20%), Pocas veces (Entre el 20% y el 40% de las ocasiones), Algunas veces (Entre el 41% y el 60%de las ocasiones), Con frecuencia (Entre el 61% y el 80%de las ocasiones) y Casi siempre (más del 80% de las ocasiones). Durante el proceso de análisis de las propiedades psicométricas iniciales, el instrumento mostró índices aceptables de adecuación del modelo: Ïndice global de ajuste: GFI (Goodness of Fit Index)=0.92 (valor esperado >0.90), índice de ajuste comparativo: CFI (Comparative Fit Index)=0.95 (valor esperado >0.90), y el error cuadrado de aproximación a las raíces medias: RMSEA (Root Mean Square Error of Approximation)=0.05 (valor esperado <0.08), además el intervalo de confianza osciló entre [0.05 y 0.06]. Para establecer la estabilidad del CECLA, se realizó un procedimiento test-retest, cuyo valor en la correlación producto momento de Pearson fue de .=.939. Los valores del alfa de Cronbach para las subescalas fueron los siguientes: factor (celos delirantes) α=.892, factor (celos obsesivos) α=.865 y factor (celos pasionales) α=.838. La fiabilidad con el coeficiente de Omega alcanzó un valor de 0.94, un valor favorable como evidencia de elevada fiabilidad del test desarrollado.
Procedimiento
El procedimiento se llevó a cabo en tres fases. Una fase de toma de datos electrónicos durante un mes vía Google Forms simultánea en los dos países participantes, el formulario fue aprobado por el equipo investigador e incluyó el consentimiento informado de participación en la investigación aprobado por los comités éticos de la investigación de las instituciones responsables. En el formulario se incluyeron los test IJS de cinco y nueve opciones de respuesta, y el CECLA de tres y cinco opciones de respuesta, de esta manera cada participante respondió cuatro instrumentos psicométricos en una sola toma de datos. Finalmente, una fase de depuración de bases de datos, análisis de datos psicométrico y estadístico comparativo final.
Plan de análisis de datos. Se usó R-Proyect con el paquete ‘MVN’ (Korkmaz et al., 2014) para los análisis de la normalidad multivariada. Luego el paquete Lavaan 0.6-3 (Rosseel, 2012), para los análisis factoriales confirmatorios de los instrumentos revisados. Finalmente, el paquete Psych (Revelle, 2020), para calcular los coeficientes alfa de Cronbach para cada ítem y totales de los test en las condiciones según las hipótesis planteadas. Los análisis comparativos se ejecutaron con el software AlphaTest (Lautenschlager & Meade, 2008; Merino-Soto, 2016), un software que compara los valores de consistencia interna de cada muestra, en particular para coeficiente alfa de Cronbach. El estadístico se basa en comparaciones no paramétricas usando pruebas de hipótesis mediante los contrastes en una distribución de chi cuadrado χ. (.<.05). De esta manera, se utilizó en cada una de las pruebas ejecutadas en distintas condiciones hipotéticas y datos como la cantidad de ítems y tamaño muestral.
Modelo | ꭓ2 (df) | S-B ꭓ2 (df) | R-CFI | R-TLI | R-RMSEA | IC90% RMSEA | SRMR | BIC |
CECLA 3 alternativas sin MI | 670.236 (149)*** | 358.804 (149)*** | 0.899 | 0.884 | 0.072 | 0.063 - 0.082 | 0.058 | 11054.301 |
CECLA 3 alternativas con MI | 457181 (143)*** | 258057 (143)*** | 0.947 | 0.937 | 0.053 | 0.043 - 0.064 | 0.052 | 10878.546 |
CECLA 5 alternativas sin MI | 628.578 (149)*** | 387.855 (149)*** | 0.918 | 0.905 | 0.072 | 0.063 - 0.081 | 0.054 | 21997.749 |
CECLA 5 alternativas con MI | 457700 (143)*** | 288055 (143)*** | 0.951 | 0.941 | 0.057 | 0.047 - 0.066 | 0.049 | 21864.171 |
IJS 9 alternativas sin MI | 679444 (135)*** | 444738 (135)*** | 0.918 | 0.907 | 0.084 | 0.075 - 0.092 | 0.046 | 36299.272 |
IJS 9 alternativas con MI | 386430 (128)*** | 255363 (128)*** | 0.966 | 0.960 | 0.055 | 0.045 - 0.065 | 0.036 | 36049.774 |
IJS 5 alternativas sin MI | 895381 (135)*** | 564451 (135)*** | 0.890 | 0.876 | 0.100 | 0.092 - 0.109 | 0.051 | 24426.579 |
IJS 5 alternativas con MI | 371880 (122)*** | 240125 (122)*** | 0.971 | 0.963 | 0.055 | 0.044 - 0.065 | 0.034 | 23983.894 |
*** p<.001
Resultados
Preparación de los instrumentos
Se llevó a cabo un AFC de los instrumentos CECLA e IJS, mediante un método de máxima verosimilitud robusta, con los índices robustos Satorra-Bentler's chi-square approximation of goodness-of-fit (S-B χ²; Satorra & Bentler, 2010), Robust Comparative Fit Index (R-CFI), Tucker Lewis Index (R-TLI), con valores mínimos de ajuste de 0.90, y el Root Mean Square Error Aproximation (RMSEA, IC90%), y el Standarized Root Mean Square Residual (SRMR), con valores máximos de 0.08 (Hu & Bentler, 1999), y el Bayesian Information Criteria (BIC) (Schwarz, 1978), para identificar el mejor modelo a elegir. En la Tabla 1 se presentan los modelos con mejor ajuste según las variaciones propuestas en las escalas de respuesta entre tres y cinco para el CECLA, y cinco y nueve para el IJS (los dos instrumentos en las dos versiones fueron respondidos en el mismo aplicativo de Google Forms). Se destaca en ambos instrumentos, los modelos para las cinco opciones de respuesta con índices de modificación añadidos presentaron los mejores ajustes, pese a que el IJS originalmente contiene nueve opciones. Sin embargo, en términos generales todos los modelos presentaron ajustes adecuados para los análisis posteriores del estudio.
Condición uno: Variaciones en las respuestas de la escala Likert
Se analizaron las variaciones del coeficiente alfa de Cronbach por cada ítem con el total de la prueba y la consistencia para el total de cada instrumento. En el CECLA no se obtuvieron diferencias estadísticamente significativas en las versiones con tres y cinco opciones de respuesta (χ.=0, df=1, .>.05) excepto en los ítems 12 y 16 (p<.05) (ver Tabla 2 complementaria). En el IJS las variaciones entre cinco y nueve opciones fueron estadísticamente significativas (χ.=3.72, df=1, p<.05) (ver Tabla 3 complementarios). En la Figura 1, se graficaron los valores del alfa que apoyan la hipótesis 1, se observa que el alfa de Cronbach no varía en las escalas tipo Likert de tres y cinco opciones de respuesta, pero sí cambia a mayor número de opciones de respuesta (cinco a nueve).
Condición dos: Presencia/ausencia de outliers
En la base de datos (.=501) usada para identificar las estructuras factoriales de los dos instrumentos, se realizaron pruebas de distancias de Mahalanobis para eliminar los outliers con el parámetro .<.001 (se aclara que estos outliers ocurrieron de forma natural en la toma de datos general). Luego se tomaron los modelos originales de referencia en el AFC con resultados favorables (ver Tabla 1) para realizar las comparaciones.
Nota. En la Figura 1 aparecen las variaciones obtenidas por cada ítem en los test CECLA (arriba) e IJS (abajo). Las figuras geométricas más grandes y en color gris corresponden a los valores Alfa de Cronbach totales de cada instrumento.
En el CECLA de cinco opciones de respuesta, se obtuvo una base depurada con .=455, y en el IJS de nueve opciones de respuesta, se obtuvo una base depurada con .=473.
Se analizaron las diferencias en los coeficientes alfa de Cronbach para cada ítem y para el valor total de cada instrumento, en las bases con outliers y sin outliers. En los dos instrumentos se obtuvieron diferencias estadísticamente significativas entre los valores alfas en las bases de datos con y sin outliers, excepto en el total de IJS (.>.05) (ver Tabla 4 complementarios). En la Figura 2, se observa que el alfa de Cronbach en el test CECLA disminuye si hay presencia de outliers, mientras que en el IJS se mantiene estable, lo que confirma parcialmente el sesgo positivo por contaminación, es decir, sesgos en un decremento en el valor de consistencia interna debido a la presencia de valores atípicos.
Condición tres: Variaciones en los tamaños muestrales
Con la base de datos inicial (.=501), se conformaron cinco muestras de diferentes tamaños: .=50, .=100, .=200, .=300 y .=400, para analizar las variaciones del coeficiente alfa por cada ítem y total de los instrumentos.
En el CECLA se obtuvieron diferencias estadísticamente significativas en los valores chi cuadrado, según tamaño de muestra en todos los ítems y el total del test (.<.001), mientras que en el IJS (.>.05) (ver Tabla 5 complementarios) no se presentó diferencia en ningún caso. En la Figura 3, se observa que el alfa de Cronbach del CECLA, en los tamaños muestrales bajos tiene un valor menor a los puntajes obtenidos con las muestras más grandes.
Nota. En la Figura 2 aparecen las variaciones obtenidas por cada ítem en los test CECLA (arriba) e IJS (abajo). Las figuras geométricas más grandes y en color gris corresponden a los valores Alfa de Cronbach totales de cada instrumento.
Nota. En la Figura 3 aparecen las variaciones obtenidas por cada ítem en los test CECLA (arriba) e IJS (abajo). Las figuras geométricas más grandes y en color gris corresponden a los valores Alfa de Cronbach totales de cada instrumento.
Mientras que en IJS, en las muestras pequeñas los valores en los ítems se observan inestables (bajos y altos), y se estabilizan en .=200 con un valor alfa de .92. La hipótesis tres, indica que el coeficiente alfa de Cronbach según los valores obtenidos fue relativo a las variaciones entre tamaños muestrales, aunque no fue significativo en el test con nueve opciones de respuesta.
Discusión
El objetivo del estudio fue evaluar empíricamente el uso del coeficiente alfa de Cronbach en diferentes condiciones poblacionales e instrumentales. En la hipótesis uno, se encontró que el alfa de Cronbach no varía en las escalas tipo Likert de tres y cinco opciones de respuesta, pero sí cambia con variaciones en las opciones de respuesta de cinco a nueve, apoyando los hallazgos de Zumbo et al. (2007), quienes reportaron variaciones en la consistencia interna al cambiar de dos a cinco opciones, variaciones que resaltan la sensibilidad del coeficiente alfa de Cronbach.
Con respecto a estas variaciones, Matell y Jacoby (1972) en un estudio clásico revisaron de forma similar las hipótesis del presente estudio, en un test en el que sugirieron que el número óptimo de opciones en la escala Likert, estaba entre tres y cinco opciones como el más adecuado, aunque las variaciones fueron mínimas con respecto a las escalas de siete hasta 18 opciones, en el presente estudio, aunque no fueron revisadas hasta las mismas 18 opciones, se encontró que los mejores ajustes estuvieron en los valores entre tres y cinco opciones de respuesta. Este reporte, por lo tanto, sugiere que los valores de la consistencia interna pueden afectarse a partir de las siete opciones de respuesta (Matell & Jacoby, 1972), lo cual se confirma en el presente estudio, ya que solo se encontraron variaciones al pasar de cinco a nueve opciones de respuesta.
En la hipótesis 2, se encontró que el alfa de Cronbach incrementa si no hay presencia de outliers, lo que confirma el sesgo positivo por contaminación, es decir, variaciones negativas en la consistencia interna derivado de las anomalías en la distribución normal y datos atípicos. Se ha documentado que los outliers que afectan los análisis de los ítems y su consistencia interna provienen de errores en la recolección de los datos y preparación de las bases de datos, otros errores debidos a las suposiciones de los participantes, inatención, fatiga o pérdida de interés y ausencia de respuestas; también, se ha identificado que surgen por errores en el proceso de reclutamiento de los participantes, así como subgrupos no identificados por los investigadores (Liu & Zumbo, 2007). De esta manera, los hallazgos del presente estudio permiten inferir que los valores obtenidos con outliers asimétricos generan variaciones significativas entre los valores del Alfa de Cronbach (Liu & Zumbo, 2007; Liu et al., 2009). Sin embargo, el sesgo por contaminación resultó negativo en el presente estudio, es decir, al eliminar los outliers mejoró el valor de consistencia interna.
Finalmente, en la hipótesis 3, se verificó que el alfa de Cronbach fue relativo a las variaciones entre tamaños muestrales, en el test con nueve opciones de respuesta presentó cambios no esperados, en especial con la muestra pequeña. Al parecer, los valores del coeficiente Alfa de Cronbach se ven afectados por los tamaños muestrales, debido a los cambios en los errores alfa y la potencia estadística esperada. Estos hallazgos concuerdan con los reportados en un estudio previo de simulación, en el que se encontró que para determinar la consistencia interna de un test con un error alfa de .05, se requiere un .=93 para obtener estabilidad con un valor por encima de .=.70. Si se trata de un test con 10 ítems y una escala tipo Likert de cinco puntos, el mínimo tamaño muestral debería ser .=23 una potencia del 80%, se tratan de tamaños viables para los análisis pilotos de los instrumentos (Bujang, Omar, & Baharum, 2018). En revisiones recientes, se ha sugerido que los tamaños muestrales mayores permiten disminuir el error de medición y favorecen la consistencia interna con el Alfa de Cronbach, y, asimismo, relativos al nivel de dificultad del ítem dada la violación de la homogeneidad de la respuesta media (Merino-Soto, 2020).
Limitaciones
En el desarrollo del estudio, se contó con una serie de limitaciones que requieren ser tenidas en cuenta para futuras revisiones de este indicador de fiabilidad. En primer lugar, a nivel procedimental con los participantes, se requiere controlar los efectos muestrales que pueden afectar las condiciones en las variaciones de las opciones de respuesta, puesto que para algunos participantes resultó confuso responder el mismo instrumento con diferentes opciones de respuesta, aspecto que probablemente interfirió en las respuestas dadas. Dado que se usaron muestras relacionadas en el estudio, se recomienda aplicar el mismo instrumento a muestras independientes, incluido un análisis diferencial entre hombres y mujeres, dadas las variaciones en la proporción entre ambos sexos (2 a 1 aproximadamente), un sesgo que ha sido evidenciado en estudios previos sobre violencia de pareja que incluyen las mediciones de las conductas celotípicas (López-Cepero et al., 2015).
En segundo lugar, en el análisis estadístico de las comparaciones entre los grupos aleatorios establecidos para las comparaciones entre muestras .=50 hasta .=400, se consideró que es necesario profundizar con simulaciones las variaciones pos hoc entre los diferentes tamaños muestrales. Además, es necesario realizar análisis comparativos con otras formas de escalas de respuesta (dicótoma y continua), ya que en el presente estudio, los dos instrumentos utilizados tenían opciones de respuesta con escala Likert de tres hasta nueve opciones. Estos nuevos datos podrían aportar nuevas direcciones de investigación en torno a los indicadores de fiabilidad con respecto al número de opciones de respuesta y la varianza concomitante.
En tercer lugar, con respecto a la cantidad de ítems que contenían ambos test usados, se consideró que dadas las elevadas intercorrelaciones que aparecen en el test, se trata de un aspecto que puede estar relacionado directamente con la magnitud de las covarianzas entre los ítems, y constituye una aproximación al grado de representación del constructo de cada reactivo (Oviedo & Campo-Arias, 2005); sin embargo, teniendo en cuenta los ítems que conforman cada dimensión del test, para una mayor precisión con respecto a las dimensiones del constructo evaluado, se ha sugerido usar el coeficiente Omega (McDonald, 1999), el cual se fundamente en las cargas factoriales, por lo tanto, está basado en sumas ponderadas de variables estandarizadas y no depende del número de ítems u opciones de respuesta (Ventura-León & Caycho-Rodríguez, 2027). De esta manera, un análisis adicional de la estructura factorial unidimensional del CECLA y el IJS, explicaría las diferencias encontradas en el test de nueve opciones de respuesta.
Conclusiones
La anterior revisión empírica permitió establecer tres conclusiones generales a saber. En primer lugar, se obtuvo nuevas evidencias sobre la sensibilidad del alfa de Cronbach en cuanto a las variaciones en la cantidad de opciones de respuesta tipo Likert (especialmente en escalas con más de cinco alternativas); además, resultó ser sensible al tamaño muestral con una estabilidad en tamaños grandes, aunque también evidenció escasas variaciones en escalas Likert con más de cinco alternativas de respuesta. Adicionalmente, resultó sensible a la presencia de los valores atípicos en la muestra, los cuales al ser eliminados incrementan el valor de la consistencia interna del test.
En posteriores estudios es necesario utilizar otros coeficientes adicionales para estimar con mayor la precisión la consistencia interna de los instrumentos, tales como el Omega de Mc Donald a manera complementaria como evidencia de la confiabilidad del instrumento psicométrico. Además, se consideró pertinente que para posteriores estudios es necesario verificar las variaciones del coeficiente alfa de Cronbach, analizando las variaciones con respecto al número de ítems de la escala, los formatos de respuesta con escalas dicotómica y continua, la unidimensionalidad y multidimensionalidad, entre otras condiciones.
Para finalizar, estudios psicométricos sobre la viabilidad de los indicadores son fundamentales para el avance de la medición y evaluación del comportamiento humano, en particular, aquellos que con base en las nuevas tecnologías y avances a nivel multidisciplinar, pueden ser revalorados o mejorados como este coeficiente de consistencia interna derivado de modificaciones previas como el Kuder-Richardson, Guttman o Loevinger (Cronbach, 1951). Se espera que los presentes hallazgos permitan continuar con la revisión de este indicador psicométrico ampliamente utilizado desde hace más de seis décadas, y así seguir incrementando el conocimiento sobre los indicadores de confiabilidad en la medición y evaluación psicológica actual.
Referencias
Avendaño, B. L., Betancort, M., & Peñate, W. (2016). Diseño de un instrumento para evaluar los celos. aproximación a un perfil socio-demográfico y psicológico de la conducta celotípica. [Tesis doctoral]. Universidad de la Laguna: Tenerife (España). Disponible en https://portalciencia.ull.es/documentos/5e31703d2999523690ffed3b
Bujang, M. A., Omar, E. D., & Baharum, N. A. (2018). A Review on Sample Size Determination for Cronbach's Alpha Test: A Simple Guide for Researchers. The Malaysian journal of medical sciences MJMS, 25(6), 85-99. https://doi.org/10.21315/mjms2018.25.6.9
Carden, S., Camper, T., & Holtzman, N. S. (2018). Cronbach’s Alpha under Insufficient Effort Responding: An Analytic Approach. Stats, 2(1), 1-14. https://doi.org/10.3390/stats2010001
Cho, E., & Kim, S. (2014). Cronbach's coefficient alpha: Well known but poorly understood. Organizational Research Methods, 18(2), 207-230. https://doi.org/10.1177/1094428114555994
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16(3), 297-334. https://doi.org/10.1007/BF02310555
Da Silva, F. C., Gonçalves, E., Arancibia, B. A., Bento, G., Castro, T. L., & Hernandez, S. S. (2015). Estimadores de consistencia interna en las investigaciones en salud: el uso del coeficiente alfa. Revista Peruana Medicina Experimental y Salud Pública, 32(1), 129-138. Disponible en http://www.scielo.org.pe/pdf/rins/v32n1/a19v32n1.pdf
Elosua, P., & Zumbo, B. (2008). Coeficientes de fiabilidad para escalas de respuesta categórica ordenada. Psicothema, 20(4), 896-901. Disponible en http://www.psicothema.com/psicothema.asp?id=3572
George, D., & Mallery, P. (2003). SPSS for Windows step by step: A simple guide and reference. 11.0 update (4th ed.). Allyn & Bacon.
Hancock, G. R., Stapleton, L. M., & Mueller, R. O. (2019). The Reviewer’s Guide to Quantitative Methods in the Social Sciences. Taylor & Francis eBooks. https://doi.org/10.4324/9781315755649
Hu, L., & Bentler, P. M. (1999). Cutoff criteria for fit indexes in covariance structure analysis: Conventional criteria versus new alternatives. Structural Equation Modeling: A multidisciplinary Journal, 6, 1-55. https://doi.org/10.1080/10705519909540118
Inal, H., Yilmaz Kogar, E., Dermirdüzen E., & Gelbal S. (2017). Cronbach's Coefficient Alpha: A Meta-Analysis Study. Eğitim Fakültesi Dergisi, 32(1), 18-32. https://doi.org/10.16986/HUJE.2016017219
Jöreskog, K. G. (1971). Statistical analysis of sets of congeneric tests. Psychometrika, 36, 109-133. https://doi.org/10.1007/BF02291393
Koekstra, R., Vugteveen, J., Warrens, M. J., & Kruyen, P. M. (2018). An empirical analysis of alleged misunderstandings of coefficient alpha. International Journal of Social Research Methodology, 22(4), 351-354. https://doi.org/10.1080/13645579.2018.1547523
Komorita, S. S., & Graham, W. K. (1965). Number of scale points and the reliability of scales. Educational and Psychological Measurement, 25(4), 987-995. https://doi.org/10.1177/001316446502500404
Korkmaz, S., Goksuluk, D., & Zararsiz, G. (2014). MVN: An R Package for Assessing Multivariate Normality. The R Journal, 6(2), 151-162. Disponible en https://journal.r-project.org/archive/2014-2/korkmaz-goksuluk-zararsiz.pdf
Kuder, G. F., & Richardson, M. W. (1937). The theory of estimation of test reliability. Psychmetrika, 2(3), 151-160. http://dx.doi.org/10.1007/BF02288391
Lautenschlager, G. J., & Meade, A. W. (2008). AlphaTest: A Windows Program for Tests of Hypotheses About Coefficient Alpha. Applied Psychological Measurement, 32, 502. https://doi.org/10.1177/0146621607312307
Liu, Y., & Zumbo, B. D. (2007). The Impact of Outliers on Cronbach’s Coefficient Alpha Estimate of Reliability: Visual Analogue Scales. Educational and Psychological Measurement, 67(4), 620-634. https://doi.org/10.1177/0013164406296976
Liu, Y., Wu, A. D., & Zumbo, B. D. (2009). The Impact of outliers on Cronbach’s coefficient Alpha estimate of reliability: Ordinal/rating Scale Item Responses. Educational and Psychological Measurement, 70(1), 5-21. https://doi.org/10.1177/0013164409344548
López-Cepero, J., Rodríguez-Franco, L., & Rodríguez-Díaz, F. J. (2015). Evaluación de la violencia de pareja. Una revisión de instrumentos de evaluación conductual. Revista Iberoamericana de Diagnóstico y Evaluación – e Avaliação Psicológica. RIDEP, 40(2), 37-50. Disponible en https://www.aidep.org/sites/default/files/articles/R40/Art4.pdf
Martínez-León, N. C., Mathes, E., Avendaño, B. L., Peña, J. J., & Sierra, J. C. (2018). Psychometric Study of the Interpersonal Jealousy Scale in Colombian Samples. Revista Latinoamericana de Psicología, 50(1), 21-30. http://dx.doi.org/10.14349/rlp.2018.v50.n1.3
Matell, M. S., & Jacoby, J. (1972). Is there an optimal number of alternatives for Likert-scale items? Effects of testing time and scale properties. Journal of Applied Psychology, 56(6), 506-509. https://doi.org/10.1037/h0033601
McDonald, R. P. (1999). Test theory: A unified treatment. Mahwah: Lawrence Erlbaum Associates, Inc. Disponible en https://psycnet.apa.org/record/1999-02770-000
McNeish, D. (2018). Thanks coefficient alpha, we’ll take it from here. Psychological Methods, 23(3), 412-433. https://doi.org/10.1037/met0000144
Merino-Soto, C. (2016). Diferencias entre coeficientes alfa de Cronbach, con muestras y partes pequeñas: un programa VB. Anales de Psicología, 32(2), 587-588. https://doi.org/10.6018/analesps.32.2.203841
Merino-Soto, C. (2020). Consistencia Interna del Eysenck Personality Questionnaire - Revised: Cuando Alfa de Cronbach no es suficiente. Revista Iberoamericana de Diagnóstico y Evaluación – e Avaliação Psicológica, 57(4), 191-203. https://doi.org/10.21865/RIDEP57.4.14
Oviedo, H. C., & Campo-Arias, A. (2005). Aproximación al uso del coeficiente alfa de Cronbach. Revista Colombiana de Psiquiatría, 34(4), 572-580. Disponible en https://psycnet.apa.org/record/2006-07750-007
Raykov, T., & Marcoulides, G. A. (2017). Thanks coefficient alpha, we still need you!. Educational and psychological measurement, 79(1), 200-210. https://doi.org/10.1177/0013164417725127
Revelle, W. (2020). Psych: Procedures for psychological, psychometric, and personality research. Northwestern University. R package version 2.0.9. Disponible en https://CRAN.R-project.org/package=psych.
Rosseel, Y. (2012). Lavaan: An R Package for structural equation modeling. Journal of Statistical Software, 48(2), 1-36. Disponible en http://www.jstatsoft.org/v48/i02/
Satorra, A., & Bentler, P. M. (2010). Ensuring Positiveness of the Scaled Difference Chi-square Test Statistic. Psychometrika, 75(2), 243-248. https://doi.org/10.1007/s11336-009-9135-y
Schmitt, N. (1996). Uses and abuses of coefficient alpha. Psychological Assessment, 8(4), 350-353. https://doi.org/10.1037/1040-3590.8.4.350
Schwarz, G. E. (1978). Estimating the dimension of a model. Annals of Statistics, 6(2), 461-464. https://doi.org/10.1214/aos/1176344136
Streiner D. L. (2003). Starting at the beginning: An introduction to coefficient Alpha and internal consistency. Journal of Personality Assessment, 80, 217-222. https://doi.org/10.1207/S15327752JPA8001_18
Taber, K. S. (2018). The use of Cronbach’s alpha when developing and reporting research instruments in science education. Research in Science Education, 48(6), 1273-1296. https://doi.org/10.1007/s11165-016-9602-2
Vaske, J. J., Beaman, J., & Sponarski, C. C. (2016). Rethinking internal consistency in Cronbach’s alpha. Leisure Sciences, 39(2), 163-173. https://doi.org/10.1080/01490400.2015.1127189
Ventura-León, J. L., & Caycho-Rodríguez, T. (2017). El coeficiente Omega: Un método alternativo para la estimación de la confiabilidad. Revista Latinoamericana de Ciencias Sociales, Niñez y Juventud, 15(1), 625-627. Disponible en https://www.redalyc.org/pdf/773/77349627039.pdf
Waller, N. G. (2008). Commingled samples: A neglected source of bias in reliability analysis. Applied Psychological Measurement, 32(3), 211-223. https://doi.org/10.1177/0146621607300860
Yang, Y., & Green, S. B. (2011). Coefficient alpha: A reliability coefficient for the 21st century?. Journal of Psychoeducational Assessment, 29(4), 377-392. https://doi.org/10.1177/0734282911406668
Yurdugül, H. (2008). Minimum Sample Size for Cronbach’s coefficient alpha: A Monte Carlo Study. Eğitim fakü̧ltesi dergisi, 35(35), 397-405. Disponible en https://dergipark.org.tr/en/pub/hunefd/issue/7803/102304
Zumbo, B. D., Gadermann, A. M., & Zeisser, C. (2007). Ordinal versions of coefficients alpha and theta for Likert rating scales. Journal of Modern Applied Statistical Methods, 6(1), 21-29. https://doi.org/10.22237/jmasm/1177992180