ARTÍCULOS DE INVESTIGACIÓN
Recepción: 12 Septiembre 2021
Aprobación: 12 Septiembre 2022
DOI: https://doi.org/doi.org/10.24844/EM3403.10
Resumen: El diagrama de caja fue creado por Tukey como herramienta en el análisis exploratorio de datos y se utiliza para resumir y comparar distribuciones en función de sus valores extremos, la mediana y los cuartiles. Aunque su enseñanza se incluye en diversas directrices curriculares para la educación secundaria, la investigación relacionada con su comprensión es todavía escasa. Con la finalidad de identificar los conflictos semióticos en su interpretación, se presentan los resultados de un estudio de evaluación de la comprensión de este gráfico en 148 estudiantes universitarios del grado en Ciencias de la Actividad Física y del Deporte después de estudiar el tema. Se examinan las respuestas abiertas a una tarea con cuatro preguntas relacionadas con la identificación de la mediana y valores atípicos en el gráfico y la interpretación de los cuartiles y los bigotes, y se analiza el nivel de lectura que alcanzan. Los resultados muestran facilidad en la identificación de los elementos del gráfico, pero se observan conflictos semióticos relacionados con la definición y el cálculo de la mediana, así como confusión en otros conceptos.
Palabras clave: Conflictos semióticos, diagrama de caja, distribución de datos, estudiantes universitarios, lectura de gráficos, educación estadística.
Abstract: The box plot was developed by Tukey as a tool in exploratory data analysis and is used to summarise and compare distributions in terms of their extreme values, median and quartiles. Although its teaching is included in various curricular guidelines for secondary education, research related to its understanding is still scarce. In order to identify semiotic conflicts in its interpretation, we present the results of a study to evaluate the understanding of this graph in 148 university students of Physical Activity and Sport Sciences after studying the subject. The open responses to a task with four questions related to the identification of the median and outliers in the graph and the interpretation of the quartiles and whiskers are analysed, looking at the reading level achieved. The results show ease of identification of the elements of the graph, although we observe semiotic conflicts related to the definition and computation of median and confusion of other concepts.
Keywords: Semiotic conflicts, box plot, data distribution, university students, reading graphs, statistics education.
INTRODUCCIÓN
El conocimiento estadístico cobra hoy un papel privilegiado para comprender la amplia variedad y cantidad de información disponible en los medios de comunicación y asegurar una participación activa en la sociedad, como fundamento de la democracia (Engel et al., 2021). Es por ello necesario que, a lo largo de su aprendizaje, el estudiantado adquiera conocimientos básicos de los diferentes gráficos y resúmenes estadísticos, entre otros, los estadísticos de orden (Batanero et al., 2020).
Dichos estadísticos de orden indican la posición que ocupa un cierto valor dentro de un conjunto de datos ordenados, entre ellos se encuentran el mínimo, el máximo y los cuartiles. Estos últimos tienen una importancia especial en el análisis exploratorio de datos, introducido por Tukey (1977), ya que sus valores se ven poco afectados por la posible presencia de valores atípicos. Por esta razón, el cuartil 2 o mediana es preferible a la media aritmética en ocasiones como medida de posición central. A partir de estos estadísticos se han creado diferentes gráficos, siendo el más conocido el diagrama de caja, también llamado diagrama de cajas y bigotes (Chambers, 2018), en el cual se centra este trabajo. Su construcción e interpretación es posible una vez que se conocen las ideas de variable y distribución, medidas de posición central, cuartiles y dispersión. Dicho gráfico es un instrumento potente que permite comparar visualmente los valores centrales, la dispersión y la simetría o asimetría de varios conjuntos de datos a partir de cinco resúmenes estadísticos: los valores máximo y mínimo, el primer y tercer cuartil y la mediana (Pfannkuch, 2006).
Por medio de estos cinco valores, el diagrama de caja proporciona una visión sintética de la variable y, al dividir los datos en cuatro partes de igual número de efectivos a lo largo del rango de variación de la variable, ayuda a descubrir características de los datos que no son tan evidentes en otras representaciones (Bakker et al., 2004). Permite también comparar de forma sencilla distintas par-tes de la distribución de diferentes conjuntos de datos, por ejemplo, los valores inferiores, centrales o superiores de la distribución. A la vez, el citado diagrama posibilita identificar los valores atípicos, así como visualizar la dispersión y la simetría o asimetría de los datos. Por todas estas propiedades, el diagrama de caja apoya los procesos de transnumeración (Wild y Pfannkuch, 1999), al facilitar la extracción de nueva información del gráfico que no es claramente perceptible en el conjunto de datos brutos.
Como se ha indicado, el diagrama de caja utiliza como medida de posición central fundamental la mediana, que según Mokros y Russel (1995) es más fácil de comprender para algunos estudiantes que la media aritmética, siendo además preferible a ésta última cuando hay valores muy extremos o la distribución de los datos es asimétrica. La mediana suele considerarse en la inferencia no paramétrica, que se emplea con frecuencia cuando las muestras son pequeñas y/o los conjuntos de datos son ordinales o no normales (Gibbons y Chakraborti, 2020).
Además, el diagrama de caja usa como medidas de dispersión el rango y el rango intercuartílico que son más intuitivos que la desviación típica (Bakker et al., 2004). Según Biehler (2004), permite visualizar la dispersión y la densidad de formas diferentes: a) globalmente en todo el conjunto de datos, b) dispersión y densidad sobre y bajo la mediana y, c) dispersión y densidad en diferentes partes del gráfico. De este modo propicia el trabajo con las variables cuantitativas y la comparación entre grupos, creando las condiciones para una posterior introducción de ideas informales de inferencia (Almeida et al., 2021). Por todas estas razones, Walker et al. (2018) consideran que hoy día este diagrama sigue siendo una herramienta útil y relevante para representar los datos.
En las orientaciones curriculares españolas (Real Decreto 1105/2014, de 26 de diciembre, por el que se establece el currículo básico de la Educación Secundaria Obligatoria y del Bachillerato), el estudio del diagrama de caja se introduce en el tercer curso de la Enseñanza Secundaria Obligatoria (14-15 años) con los siguientes contenidos: Parámetros de posición: media, moda, mediana y cuartiles; Cálculo, interpretación y propiedades; Diagrama de caja y bigotes. También en Costa Rica, para el grado 11 (17 años), encontramos como habilidades específicas utilizar diagramas de cajas para comparar la posición y la variabilidad de dos grupos de datos (Ministerio de Educación Pública [MEP], 2012) e igualmente se sugiere que se puede iniciar el empleo del recorrido y el recorrido intercuartílico, e incluso recurrir a la elaboración de un diagrama de caja. Del mismo modo, lo encontramos en los Common Core State Standards for Mathematics de los Estados Unidos (Council of Chief State School Officers [CCSSI], 2010), donde es recomendado en niveles de High school (grados de 9 a 12, es decir, a partir de los 15 años) para resumir y comparar conjuntos de datos cuantitativos. En Canadá, a partir del grado 9 (15 años), se recomienda el uso del diagrama de caja para representar y analizar datos (Ontario Ministry of Education, 2020).
Aunque aparentemente simple, el aprendizaje del citado diagrama no es siempre sencillo, como señalan algunos autores (e.g., Bakker et al., 2004; Biehler, 1997; Lem et al., 2013; Mayén et al., 2009). La investigación relacionada con su comprensión es escasa y, generalmente, se ha llevado a cabo en la educación secundaria, siendo necesarios estudios sistemáticos que evalúen la comprensión del estudiantado universitario una vez que han estudiado el contenido. Para completar esta carencia, el objetivo del trabajo es evaluar la lectura e interpretación de algunos elementos del diagrama de caja de los estudiantes del grado en Ciencias de la Actividad Física y del Deporte de la Universidad de Granada, después de la enseñanza de este tema. El estudio de este gráfico está incluido en los contenidos de la asignatura de estadística en este grado, debido a su utilidad en la comparación de variables asociadas a la práctica de la actividad física y el deporte (Newell et al., 2014) y su uso frecuente en la investigación en esta área de conocimiento (e.g., Castiblanco y Chaparro, 2015; de Mesa et al., 2016).
Seguidamente, se exponen los fundamentos y antecedentes del trabajo, se describe el método y los resultados, finalizando con algunas conclusiones.
MARCO TEÓRICO Y ANTECEDENTES
La investigación se basa en la idea de conflicto semiótico tomada del enfoque ontosemiótico (EOS) (Godino et al., 2007; 2019), los niveles de lectura de gráficos propuestos por Friel et al. (2001) y los antecedentes sobre comprensión del diagrama de caja.
Actividad matemática y conflictos semióticos
Godino et al. (2021) analizan diversas teorías de significado en educación matemática, entre ellas la propuesta en el EOS, donde el significado de un objeto matemático (en este trabajo el diagrama de caja), se entiende como el sistema de prácticas que realiza una persona (significado personal), o una institución (significado institucional), para resolver las situaciones-problemas relacionadas con el objeto. Se entiende por institución a un conjunto de personas que se interesan por resolver una misma clase de situaciones-problemas y que aplican para ello herramientas compartidas. En este marco teórico se asume la siguiente clasificación de objetos primarios que intervienen en la actividad matemática:
Campos de problemas: situaciones cuya solución requiere prácticas matemáticas de donde surge el objeto y pueden ser propias de la misma matemática o extra-matemática. Un ejemplo en el caso del diagrama de caja sería resumir la distribución de un conjunto de datos mediante cinco puntos.
Procedimientos: se emplean para resolver las situaciones. Por ejemplo, para construir un diagrama de caja es necesario determinar los valores del mínimo, máximo, primer y tercer cuartil y la mediana.
Lenguaje: dado que los objetos matemáticos son inmateriales, se necesitan representaciones de estos para operar con ellos; en el trabajo con el diagrama de caja, además del mismo gráfico usamos los términos mínimo, máximo, mediana y cuartil, así como símbolos para referirnos a ellos, entre otros.
Definiciones de conceptos: como por ejemplo los de mínimo, máximo, mediana, cuartiles, extremos y valor atípico.
Proposiciones: relaciones y propiedades, por ejemplo, el diagrama de caja permite identificar características de localización, dispersión y forma de la distribución de un conjunto de datos.
Argumentos: son requeridos para justificar las soluciones de los problemas o comunicarlas a otras personas.
Los objetos descritos se relacionan en la actividad matemática formando correspondencias, que Godino et al. (2007) denominan funciones semióticas y tienen tres componentes: la expresión (por ejemplo, “diagrama de caja”), su contenido (la representación de un diagrama de caja) y el criterio o regla de correspondencia entre la expresión y el contenido (las reglas de construcción del diagrama). Los autores definen como conflicto semiótico cualquier discor-dancia entre los significados atribuidos a una expresión por dos sujetos (personas o instituciones), en este caso entre el significado atribuido por el estudiante y el significado dentro de la matemática. Si la disparidad se produce entre significados institucionales se habla de conflictos semióticos de tipo epistémico, mientras que si se produce entre el significado personal de un sujeto y el de la institución serían conflictos semióticos cognitivos. Además, los conflictos semióticos epistémicos y cognitivos se pueden clasificar en conceptuales (confusión entre conceptos o propiedades), notacionales (uso o interpretación del lenguaje matemático) y procedimentales (si afectan a los procedimientos). Resaltamos el hecho de que los conflictos semióticos respecto a un objeto matemático, por ejemplo, la mediana, no dependen de la tarea propuesta, sino de su comprensión por parte del estudiante. Así pues, el estudiante puede presentar el mismo conflicto al interpretar la mediana en un diagrama de caja o al calcular la mediana a partir de un conjunto de datos. Utilizaremos en este trabajo la idea de conflicto semiótico en el estudio del objeto matemático diagrama de caja y de otros objetos que el estudiante pueda relacionar con este gráfico y en el análisis y explicación de las respuestas incorrectas de los estudiantes.
NIVELES DE LECTURA DE GRÁFICOS ESTADÍSTICOS
En la lectura o interpretación de un gráfico pueden plantearse preguntas de diferente nivel de dificultad, lo que ha llevado a algunos autores a definir distintos niveles jerárquicos en la lectura de un gráfico. En este trabajo utilizaremos los tres siguientes niveles de lectura propuestos por Friel et al. (2001) para el análisis de las respuestas de los estudiantes:
L1. Leer los datos: se requiere únicamente la lectura literal de un elemento explícitamente representado en el gráfico, lo cual supone que el estudian-te comprenda los criterios de representación del gráfico. Un ejemplo en el caso del diagrama de caja sería leer el valor de la mediana.
L2. Leer entre los datos: se precisa comparar o realizar cálculos con conjuntos de datos del gráfico, para lo cual, una vez realizada la lectura de primer nivel es necesario organizar u operar de algún modo con la información obtenida. Determinar el rango intercuartílico en el diagrama de caja requiere este nivel, pues precisa identificar los dos cuartiles y hallar su diferencia.
L3. Leer más allá de los datos: consiste en inferir una información no representada explícitamente en el gráfico, lo que requiere un conocimiento más profundo del gráfico, para poder realizar inferencias a partir del mismo o extrapolar valores. Por ejemplo, identificar el tipo de asimetría de la distribución a partir de las características del diagrama de caja
COMPRENSIÓN DEL DIAGRAMA DE CAJA
Se pueden encontrar investigaciones que analizan la construcción y la interpretación del diagrama de caja por estudiantes que conocen previamente el significado y cálculo de las medidas de posición y dispersión y están aprendiendo a construir o interpretar el diagrama de caja. Bakker et al. (2004) indican que la construcción del gráfico es sencilla cuando se conocen los extremos, mediana y cuartiles. Sin embargo, en una investigación realizada con 259 estudiantes de secundaria, los autores indican que solo 30% construyeron correctamente un diagrama de caja cuando no conocían esos datos. Los que construyeron correctamente el gráfico no tuvieron dificultad en leer cualquiera de los cinco valores que determinan el gráfico, es decir, en realizar una lectura del gráfico de nivel L1 en la terminología de Friel et al. (2001). Sin embargo, solo la mitad de los que realizaron un gráfico correcto identificaron acertadamente que 50% de los datos estaban por encima de la mediana; esta cifra se redujo a 10% para indicar correctamente que 75% de los datos están por encima del primer cuartil.
Las dificultades en la interpretación del gráfico son debidas a varias razones. Bakker et al. (2004) recuerdan que los cuartiles dividen los datos en cuatro grupos con el mismo número de elementos en cada uno, e indican que este hecho es difícil de comprender para la mayoría del estudiantado. El gráfico no representa los valores individuales de los datos ni tampoco sus frecuencias, como ocurre en el gráfico de barras o de líneas, sino densidades, donde la densidad es inversamente proporcional a la amplitud de cada parte del gráfico (Biehler, 1997).
Otra confusión frecuente al interpretar un diagrama de caja es pensar que la línea que divide en dos partes a la caja representa a la media aritmética, que en ocasiones se representa con un punto y no a la mediana (Lem et al., 2013). Estos autores también describen casos de estudiantes que piensan que la amplitud de los intervalos entre los puntos que separan el gráfico es proporcional a la frecuencia de valores comprendidos entre ellos, en lugar de aceptar que cada uno de estos intervalos contiene 25% de los datos. Además, en ocasiones centran su atención en el área de la caja, sin enfocarse en los bigotes, creyendo que no hay datos en la parte representada por ellos.
A su vez, Biehler (1997) señala la dificultad de pasar de concebir cada dato aisladamente a considerar la distribución como un todo e informa que, al interpretar el diagrama de caja, algunos estudiantes tratan de pensar en la situación de valores aislados dentro del gráfico. Advierte también que la comprensión del gráfico implica entender que la mediana es una medida de posición central, y tanto la longitud de la caja como la de los bigotes son medidas de dispersión. Sin embargo, no siempre se visualiza la mediana como una propiedad de toda la distribución, sino del individuo situado en el centro de esta. Asimismo, el autor indica que la dificultad de interpretación del gráfico se debe a su inherente multiplicidad, al permitir diferentes tipos de comparaciones cuando se consideran varios conjuntos de datos: entre medianas, cuartiles, máximos y mínimos, rangos intercuartílicos, etcétera.
Algunos estudiantes encuentran difícil incluso comparar solo un atributo (como la dispersión); más todavía poder realizar la serie de comparaciones exigidas por el diagrama de caja. En este sentido, Pfannkuch (2007) observa que el estudiantado razona y compara los cinco puntos que definen el gráfico y los utilizan para crear un diagrama de caja, aunque su atención con frecuencia se limita a estos puntos y no a la distribución completa. Watson (2012) informa que en educación secundaria se tienen dificultades con el razonamiento proporcional, lo que dificulta la comprensión del porcentaje de datos comprendido en cada parte del diagrama de caja. Finalmente, Carvalho et al. (2019) analizan la interpretación del diagrama de caja por parte de 93 estudiantes de secundaria con edades comprendidas entre 13 y 15 años. Aunque la construcción del gráfico fue sencilla, los autores obtuvieron un porcentaje elevado de no respuestas (34.3%) a preguntas relacionadas con la dispersión y la asimetría de la distribución y solo una proporción muy pequeña de estudiantes interpretaron correctamente las dos propiedades a partir del gráfico.
Las investigaciones citadas han sido realizadas con alumnado de secundaria o bachillerato y, en ocasiones, había pasado tiempo desde que estudiaron la materia. En este trabajo se realiza una evaluación de la interpretación de diversos elementos del gráfico por parte de estudiantes universitarios justo al finalizar la enseñanza del tema. Además, se indican los niveles de lectura de gráficos necesarios para resolver las cuestiones que se plantean en cada uno de los apartados de la tarea propuesta y se trata de interpretar las dificultades descritas en investigaciones previas en términos de conflictos semióticos.
METODOLOGÍA
La muestra estuvo compuesta por 148 estudiantes de la asignatura de Estadística, en el 2º curso del Grado en Ciencias de la Actividad Física y del Deporte de la Universidad de Granada (entre 19 y 21 años). Aunque su formación en estadística es muy diversa, ya que acceden al grado por diferentes estudios, la toma de datos para este trabajo fue realizada después de haberse tratado el tema en la citada asignatura. Concretamente, se estudiaron las definiciones de mediana, cuartiles, percentiles y diferentes medidas de dispersión, se enseñó su cálculo a partir de datos aislados, la tabla de frecuencias o una representación gráfica, se mostraron sus propiedades y se explicó la construcción e interpretación del diagrama de caja, empleando para ello, tanto lecciones magistrales como la resolución de ejercicios de aplicación. La tarea que se analiza en este trabajo (figura 1), fue planteada en una sesión de clase, donde se informó a los sujetos que la finalidad principal de la misma era mejorar la enseñanza del tema y los estudiantes tuvieron el tiempo necesario para completarla individualmente y por escrito. La actividad fue preparada para esta investigación con objeto de evaluar la forma en que los estudiantes leen e interpretan el diagrama de caja, así como para detectar posibles conflictos semióticos.
En la tarea se presenta un diagrama de caja de la variable número de partidos empatados por equipo en una temporada por una serie de equipos; así pues, si dos equipos juegan juntos y empatan, se cuenta este empate para cada uno de estos dos equipos.
El gráfico presentado en la figura 1 se dio construido a los estudiantes y fue elaborado por los autores del trabajo de la siguiente forma, la cual fue explicada a los estudiantes durante la enseñanza del tema:
Se dibuja un rectángulo cuyo extremo inferior es el primer cuartil C1 y el extremo superior el tercer cuartil C3 (1 y 3 respectivamente en la tarea). Por tanto, por debajo del primer extremo de la caja se sitúan 25% de los datos, englobándose dentro de la caja 50% de los valores centrales y por encima de la caja 25% de los datos restantes.
Con una línea vertical se señala la mediana, la cual estará obligatoriamente en la caja, en la tarea Me=2.
La diferencia RI=C3 − C1 es el recorrido intercuartílico que es una medida de dispersión asociada a la mediana. En el ejemplo RI=3−1=2.
El límite del bigote situado a la izquierda del primer cuartil se determina mediante la fórmula Li =C1 − 1.5 × RI. Si el valor resultante es mayor que el mínimo de la distribución, el bigote llegaría hasta Li, que es límite aceptado para que un valor de la variable se considere normal. Los valores menores que Li se representarían aisladamente en el gráfico, por ejemplo, con un asterisco. Si el valor Li es menor que el mínimo, el bigote inferior solo se extiende hasta el mínimo de la distribución, que es lo que ocurre en el ejemplo.
El límite del bigote situado a la derecha del tercer cuartil se determina mediante la fórmula Ls =C3 + 1.5 × RI. Si el valor resultante es menor que el máximo de la distribución, el bigote llegaría hasta Ls, que es límite aceptado para que un valor de la variable se considere normal. Los valores mayores que Ls se representarían aisladamente en el gráfico, por ejemplo, con un asterisco. Esto es lo que ocurre en la tarea dada, donde hay un valor atípico, que es también el máximo de la distribución y corresponde a 7 partidos. Si el valor Ls es mayor que el máximo, el bigote superior solo se extiende hasta el máximo.
Para resolver la tarea, los estudiantes han de recordar el significado de cada uno de los elementos del gráfico antes descritos y que estudiaron las semanas inmediatamente anteriores a la evaluación, pues construyeron a mano varios de estos diagramas, tanto para variables discretas, como continuas.
La interpretación, por parte de los estudiantes, del diagrama de caja de la tarea se motivó por el planteamiento de cuatro apartados (figura 1, incisos a, b, c y d). Con el primer apartado, se analiza la identificación de la mediana dentro del gráfico, la cual se representa mediante una línea vertical dentro de la caja, por lo que se espera que los estudiantes respondan que la mediana es 2. Se trata de una actividad de nivel de lectura L1 en la clasificación de Friel et al. (2001), pues solo es necesario leer un elemento del gráfico.
En el segundo apartado se pretende, en primer lugar, que los estudiantes identifiquen los cuartiles como valores que limitan la caja en el gráfico, lo que requiere también un nivel de lectura L1 (Friel et al., 2001), puesto que solo se necesita recordar el convenio de construcción del gráfico. Además, se espera que realicen una interpretación de los cuartiles, como valores que delimitan el 50% central de los datos (partidos empatados por equipo). En resumen, se espera que respondan a la pregunta indicando que los valores 1 y 3 son los cuartiles de la distribución y, en consecuencia, 50% de valores de la variable está comprendido entre 1 y 3. Ello requiere conocer la definición de los cuartiles y calcular la diferencia entre el porcentaje de valores que deja debajo el tercer cuartil C3 (75%) y el primero C1 (25%), por lo que el nivel de lectura requerido es L2, ya que se realizan operaciones con los datos. Como además los valores 75% y 25% no están representados en el gráfico, sino que deben ser deducidos por el estudiante al recordar la definición de cuartil, el nivel de lectura que se precisa realmente es L3, inferir información no directamente representada en el gráfico (Friel et al., 2001).
El tercer apartado evalúa la determinación de la dispersión relativa de cada parte de la distribución a partir del gráfico. Que el bigote izquierdo tenga menor longitud que el derecho significa que los valores de la variable situados desde el mínimo hasta el primer cuartil son más homogéneos que los situados por encima del tercer cuartil. Es decir, hay menos variabilidad en el número de partidos empatados por 25% de los equipos que menos veces han empatado que en 25% de los equipos que han empatado mayor número de veces. Teniendo en cuenta que la mediana se sitúa en el centro de la caja, la distribución del número de partidos empatados por los equipos es asimétrica a la derecha. La pregunta requiere no solo una lectura de los datos o una comparación o cálculo con ellos, sino también inferir información no representada directamente en el gráfico, por lo que es necesario un nivel de lectura L3 en la clasificación de Friel et al. (2001).
El último apartado valora la detección de valores atípicos en el gráfico, por lo que los estudiantes deberían identificar el valor 7 como un número de partidos empatado atípico. Esto solo supone recordar el convenio de representación de valores atípicos, es decir un nivel de lectura L1 (Friel et al., 2001).
RESULTADOS Y DISCUSIÓN
Una vez recogidas las respuestas escritas de los estudiantes a la tarea plantea-da en la figura 1, se llevó a cabo un análisis de su contenido (Krippendorff, 2013), el cual consistió en clasificar las respuestas mediante un proceso inductivo y cualitativo y discutiendo varias veces entre los autores la codificación hasta llegar a un consenso. El proceso permitió crear una serie de categorías de análisis para cada uno de los apartados junto a las frecuencias relativas a cada una de ellas. Dichas categorías tienen en cuenta las respuestas correctas, parcialmente correctas e incorrectas y sus tipos.
Igualmente, mediante un proceso cíclico de análisis y discusión, se llegó a la identificación y clasificación de los conflictos semióticos en las respuestas de los estudiantes. En la descripción de los diferentes conflictos semióticos se utilizaron las notaciones C1, C2, … cuando se trate de conflictos conceptuales o P1, P2, ..., si son procedimentales, mientras que las transcripciones de las respuestas de los estudiantes fueron denotadas como E1, E2, etcétera.
Apartado A: Identificación de la mediana en el diagrama de caja
Las respuestas de los estudiantes a la pregunta sobre el valor de la mediana se han clasificado de la siguiente forma:
E1: La mediana está situada entre el 3 y el 4.
E2:
Este apartado, en que solo se requiere un nivel de lectura del gráfico L1, la mayoría de los estudiantes dio la solución correcta (tabla 1), siendo el porcentaje de respuestas incorrectas similar al de estudiantes que no dieron respuesta. Este resultado coincide con los de Carvalho et al. (2019) y Edwards et al. (2017). Las respuestas incorrectas se deben a conflictos conceptuales relacionados con una de las definiciones de la mediana o procedimentales en su cálculo.
En este apartado se pregunta por la identificación de los extremos de la caja, que serían los valores correspondientes al primer y tercer cuartil de la distribución de datos, y la interpretación de su significado. Las respuestas obtenidas se han clasificado de la siguiente forma:
Apartado B: Significado de los valores que delimitan la caja del diagrama
E3: C1=1; C3= 3; 50% de los equipos han empatado entre 1 y 3 partidos.
E4: Que 50% de los equipos ha empatado entre 1 y 3 veces.
E5: Que el cuartil 1 es 1 partido y el cuartil 3 son 3 partidos.
E6: Que la mediana correspondiente al número de partidos empatados se encuentra entre estos 2 valores.
E7: Que el mínimo número de partidos que empató el equipo fue 1 y el máximo 3.
E8: Que la mayoría de los datos se encuentra en ese rango.
E9: Quiere decir que los datos, en ese intervalo están muy agrupados o son muy homogéneos.
En la tabla 2 se presentan los resultados del segundo apartado. Aunque el porcentaje de respuestas correctas y parcialmente correctas es alto (46%) es muy inferior al de las respuestas correctas de la pregunta anterior. Un importante porcentaje de estudiantes (18.2%) no responde la pregunta, lo cual atribuimos al mayor nivel de lectura requerido en la misma (L3). También son frecuentes los errores de interpretación del recorrido intercuartílico como rango de todos o la mayoría de los datos. El porcentaje de no respuestas, aunque alto, es mucho menor que el obtenido por Carvalho et al. (2019).
Apartado c: Interpretación de la longitud de los bigotes de un diagrama de caja
En la pregunta sobre el significado de la diferente longitud de los bigotes del gráfico se requiere no solo una lectura de los datos o una comparación o cálculo con ellos, sino también inferir información no representada directamente en el gráfico, por lo que es necesario un nivel de lectura L3. Se han obtenido los siguientes tipos de respuesta:
E10: Que hay más variabilidad en el 25% de los equipos con más partidos empatados, que en el 25% de los equipos con menos partidos empatados.
E11: Que la distribución es asimétrica, con desviación a la derecha.
E12: Que el valor mínimo está más cercano al C1=1 que el valor máximo con respecto al C3=3.
E13: Que el Li está más cercano del Q1 que el Q3 del Ls
E14: El valor más pequeño se encuentra más cerca el límite inferior que el valor más grande respecto al límite superior.
E15: Que por el lado izquierdo hay más valores dentro de la amplitud.
E16: Que el Li es menor que el Ls.
E17: Que el bigote izquierdo tiene el mínimo en 0 y el bigote derecho un máximo en 6.
Como puede verse en la tabla 3, 19.6% de los estudiantes han interpretado correctamente la longitud de los bigotes y han hecho referencia a la dispersión, a la asimetría o las distancias entre los cuartiles y el máximo y el mínimo de la distribución en proporciones similares. Este porcentaje es algo mayor que el obtenido por Carvalho et al. (2019), aunque los autores piden interpretar simultáneamente la dispersión y simetría. En nuestro trabajo, la pregunta fue abierta y se aceptaron como correctas cualquiera de las dos interpretaciones, así como la de la distancia entre cuartiles y extremos. Sí fue similar el porcentaje de no respuesta en este apartado al de Carvalho et al. (2019). Explicamos la mayor dificultad del apartado por la necesidad de un nivel de lectura L3.
Apartado d: Identificación de valores atípicos a partir de un diagrama de caja
Finalmente se pide a los estudiantes identificar un valor atípico en el diagrama de caja, tarea que solo requiere conocer los convenios de construcción y un nivel de lectura L1. Las respuestas se clasificaron de la siguiente forma:
E18: No, porque ningún bigote sobrepasa ninguna línea.
El porcentaje de respuestas correctas a esta pregunta es alto, véase tabla 4, por lo que podemos pensar que ha sido una pregunta muy fácil de resolver ya que la actividad requiere un bajo nivel de lectura L1 y que los estudiantes saben identificar los datos atípicos a partir de un gráfico de caja.
DISCUSIÓN Y CONCLUSIONES
Nuestro trabajo confirma los resultados de estudios anteriores (Bakker et al., 2004; Carvalho et al., 2019; Edwards et al., 2017), realizados con estudiantes de educación secundaria y bachillerato, en el sentido de que resulta sencillo para los estudiantes, en nuestro caso universitarios, leer de forma literal elementos del diagrama de caja, como la mediana o los valores atípicos; lectura que solo requiere de un nivel L1.
También se confirma la mayor dificultad en su interpretación (posición de la mediana, significado de los valores que delimitan la caja y de la longitud de los bigotes, identificación de un valor atípico), obteniéndose una frecuencia de respuestas correctas mucho menor en la interpretación de los extremos del gráfico y de la longitud de los bigotes; interpretación que demanda un nivel de lectura L3.
El análisis de las respuestas a estas actividades ha llevado a identificar los siguientes conflictos semióticos, por parte de los estudiantes:
C1. Confundir los valores posibles de la variable con los valores del conjunto de datos representados en la escala del gráfico; este conflicto fue reportado por Ruiz (2013). Podría deberse a haber trabajado con una variable discreta, por lo que consideramos necesario completar esta investigación utilizando gráficos de variables continuas.
C2. Considerar en el cálculo de la mediana que la frecuencia de cada valor es unitaria. Tanto Barros et al. (2009), como Mayén et al. (2009) encuentran estudiantes que no consideran las frecuencias en el cálculo de la mediana.
C3. Considerar la mediana como el número de orden del valor central de los datos. Es decir, se confunde el valor de la variable y la posición que ocupa dicho valor en el conjunto de datos ordenados. Este conflicto ha sido identificado por primera vez en este trabajo.
C4. Confundir rango y rango intercuartílico; no hemos encontrado este conflicto descrito en los antecedentes.
C5. Pensar que el ancho de la caja y las dos partes en que se divide represen-tan frecuencias, en lugar de densidades. Fue descrito por Biehler (1997) y Lem et al. (2013).
P1. No tener en cuenta los valores atípicos para el cálculo de la mediana, que fue informado por Cobo (2003).
P2. No resolver el caso de indeterminación en el cálculo de la mediana dando dos valores o un intervalo de valores como mediana. Descrito en Mayén et al. (2009).
P3. No conocer o confundir la regla para determinar los límites que permiten identificar la presencia de valores atípicos. Conflicto no identificado anteriormente.
Aunque algunos de los conflictos ya habían sido señalados anteriormente, el trabajo ha permitido identificar nuevos conflictos conceptuales y procedimentales que deben ser tomados en cuenta por los profesores al planificar la enseñanza del tema y que constituyen una aportación original del trabajo.
Estos resultados sugieren la necesidad de reforzar la competencia de lectura de gráficos de nivel superior en los estudiantes universitarios y, en particular, su capacidad de interpretación del diagrama de caja, que es un instrumento importante de transnumeración (Pfannkuch, 2006), puesto que de él pueden obtenerse diferentes tipos de relaciones ocultas en el conjunto de datos, como la asimetría, la densidad y la dispersión en diferentes partes del conjunto de datos, además de la detección de valores atípicos. Para atender esta necesidad, sería importante aumentar el número de actividades en que los estudiantes deben construir diagramas de caja con variables discretas y continuas y también proponerles la interpretación de los elementos del diagrama de caja, una vez construido.
Tradicionalmente la enseñanza de los gráficos estadísticos pone el énfasis en su construcción o en la lectura literal de los mismos, mostrando el gráfico como una ilustración de los datos. Sería importante un cambio de la enseñanza para utilizarlos como instrumento de razonamiento y descubrimiento de patrones, que permitan obtener conclusiones a partir de dichos gráficos. Igualmente es importante reforzar la lectura de gráficos en niveles superiores en la clasificación de Friel et al. (2001), incluyendo la lectura crítica, para decidir, por ejemplo, si existe una representación más adecuada de los datos.
Son limitaciones del trabajo haber utilizado solo un gráfico de caja para plantear las diferentes preguntas y centrarse en un tipo particular de estudiantes. Es importante por ello ampliar la investigación, utilizando otras tareas diferentes, por ejemplo, con variables estadísticas continuas para analizar la posible influencia de la utilizada en este trabajo en alguno de los conflictos semióticos descritos. Igualmente se debiera ampliar el estudio a estudiantes universitarios de otras especialidades y estudiantes de bachillerato.
AGRADECIMIENTOS:
Proyecto PID2019-105601GB-I00/AEI/10.13039/501100011033 y Grupo FQM126 (Junta de Andalucía).
REFERENCIAS
Almeida, C. R., de Sousa, H. D. J., y Cazorla, I. M. (2021). Letramento estatístico na Educação Básica: os desafios de ensinar o diagrama da caixa (box-plot) em contexto. Educação Matemática Pesquisa, 23(1), 499-529. http://dx.doi.org/10.23925/1983-3156.2021v23i1p499-529
Batanero, C., Valenzuela-Ruiz, S. M., y Gea, M. M. (2020). Significados institucionales y personales de los estadísticos de orden. Matemática, Educación y Sociedad, 3(2), 21-39. https://www.uco.es/ucopress/ojs/index.php/mes/article/view/12912
Bakker, A., Biehler, R., y Konold, C. (2004). Should young students learn about box plots? En G. Burrill y M. Camden (Eds.), Curricular Development in Statistics Education (pp. 163-173). International Statistical Institute. https://www.stat.auckland.ac.nz/~iase/publications/rt04/4.2_Bakker_etal.pdf
Barros, P., Martins, C., y Pires, M. V. (2009, septiembre 3). Moda, média e mediana: perspectivas dos alunos vs trabalho dos profesores [Presentación de Comunicación]. Prof-Mat2009, Viana do Castelo, Portugal. https://core.ac.uk/download/pdf/153403507.pdf
Biehler, R. (1997). Students’ difficulties in practising computer supported data análisis Some hypothetical generalizations from results of two exploratory studies. En J. Garfield y G. Burrill (Eds.). Research on the role of technology in teaching and learning statistics (pp. 169-190). International Statistical Institute .
Biehler, R. (2004, julio 4-11). Variation, co-variation, and statistical group comparison: Some results from epistemological and empirical research on technology supported statistics education [Presentación de comunicación]. 10th International Congress on Mathematics Education, Copenhaghe, Dinamarca.
Carvalho, M. J., Fernandes, J. A., y Freitas, A. (2019). Construção e interpretação de diagramas de extremos e quartis por alunos portugueses do 9.° ano de escolaridade. Bolema: Boletim de Educação Matemática, 33(65), 1508-1532. http://dx.doi.org/10.1590/1980-4415v33n65a25
Castiblanco, D. A., y Chaparro, R. E. (2015). Efectos del estrés competitivo sobre la concentración de los jugadores de tenis de la categoría 12-14. Revista Digital: Actividad Física y Deporte, 1(2), 107-122.
Council of Chief State School Officers. (2010). Common Core State Standards for Mathematics. National Governors Association for Best Practices and the Council of Chief State School Officers.
Chambers, J. M. (2018). Graphical methods for data analysis, 2º ed. Taylor and Francis.
Cobo, B. (2003). Significado de las medidas de posición central para los estudiantes de secundaria [Tesis doctoral, Universidad de Granada]. https://www.ugr.es/~batanero/pages/ARTICULOS/tesiscobo.pdf
Edwards, T. G., Özgün-Koca, A., y Barr, J. (2017). Interpretations of boxplots: Helping middle school students to think outside the box. Journal of Statistics Education, 25(1), 21-28. https://doi.org/10.1080/10691898.2017.1288556
Engel, J., Ridgway, J., y Weber-Stein, F. (2021). Educación estadística, democracia y empoderamiento de los ciudadanos. Paradigma, 41(1), 1-31. http://doi.org/10.37618/PARA-DIGMA.1011-2251.2021.p01-31.id1016
Friel, S. N., Curcio, F. R., y Bright, G. W. (2001). Making sense of graphs: Critical factors influencing comprehension and instructional implications. Journal for Research in Mathematics Education, 32(2), 124-158. https://doi.org/10.2307/749671
Gibbons, J. D., y Chakraborti, S. (2020). Nonparametric statistical inference. CRC Press.
Godino, J. D., Batanero, C. y Font, V. (2007). The onto-semiotic approach to research in mathematics education. ZDM Mathematics Education, 39(1-2), 127-135. https://doi.org/10.1007/s11858-006-0004-1
Godino, J. D., Batanero, C., y Font, V. (2019). The onto-semiotic approach: Implications for the prescriptive character of didactics. For the Learning of Mathematics, 39(1), 38-43. https://www.jstor.org/stable/26742011
Godino, J. D., Burgos, M., y Gea, M. M. (2021). Analysing theories of meaning in mathematics education from the onto-semiotic approach. International Journal of Mathe-matical Education in Science and Technology, 51, 1-28. https://doi.org/10.1080/0020 739X.2021.1896042
Lem, S., Onghena, P., Verschaffel, L., y Van Dooren, W. (2013). The heuristic interpretation of box plots. Learning and Instruction, 26(4), 22-35. https://doi.org/10.1016/j.learnins-truc.2013.01.001
Krippendorff, K. (2013). Content analysis: an introduction to its methodology. Sage.
Mayén, S., Díaz, C. y Batanero, C. (2009). Conflictos semióticos de estudiantes con el concepto de mediana. Statistics Education Research Journal, 8(2), 74-93. https://doi.org/10.52041/serj.v8i2.396
Ministerio de Educación, Cultura y Deporte. (2015). Real Decreto 1105/2014, de 26 de diciembre, por el que se establece el currículo básico de la Educación Secundaria Obligatoria y del Bachillerato. Boletín Oficial del Estado, (3), 169-546. https://boe.es/buscar/act.php?id=BOE-A-2015-37
de Mesa, C. G., Tuero, C. C., Zagalaz, J. C. y Sánchez, M. L. (2016). Relación entre variables demográficas, la práctica de ejercicio físico y la percepción de la imagen corporal en estudiante. Retos, 29, 90-94. https://doi.org/10.47197/retos.v0i29.39663
Ministerio de Educación Pública. (2012). Programas de Estudio de Matemáticas. I, II Y III Ciclos de la Educación General Básica y Ciclo Diversificado. https://www.yumpu.com/es/document/view/14469552/programas-de-estudio-de-matematicas
Mokros, J. y Russell, S. J. (1995). Children’s concepts of average and representativeness. Journal for Research in Mathematics Education, 26(1), 20-39. https://doi.org/10.5951/ jresematheduc.26.1.0020
Newell, J., Aitchison, T. y Grant, S. (2014). Statistics for sports and exercise science: a practical approach. Routledge.
Ontario Ministry of Education. (2020). The Ontario curriculum, Grade 9: Mathematics 2020. https://doi.org/10.52041/serj.v5i2.498
Pfannkuch, M. (2006). Comparing box plot distributions: A teacher’s reasoning. Statistics Education Research Journal, 5(2), 27-45. https://doi.org/10.52041/serj.v5i2.498
Pfannkuch, M. (2007). Year 11 Students’ informal inferential reasoning: A case study about the interpretation of box plots. International Electronic Journal of Mathematics Education, 2(3), 149-167. https://doi.org/10.29333/iejme/181
Ruiz, B. (2013). Análisis epistemológico de la variable aleatoria y comprensión de objetos matemáticos relacionados por estudiantes universitarios. [Tesis de doctorado, Universidad de Granada]. Repositorio digital de la Universidad de Granada, https://digibug.ugr.es/bitstream/handle/10481/31706/22710413.pdf?sequence=1
Tukey, J. W. (1977). Exploratory data analysis. Addison-Wesley.
Walker, M. L., Dovoedo, Y. H., Chakraborti, S. y Hilton, C. (2018). An improved boxplot for univariate data. The American Statistician, 72(4), 348-353. https://doi.org/10.1080/00 031305.2018.1448891
Watson, J. M. (2012). Box plots in the Australian Curriculum. Australian Mathematics Teacher, 68(3), 3-11.
Wild, C. J., y Pfannkuch, M. (1999). Statistical thinking in empirical enquiry. International Statistical Review, 67(3), 223-265. https://doi.org/10.1111/j.1751-5823.1999.tb00442.x
Notas de autor