Graficación Estadística y Visualización de Datos.
Statistical Graphing and Data Visualization.
Graficación Estadística y Visualización de Datos.
Ingeniería, vol. 21, núm. 3, pp. 54-75, 2017
Universidad Autónoma de Yucatán

Recepción: 23 Octubre 2017
Aprobación: 31 Diciembre 2017
Resumen: El gráfico cualitativo se diferencia del cuantitativo porque va de mayor a menor analiticidad. Cuando observamos una circunferencia, vemos una figura geométrica que tiene circularidad, pero cuando calculamos su radio, diámetro, centro, cuerdas, etc., la estamos viendo en geometría analítica, con máxima analiticidad. Esa libertad le otorga, al gráfico cualitativo, mayor poder heurístico y posibilidades de establecer analogías interpretativas que al cuantitativo, más cerrado por objetivo. En este artículo definimos estos elementos del gráfico estadístico cualitativo desde la perspectiva de la visualización de datos, establecemos criterios para su clasificación y contrastamos estas definiciones con las figuras geométricas de la hoja de cálculo más extendida hallando en ella debilidades y falta de teorización.
Palabras clave: Graficación, visualización de datos, Excel, gráficos estadísticos.
Abstract: The qualitative graph differs from the quantitative one because it goes from more to less analytical. When we observe a circumference, we see a geometric figure that has circularity, but when we calculate its radius, diameter, center, strings, etc., we are seeing it in analytical geometry, with maximum analyticity. This freedom gives the qualitative graph greater heuristic power and possibilities of establishing interpretative analogies than quantitative one, more closed by objective. In this article we define these elements of the qualitative statistical graph from the perspective of data visualization, we establish criteria for their classification and we contrast these definitions with the geometric figures of the most extended spreadsheet, finding weaknesses and lack of theorization.
Keywords: Graphing, data visualization, Excel, statistical graphs.
Introducción
Este tema de Visualización de Datos (VD) nació con la propia matemática, por lo que, para estos no es novedosa. “En matemáticas hay dos tipos principales de razonamiento: el simbólico y el visual. El razonamiento simbólico tuvo su origen en la notación numeral, y pronto veremos cómo llevó a la invención del álgebra […]. Además de símbolos, los matemáticos usan diagramas, lo que abre varios tipos de razonamiento visual” (Stewart, 2008, pág. 22). Las imágenes son más difíciles por tener menos analiticidad que el razonamiento numérico, pero nos lleva a las figuras. Estas se remontan a la antigua babilonia (1.900 a. C) donde fue hallada una tablilla de arcilla (catalogada como YBC 7289) mostrando un cuadrado y dos diagonales; dice este autor que las medidas que aparecen anotadas en la figura son bastante buenas respecto del teorema de Pitágoras. En el siglo XVII Descartes (1596- 1650) une la geometría con la aritmética creando la geometría analítica y propone las coordenadas rectangulares como sistema de referencia para la graficación de las relaciones binarias. De esta manera las formas siempre nos han acompañado.
Más tarde cuando la Estadística inicia sus pasos, William Playfair (1759-1823) inventa los gráficos de barras, lineales y de sectores (INEI, 2009, pág. 11), distintos a aquellos cartesianos que intentaban solo mostrar, de una mejor manera, los valores, pues había que difundirlos. De tal forma que unos gráficos estudian a las formas geométricas y otros gráficos son usados para representar valores externos a ellas. La Estadística se desarrolla creando gráficos por la necesidad que descubre Playfair (1759-1823); en general la graficación evoluciona en el siglo XIX de la mano de C. J. Minard (1781-1870) y Florence Nitingale (1820-1910), entre otros. Pero fue a partir de 1944 con el advenimiento del primer computador cuando los gráficos adquieren otra dimensión; en 1967 Jacques Bertin (1918-2010) en Francia publica su libro Semiologie Graphique mostrando la vinculación entre los datos y su correspondiente funcionalidad visual (INEI, 2009, pág. 11). De esta manera se estaba gestando una nueva tendencia que profundizaría lo que inició Playfair (1759-1823) aunado a una semiología de las formas potenciada por la informática. Esta influencia de la informática rebasa las técnicas que se venían usando hasta el momento, contextualizada ahora, con el impacto mundial de la nueva word wide web (www) en los años noventa del siglo pasado y con el desarrollo de nuevas tecnologías de comunicación e información que se venían gestando. Ya “En la década de los sesentas John Tukey [1915-2000], un estadístico de Princeton, inventó la investigación en gráficos estadísticos. Sus trabajos canónicos sirvieron para demostrar que la visualización de datos era una labor intelectualmente respetable” (Llaneras, 2017); luego se une Edward Tufte (1942- ), quien posteriormente, en 1983, publica su ya famoso libro Visual Display of Quantitative Information. La influencia de Tukey en la estadística es muy importante pues inicia la corriente de Estadística Exploratoria, con su libro Análisis Exploratorio de Datos en 1977 que, aunque un tanto incomprendida, cobra vida como tendencia necesaria en la descripción de los datos. La nueva tendencia creada, la Visualización de Datos (VD) y su poderoso despegue ha hecho que la estadística exploratoria se le incorpore y que alcance a los gráficos estadísticos, desde aquellos que son ya históricos y corrientes hasta el desarrollo de nuevos tipos ligados a los análisis más sofisticados. Esto es, la VD, desde la tecnología, ha reclamado terrenos que eran nicho tradicional de la estadística pues “los datos crudos son feos y debemos trabajar con ellos para darles forma” (Alcalde, 2017) (quien cita un libro de David Mccandless). Así, la estadística pone un pie en este mundo virtual de la mano de la tecnología de la información teniendo el otro tradicionalmente en el mundo real con los procesos de medición.
Ahora bien, si ya la matemática había incorporado las figuras y una analítica de estas, la VD incorpora los elementos gráficos con mayor carga heurística ayudada por la sicología de las formas (Gestalt) y las posibilidades de la pantalla del ordenador para crear metáforas visuales que alimenten la conjetura del analista, necesaria para varios propósitos, a saber, interpretar, formarse hipótesis, conjeturar, explicar, exponer, etc. Esto, aunque novedoso no era tan extraño para el estadístico, y aunque no lo expresara de igual forma, lo que Ascombe (1918-2001) advertía en su célebre trabajo de 1973, Graphs in Statistical Analysis, los estadísticos ya lo practicaban como parte de las técnicas de regresión, en una regla sencilla, observar la huella empírica de los datos antes de conjeturar linealidad. Esto indica que los elementos de la sicología de las formas estaban en estado primero (natural) en los matemáticos y estadísticos, aunque confundidas con la racionalidad típica de estas disciplinas. La VD lo que hace es dar entrada a la Gestalt por la puerta grande (pasar a estado primario, científico) a la intuición del analista de la mano de los ya aceptados giros epistemológicos que resaltan una heurística mucho más abierta.
Esta IV Revolución Industrial ha posibilitado la creación de importantes softwares computacionales de análisis y VD cuyos nombres llenarían una página; ya no solamente gráficos y tablas dinámicas, sino mapas, cuadros de mando e infografías, pero que han tenido poca difusión; aún los programas estadísticos más importantes como SPSS, Minitab, Stata, etc., anteriores a todo esto no gozan de pleno conocimiento por diversas razones, creando sí una gran brecha tecnológica. Sin embargo, las hojas de cálculo han tenido gran profusión por razones comerciales y, de la mano de la VD, han logrado tener un uso extendido. Ahora, si bien la VD cuenta con elementos teóricos que la justifiquen, los diferentes softwares estadísticos han creado una extensa variedad de gráficos que crean confusión acerca de su uso; muchos gráficos son de uso genérico como los de barra, pero otros son ya específicos como los de tallos y hojas, sin contar aquellos altamente científicos como los que se usan para modelación matemático-probabilística, de ingeniería, etc. De tal manera que cabría, al menos, una definición y clasificación orientadora. Y en este sentido hemos observado en la hoja de cálculo Excel problemas de definición y clasificación de los gráficos desde la versión 2007 y alguna falta de relación entre la construcción de algunos gráficos y los principios de la VD. Por lo tanto, nos proponemos deslindar gráfico cuantitativo de cualitativo, revisar la clasificación de los gráficos que usa la hoja de cálculo observando las dificultades de “lectura” de algunos de estos.
Los gráficos que generalmente se hacen en esta hoja de cálculo (Excel) son aquellos que proceden de las ciencias empíricas (en el sentido que no es una herramienta de modelación matemática extendida). En 1961 apareció el concepto de Hoja de Cálculo en el artículo Budgeting and System Simulation de Richard Mattessich, ver (Mattessich & Galassi, 2004) donde exponen la historia de la hoja de cálculo; sin embargo el antecedente directo de Excel fue la hoja Multiplan, conocida como Electronic Paper desarrollada por Microsoft en 1982 para competir con Visicalc (Evolución de Excel, 2017). Fue diseñada originalmente para las ciencias financieras, evolucionando luego con módulos de estadística. Si bien su panel de ecuaciones abarca funciones trigonométricas, matemáticas, estadísticas y financieras; su panel gráfico se usa generalmente para datos procedentes de mediciones empíricas.
El gráfico estadístico cualitativo como metáfora visual de la geometría del espacio
Entenderemos genéricamente el término analiticidad en el sentido cartesiano clásico como descomposición del todo en sus partes componentes; idea opuesta a la de síntesis. El método analítico, usado en geometría, supone la aplicación de ecuaciones a todas las partes de la figura, de allí el nombre geometría analítica; mientras que el método sintético opera sobre las figuras usando intuición (Ferrater Mora, 1964). Evitaremos el uso de esta dicotomía, pues crearía problemas de borde entre los significados; por lo tanto, asumimos un continuo o gradiente de analiticidad según el cual unas partes del gráfico son conocidas numéricamente y otra no. Igualmente, por parsimonia, evitaremos decir, aun cuando es cierto, que los gráficos tienen componentes analíticos y sintéticos. En este sentido, mínima analiticidad, se entendería como máxima síntesis, en el sentido dado. Pero no es el lugar para esta discusión.
En términos generales los diseños gráfico, industrial, civil, arquitectónico, entre otros, al usar los elementos propios de la ciencia de la que proceden, como la ingeniería o la arquitectura, echan mano igualmente de otros elementos de funcionalidad, sicológicos, ergonómicos, etc., que humanizan los desarrollos. Sin embargo, la mayoría de ellos tiene como base gráfica a la geometría plana o del espacio. Todos la usan en un gradiente de intensidad como puede verse en el gráfico 1.
En él, vemos diseños a mano alzada como el de la vivienda (1F), otros con algo de analiticidad como el rostro humano (1D) que requiere de algunas medidas o los círculos del logotipo del canario de Twiter (1A) que seguramente requirió del cálculo de los diámetros o de otro elemento de diseño euclidiano y, finalmente, los vehículos (1E) o los ángulos de avance de las ruedas (1B,1C) que requieren de mucho más cálculo, aunque tienen elementos de “mano alzada”. Así, diríamos que los diseños que tienen total analiticidad son los propios de la geometría analítica (1G) y los que tienen nula analiticidad serían los que construiría un pintor ingenuo. Ambos extremos son difíciles de lograr en aplicaciones empíricas. Las formas geométricas puras no están contaminadas de elementos de diseño, por ello son de total analititicad y en el otro extremo habría, al menos, un cálculo intuitivo de perspectiva, por lo tanto, siempre habría algo de analiticidad. Ahora, la geometría plana o del espacio, una vez puesta al servicio de un diseño particular, su analiticidad disminuye, dependiendo del tipo de diseño, desde los gráficos muy técnicos hasta que llegamos a los bocetos, los cuales tienen idea de forma geométrica, mínima analiticidad, cálculo intuitivo dado por la experiencia. Esto va a coincidir con un gradiente de objetividad a subjetividad, pero sin que ambos dejen de estar contenidos uno en el otro.
Por analogía, diremos esto mismo para los gráficos estadísticos, hay gráficos que tienen máxima analiticidad como los usados en la modelación de curvas de probabilidad, gráficos multivariantes, etc., y otros que tienen mínima analiticidad como los gráficos de barra, circulares, etc. Particularmente nos vamos a referir a estos últimos; los que se hacen sobre información de categorías independientes como los que proceden de niveles de medición no métricos, conceptos clasificatorios y comparativos (Díez & Moulines, 1999), como pe., escalas no métricas nominales (genero, estado civil, etc.) u ordinales (malo, regular, bueno) y aquellos conceptos métricos que hayan sido reducidos a no métricos, como pe., reducción de las estaturas (en metros) a categorías ordinales (bajo, mediano, alto).; o categorías cuantitativas independientes como pe. {A, t, α, β, 4, π, Б, S.,
}, conjuntos discretos de una variable cuantitativa de categorías independientes. Esto es, no nos referiremos a la graficación de funciones binarias (o más), métricas Y=f (x, y), como pueden ser aquel tipo de relaciones de conceptos al menos en un nivel de intervalo. Estas últimas se pueden representar mediante pares ordenados (x, y) en el plano cartesiano rectangular mientras que las primeras como variables con un eje cuantitativo “y” y otro eje cualitativo o categórico “x”; el “par” sería el ítem o nombre combinado con la cuantificación, (Ii, yi) o pe. (hombre, y1); (mujer, y2), (A, y), (t, y), (α, y), (β, y), (4, y), (π, y), (Б, y), (S2, y), (


Las llamaremos variables de categorías independientes sin importar si lo son genuinamente o si fueron reducidas a estas. El gráfico 2 muestra cuatro ejemplos. 2A es un gráfico cuantitativo de máxima analiticidad (son pares ordenados), el 2B, es no métrico de escala nominal y el 2C, es no métrico de escala ordinal, 2D, es de categorías arbitrarias, estos últimos son de mínima analiticidad pues solo tienen una variable cuantitativa.
Puede verse en los ejes x del gráfico 3 que el eje cualitativo no necesariamente se usa para variables nominales u ordinales, podrían ir valores de medias o varianzas, que serían variables independientes tratadas como categóricas, 
El gráfico 3A es un gráfico de líneas (pudo ser una de barras), el 3B, muestra la proporción de cada media repartida en el diagrama de sectores y el 3C, es un diagrama de rectángulos (novedoso en Excel) que convierte los valores de las medias en rectángulos proporcionales. Independientemente que unos sean más idóneos que otros respecto de los datos, lo importante, en este caso, es el uso de una característica de la figura para representar los valores.

Igualmente puede verse que aun cuando las medidas tomada para las medias es métrica, puede representarse mediante diagramas cualitativos. Recientemente Tukey (1915-2000), con la estadística exploratoria, introdujo unos tipos de gráficos cuantitativos, de mayor carga analítica específicos para series de valores métricos; en lugar de usar una figura geométrica para representar los valores, descompuso estos en una parte entera y otra decimal para construir un gráfico muy interesante, el diagrama de tallos y hojas. Este gráfico hace un curioso arreglo de los valores para evitar su resumen, como sucedía con el histograma. No tiene relaciones binarias, usando el eje cuantitativo para colocar los tallos y sobre ellos poner los decimales u hojas. Otro interesante diagrama es el Boxplot; el cual usa como límites de la figura la división de los cuartiles, el mínimo, el máximo y los valores extremos para diseñar una caja central de valores. Estos gráficos son interesantes pues usan una serie de valores para el gráfico pudiendo ser acompañadas por otras series y gráficos similares. Estos gráficos son cuantitativos, pero de analiticidad superior a los anteriores ya que sus valores son métricos y muestran valores sintéticos como los estadísticos centrales y los de posición.

Así, representar un valor es “volverlo a presentar” mediante una forma geométrica aprehensible y cognoscible. En la figura 1 puede verse la variedad de formas geométricas usadas por la hoja de cálculo 2007; puede apreciarse el abandono de la idea de geometría del espacio por figuras con menor carga analítica.
Podríamos decir que graficar es convertir un valor en estado digital, numérico, a otro estado, el analógico (gráfico) con el objetivo de establecer una metáfora gráfica. Esa fue la idea inicial de Playfair (1759-1823), aunque lo estableció de un modo más intuitivo pues no estaba desarrollada la sicología de las formas. El método gráfico es una forma de simplificar lo tedioso y lo complejo decía Playfair (1759-1823), además agregaba que (INEI, 2009, pág. 10)
Ahora bien, si los gráficos cualitativos se deben a las formas ¿cómo contrastar los valores presentados? (Few, 2011) citado por (Minguillón, 2016), basándose en la Sicología de las formas (Gestalt) postula seis principios mediante los cuales el analista puede construir su analogía gráfica, a saber: proximidad, similitud, adjunción, clausura, continuidad y conectividad. Todos excepto el de clausura tienen que ver con la idea de formación de grupo. Si están cerca, si son similares en su forma, si tienen una frontera, si están alineados o conectados, entonces, en cualquiera de estos casos los percibiremos como grupo; el principio de clausura tiene que ver con el hecho de completar mentalmente una figura que aparece sugerida y por lo tanto bajo la idea de cerradura y formación de grupo. Evidentemente que el próximo paso es traducir las relaciones entre las variables en analogías coherentes con estos principios. Esto es, no se busca el contraste estadístico de los valores, no se buscan “diferencias significativas” entre los valores solo contraste visual. El gráfico cualitativo une la subjetividad del diseñador estadístico con la objetividad del estudio.
Los principios de percepción visual definidos por los psicólogos de la Gestalt y desarrollados por la Bauhaus, extrapolan, el paradigma científico y cosmológico newtoniano al mundo del arte y el diseño, aportando las bases de una teoría coherente y racional, basada en la lógica y en la ciencia, que hace hincapié en el tratamiento objetivo y sistemático del diseño a través del uso de la retícula. (Castaldo Suau, 2012, pág. 272).
Así, los gráficos estadísticos cualitativos quedarían definidos, en primer lugar, por el grado de analititicad de las figuras geométricas; esto es, mínima analititicad si describen una característica con valores no métricos, como pe., el uso de una escala ordinal o nominal; avanzaríamos hacia figuras geométricas con al menos una característica métrica, todas estas monarias, pe., una barra que represente el peso en kilos en una dimensión (y) y que en la otra (x) se ponga el nombre de la categoría o el ítem; luego, figuras geométricas que describan relaciones binarias mediante pares ordenados (x, y), obviamente ambas de medida métrica. En segundo lugar, su objetivo es capturar diferencias observables dentro de los umbrales de percepción, en una semiología de la imagen (formas, grosor de líneas, colores, etc.), mientras que el gráfico cuantitativo requeriría de contraste estadístico/numérico, es claro que este proceso también se da entre un más y un menos de contraste estadístico/numérico, como pe., comparar a simple vista una diferencia, compararla contra un estándar o someterla a contraste estadístico; este más o menos se interpreta como más o menos objetividad; y, en tercer lugar, de modo similar al anterior, la heurística usada en los gráficos cualitativos requiere de mayor subjetividad y lo sugiere la forma que adquiere el gráfico, mientras que en los gráficos cuantitativos la heurística es guiada por el contraste estadístico u otro tipo de contraste numérico; la diferencia entre el segundo y el tercer punto estriba en que la interpretación posible de los gráficos va de menos a más objetividad en el sentido según el cual un tipo de análisis numérico restringe mucho más a la subjetividad o la interpretación, ver cuadro 1

Ahora discutiremos algo sobre los ejes, pues algunos gráficos se construyen teniéndolos como referencia mientras que otros no los usan directamente, pudiendo confundir al estudiante.
El eje cualitativo en las hojas de cálculo
Este “eje” cualitativo no es una coordenada cartesiana como tal, esto es, no representa una dimensión ordenada (-∞, +∞); es solo un eje de referencia para las categorías que se muestran y se ordenan ad-hoc, según la conveniencia del análisis. En este sentido los programas estadísticos y hojas de cálculo lo usan, pero debe aclararse su verdadero significado. En primer lugar, trataremos a este “eje” como tal y luego veremos que es solo una base referencial.
Lo no métrico se refiere a “escalas” nominales (pe. soltero, casado, divorciado) u ordinales (mucho, poco, nada) u otro tipo de elemento independiente. Según la tipología de (Stevens, 1946) lo nominal no preserva ningún valor matemáticamente significativo, son meras marcas o códigos; esta escala tendría solo una relación de equivalencia (=) que generalmente representa los ítems o valores de una variable categórica. De esta manera si los ítems de la variable género son, masculino y femenino, G = {masculino, femenino}, los atributos interesantes para el eje cualitativo de esta pequeña escala son la propiedad reflexiva, masculino = femenino y femenino = masculino, lo que implica que en el eje pueden arreglarse estos ítems en un orden conveniente. Esto es, el orden que no preserva la definición de nivel nominal es ad-hoc, significa “no importa el orden” en que se coloquen los elementos según la relación de equivalencia. Ahora, respecto del nivel ordinal sabemos que, igualmente no preserva ningún valor matemáticamente significativo; solo preserva el orden (≤, ≥) de las asignaciones (orden débil), por lo que los valores tampoco representan cantidades (en sentido de magnitud), pe. en la escala actitudinal A= {nada, poco, mucho} la relación interesante para al eje “x” sería nada < poco < mucho y ese sería el orden de aparición de los ítems en el eje o viceversa. Pero el significado de estos términos no puede ser interpretado en el eje, no sabríamos a qué distancia colocar el ítem “poco” del ítem “mucho” en el eje, por lo tanto, deben tratarse como variables nominales pudiendo, igualmente, ordenarse ad-hoc. Este eje es solo referencial.
De esto se desprenden algunas consecuencias importantes; primera, cada ítem es independiente de los demás, lo cual significa que puede aparecer solo; el grafico 4A muestra el uso de la dimensión “y” para hacer la barra no siendo necesario el eje “x”. Segunda, para efectos de comparación se agrupan varios ítems sobre una misma base (4B), solo en los casos que lo ameriten, como las barras o las líneas; pero hay otras formas que no lo ameritan como los circulares, rectangulares anillos, diagrama de tallos y hojas, de caja y bigotes, etc. Tercera, la forma de agrupar los ítems en el eje depende del diseño que se haga y de la pertinencia del arreglo, esto justifica los gráficos radiales (4C). Como puede verse este “eje” es solo instrumental puede usarse o no como base de comparación.

En los gráficos dinámicos de Excel es posible establecer el orden ad-hoc de lo nominal y el orden débil de las variables ordinales en el menú “más opciones de ordenación/ opciones de ordenación / manualmente (…)” permitiendo estos arreglos conforme a las propiedades de equivalencia y orden débil. Esto es, cambiar el orden de las barras en el eje, indicando que los ítems de la variable no son ordenados stricto sensu; sería equivalente poner casado-soltero-divorciado o casado-soltero-divorciado, sin faltar algún principio, ver gráfico 5.

Con base en estas consideraciones podemos postular un modelo de clasificación de los gráficos cualitativos como elemento básico para establecer un análisis de los gráficos de la hoja de cálculo Excel comparando las versiones 2007 y 2016.
Modelo de clasificación de los gráficos cualitativos
Díez y Moulines (1999) definen un concepto clasificatorio de la siguiente manera: . es un concepto Clasificatorio para el dominio (no-vacío) de objetos . si y solo si pertenece a un sistema de conceptos {C1, C2, …, Cn}, con . ≥ 1, que cumple las dos siguientes condiciones:
La primera condición tiene dos partes, el conjunto D y los criterios sistemáticos. El conjunto D estaría dado por los objetos seleccionados para cada Ci, a saber, aquellos que tienen cierto aspecto de figura geométrica; los criterios sistemáticos tendrían que establecerse con base en los criterios establecidos como diferencias entre los tipos de gráfico. Estos criterios son:
El clásico histograma de frecuencias, el gráfico de cascada y el rectangular, son novedosos en la versión 2016 de la Hoja de Cálculo de Excel. Ver gráfico 7. El histograma de frecuencias (HF) fue diseñado entre 1891-92 por K. Pearson (1857-1936), entre otros gráficos como los estigmogramas, entigramas, etc. (Gómez Villegas, 2008), época de procesamiento manual de los datos y por lo tanto de necesidad de reducción de estos a valores acumulados por lo que la variabilidad siempre fue la primera sacrificada. Ahora prácticamente no hacen falta, la modelación de las distribuciones de probabilidad tiene otros recursos. Pero independientemente de esto nos interesa en este trabajo su clasificación; veamos porqué es un gráfico cualitativo.

Sus valores proceden de medidas cuantitativas que pueden graficarse como tales pues poseen un dominio y contradominio en sus ejes x e y, en una relación binaria; sin embargo, para construirlo, hay que someter los datos a un proceso de reducción métrica, de variables de intervalo o de razón a variables ordinales bajo el procedimiento convencional de formación de los intervalos y conteo de sus valores. Los intervalos (Linfi, Lsupi] creados semiabiertos siguen siendo continuos, pero se hacen discretos al reducir la variabilidad de los valores contenidos al subtotal de valores en el intervalo
, por ejemplo, si tenemos un conjunto de valores medidos en metros{3m, 5m, 6m}
, perdiendo su métrica por el conteo (anulación de la magnitud) de tal manera que el propio intervalo ha dejado de serlo pues ya no contiene medidas, ha sacrificado la variabilidad y su recorrido métrico por un conteo que las homogeniza en el punto medio, de altura ni. Los intervalos del Histograma de Frecuencias del gráfico 7.A (más abajo), construidos por la hoja de cálculo mediante la Regla Normal de Scott, son ordinales de la forma (3; 11,1) < (11,1; 19,2) < (19,2; 27,3) < …<; orden débil pues han perdido el orden intra-intervalo. Pe. en el intervalo (3; 11,1) hay 34 valores que al ser agrupados han perdido su individualidad, ahora vale el conteo de tal manera que las barras del HF solo ocupan la altura (=34, para el caso) sin importar la anchura, y del mismo modo como se hacen barras pudieran hacerse líneas perpendiculares, puntos o un diagrama de sectores. Representar el continuo del intervalo con la anchura de la barra da a entender que los valores se homogenizaron en él siendo falso; la idea original era explorar la forma de la curva teórica, pero esto hoy se puede hacer con otras técnicas.

Por su parte el gráfico de cascada es un gráfico específico para valores que muestren aumentos o decrementos sobre un recorrido ordinal o nominal, verbigracia, fechas, tiendas sucursales, series de valores, etc. por lo tanto mide solo una característica de la barra; ahora bien, el gráfico logra beneficios adicionales, pues la barra siguiente comienza donde termina la previa y así sucesivamente, visualizando crecimiento o decremento; esto podría hacerse igualmente con un diagrama de líneas pues los valores se acumulan de y0 a y1. Finalmente, el diagrama rectangular o jerárquico, partiendo de un concepto clasificatorio crea bloques proporcionales de la medida que acompaña el nivel más bajo de la jerarquía. En el ejemplo del gráfico 7C muestra los precios de un restaurant que ofrece un menú de desayuno, tres de almuerzo y dos de cena. El gráfico no expone el valor o precio sino la proporción de unos respecto de los otros.
Respecto del segundo criterio de nuestra clasificación, hemos adelantado algunos elementos sobre estos últimos tres gráficos. Del HF el modo de configurar los valores es por reducción métrica; en el caso del gráfico de cascada, el modo es por acumulado en escalera según el recorrido de la variable y en el gráfico jerárquico el modo de organizar los ítems es en bloques formando un cuadrado que los contiene. Este arreglo de los ítems converge con nuestro tercer criterio de heurística interpretativa.
Con base en este concepto de clasificación haremos la discusión. Veremos la coherencia de la clasificación de la hoja de cálculo respecto de la nuestra analizando las ventajas y desventajas, así como las incoherencias entre las versiones 2007 y 2016 de la hoja de cálculo Excel.
Tipos de gráficos de Excel
En primer lugar, veremos la formación de los grupos de figuras; la división dada por la apariencia de las figuras y luego, las subdivisiones, dadas por el arreglo de las variables en los ejes.
Al abrir el menú Insertar/Gráficos/Insertar Gráfico de la hoja de cálculo Excel 2007 y 20161, hallamos el panel de gráficos que ofrece. En primer lugar, aparecen los nombres de los tipos de gráfico, estos son para 2007: Columna, Línea, Circular, Barra, Área, XY (Dispersión), Cotizaciones, Superficie, Anillos, Burbuja y Radial. Ver diagrama 2. Al observarlos vemos que por el aspecto o similaridad (primer criterio), se agrupan en un primer grupo, las siguientes opciones.
Dejando libre de agrupación, el tipo de gráfico Radial, por el uso de múltiples radios, características que no comparten con los otros. Ver Diagrama 2. Examinaremos solamente los dos primeros grupos.
Grupo de gráficos rectangulares
Hemos unido los gráficos Columna, Barra, Cascada, Rectángulo e Histograma por su parecido de familia o aspecto rectangular. Los gráficos de Barras y Columnas son redundantes por su aspecto geométrico. ¿Cuál es la diferencia entre estos? Que unos son horizontales y otros verticales, un arreglo espacial que no aporta nada a una diferencia significativa de los gráficos. Por lo tanto, podríamos colocarlos juntos en el Grupo Rectangular. Esta división se mantiene en las versiones 2007 y 2016. Una segunda mirada a este par en la versión 2007 muestra que tienen una subdivisión en gráficos de Columna, Cilindro, Cono y Pirámide. Esta subdivisión en la versión 2007 es similar entre las divisiones “Columna” y “Barra” y es eliminada en la versión 2016 (y anteriores), ver diagrama 2. Ciertamente esta clasificación mostraba deficiencias en los nombres y en la similaridad de las figuras. Pero se mantiene la distinción entre Columnas y Barras con una diferencia no sustantiva. De esta manera en la división de los gráficos Columna y Barra se salta el criterio de similaridad al negarla cuando la hay. Obsérvese que la versión 2016 y desde versiones anteriores, incorpora varios gráficos que no la tenía la 2007 como el gráfico de rectangulos, el de proyección solar, el histograma el de cajas y bigotes y el de cascada. Y elimina el de anillos y el de burbujas pues los incoprpora en los grupos de líneas y dispersión, respectivamente. Estas modificaciones son incompletas.
Con relación al histograma, vimos que resulta en un Diagrama de Barras con un eje . de variable ordinal, pues tan ordinales son estos intervalos como otras categorías al haber perdido su orden intra-intervalo. Aclaremos más este punto, Sean los intervalos ordinales [1, 10) y [10, 20] supongamos que en el primero hay 15 valores contados por el proceso de reducción métrica y que en el segundo hay 27 valores; una vez agrupados los datos solamente sabríamos que existen estos valores en cada intervalo, pero no cómo estarían distribuidos; ahora supongamos que en la escala ordinal (poco, mucho) hay 15 valores del ítem “poco” y 27 valores del ítem “mucho” ¿Cuál es la diferencia entre ambos conjuntos? No podríamos discriminar entre los 15 valores entre 1 y 10, ¿Cuáles están cerca de 1, de 6 o de 10?, así como no podríamos hacerlo entre los 15 valores “poco” pues las personas respondieron que algo es “poco” no pudieron responder ¿cuán poco? Lo ordinal solo preserva el orden débil. De esta manera al reducir la métrica, el Histograma de Frecuencias es un Gráfico de Barras. Igualmente sucede con gráfico de cascada, son barras que parten del límite superior del valor anterior y el jerárquico es un gráfico con barras de diversa área, pero cualitativo.

Respecto del segundo criterio, la configuración de los ítems en el gráfico, el programa confunde el efecto tridimensional con arreglo tridimensional de las variables o series en ambas versiones 2007 y 2016. Para el caso de la división Columna, las subdivide en: 1. Columna 3D agrupada, 2. Columna 3D Apilada, 3. Columna 3D Apilada% y 4. Columna 3D. Las tres primeras son columnas con efecto tridimensional en la figura geométrica, mientras que la cuarta opción es una configuración tridimensional de los ítems o series, esto es unas detrás de las otras. Ver gráfico 8. Lo contradictorio es que cataloga como tipo de gráfico a un efecto de la figura en lugar de agregar este “efecto” los demás efectos que aparecen en el menú “Dar formato a la serie de datos” en el que aparece nuevamente efecto 3D.
La razón por la que agrupamos estos gráficos en este trío es por el aspecto de recubrimiento o extensión sobre el plano cartesiano (ver gráfico 9); los gráficos de las otras divisiones lucen más a cuerpos cerrados. En estos, los límites o su efecto de cerradura lo dan los límites del plano cartesiano. Las líneas recubren el plano en un perfil, el área hace lo propio rellenando la parte inferior dando relieve bidimensional, y la superficie extiende las series una detrás de las otras para formar una extensión tridimensional.

Trío línea-área-superficie

De este modo pretendemos justificar la agrupación de estos tres tipos de gráfico por su apariencia de extensión o recubrimiento sobre el plano cartesiano. El gráfico 9 muestra la similitud de las figuras hechas con los valores de la tabla 1 (más abajo). Excel, en su versión 2016, no agrupa estos tres gráficos, sino que los deja separados. Según el modelo de clasificación que hemos venido exponiendo se agruparían estos tres en un grupo de gráficos de recubrimiento.
Respecto del segundo criterio, el modo de arreglar las variables (series) en el gráfico, observamos que para los gráficos de líneas y áreas, se conservan las configuraciones de ítems Agrupados, Apilados, Apilados 100% y, nuevamente, se confunde efecto tridimensional con gráfico tridimensional en ambos casos. Veamos esto.

Los gráficos de Líneas y Áreas Agrupadas no tendrían mayor problema, pero al apilar las líneas o las áreas o apilarlas proporcionalmente con el eje primario porcentual puede crear severos problemas. Recordemos que el apilamiento pone encima, como pila, a los objetos cambiando la escala en el eje y; esto no tiene consecuencias con las barras, pues, al apilar las barras (o series), el apilamiento se percibe como extensión vertical (ver Barras apiladas en el gráfico 6) de tal modo que al visualizar las series pueden compararse los segmentos de barra por el tamaño; este hecho mejora con el apilamiento 100% que compara valores absolutos con las barras extendidas por el eje porcentual y cerrando todas en 100%. Esto es, al igualarse el tamaño de las barras, por efecto del %, mejora la comparación de los segmentos. Pero con los gráficos de líneas esto puede resultar desastroso.
El gráfico 10 muestra que en el agrupado (10A) los valores de cada serie en el eje ordenado se presentan en su altura original al corresponderse con el nivel en el eje; sin embargo, al cambiar a gráfico apilado (10B), la separación de las líneas hace perder la perspectiva de los valores; la escala en el eje ordenado ha cambiado pues los valores (87 y 100; 118 y 135; 110 y 160) ahora se superponen, pero el efecto visual es de separación de ambas series; esto es, no se percibe el apilamiento pues la línea induce horizontalidad; finalmente en el apilado 100% (10C) la serie 2 se hace constante en el nivel 100% de la escala con valores de 100, 135 y 160, siendo incomprensible, no se corresponde la línea constante con los valores cambiantes. El problema es que la línea hace perder el efecto de agrupamiento vertical de valores por la secuencia horizontal. Esto es, si se agrupan los valores o se apilan, debería reflejarse en el gráfico. Este problema es similar con los gráficos de áreas. Esto no sucede con las barras.
Adicionalmente la división de gráficos de líneas muestra un efecto tridimensional de línea como gráfico tridimensional, así como el agregado de marcadores para los tipos antes vistos, creando gráficos innecesarios cuando son realmente efectos. En nuestro criterio el gráfico tridimensional es el de superficie pues coloca las series una detrás de las otras al igual que lo hace con las barras.

En conclusión, si aplicamos nuestra definición de gráfico cualitativo y la clasificación que se desprende de esta al conjunto de gráficos de la hoja de cálculo Excel (versiones, 2007 y 2016) vemos que surgen dificultades de orden superior, esto es, no problemas de diseño sino conceptuales. Contra el argumento según el cual nuestra definición y clasificación es had-hoc y por lo tanto inadecuada para estos gráficos debemos expresar que no encontramos elementos teóricos sobre los criterios de construcción de estos gráficos como grupo o alguna distinción entre gráficos cuantitativos y cualitativos, las distinciones que se hacen son respecto de los gráficos individuales. Seguramente que estos temas no lo son propiamente del diseño de la hoja de cálculo sino de la ciencia estadística. Por otra parte, las páginas oficiales como https://support.office.com/es-es/excel no muestran estos elementos teóricos.
Conclusión y Discusión
Históricamente, desde la creación de la Geometría y del Álgebra, el cálculo siempre estuvo acompañado de la visualización, pues el humano requiere de la metáfora para interpretar y aplicar el conocimiento que viene abstracto. No es diferente con la estadística que tiene un elemento matemático y otro empírico. La geometría analítica desarrolló la fortaleza de los gráficos cuantitativos con Descartes (1596-1650), pero paralelamente se creaba la metáfora artística y estética que usaría la perfección analítica que aquel filósofo defendió. Hoy la informática y la sicología de las formas unen más lo estético y artístico a lo analítico de las formas creando la actual Visualización de Datos en una explosión de programas computacionales que no termina aún.
Este trecho andado reclama algo de teorización iniciada ya por los pioneros de la moderna Visualización de Datos, como Tukey (1915-2000) y Tufte (1942- ), entre otros. La estadística ha de unirse pues es pionera en esto; sin embargo, los programas estadísticos y hojas de cálculo producen gráficos muy creativos para muchos usos y es necesario producir arreglos o clasificaciones que ayuden a los estudiantes y usuarios a guiarse entre ellos. Si tomamos como referente a la geometría analítica y seguimos el camino de la plástica, hallaremos la posibilidad de definir gráfico cuantitativo y cualitativo en un “continuo” que no cause disonancia cognitiva, primera consecuencia de la dicotomía cualitativo-cuantitativo que pone barreras a la visualización. La definición y clasificación expuestas buscan este objetivo, que lo cuantitativo no sea una carga para las metáforas, sino que queden detrás de ellas como roca dura desde donde se argumente con seguridad. Igualmente, tal proceso de argumentación en estadística ofrece un gradiente analítico desde lo meramente descriptivo, contrastes que se defienden en la argumentación, múltiples pruebas o evidencia descriptiva, hasta contrastes de bondad de ajuste mucho más analíticos. Todo esto tiene expresión gráfica.
Como conejillo de indias hemos puesto a la hoja de cálculo más extendida en uso y hemos encontrado falta de teorización que se manifiesta en un esquema de clasificación que luce con criterios débiles, pudiendo causar confusión. Esto puede ir más allá al ver que se confunde igualmente efecto visual que acompaña a las figuras, con configuración tridimensional de las series cosas muy distintas, pero que además ofrece alternativas de efectos visuales que no tendrían que estar en la clasificación. Seguramente que la variedad de gráficos cualitativos requiere de clasificaciones más extensas. Ese no era el propósito de este trabajo; sin embargo, pretendemos aportar pequeños elementos a los estudios que se han iniciado. Esta hoja de cálculo tiene amplias posibilidades por la tecnología que sustenta por lo que su crecimiento es vigoroso, pero esto será insuficiente sin criterios sobre los gráficos que ordenen mejor la extensa tipología.
REFERENCIAS
Aficionados a la Mecánica. (2 de Octubre de 2017). Obtenido de http://www.aficionadosalamecanica.net/direccion-geometria.htm
Alcalde, I. (8 de Septiembre de 2017). Visualización de datos retos y mitos. Obtenido de ignasialcalde. from data to knowledge: https://www.ignasialcalde.es/visualizacion-de-datos-retos-y-mitos/
Castaldo Suau, B. (2012). Geometría y método en diseño gráfico: del paradigma Newtoniano a la Teoría General de Sistemas, el Caos y los Fractales. Arte, Individuo y Sociedad, 24(2), 269-282.
Díez, J. A., & Moulines, C. U. (1999). Fundamentos de Filosofía de la Ciencia. Barcelona, España: Ariel, S.A.
Evolución de Excel. (26 de Septiembre de 2017). Obtenido de Trucos y Cursos: trucosycursos.es
Ferrater Mora, J. (1964). Diccionario de Filosofía (Cuarta ed.). (Montecasino, Ed.) Buenos Aires, Argentina: Sudamericana.
Few, S. (2011). Data Visualization for Human Perception. En The Encyclopedia of Human-Computer Interaction (Segunda ed.).
Gómez Villegas, M. (2008). Karl Pearson, Creador de la Estadística Matemática. En J. Basulto Santos, & J. García del Hoyo (Ed.), Historia de la Probabilidad y la Estadística. IV, págs. 351-356. Huelva: Publicaciones de la Universidad de Huelva.
INEI. (2009). Guía para la Presentación de Gráficos Estadísticos. Lima: Instituto Nacional de Estadística e Informática.
Llaneras, K. (8 de Septiembre de 2017). Las siete reglas para hacer gráficas excelentes. Obtenido de Jot Down: http://www.jotdown.es/2014/02/las-siete-reglas-para-hacer-graficas-excelentes/
Mattessich, R., & Galassi, G. (Abril-Junio de 2004). Historia de la hoja de cálculo: De la matriz de contabilidad a la simulación del Presupuesto computarizado. Revista Internacional Legis de Contabilidad & Auditoria(18), 41-86.
Minguillón, J. (13 de Octubre de 2016). Universitat Oberta de Catalunya. Recuperado el 17 de Febrero de 2017, de http://openaccess.uoc.edu/webapps/o2/handle/10609/57624
Paredro, R. (2 de Octubre de 2017). La Sicología de la Geometría Aplicada al Diseño de Logos. Obtenido de Paredro.com: http://www.paredro.com
Sevilla Moróder, J. (2005). Gramática de las Gráficas. Pistas para mejorar las representaciones de datos. Navarra: Universidad Pública de Navarra.
Stevens, S. (7 de Junio de 1946). Sobre la Teoría de las Escalas de Medición. Science, 103(2684), 677-680. Obtenido de http://berniecl.weebly.com/uploads/7/2/5/3/72531/02_s.s._stevens_-_sobre_teora_escalas_de_medicin_esp.pdf
Stewart, I. (2008). Historia de las Matemáticas en los últimos 10.000 años. Barcelona: Crítica.
Notas