1 Teoría de la Visualización

Análisis Exploratorio de Datos | Licenciatura en Estadística | FCEyE | UNR

Disclaimer

Esta unidad está basada en el libro Fundamentals of Data Visualization (2019) de Claus O. Wilke, disponible online en clauswilke.com/dataviz.

1.1 Introducción

En general, los/as estadísticos/as sabemos cómo visualizar datos sin ser demasiado engañosos. Sin embargo, es posible que no tengamos un sentido bien desarrollado de la estética visual y que tomemos decisiones que restan valor al mensaje.
Los diseñadores, por otro lado, pueden preparar visualizaciones atractivas pero muchas veces descuidan la integridad de los datos. Lo ideal, entonces, es tomar lo mejor de ambos mundos.
Como dice Wilke:

Cita

La visualización de datos es en parte arte y en parte ciencia. El desafío es hacer bien el arte sin equivocarse con la ciencia, y viceversa.

Una visualización de datos tiene la obligación de:
- transmitir los datos con precisión
- no distorsionar la información ni inducir al error
- ser estéticamente agradable
- ser fácilmente interpretable
- enfocarse en un mensaje puntual (no tratar de mostrar todo junto en un mismo lugar)
- evitar características que distraigan (efectos 3D innecesarios, etc.): “menos es más”
El objetivo de esta materia es estudiar cómo aplicar estos ideales a los gráficos estadísticos más comunes y, al mismo tiempo, afianzar los conocimientos sobre programación orientada a visualizaciones.
La visualización de datos está íntimamente ligada al concepto de comunicación. Supongamos que deseamos transmitir una idea sobre el conjunto de datos que estamos analizando, a una cierta audiencia que puede estar compuesta por compañeros de facultad o de trabajo, al público de un congreso, usuarios de redes sociales, etc. Para comunicarnos con éxito, tendremos que presentarle a esa audiencia una historia clara e interesante.

En su formato tradicional, una historia se puede dividir en 3 partes: inicio, desarrollo (nudo) y final (desenlace). Un buen gráfico también debe contar con estas características:
- Inicio: plantea el interrogante que el gráfico desea resolver. Seguramente existe una pregunta o hipótesis que marca el inicio de esta historia. Presentar gráficos sin contexto, o sin explicar qué fue lo que los motivó, puede afectar nuestra capacidad de comprender la visualización o de interesarnos en ella.
- Desarrollo: en este contexto, podemos pensar al desarrollo de la historia como las decisiones estadísticas que se tomaron para dar respuesta a la pregunta planteada inicialmente. Cuándo y cómo se recolectaron los datos, qué se hizo con ellos, cómo se los manipuló (en el buen sentido), cómo se los analizó, por qué se eligió este gráfico en particular, etc.
- Final: el desenlace de la historia consiste en la presentación del gráfico como producto final, adjuntando interpretaciones que podemos obtener como estadísticos/as al analizar las figuras generadas. En este punto es importante aplicar los conceptos mencionados arriba (visualizaciones que transmitan un mensaje fiel a los datos, estéticamente agradables, etc.), y al mismo tiempo acompañarla de conclusiones válidas que dejen claramente planteada nuestra visión de esta historia.
No siempre vamos a poder aplicar la estructura recién mencionada: hay contextos donde la historia detrás de la visualización no es tan importante, o donde un gráfico individual no alcanza para contarla de manera completa. También es cierto que resulta difícil “vender” algunos gráficos en particular (¿alguien alguna vez se emocionó mirando un boxplot?) 🤣.
Más allá de esto, consideramos importante que el análisis exploratorio de datos sea riguroso desde el punto de vista estadístico, pero que al mismo tiempo incorpore conceptos que realcen su impacto visual y su potencial comunicativo.

1.2 Fundamentos de la Visualización

Cada vez que visualizamos datos, estamos tomando sus valores y convirtiéndolos de manera sistemática y lógica en los elementos visuales que conforman el gráfico final. El proceso de asignar ciertos datos a ciertas características del gráfico es la esencia de la visualización de datos.
Le decimos mapeo (en inglés, mapping) a esta correspondencia entre dato/característica. A su vez, las características que conforman el gráfico son llamadas estéticas (aesthetics). Este vocabulario puede sonar familiar, ya que es empleado por el paquete ggplot2 de R.
No debe confundirse este concepto de estética con el utilizado usualmente (estudio y valoración de lo que se percibe como bello, artístico, de buen gusto, etc.), sino que debe entenderse como aquello que se puede percibir con los sentidos, la cual es su definición original en idioma griego.
Por lo tanto, cuando hablemos de elementos estéticos en esta materia, estamos haciendo referencia a las características que percibimos visualmente en un gráfico.

1.2.1 Estéticas

Las estéticas describen cada aspecto de un determinado gráfico. Las más comunes son:
- Posición (position): generalmente como coordenadas cartesianas \((x, y)\) en gráficos en 2D, aunque existen otras posibilidades (coordenadas polares, gráficos tridimensionales, etc.)
- Forma (shape)
- Tamaño (size)
- Color
- Ancho de línea (line width)
- Tipo de línea (line type)

Todas las estéticas se pueden clasificar dentro de 2 posibles grupos: las que permiten representar datos continuos, y las que no. Entre las mencionadas arriba, tenemos que posición, tamaño, color y ancho de línea pueden ser utilizadas para datos continuos, mientras que forma y tipo de línea sólo sirven para datos categóricos o discretos.
Veamos a continuación algunos ejemplos sencillos con el tradicional conjunto de datos de las flores de Iris.

Ejemplo 1

Representamos dos variables cuantitativas continuas en un sistema de ejes cartesianos (estética de la posición). Tamaño, forma (círculo) y color (negro) permanecen constantes para todos los datos; son estéticas presentes pero que no agregan información.

Ejemplo 2

Utilizamos la estética ‘forma’ para representar una variable categórica (especie) que agrega información. Recordemos que la forma sólo puede asociarse a una cantidad finita (discreta) de valores; no tendría sentido asociar el ancho del pétalo con la forma. Notemos además la necesidad de incorporar una leyenda al gráfico que permita relacionar formas con valores puntuales de los datos.

Ejemplo 3

Usamos la estética ‘tamaño’ para representar una tercera variable, en este caso ancho del sépalo. El diámetro de cada punto ahora depende de esta variable: flores con sépalo más anchos se grafican con puntos de mayor diámetro. Una vez más, necesitamos una leyenda adecuada para interpretar el gráfico.

Ejemplo 4

Estéticas que se pueden usar para datos continuos, como el tamaño, también sirven para representar datos discretos. Advertimos que este uso no es recomendable, ya que la diferencia de tamaño entre especies dificulta la correcta interpretación de los datos graficados.

Ejemplo 5

Una manera correcta de diferenciar las especies es asignando una paleta de colores que las distinga (es importante que la elección de colores no opaque el mensaje; hablaremos de esto más adelante). Si bien la estética del ‘color’ fue planteada arriba como continua, también resulta muy útil para representar datos discretos. Este gráfico es una alternativa al ejemplo 2: ambos muestran exactamente la misma información, pero haciendo uso de diferentes estéticas.

Ejemplo 6

Ahora usamos la estética ‘color’ para representar datos continuos, en este caso nuevamente el ancho del sépalo. Acá también debemos prestar especial atención a la paleta elegida para que el mensaje sea lo más claro posible. Este gráfico es una versión alternativa al del ejemplo 3: muestra la misma información pero con estéticas distintas.

Ejemplo 7

Un mamarracho donde el color se asigna al ancho de sépalo, el tamaño al largo del sépalo y la forma a la especie. No debemos olvidar la máxima que postula que ‘menos es más’. Al querer mostrar todas las variables al mismo tiempo, terminamos creando una visualización demasiado cargada de información, compleja y difícil de interpretar.

1.2.2 Escalas

Para unir el mundo de las estéticas con el mundo de los datos necesitamos especificar qué valores de los datos se corresponden con qué valores específicos de las estéticas.
Por ejemplo, si nuestro gráfico tiene un eje X, sabemos que el valor “5” estará a una distancia de 5 unidades del origen, el valor “10” estará al doble de distancia, etc. Este mapeo en particular, que corresponde a la estética de posición, se da de manera natural, casi inconsciente.
Los restantes mapeos requieren de un poco más de reflexión. Si vamos a usar colores para representar grupos, debemos especificar cómo relacionarlos (ej: Argentina = celeste, Brasil = verde, etc.).
Esta asociación entre valores de los datos y valores de las estéticas se crea mediante la definición de una escala, la cual determina una relación entre datos y estéticas, y al mismo tiempo crea la necesidad de incluir en el gráfico una leyenda que deje en claro los detalles de esa asociación.
Siempre que se defina una escala, cada valor necesita estar asociado a una única posición, forma o color, y viceversa. En otras palabras, la relación debe ser biunívoca (uno a uno). Escalas que no cumplan esta propiedad básica deben evitarse a toda costa, ya que el gráfico no será coherente.

Ejemplo: temperaturas mensuales

A continuación se presentan las primeras filas de un conjunto de datos que proporciona las temperaturas mensuales normales (temperatura promedio en cada mes durante una ventana de 30 años) para cuatro ciudades de Argentina. Esta tabla contiene 5 variables: mes, ciudad, provincia, código de la estación meteorológica que mide los datos, y temperatura (en grados centígrados).

Mes	Ciudad	Provincia	Código	Temperatura
Ene	La Quiaca	Jujuy	SASQ	13.2
Ene	Rosario	Santa Fe	SAAR	24.8
Ene	Bariloche	Río Negro	SAZS	15.4
Ene	Ushuaia	Tierra del Fuego	SAWH	9.4
Feb	La Quiaca	Jujuy	SASQ	13
Feb	Rosario	Santa Fe	SAAR	23.4
Feb	Bariloche	Río Negro	SAZS	15
Feb	Ushuaia	Tierra del Fuego	SAWH	8.4
Mar	La Quiaca	Jujuy	SASQ	12.8
Mar	Rosario	Santa Fe	SAAR	21.5
Mar	Bariloche	Río Negro	SAZS	12.1
Mar	Ushuaia	Tierra del Fuego	SAWH	6.2

Con estos datos se realizaron las siguientes figuras:

Responder

¿Con qué estéticas se asoció a cada variable en el primer gráfico?
¿Con qué estéticas se asoció a cada variable en el segundo gráfico?
¿Podríamos cambiar el orden en el que aparecen las categorías representadas en los ejes del segundo gráfico?

1.3 Sistemas de coordenadas y ejes

Para realizar cualquier tipo de visualización de datos necesitamos definir escalas de posición, las cuales determinan en qué parte del gráfico se ubican los diferentes datos. Además, tenemos que especificar la disposición geométrica relativa de estas escalas.

Definición

La combinación de un conjunto de escalas de posición y su disposición geométrica relativa se denomina sistema de coordenadas.

En visualizaciones 2D se requieren dos números para especificar un punto de manera única en el plano y, por lo tanto, necesitamos dos escalas de posición. Estas dos escalas suelen ser los ejes X e Y del gráfico.
Convencionalmente, ambos ejes son perpendiculares entre sí y representan escalas lineales, pero también podríamos elegir disposiciones no lineales. Más adelante veremos ejemplos de ambos casos.

1.3.1 Coordenadas cartesianas

El sistema de coordenadas 2D más utilizado para la visualización de datos es el cartesiano, llamado así en honor al filósofo y matemático francés René Descartes, quien desarrolló este concepto en el siglo XVII.
Cada ubicación en el plano bidimensional se especifica de forma única mediante un valor correspondiente al eje X (eje de las abscisas) y un valor correspondiente al eje Y (eje de las ordenadas).

Muchas veces los ejes representan variables con unidades de medida diferentes. En estos casos es válido estirar o comprimir uno en relación con el otro; el grado de distorsión utilizado dependerá de qué mensaje queremos transmitir a partir del gráfico en cuestión:
- una figura baja y ancha resalta cambios a lo largo del eje X
- una figura alta y angosta resalta cambios a lo largo del eje Y
Idealmente, vamos a elegir una relación de aspecto que asegure que cualquier diferencia importante sea perceptible, y que al mismo tiempo no distorsione demasiado la visualización.
Ejemplo: temperaturas medias (suavizadas) de Rosario entre el 01/08/2022 y el 31/07/2023. ¿Qué ocurre cuando la relación de aspecto (alto/ancho) está muy distante del 1?

Si los ejes se definen en las mismas unidades de medida, se recomienda que los espaciados de la grilla sean iguales, de modo que una distancia de \(z\) unidades a lo largo del eje X tenga la misma longitud que una distancia de \(z\) unidades a lo largo del eje Y.
Por último, cabe destacar que el sistema de coordenadas cartesiano es invariante ante transformaciones lineales de las unidades de medida. Esto implica que la forma, aspecto y distancias presentes en el gráfico no se modifican si pasamos de centímetros a kilómetros, gramos a toneladas, Celsius a Fahrenheit, etc.

1.3.2 Ejes lineales

En los ejemplos presentados hasta ahora, las líneas de la cuadrícula a lo largo de cada eje están espaciadas uniformemente. Esto implica que dos pares de puntos que están a la misma distancia tienen la misma magnitud de diferencia entre sus valores.
En estos sistemas de coordenadas decimos que las escalas de posición son lineales.

1.3.3 Ejes no lineales

Existen escenarios en los que se prefieren escalas no lineales, en las cuales dos pares de puntos que visualmente se encuentran a la misma distancia, no poseen la misma magnitud de diferencia entre sus valores.
La escala no lineal más utilizada es la logarítmica. Recordemos que \(\log_b x = y \implies b^y = x\).
La siguiente figura muestra la relación entre una escala lineal y otra logarítmica, en base 10. Se representan 5 datos (1, 3.16, 10, 31.6 y 100):

Las escalas logarítmicas son lineales en la multiplicación, de modo que un salto constante en la escala corresponde a una multiplicación por un valor fijo. Por ejemplo, en este caso cada dato se obtiene multiplicando el anterior por \(\sqrt{10} \approx 3.16\), y debido a esto se ven equiespaciados en la escala logarítmica de base 10.
Geométricamente no hay diferencia entre graficar los datos transformados logarítmicamente en una escala lineal o graficar los datos originales en una escala logarítmica: la única diferencia radica en el etiquetado del eje.
Generalmente es preferible etiquetar la escala logarítmica con los valores originales (tercer panel en la figura), porque es más fácil interpretar los números que se muestran. Además, nunca debemos olvidarnos de aclarar la base utilizada en el cálculo de los logaritmos.
Debido a que la multiplicación en una escala logarítmica se comporta de manera similar que la suma en una escala lineal, las escalas logarítmicas son la elección natural para cualquier dato que se haya obtenido mediante multiplicación o división (por ejemplo, tasas o razones).

Ejemplo: Censo 2022

Para los gráficos que se muestran a continuación, se tomó el número de habitantes de cada provincia de Argentina, según el Censo 2022, y se lo dividió por la mediana de esos 24 valores (23 provincias + CABA).
La razón resultante es un número que puede ser:
- Mayor a 1 si la provincia tiene más habitantes que la mediana
- Igual a 1 si la provincia tiene una población igual a la mediana
- Menor a 1 si la provincia tiene menos habitantes que la mediana
Cuando trabajamos con razones, el 1 es el punto medio (como el 0 en una escala lineal). Cada valor de 1 a \(+\infty\) se corresponde con un valor entre 0 y 1.

Veamos estas razones graficadas en escala logarítmica (la línea punteada indica una razón de 1):

Por el contrario, para los mismos datos, una escala lineal esconde las diferencias entre provincias con poblaciones mucho más pequeñas:

Las escalas logarítmicas también se usan cuando el conjunto de datos tiene números de magnitudes muy diferentes, aunque no representen multiplicaciones o divisiones. Si trabajamos con datos que toman el valor 0, se suele recomendar usar una escala de raíz cuadrada.

1.3.4 Sistemas de coordenadas con ejes curvos

Hasta ahora vimos el uso de dos ejes colocados de forma perpendicular (en ángulo recto) entre sí.
Sin embargo, existen otros sistemas de coordenadas en los que los propios ejes son curvos.
Uno de ellos es el sistema de coordenadas polares, en el que especificamos posiciones a través de un ángulo y una distancia radial desde el origen.
La siguiente figura muestra la relación entre coordenadas cartesianas y polares.
Las coordenadas \(x\) se usan como coordenadas angulares y las coordenadas \(y\) se usan como coordenadas radiales:

En este ejemplo el eje circular \(x\) va de 0 a 4 y, por lo tanto, \(x = 0\) y \(x = 4\) tienen la misma ubicación.
Por eso, las coordenadas polares pueden ser útiles para datos de naturaleza periódica, de modo que los valores en un extremo de la escala se puedan unir lógicamente a los valores en el otro extremo (ejemplo: cuando se quiere ver cómo varía una cantidad a lo largo del año).
El siguiente gráfico muestra ese caso. La figura es adecuada ya que las temperaturas normales diarias son temperaturas promedio que no están vinculadas a ningún año específico: el 31 de diciembre se puede considerar como “364 días después” o bien “un día antes” del 1° de enero.
Al graficar las temperaturas normales diarias en un sistema de coordenadas polares, enfatizamos la propiedad cíclica que poseen. Además, esta versión polar destaca cuán similares o disímiles son las temperaturas en distintas ciudades a lo largo de ciertos períodos.
Aclaraciones:
- La distancia radial desde el punto central indica la temperatura diaria en Celsius.
- Los días del año están ordenados en el sentido contrario a las agujas del reloj, comenzando con el 1 de enero en la posición de las 6:00.

En el contexto de datos geo-espaciales suelen aparecer casos en los que se utilizan ejes curvos, pero que no son necesariamente sistemas de coordenadas polares. Más adelante, en la sección dedicada a visualizaciones mediante mapas, retomaremos este tema.

1.4 Escalas de color

Hay tres casos fundamentales del uso de colores en una visualización de datos:
- Diferenciar grupos
- Representar valores
- Resaltar un mensaje

1.4.1 Diferenciar grupos

Cuando se usa el color como un medio para distinguir elementos discretos, o grupos que no tienen un orden intrínseco, debemos emplear una escala de color cualitativa.
En ese tipo de escala se cuenta con un conjunto finito de colores específicos que se eligen para que se vean claramente distintos entre sí, pero al mismo tiempo resulten similares (que ninguno se destaque sobre el resto).
En este caso, los colores no deben crear la impresión de un orden, por ejemplo, no se debe usar una secuencia de colores que se van aclarando u oscureciendo.
Hay escalas de colores predefinidas que tienen en cuenta estos aspectos:

Escalas de color cualitativas

Fila 1: la paleta de colores de Okabe-Ito fue propuesta en 2008 como una alternativa accesible a personas con deficiencia de la visión del color. Incluye colores vivos que se pueden nombrar fácilmente y que corresponden a los principales colores primarios y secundarios.
Fila 2: la escala Dark2 pertenece al proyecto ColorBrewer, desarrollado en 2017 por Cynthia Brewer, una cartógrafa que se ha dedicado a crear paletas de colores útiles para distintos contextos.
Fila 3: la escala ggplot2 hue es la escala cualitativa predeterminada en este paquete.

Ejemplo. Crecimiento de la población de Argentina de 2010 a 2022. Las provincias patagónicas (color naranja) han experimentado los mayores aumentos, mientras que las de la región pampeana (color rosa) han experimentado aumentos mucho menores.

1.4.2 Representar valores

En este caso utilizamos una escala de color secuencial. Este tipo de escala contiene una secuencia de colores que indican claramente:
1. qué valores son más grandes o más pequeños que otros;
2. qué tan distantes están dos valores específicos entre sí (se debe percibir que la escala de colores varía uniformemente en toda su gama).

Las escalas secuenciales pueden basarse en un solo tono, por ejemplo de azul oscuro a azul claro, o en múltiples tonos (de rojo oscuro a amarillo claro, etc.).
Las escalas de varios tonos tienden a seguir gradientes de color que se pueden ver en el mundo natural.
Un uso muy frecuente de este tipo de escalas, como veremos más adelante, es para representar mapas coropléticos.
Las siguientes son ejemplos de escalas predefinidas. La primera es monocromática, las otras no.

Aplicamos la escala viridis para recrear el gráfico sobre crecimiento porcentual de la población en cada provincia:

En algunos casos, necesitamos visualizar la desviación de los valores de los datos en una de dos direcciones con respecto a un punto medio neutral (ejemplo: números positivos y negativos).
Es posible que queramos mostrarlos con diferentes colores, de modo que sea inmediatamente obvio si un valor es positivo o negativo, así como cuánto se desvía del punto medio elegido.
En estos casos hay que usar una escala de color divergente: es la combinación de dos escalas secuenciales unidas en un punto medio común, que generalmente se representa con un color claro.

Es necesario equilibrar las escalas divergentes, de modo que la progresión de los colores claros en el centro a los colores oscuros en el exterior sea aproximadamente la misma en cualquier dirección (sería engañoso representar un valor de magnitud \(x\) con un color mucho más claro u oscuro que el utilizado para representar un valor de magnitud \(-x\)).
A continuación graficamos nuevamente el % de crecimiento poblacional en cada provincia, pero asumiendo que el punto medio viene dado por la mediana de estos porcentajes:

Las escalas divergentes suelen funcionar mejor cuando los datos son aproximadamente simétricos; en este caso, el punto medio corresponde a 18%, la mediana de los crecimientos observados entre ambos censos para cada jurisdicción. Tierra del Fuego, que podría llegar a considerarse como un outlier (crecimiento de casi 50%), hace que la escala de colores no se visualice en todo su rango.

1.4.3 Resaltar un mensaje

En ciertas oportunidades se usan colores para enfatizar elementos relevantes de la figura, en especial cuando hay categorías o valores específicos en el conjunto de datos que contienen información clave sobre la historia que queremos contar.
En estos casos hay que usar una escala de colores acentuados, que son escalas de colores que contienen un conjunto de colores tenues y un conjunto coincidente de colores más fuertes, más oscuros y/o más saturados.
Así, se logra el énfasis coloreando ciertos elementos de la figura en un color o conjunto de colores que se destacan vívidamente en comparación al resto.
Ejemplos de escalas de colores acentuados, cada una con cuatro colores base y tres colores acentuados:

Las escalas de colores acentuados se pueden derivar de varias maneras diferentes:
- Fila 1: tomar una escala de colores existente como la de Okabe Ito y aclarar y/o desaturar parcialmente algunos colores mientras oscurecemos otros.
- Fila 2: tomar valores grises y emparejarlos con colores más llamativos.
- Fila 3: usar una escala existente, como alguna del proyecto ColorBrewer.
Ejemplo: destacamos la provincia de Santa Fe: