La visualización de datos: entender la expansión del COVID-19 en un minuto

Lluís Vicent

- Profesor y director de la programación online de la UPF Barcelona School of Management
- Profesor de Data Analytics 

 

La pandemia del COVID-19 se ha extendido de China hasta Estados Unidos. Representar bien los datos nos hace digerible de manera intuitiva e inmediata muchos sucesos de la humanidad. 

La pandemia del COVID-19 se originó en China. O al menos, así se explica. De ahí se extendió a países vecinos donde, según nos cuentan, se atajó bien. Luego a Italia, donde hizo fuerte mella en la población, pasando casi inmediatamente con fuerza a España, y también a otros países europeos. Y de ahí a los Estados Unidos, el país donde parece que impacta más fuertemente.

Todo esto se mide con datos. Datos que, a veces, no tienen significado para los humanos, o quizá un significado engañoso. ¿Cómo sabemos de manera rigurosa cuán rápida ha sido la infección?, o ¿cuánto ha afectado realmente a un territorio? 200,000 infectados en toda China tiene un impacto muy diferente que 200,000 infectados en España.

Hans Rosling nos enseñó en The best stats you've ever seen que representar bien los datos nos hace digerible de manera intuitiva e inmediata muchos sucesos de la humanidad. Ahora que data es un término que con diferentes apellidos se ha vuelto absolutamente imprescindible en las universidades y empresas -data analytics, big data, data mining, data science- la visualización de los datos irrumpe como la mejor manera de entender muchos procesos y sucesos ¿Quién iba a plantearse hace años que hubiera especialistas en hacer "gráficas"?

Para crear gráficas significativas, el primer paso es plantearse la pregunta ¿qué queremos conocer?

Veamos unos ejemplos con el COVID-19. Éstas parecen ser algunas de las preguntas relevantes:

  • ¿Dónde hay más infectados?
  • ¿A qué velocidad crece y decrece el número de infectados?
  • ¿Qué países tienen un ratio más grande de infectados por población?
  • ¿Hay variaciones en la letalidad del COVID en cada país?
  • ¿A qué velocidad se transmite de un país a otro?
  • ¿Qué regiones del mundo están más afectadas?

Son preguntas expresadas en lenguaje normal, que llevan intrínsecas las siguientes variables:

  • número total de infectados
  • número de infectados por día / 100,000 habitantes
  • número total de muertos / número total de infectados (letalidad)
  • países
  • tiempo (para evaluar las velocidades)

Y una vez definidas, ya podemos plantear gráficas que nos den respuesta a las preguntas. Veamos dos tipos de gráficos.

El primero será cartesiano. Se representa la letalidad en el eje X , y el número de infectados diagnosticados por día en el Y. Cada país del mundo quedará representado por un punto de la gráfica. Y para visualizar el número total de infectados se puede aprovechar cada punto y convertirlo en un círculo con una superficie proporcional al número total de infectados. Y los puntos pueden ser de colores diferentes en función del continente. Finalmente, como queremos conocer la velocidad, se necesitará representar esta gráfica para cada día de la pandemia y ver cómo evoluciona en cada país.

El resultado se puede observar aquí:

De esta manera, con una sola representación, hemos podido dar respuesta a seis preguntas y sacar las primeras conclusiones:

Durante casi dos meses la pandemia ha estado muy estabilizada en China y los alrededores donde se consiguió controlar. Al tercer mes, empezó a crecer fuertemente en Europa donde su expansión por muchos países ha sido rapidísima. Al cuarto mes ha pasado a los Estados Unidos que en muy poquitos días ha pasado a ser el país del mundo con más infectados. Los países con una letalidad más agresiva han sido Italia, España, el Reino Unido y Francia, , ... con Alemania como ejemplo donde la letalidad ha sido baja.

También se puede representar con un mapamundi de fondo. El número de infectados diario por unidad de población se puede representar con colores , y con círculos y grosores el número de infectados total en cada país. Se podrían añadir más variables, incluyendo otras formas como cuadrados, rombos, etc. pero el exceso de información podría sobrecargar demasiado el gráfico:

Esta visualización, de una manera muy intuitiva, da una información óptima sobre qué zonas del planeta están experimentando un crecimiento más acusado de la pandemia en cada momento.

Vemos que la visualización de datos hace ahorrar tiempo y esfuerzo a nuestros cerebros, permitiéndonos, con un golpe de vista, conocer inmediatamente qué está pasando.

Pero...

Los datos hay que tratarlos adecuadamente. Estas gráficas contienen una clara limitación: los datos son los oficiales que ofrece cada país. Y cada país hace las cosas de manera diferente. Y "las cosas" incluye: cuántos tests hace a la población, con qué criterio, cómo se cuenta a los infectados, cómo se cuenta a los muertos y qué datos se comunican.

Parece inverosímil la letalidad tan alta de Italia o España. El número de infectados en estos países, donde los tests no se ha prodigado entre la población, probablemente sea varias veces superior al que arrojan las cifras oficiales.

La visualización de datos en un mismo gráfico exige que los datos sean comparables. Y estas representaciones que he mostrado elaboradas con cifras oficiales, nos dan información, pero nos pueden llevar también a engaño.

 

.