La visualització de dades: entendre l'expansió del COVID-19 en un minut

Lluís Vicent

- Professor i director de la programació online de la UPF Barcelona School of Management
- Professor de Data Analytics 

 

La pandèmia del COVID-19 s'ha estès de la Xina fins als Estats Units. Representar bé les dades ens fa digerible de manera intuïtiva i immediata molts successos de la humanitat. 

La pandèmia del COVID-19 es va originar a la Xina. O al menys, així s'explica. D'aquí es va estendre a països veïns on, segons ens expliquen, es va aturar bé. Després a Itàlia, on va impactar fort en la població, passant gairebé immediatament amb força a Espanya, i també a altres països europeus. I d'aquí als Estats Units, el país on sembla que impacta més fortament.

Tot això es mesura amb dades. Dades que, de vegades, no tenen significat per als humans, o potser un significat enganyós. Com sabem de manera rigorosa com de ràpida ha estat la infecció? o quant ha afectat realment a un territori? 200,000 infectats a tota la Xina té un impacte molt diferent que 200,000 infectats a Espanya.

Hans Rosling ens va ensenyar a The best stats you've ever seen que representar bé les dades ens fa digerible de manera intuïtiva i immediata molts successos de la humanitat. Ara data és un terme que amb diferents cognoms s'ha tornat absolutament imprescindible a les universitats i empreses -data analytics, big data, data mining, data science- i la visualització de les dades irromp com la millor manera d'entendre molts processos i successos. Qui havia de plantejar-se fa uns anys que hi hauria especialistes a fer "gràfiques"?

Per crear gràfiques significatives, el primer pas és plantejar-se la pregunta: què volem conèixer? Veiem alguns exemples amb el COVID-19. Aquestes semblen ser algunes de les preguntes rellevants:

  • On hi ha més infectats?
  • A quina velocitat creix i decreix el nombre d'infectats?
  • Quins països tenen una ràtio més gran d'infectats per població?
  • Hi ha variacions en la letalitat del COVID a cada país?
  • A quina velocitat es transmet d'un país a un altre?
  • Quines regions del món estan més afectades?

Són preguntes expressades en llenguatge normal, que porten intrínseques les següents variables:

  • nombre total d'infectats
  • nombre d'infectats per dia/100,000 habitants
  • nombre total de morts/nombre total d'infectats (letalitat)
  • països
  • temps (per avaluar les velocitats)

Un cop definides, ja podem plantejar gràfiques que ens donin resposta a les preguntes. Veiem dos tipus de gràfics.

El primer serà cartesià. Representa la letalitat en l'eix X, i el nombre d'infectats diagnosticats per dia en l'eix Y. Cada país del món quedarà representat per un punt de la gràfica. I per visualitzar el nombre total d'infectats es pot aprofitar cada punt i convertir-lo en un cercle amb una superfície proporcional al nombre total d'infectats. I els punts poden ser de colors diferents en funció del continent. Finalment, com volem conèixer la velocitat, es necessitarà representar aquesta gràfica cada dia de la pandèmia i veure com evoluciona a cada país.

El resultat es pot observar aquí:

D'aquesta manera, amb una sola representació, hem pogut donar resposta a sis preguntes i treure les primeres conclusions:

Durant gairebé dos mesos la pandèmia ha estat molt estabilitzada a la Xina i els voltants on es va aconseguir controlar. A el tercer mes, va començar a créixer fortament a Europa on la seva expansió per molts països ha estat rapidíssima. Al quart mes ha passat als Estats Units que en molt pocs dies esdevé el país del món amb més infectats. Els països amb una letalitat més agressiva han estat Itàlia, Espanya, el Regne Unit i França,... amb Alemanya com a exemple on la letalitat ha estat baixa.

També es pot representar amb un mapamundi de fons. El nombre d'infectats diari per unitat de població es pot representar amb colors, i amb cercles i gruixos el nombre d'infectats total a cada país. Es podrien afegir més variables, incloent altres formes com quadrats, rombes, etc. però l'excés d'informació podria sobrecarregar massa el gràfic:

Aquesta visualització, d'una manera molt intuïtiva, dóna una informació òptima sobre quines zones del planeta estan experimentant un creixement més acusat de la pandèmia en cada moment. Veiem que la visualització de dades fa estalviar temps i esforç als nostres cervells, permetent-nos, amb un cop de vista, conèixer immediatament què està passant. Però...

Les dades cal tractar-les adequadament. Aquestes gràfiques contenen una clara limitació: les dades són les oficials que ofereix cada país. I cada país fa les coses de manera diferent. I "les coses" inclou: quants tests fa a la població, amb quin criteri, com s'expliquen els infectats, com s'expliquen els morts i quines dades es comuniquen.

Sembla inversemblant la letalitat tan alta d'Itàlia o Espanya. El nombre d'infectats en aquests països, on els tests no s'han prodigat entre la població, probablement sigui diverses vegades superior a les què ofereixen les xifres oficials.

La visualització de dades en un mateix gràfic exigeix ​​que les dades siguin comparables. I aquestes representacions que he mostrat elaborades amb xifres oficials, ens donen informació, però ens poden portar també a engany. 

.