Corona Virus 3 marzo

Comienzo a escribir esto el 28 de Febrero. Miro los dashboards de todo el mundo. Indonesia tiene cero casos. Está rodeado de países con decenas o centenares de caso. No les creo. Hay un gap entre la gente y la información en donde entendemos o no. Ese gap se resume en algo llamado Data Literacy. 

En medio del panorama incierto que trae el CoronaVirus (contagio de cerca de 90K personas, suspensión de actividades masivas, cierre de fronteras, recesión y cierta paranoia) creo que se pueden aprender lecciones interesantes acerca de criterios para la carga, categorización e interpretación de los Datos, pero también sobre las reacciones de distintos grupos humanos frente a los hechos comunicados por la prensa internacional.

No soy médico, por lo tanto no hablaré de las cuestiones preventivas o de salud. Me interesa la manera en que la gente interactúa con la data: de qué manera le cree, la entiende y razona con ella.

1) Ya durante los primeros días de la enfermedad la gente del Johns Hopkins publicó un excelente dashboard que da cuenta día a día del avance de la enfermedad. Tuvo sus tableros competidores pero sigue ganando por varios cuerpos el de JHS. Bien por ellos. Aconsejo su revisión a lo largo de los días.

2) Hace tres semanas hubo un cambio de nombre en el virus. Me enteré que el «branding» de las nuevas enfermedades se cocina en distintos organismos (no solo la OMS o la WHO, hay algo de competencia voraz ahí). Lección para PMs, jamás se debe cambiar el nombre del objeto principal del proyecto en medio del asunto. El gran público llegó a pensar que se trataba de dos virus diferentes.

3) Miremos los casos de China, ese gran 90% de la data. De golpe hubo un salto de un factor x10 en las nuevas altas (ver imagen más abajo). Qué había pasado? China había cambiado la forma de contar sus casos, tal vez presionada por la OMS o por un cambio de criterio interno. La forma de la curva de los casos acumulados, que en el primer mes mostraba cierta atenuación, empezó a preocupar. Igual que Telcos y Bancos «escondiendo bajas a fin de mes» y mejorando la foto a sus accionistas, los chinos habían hecho trampa, o bien presionados por la OMS o bien saldando cuestiones internas. Lo que es una ayuda a corto plazo, mostrar números más bonitos, es un sabotaje a largo plazo. Con la definición y la contabilidad de la métrica no hay que mentir. Otros ejemplos:  forma de medir la pobreza o la inflación en Argentina. Falsear estadísticas es quedarse a ciegas para la acción. Lección, no caer jamás en la tentación de alterar las cifras.

Co Virus daily incr

4) Mismo asunto. Por qué es importante la métrica de las nuevos contagios? A falta de un modelo que explique la transmisibilidad del virus (R0, ver punto final), que sigue en análisis, los nuevos casos nos dicen cómo va creciendo la enfermedad a modo «macro»: se atenúa y tiene techo, como las «curvas S», o crece sin control ? Hay algo de veleidad mecanicista aquí en esto de predecir el número total de casos aún sin saber cómo curar a cada pacientes, nos recuerda a la Termodinámica y a la Ecuación del Gas Ideal (PV = nRT): no sabemos qué hace cada molécula pero nos tranquiliza poder describir el comportamiento del conjunto. Otra analogía más cool, Hari Seldon y la psicohistoria de Asimov que describía la evolución de sociedades pero no de individuos.

5) En cuanto a las categorías del tablero, la columna de la izquierda muestra algo extraño, un país llamado «Others» en el tercer puesto de contagios (ver figura más abajo). Se trata del crucero Diamond Princess anclado en Yokohama. Lección, los eufemismos asustan y las categorías raras asustan más. Imagino la discusión al decidir equiparar el crucero a una región o un país. Japón no habrá querido reclamar para sí esos contagios portuarios. «Esos casos se los cuentan a otro». Y así nació «Others». Como fuere, la lección es que categorizar es un arte.  Decía Borges en su cuento sobre John Wilkins  “no hay clasificación del universo que no sea arbitraria y conjetural. La razón es muy simple: no sabemos qué cosa es el universo.” Y eso justamente se refleja en nuestras pobres taxonomías. Lección aquí, si tenemos un «Others» en el tercer lugar de algo, estamos describiendo muy torpemente nuestro Universo.

Co Virus tabla

6) En la misma tabla vemos los casos de Italia e Irán, persiguiendo al crucero en el raro privilegio de desbancarle el tercer puesto. Lo de Italia es muy raro. Están midiendo más que el resto? Con qué sentido? Tienen algún otro criterio de diagnóstico? Ningún país europeo, aún limítrofe, se le acerca a la décima parte de los casos. Suiza tiene 8 casos y Austria solo 3. Ningún modelo de migración de enfermedades basado por ejemplo en frecuencia de vuelos (un buen proxy de esto son los celulares de los pasajeros) permite llegar a estos resultados. Irán por su lado es otra incógnita, y la presunción es que hay muchas muertes no declaradas, simplemente por carecer de estadísticas. BBC reporta 210 casos en Irán, pero el sitio oficial de JHS solo exhibe 34 casos.

Volviendo a Italia: suponiendo que los diagnósticos han sido correctos, pasó de 3 casos el 20-Feb a 888 casos el 28-Feb.  Es un 100x en una semana. De nuevo, eso se parece a los crecimientos en Corea del Sur y probablemente en Irán. Muy distinto al lento conteo en China, por lo menos hasta el 19-Feb. Y eso justamente es lo que produce la alarma en la OMS y en la WHO.  Sin criterios homogéneos en el tratamiento de la data, el proyecto de medir casos se torna poco confiable.

Finalmente, Indonesia tiene cero casos. Cero. Todos los países del Sudeste Asiático tienen una buena cantidad de contagios, pero Indonesia, no. (:D).

7) A veces la derivada importante más que la función. En algunos países donde cambió mucho la tendencia (España en los últimos 3 días, Irán por el aparente ocultamiento de cifras) esto se advertiría fácilmente si el tablero incluyera cuánto crece el contagio en relación a los últimos 2 o 3 días. Es solo un nuevo KPI que podría aportar mucho

8) El GitHub asociado al tablero del JHS revela celdas en blanco. Algunos países muestran granularidad a nivel provincia (Estados Unidos exige esta diferenciación a rajatabla) y otros no. Siempre se aprende mucho mirando el dato casi crudo, mucho antes de llegar al vistoso dashboard.

CoVirus github

Data Literacy es un conjunto de habilidades que nos permite «husmear» los datos, tener buenas discusiones, evitar las decisiones apresuradas, lograr acordar con otros usando pensamiento crítico. Hay muchas lecciones de Data Literacy alrededor del caso del Corona Virus. Tal vez la mayor lección es lo que el New York Times llama Infodemics, la desinformación respecto a las enfermedades. Dejemos pasar algunos días para calmar las aguas, no nos infoxiquemos, aprendamos algunas lecciones más, y tomemos buenas decisiones respecto a viajes y actitudes preventivas frente a posibles contagios.

Termino de corregir, reducir y aligerar esto, tres días después. Ya tenemos un caso en Argentina, avanzó mucho la enfermedad. Sigue sin ser algo paranoico. Le tengo más miedo a las medidas irracionales de los países que a la enfermedad.

Y por supuesto, Indonesia sigue en cero casos.