Covid-19: Anticipando el avance de la pandemia usando Google – Francisco Gallego

9 de Julio 2020

Artículo escrito por Jaime Casassus, profesor Asociado Instituto de Economía UC, Francisco Gallego, profesor Asociado Instituto de Economía UC y Director Científico de J-PAL LAC, y Rodrigo Icarán, estudiante de Magíster en Economía UC.

Uno de los grandes desafíos del manejo de la pandemia tiene que ver con identificar a tiempo la existencia de nuevos contagios. Por ejemplo, el 12 de junio, la portada del diario El Mercurio titulaba “Cuatro de cada diez enfermos con Coronavirus no recibieron el resultado de su examen PCR mientras eran contagiosos”. Este dato es sumamente preocupante, por un lado, porque – para los pacientes – la entrega de este resultado con tal nivel de demora pasa a ser prácticamente un hecho anecdótico. Por otro, porque si la información más importante para la toma de decisiones se recibe con tal nivel de retraso, resulta bastante improbable – y casi imposible – adoptar en su debido tiempo las medidas necesarias para apaciguar el avance de la enfermedad. Dicho de otro modo, la autoridad podría estar hoy tomando las decisiones que eran adecuadas 14 días antes. En esta columna sugerimos brevemente nuevos métodos, aunque preliminares, para obtener información con menor retraso sobre la evolución de los contagios en nuestro país.

Un reciente trabajo de algunos académicos del Harvard Medical School, plantea que la enfermedad pudo ya haber estado circulando durante 2019.[1] Los autores llegan a esta conclusión, principalmente al observar que durante el segundo semestre de 2019, en algunas ciudades de Asia se observó un aumento explosivo – comparado con años previos – de búsquedas en Internet sobre síntomas relacionados con la enfermedad: fiebre, tos, diarrea, entre otros. Con esta motivación y con el rezago en la entrega de los resultados del examen PCR en nuestro país, intentamos estudiar si una metodología similar podría ser útil para monitorear la evolución del número de nuevos casos en Chile.[2]

Intuitivamente pensamos que una persona que recientemente empieza a experimentar los síntomas del Coronavirus, debiese ser más propensa a hacer búsquedas en Google del tipo “examen”, “PCR”, “olfato” y otras palabras clave relacionadas tanto con la sintomatología de la enfermedad como con la demanda por realizarse exámenes relacionados a ella. En consecuencia, si más personas se estuviesen contagiando en un momento dado, se debiese observar un alza en la cantidad de búsquedas relacionadas. Al parecer, esta relación si se cumpliría en la práctica. La Figura 1 anexa muestra la evolución de la cantidad de búsquedas en Google de los términos mencionados anteriormente para la Región Metropolitana. Los datos originales se obtienen con frecuencia diaria, pero para este análisis se considera un promedio móvil de 7 días para eliminar posibles estacionalidades producto de los fines de semana. Si bien es claro que los términos tienen distintos grados de popularidad, se puede observar una alta correlación entre las búsquedas de ellos.

A partir de los datos anteriores, se construye un índice que denominamos “Índice GTCovid”, y que consiste en una combinación lineal de las búsquedas en Google de los términos considerados en este análisis. Las ponderaciones para el índice corresponden a la primera componente principal de los datos estandarizados.[3] La Figura 2 muestra este índice para la Región Metropolitana y sus componentes originales. El índice muestra un alza importante en la popularidad de estos términos durante la primera mitad de mayo, luego un aumento menor hasta inicios de la segunda semana de junio, para terminar con una caída sostenida a partir de esa fecha.

Dado que los términos considerados se relacionan con los síntomas de Coronavirus, resulta natural analizar si el índice tiene algún poder predictivo de corto plazo sobre los nuevos casos confirmados de manera de poder saber si el número de contagiados está aumentando o no en la región. Si bien esta anticipación de poco sirve para quienes realizan las búsquedas en Google en caso que ya tuviesen el virus, conocer esta información a tiempo permitiría tomar medidas que eviten un mayor contagio en el resto de la población. El análisis de predictibilidad también se podría realizar sobre otras variables como la tasa de positividad que controla por cambios en tests hechos, visitas a servicios de urgencia, utilización de camas UCI de hospital, o cantidad de defunciones por COVID-19. No obstante, en este contexto, parece ser más relevante intentar predecir el número de nuevos contagiados, pues son el primer eslabón dentro de una cadena de eventos posteriores como los mencionados anteriormente.

La Figura 3 muestra la evolución del Índice GTCovid y del número de nuevos contagios confirmados con PCR para la Región Metropolitana, también considerando un promedio móvil de los últimos 7 días y datos estandarizados. Como bien sabemos, el número de casos nuevos aumentó en forma considerable a partir de la segunda semana de mayo, para luego seguir creciendo a una menor tasa entre la última semana de mayo y mediados de junio, para finalmente empezar a disminuir a partir de esa fecha. La similitud entre ambas curvas de la figura es evidente, así como lo es también la anticipación de aproximadamente una semana que tiene el índice construido a partir de las búsquedas de Google. La alta correlación y el desfase de ambas series de tiempo sugiere que la cantidad de búsquedas en Google permitiría tener una aproximación razonable, con un rezago muchísimo menor que el de los test PCR, del avance de la enfermedad en la población.

La existencia de una relación conceptual entre la probabilidad de contagio de COVID-19 con el interés por conocer acerca de sus síntomas (por ejemplo, la pérdida de olfato) y la forma de verificar su existencia (por ejemplo, a través de un examen PCR), nos permite reducir la posibilidad de que nuestros resultados sean fruto de una simple coincidencia. Alternativamente, cuando usamos términos relacionados con la pandemia pero que no guardan relación directa con los síntomas del virus – como, por ejemplo, “coronavirus”, “COVID”, o incluso “cuarentena” – resulta imposible generar información que anticipe correctamente a la cantidad de nuevos contagios. Esto nos ayuda a descartar que la correlación observada corresponda a un fenómeno espurio.

Para complementar lo anterior y validar el procedimiento, realizamos dos ejercicios estadísticos para evaluar formalmente la anticipación que tiene el Índice GTCovid y medir su capacidad de predecir los nuevos casos por COVID-19. El primero consiste en un test de causalidad temporal de Granger, donde se rechaza con fuerza la hipótesis de que nuestro índice no causa la cantidad de casos nuevos en la Región Metropolitana. Al revisar la causalidad inversa, no es posible rechazar que los casos nuevos no causen, en el sentido de Granger, al índice de Google.

Para medir la capacidad de predicción del índice se considera un modelo lineal, que llamamos “modelo GTCovid”, y que tiene como variable dependiente el promedio de nuevos contagios de los últimos 7 días, mientras que como regresores utiliza rezagos de 7 y 14 días de la misma variable de contagios y del Índice GTCovid. Este modelo se compara con uno que usa solo los rezagos de 7 y 14 días de nuevos contagios, para predecir los nuevos casos de la semana actual. Este modelo autorregresivo lo llamamos “AR(2)”. Como lo importante es medir la capacidad de predecir de los modelos, se considera una ventana móvil de 6 semanas para estimar los modelos y luego realizar la predicción fuera-de-muestra para la semana siguiente. Para la semana siguiente se vuelva a recalibrar el modelo con la nueva ventana de las últimas 6 semanas.

La Figura 4 muestra la predicción del modelo GTCovid y del modelo AR(2), además de la curva de nuevos casos de contagios. La primera predicción es para mediados de mayo debido a que se necesitan 6 semanas para la muestra además de 2 semanas más para los rezagos. Ambos modelos son capaces de predecir el fuerte aumento en nuevos casos que se evidenció en mayo, sin embargo, solo el modelo que considera las búsquedas de Google fue capaz de anticipar rápidamente el cambio de tendencia que ocurrió a fines de ese mes. El modelo AR(2) necesitó por lo menos una semana más para corregir la tendencia. Algo similar ocurre con la disminución de casos que empezó a mediados de junio. El modelo GTCovid anticipó correctamente la caída en los casos nuevos, mientras que el modelo AR(2) tuvo que esperar al menos una semana para realizar la corrección.

La Figura 5 presenta las predicciones semanales de cada modelo versus los nuevos casos de corona-virus efectivos. Las predicciones del modelo GTCovid se encuentran siempre en torno de la línea en 45 grados, lo que habla muy bien de su capacidad de ajuste. Las predicciones del modelo AR(2) son más dispersas y están principalmente por debajo de la línea en 45 grados, lo que siguiere cierto sesgo positivo para este periodo particular. El incluir información de las búsquedas en Google permite reducir la raíz del error cuadrático medio (RMSE) de las predicciones fuera-de-muestra desde 0.43 a 0.15 y su error medio absoluto (MAE) desde 0.35 a 0.12.

Con todo, si bien en principio, creemos que métodos como los expuestos anteriormente pueden ser utilizados como insumo secundario para monitorear el avance de la pandemia y, eventualmente, anticipar un posible rebrote del virus, es evidente que deben ser interpretados con cautela.[4] Factores como un acceso a Internet demasiado heterogéneo, entre otros, podrían llevar a establecer conclusiones erradas. Por ejemplo, eventualmente podría ocurrir que el virus se comenzará a transmitir fuertemente en zonas sin acceso a Internet, lo que evidentemente no sería detectable a través de las búsquedas en Google. También podría ser necesario identificar otros comportamientos o búsquedas que ayuden a predecir un rebrote de la enfermedad (por ejemplo, relacionados a modos de evitar medidas de distanciamiento social). De todas formas, ejercicios como este muestran la importancia de la utilización de datos no convencionales en políticas públicas, terreno en el cual aún parece haber un largo camino por recorrer.[5]

[1] Nsoesie, Elaine Okanyene, Benjamin Rader, Yiyao L. Barnoon, Lauren Goodwin, and John S. Brownstein. Analysis of hospital traffic and search engine data in Wuhan China indicates early disease activity in the Fall of 2019 (2020)

[2] Otros artículos científicos y de prensa han considerado este tema en otros países. Por ejemplo: Dukic, Vanja, et al. Tracking Epidemics With Google Flu Trends Data and a State-Space SEIR Model. Journal of the American Statistical Association (2012) y Stephens-Davidowitz en una columna de opinión en el The New York Times (2020)

[3] Esta metodología ya se ha aplicado a otros problemas de predicción en otras esferas para el caso de Chile y otros países. Ver, por ejemplo, “Nowcasting with Google Trends in an Emerging Market”, YAN CARRIÈRE-SWALLOW y FELIPE LABBÉ. Journal of Forecasting, 2013.

[4] Notar cómo en diversas disciplinas de las ciencias sociales se han utilizado indicadores de búsqueda en Internet para identificar diversos fenómenos realizados con comportamientos e identificar tendencias en tiempo real.

[5] Se puede mencionar en esta línea los trabajos realizado en varios países utilizando análisis de aguas servidas. Ver, por ejemplo, el reciente artículo de Ampuero et al. (2020) “SARS-CoV-2 Detection in Sewage in Santiago, Chile – Preliminary results”.