La encuesta lanzada el pasado 29 de marzo (hoy ya debe ir por la tercera oleada) por el equipo que dirige Nuria Oliver, comisionada de la Generalitat Valenciana para la Estrategia de la Inteligencia Artificial (IA), fue respondida por cerca de 147.000 personas (76,2% de la Comunidad Valenciana). Ciertamente, se trata de un ejemplo de solidaridad e implicación ciudadana para el uso de datos para el bien común y, de hecho, se ha convertido en una de las más grandes del mundo hecha a la ciudadanía con respecto a la COVID-19.
Este esfuerzo por incorporar la IA en la gestión de la pandemia era imprescindible y deseable. Sin embargo, la urgencia no le va bien a la buena ciencia, aunque sea ciencia de datos, si nos olvidamos de los presupuestos básicos de nuestras disciplinas. En este caso, los sesgos de estimación de los que se preocupa la estadística clásica, sesgos que es necesario considerar incluso cuando estamos trabajando con encuestas muy grandes, casi Big Data. Para quien está acostumbrado a manejar información estadística demográfica, social y laboral, una lectura rápida del trabajo del equipo de Nuria Oliver sobre la primera oleada de la encuesta (publicado en https://arxiv.org/abs/2004.01014) deriva en ciertas preocupaciones.
Para empezar, porque una encuesta voluntaria casi siempre va a tener sesgo. El sesgo de autoselección de la gente bienintencionada que responde; y más, una encuesta on-line que saca a relucir la brecha digital. ¿Imaginamos a nuestros padres o abuelos contestando? Esto es algo inevitable en una (necesaria) encuesta planteada con apremio, pero debe ser advertido claramente cuando se difunden sus resultados, cosa que no se ha hecho. Es más, en el trabajo se indica que la metodología empleada de “bola de nieve”- por la que se lanza una encuesta por Twitter y WhatsApp a un amplio conjunto de usuarios altamente conectados que, a su vez, reenvían a sus contactos, quienes responden voluntaria y anónimamente- asegura la ausencia de limitaciones o factores de sesgo (sic). Más bien, la advertencia tendría que ser la contraria.
Quizá a alguien le parezca exagerada la alarma, pero vayamos a los resultados que llaman la atención. El peso de las mujeres en la encuesta COVID-19 es del 59,4% mientras que su proporción en la población, de la Comunidad Valenciana o de España, no supera el 51,5%. Raro, ¿no? Y más si, como dicen los expertos, la brecha digital afecta más a las mujeres. Encontramos, más adelante, dos cifras que deberían ponernos en alerta. Primero, que un 29,4% -casi un tercio- de los encuestados dicen poder aguantar el confinamiento sin problemas entre 2 y 6 meses y, segundo, que los encuestados que trabajan en el sector público (según los autores del estudio, educación, administración pública, servicios esenciales y salud) alcancen un total del 41% de todos los ocupados de la muestra. La intuición nos dice que no parece que estos porcentajes estén representando bien a nuestra sociedad. Volvemos a la pregunta: ¿quizá hay algún sesgo en la encuesta?
Para decir algo al respecto no hay más remedio que recurrir a la información del INE. Comenzando por el Padrón Continuo (a 1 de enero de 2019), podemos confirmar que la estructura por sexo y edad de la muestra está distorsionada. Por ejemplo, la población entre 18 y 19 años que en la muestra supone el 1%, en el Padrón se triplica, pues pesa el 3,5%. O la población entre 41-50 años que en el Padrón supera muy ligeramente el 20%, en la muestra es el 27,3%. Más de siete puntos de diferencia… Pero las cosas no acaban aquí, abundando en la distribución de la muestra COVID-19 resulta que hay un doble sesgo adicional bastante más grave: la población entre 30 y 59 años supone el 68% de los hombres que han respondido y el 71,2% de las mujeres. Sin embargo, en la población total, los porcentajes de estas edades son del 56,3% y del 52,8%, respectivamente. Es decir, la muestra COVID-19 no solo se concentra más en ciertas edades centrales sino que, además y a diferencia de la población real, aglutina a más mujeres. ¿Será eso importante?
Con la Encuesta de Población Activa (EPA), se puede cotejar el mercado laboral que describe la encuesta COVID-19. Para comenzar, si de los 127.780 encuestados COVID-19, hay 78.600 personas que dicen no haber perdido su empleo y 14.471 que dicen haberlo perdido por causa de la pandemia, entonces es que al principio de la enfermedad 93.071 personas tenían trabajo. Esto es, la tasa de ocupación en la muestra era del 72,8% dejando el restante 27,25% para el grupo de los desempleados y de los inactivos. Cualquiera que conozca los trazos gruesos del mercado laboral español se da cuenta de que estas cifras no responden a la realidad. Cito los datos de la EPA para la Comunidad Valenciana (muy parecidos a los nacionales): el porcentaje de ocupados sobre los potencialmente activos es del 50,2% en el cuarto trimestre de 2019, el peso de los parados del 8,3% y de los inactivos del 41,5%. Esto es, parados e inactivos reales (49,8%) duplican la proporción que se maneja en el estudio. ¿Algún problema con esta disparidad?
Las desviaciones no solo se encuentran en la situación de las personas en relación con el mercado laboral, también aparecen sesgos significativos en relación con la rama de actividad. Hacer aquí la comparación no es tan directo como en los casos anteriores pues no sabemos si el equipo de Nuria Oliver ha agrupado las ramas de actividad de acuerdo con el estándar estadístico de la Clasificación Nacional de Actividades (CNAE) que utiliza el INE, pero hay algunas cosas preocupantes. Por ejemplo, que el peso de ciertas ramas de la actividad sea menor en la encuesta que en la realidad. Por ejemplo, la “Venta al por menor” (7,5% de los ocupados en la encuesta frente al 15,5% de la EPA), “Construcción” (3% en la encuesta frente al 6,5% en la EPA), “Hoteles y alojamientos” (4,1% en la encuesta frente al 8,7% en la EPA) o “Manufacturas” (4,6% en la encuesta frente al 12,6% en la EPA). Y, por el contrario, que otras ramas de la actividad se encuentren sobre representadas. Es el caso de la rama “Educación” (16,6% en la encuesta frente al 6,9% de la EPA), “Actividades profesionales, científicas y técnicas especializadas” (8,4% en la encuesta frente al 5,2% en la EPA) o “Administración pública” (8,3% en la encuesta frente al 6,8% en la EPA). El problema con esto es que la encuesta COVID-19 subestima la importancia de las ramas de actividad más directamente afectadas por la crisis. Entonces, ¿no se estarán generando ahí más sesgos?
De todo lo dicho, el resumen es que, aunque se trate de encuestas muy grandes, no hay que perder de vista el problema del sesgo, que no es otro más que los encuestados no reflejen la realidad que pretendemos estudiar. Un sesgo relativamente grande, como el que estamos viendo en la encuesta COVID-19, tiene una alta probabilidad de general resultados no válidos científicamente. Si la estadística clásica resuelve la parte del sesgo que procede de la desviación de la distribución muestral con la reponderación de los sujetos entrevistados ajustándolos a la distribución poblacional, ¿por qué no se ha hecho aquí?…
Y en este sentido, no hay que olvidar la rigurosa actividad del INE en la crisis de la COVID-19, prestando apoyo técnico y colaboración en distintos proyectos para el seguimiento y evaluación de la situación social, sanitaria y económica durante el estado de alarma (ver en la página https://www.ine.es/covid/covid_inicio.htm, lanzada el pasado 13 de abril). Entre ellos, apoyando en el diseño muestral para el estudio epidemiológico para medir la expansión del contagio del Centro Nacional de Epidemiología (Instituto de Salud Carlos III); elaborando el estudio de la movilidad de la población durante el periodo de confinamiento, que coordina la Secretaría de Estado de Digitalización e Inteligencia Artificial del Ministerio de Asuntos Económicos y Transformación Digital y, finalmente, con la colaboración técnica en el proyecto de estudio de los factores que determinan los ritmos de expansión de la COVID-19 que también realiza el Centro Nacional de Epidemiología. En concreto, en este último el INE colaborará en el desarrollo de métodos que permitan la incorporación de datos de telefonía móvil, así como en la construcción y análisis del modelo de predicción de la tasa de crecimiento de la epidemia, y en el estudio del potencial aprovechamiento de las fuentes estadísticas existentes.