Disclaimer 1 – La matemática
Existen muchas formas de relevar la opinión de una población sobre un tema: focus groups, entrevistas a actores clave, entrevistas en la calle, foros de expertos y una miríada de opciones más. Las encuestas son apenas una de ellas.
Las encuestas tienen la particularidad de tener como fundamento un teorema matemático que permite a partir de ciertas hipótesis, determinar con una probabilidad muy elevada la opinión general basándose en un número relativamente pequeño de entrevistas. Pero, y siempre hay un pero, son válidas si y solo si todas y cada una de las hipótesis son ciertas, y esto incluye obligatoriamente que la probabilidad de ser entrevistado sea idéntica para todos los individuos del universo (o dentro de cada estrato si la muestra es estratificada).
Lamentablemente la matemática es una ciencia exacta, de las duras y rígidas: si no se cumplen todas las hipótesis, no se pueden aplicar las tesis. No hay medias tintas. Un relevamiento que se hace pasar por encuesta pero que no cumple todas y cada una de las hipótesis no es otra cosa que algún tipo de sondeo.
Los sondeos que se hacen en Uruguay contratando avisos en Facebook no cumplen estas hipótesis, y por lo tanto no pueden ser catalogadas como encuestas.
Disclaimer 2 – La innovación
La historia de la innovación es uno de los pilares de la historia de la humanidad. El esfuerzo por hacer más, mejor, más rápido y más barato es una línea continua que arranca el día que un humano utilizó por primera vez una herramienta, tal vez el momento en que empuñó un hueso por arma, como sugiere Stanley Kubrick en 2001 odisea del espacio, y que se prolonga hasta nuestros días siempre con una intensidad en aumento.
De ahí a entender que nuevo es sinónimo de innovación hay un camino árido y espinoso. La historia está plagada de teorías e inventos nuevos que resultaron fiascos, embustes y falsas innovaciones. En todos los terrenos.
Mi favorita es la teoría autoctonista, surgida en la segunda mitad del siglo XIX y liderada por el historiador argentino Florentino Ameghino, que afirmaba que el hombre americano tenía su origen en la Pampa y que su primer exponente fue el Homo pampeanus ("Hombre de la Pampa"), en base al hallazgo de restos fósiles que se afirmaba eran de humanoides y tenían cientos de miles de años.
La teoría autoctonista tuvo 30 años de apogeo, con cientos de publicaciones y premios internacionales, hasta que en 1908 el antropólogo Aleš Hrdlicka demostró que los fósiles no eran otra cosa que huesos de monos y mastodontes, más algún hueso humano reciente, y por lo tanto la teoría no era otra cosa que un completo fiasco, lo que no fue impedimento para que siguiera teniendo un abanico importante de defensores.
Los sondeos que se hacen en Uruguay contratando avisos en Facebook están hechos a sabiendas de que las concesiones metodológicas son inaceptables, y por lo tanto no pueden ser catalogadas como innovación.
Disclaimer 3 – La ciencia
En el año 1637 se publicó El discurso del método, de René Descartes, sentando las bases del método científico y dando inicio al proceso que puso a la ciencia como columna vertebral del conocimiento humano. Tal vez el análisis más interesante de este fenómeno sea La estructura de las revoluciones científicas de Thomas Kuhn, publicado allá por 1962.
Todo el conocimiento científico debe estar sujeto a revisión, a estudio y a modificación, para ello los científicos publican y comparten sus resultados, de modo que la comunidad científica y la sociedad toda pueda reproducir los experimentos y observaciones, confirmar o refutar las hipótesis y validar o rechazar las predicciones.
Los sondeos que se hacen en Uruguay contratando avisos en Facebook están hechos en el más cerrado oscurantismo, no se conocen ni sus métodos ni sus datos, y por lo tanto no pueden ser catalogadas como ciencia.
La más perfecta máquina de generación de sesgo
No se me ocurre una idea peor que seleccionar los participantes de una encuesta contratando avisos en Facebook. Pedirle al lobo que cuide a los corderos parece una idea más sensata.
El motor de avisos de Facebook es el estado del arte en la aplicación de aprendizaje automático para la detección y aprovechamiento de sesgos y patrones de una población: hurga en el universo de usuarios y pondera las características y vínculos de cada usuario que hace click, para aumentar la probabilidad de que los avisos que muestra sean clickeados, en un proceso que se refuerza a si mismo a medida que la campaña publicitaria avanza.
Para una encuesta, el fenómeno es descalificador porque el sesgo es incremental: cada vez que un usuario clickea en un aviso, Facebook entiende mejor qué usuarios tienen mayor probabilidad de clickearlo, lo que produce un efecto paradójico: un sondeo basado en avisos de Facebook tiene más sesgo cuanto más grande es la muestra.
Este fenómeno de generación de sesgo se puede simular por computadora fácilmente, donde se ve que la acumulación del sesgo es devastadora: una pequeñísima desviación acumulada produce resultados que nada tienen que ver con una muestra probabilística y las hipótesis en las que se sustenta una encuesta.
Supongamos que tenemos una población dividida por la opción A y B exactamente a la mitad. Supongamos también que cada vez que un usuario hace click y llena el formulario, el algoritmo aprende y la opción elegida gana una pequeña probabilidad, digamos algún valor aleatorio entre 0 y 0.1%. De esta forma, si la primera respuesta es por A, la probabilidad de A en la segunda respuesta se incrementaría levemente a algo entre 50% y 50.1%. Si la segunda respuesta es por A, el fenómeno se refuerza, si es por B se compensa.
Lo que sucede es que a lo largo de 2000 encuestas en algún momento se van a suceder una cantidad de valores por una de las opciones suficiente para generar una desviación irrecuperable. Facebook se “mete” en una burbuja de usuarios similares, y la explota hasta que se agota, exactamente como un minero que encuentra una veta de oro.
El resultado es devastador. La distribución normal, con su media, desviación estándar e intervalo de confianza es pulverizada y se generan otras distribuciones que nada tienen que ver con el sustento matemático que permite extrapolar la opinión de una encuesta a la población.
Resultado conjunto de 100.000 simulaciones con sesgo aleatorio acumulativo de una décima de punto y medio punto
Paradoja: cuanto más grande es la muestra, peor es la encuesta
Tal vez el resultado más lapidario en contra de los sondeos que se hacen en Uruguay contratando avisos en Facebook es que al contrario de lo que sucede en una encuesta de verdad, contratando avisos en Facebook el resultado empeora con cada encuesta que se contesta. Esto deriva del hecho de que estamos lidiando con un algoritmo que utiliza cada átomo de información que obtiene para aprender y hacerlo cada vez mejor, lo que para la encuesta significa cada vez peor.
Este fenómeno también se puede simular fácilmente con un pequeño programa. Supongamos que tenemos una población que tiene un 45% de preferencia por la opción A y un 55% por la opción B. Supongamos nuevamente que cada vez que se contesta una encuesta el algoritmo aprende y suma un número aleatorio entre 0 y 0.1% a la opción, y registremos 100.000 veces la simulación del proceso de una encuesta.
La idea de que una encuesta se mueve en torno al valor real, representado por la media de las respuestas y que se ve en el gráfico en la línea naranja horizontal de los resultados sin sesgo, desaparece sin dejar rastro, siendo reemplazada por una curva que deriva a otro valor que nada tiene que ver con el universo estudiado.
Resultado conjunto de 100.000 simulaciones para la evolución del sesgo en la medida en que se realiza la encuesta. Datos para una décima de punto y medio punto de sesgo
La realidad confirma las simulaciones
Facebook no aplica estas ideas de forma única y lineal, sino combinadas con otras que modifican y a veces suavizan los efectos, pero el aprendizaje automático es el sustrato fundamental del motor de publicidad, y el sesgo incremental que hace que una encuesta sea peor cuanto mayor es el tamaño de la muestra está presente en todos los casos.
Es importante señalar que nadie sabe realmente qué vetas decidió explotar el algoritmo en cada caso, ni la profundidad de sus efectos, ni los valores reales de la población y por lo tanto nadie sabe cómo revertirlo. Para esbozar una estrategia que minimice el daño, si es que esto fuera posible, habría que contar con información que no está disponible.
Hace unos días se produjo una situación que no suele ser frecuente: se presentó una encuesta sobre la que se dispone del dato duro: la cantidad de firmantes de la iniciativa de reforma constitucional promovida por el senador Jorge Larrañaga. Mientras que los promotores de la iniciativa anuncian que alcanzaron 140.000 firmas, una encuesta basada en avisos en Facebook de la empresa Radar indica que firmaron más del doble: unos 320.000 ciudadanos.
Nada hace pensar que los promotores de la iniciativa están escondiendo firmas para mostrar después, e inclusive hay un dato adicional de relevancia y es que para conseguir que la iniciativa se plebiscite se necesitan unas 280.000 firmas, por lo que si la encuesta estuviera bien, la iniciativa ya estaría validada.
La causa de este brutal fracaso no se debe a que todo el mundo miente en todas las preguntas de todas las encuestas, como afirma la empresa. Si fuera así, ¿para qué hacer encuestas? La causa es que utilizar el motor de publicidad de Facebook para seleccionar a los encuestados es una pésima idea, que produce resultados plagados de sesgo con consecuencias imprevisibles.Detrito estadístico.
Muestreo por cuotas y ponderaciones
El argumento de quienes defienden este método, no solo en Uruguay sino en el mundo, es que un muestreo por cuotas (quota sampling) minimiza los efectos del sesgo del motor de publicidad.
En lo central, la metodología de muestreo por cuotas implica definir variables que generan segmentos (muchas veces son cientos) y establecer una cuota para cada segmento en base a datos conocidos de la población. Luego se realiza el trabajo de campo, buscando individuos que cumplan con las características de cada segmento hasta cumplir la cuota, y allí es que se utilizan los avisos publicitarios de Facebook.
En primer lugar, no hay evidencia científica definitiva ni a favor ni en contra de la representatividad del muestreo por cuotas en general, pero sí es definitivo que se trata de una metodología de muestreo NO-aleatoria, y por tanto, ya de arranque, lo que produce no es una encuesta.
En segundo lugar, nada puede hacer para minimizar el sesgo del motor de publicidad, porque las cuotas se basan en datos conocidos (edad, lugar de residencia, voto anterior, sexo, etc) y el sesgo se genera por datos desconocidos, que pueden o no incluir precisamente el que se está relevando. En resumen, el encuestador que contrata avisos en Facebook para seleccionar a sus encuestados no tiene ni la más remota idea de cuánto sesgo está introduciendo esta decisión, y lo que muestran las simulaciones es que este sesgo es significativo y descalificador.
Y para colmo de males, al menos en Uruguay, los datos obtenidos del trabajo de campo se ponderan como si se tratara de una muestra probabilística clásica, lo que carece de todo fundamento metodológico. Al completar la cuota de cada segmento, se obtiene una muestra que contiene el porcentaje de cada variable que el encuestador definió antes de empezar. La muestra va a quedar perfectamente equilibrada y por tanto no tiene sentido que sea ponderada por ningún valor. Ponderar una muestra por cuotas es como hacer pascualina con una receta de buseca.
Por tanto no es descabellado pensar que para muestras que generan desviaciones y sesgos tan relevantes, la ponderación tiene como único objetivo ajustar los valores reales a "datos publicables", es decir, parecidos a la encuesta anterior y a los de los colegas. Cuando se carece del ancla de los colegas, como en el ejemplo de la iniciativa de reforma constitucional, la incapacidad de estimación del procedimiento queda en evidencia.
A quién debería importarle estos resultados
A la academia, que ha sido extremadamente tibia con respecto a este tipo de encuestas. Debería dejar claro que toda la evidencia muestra que los sondeos basados en avisos de Facebook no producen información confiable, y que quienes los promueven y utilizan no han mostrado ni los datos ni los argumentos necesarios para validar su capacidad de contrarrestar los efectos de la brutal generación de sesgo del algoritmo de aprendizaje automático de Facebook.
A la prensa, que debería tratar este tipo de sondeos aparte de las encuestas, para difundir información veraz, producida con la firme intención y convicción de que los datos publicados, en el acierto o en el error, provienen de un proceso con fundamento científico.
A las empresas encuestadoras, que sufren la presión competitiva de un método muy pero muy barato que se presenta como una encuesta a pesar de no serlo. Se trata de competencia desleal, porque las encuestas basadas en avisos de Facebook son tan baratas como inútiles, y es un error aceptar de buena gana que quien las produce es un par de quien contrata encuestadores que hacen miles de visitas, llamadas, entrevistas y luego procesa los datos con meticulosidad.
A los políticos, que deberían preocuparse más de la calidad de nuestra democracia y reglamentar la difusión de encuestas, de modo que la transparencia y el acceso universal a los datos crudos permita desenmascarar en un instante este tipo de sondeos.
A los ciudadanos, que hasta nuevo aviso debería ignorar cualquier información que se base en una encuesta cuyos encuestados hayan sido seleccionados con avisos en Facebook.
---
Si desea el código fuente de los programas utilizados, o por cualquier otra información, no dude en contactarme en daniel@mordecki.com---