Brasil, con una probabilidad de ganar de un 15%, sería la selección favorita para hacerse con la Copa del Mundo de Catar, según los cálculos de un equipo de científicos con la ayuda del aprendizaje automático.

También tienen “muchas posibilidades de ganar el título” las selecciones de Argentina (11,2%), Países Bajos (9,7%), Alemania (9,2%) y Francia (9,1%), seguidos de España con un 7,5%, según un estudio de las universidades de Innsbruck (Austria), Gante (Bélgica), Luxemburgo, y las universidades técnicas de Dortmund y Múnich (Alemania).

El pronóstico combina varios modelos estadísticos sobre la “fuerza de juego” de los equipos con información sobre la estructura de estos (como el valor de mercado o el número de jugadores de la Champions League), así como factores socioeconómicos del país de origen (población o producto interior bruto).

“Esta vez, el Mundial se ve enturbiado por muchos problemas éticos y deportivos que no podemos ignorar. Sin embargo, por razones científicas, hemos decidido utilizar nuestro enfoque de aprendizaje automático, que hemos utilizado con éxito en anteriores torneos, para hacer pronósticos probabilísticos”, dijo Achim Zeileis, uno de los autores, citado por la Universidad de Insbruck.

Con los valores predichos por el modelo de los científicos, el Mundial entero fue simulado 100.000 veces: partido por partido, siguiendo el sorteo del torneo y todas las reglas de la FIFA, lo que da como resultado las probabilidades con las que los equipos pasarán a las distintas rondas del torneo y, finalmente, ganen el campeonato.

Los autores mencionan que su estudio proporciona “probabilidades, no certezas. Una probabilidad de ganar del 15% también implica una probabilidad del 85% de no ganar”. El Mundial de Catar es particularmente interesante desde un punto de vista científico debido a la fecha inusual, al jugarse en invierno, por las altas temperaturas en verano.

El cálculo de los científicos se basa en cuatro fuentes de información: un modelo estadístico para la “fuerza de juego” de cada equipo, basado en todos los partidos internacionales de los últimos ocho años, y otro para la “fuerza de juego” de los equipos, basado en las cuotas de apuestas de 28 casas de apuestas.

La tercera base es la información adicional sobre los equipos, como el valor de mercado y sus países de origen —por ejemplo, el tamaño de la población—, y la cuarta es un modelo de aprendizaje automático que combina las distintas fuentes y las optimiza paso a paso.