En el pasado, cuando queríamos saber qué equipo ganaría la Copa del Mundo, teníamos que recurrir a psíquicos con bolas de cristal, usar la adivinación con hojas de té o esperar que Paul el Pulpo nos dijera lo que sucedería.
Pero la ciencia de datos moderna puede ofrecer una alternativa mejor. Como parte de un equipo de estadísticos, ayudé a entrenar un algoritmo de aprendizaje automático para predecir el curso más probable de un torneo.
Probabilidad de predicción y dados cargados.
El algoritmo que hemos creado se desarrolla en dos pasos.
En el primero, se combinan sofisticados modelos estadísticos y el conocimiento experto de las casas de apuestas y del mercado de transferencias para determinar las fortalezas de todos los equipos y sus jugadores. En un segundo paso, un algoritmo de aprendizaje automático decide cuál es la mejor manera de combinar las estimaciones de potencia con otra información sobre los equipos.
Esto produjo un pronóstico probabilístico para cada posible partido del torneo. Puede verse como un par de dados cargados: en lugar de tener los números del 1 al 6 con las mismas probabilidades, estos dados cargados tienen diferentes probabilidades para la cantidad de goles de cada equipo.
Por ejemplo, según nuestro pronóstico, México promedia 1,9 goles en el primer partido, mientras que su rival Sudáfrica promedia sólo 0,7. Pero eso no significa que México vaya a ganar con seguridad. En cambio, una victoria mexicana es el resultado más probable con un 65% de probabilidad. Un empate es menos probable (21%) y una victoria de Sudáfrica es el resultado menos probable (14%).
‘¡Vuelve a casa, el fútbol vuelve a casa!’
Utilizando diferentes pares de dados cargados, se puede simular el resultado de cada partido de la Copa del Mundo. Hemos tenido en cuenta el sorteo oficial del torneo y todas las reglas de la FIFA, incluida la posibilidad de prórroga y tiros penales. Realizamos la simulación 100.000 veces para determinar el curso más probable del torneo.
Los resultados muestran que España es la favorita al título con una probabilidad de victoria del 14,5%, seguida de Inglaterra y Francia con un 12,4% cada una y Alemania con un 11,2%.
Debido al torneo ampliado (esta Copa del Mundo tiene 48 equipos y cinco rondas en la fase eliminatoria), este grupo de favoritos está apretado. Portugal y Argentina también tienen buenas posibilidades de ganar el título, con un 8,9% y un 8,2%, respectivamente.
Por su parte, Estados Unidos tiene buenas posibilidades de llegar a octavos de final: 78%. Esta es la mayor cantidad en su grupo, que tiene otros tres equipos. Sin embargo, en la fase eliminatoria, cuando finaliza cada partido, la probabilidad de que el equipo estadounidense “sobreviva” disminuye relativamente rápido. La probabilidad de que el equipo local gane la final en el MetLife Stadium de Nueva Jersey el 19 de julio es del 1%.
Eche un vistazo más profundo a la sala de máquinas
Nuestro algoritmo de aprendizaje automático y las simulaciones posteriores se basan en datos, experiencia y modelos estadísticos.
En primer lugar, todos los partidos nacionales de los últimos ocho años son la base para una evaluación “retrospectiva” de las fortalezas de los equipos. En segundo lugar, se obtiene una estimación de la fuerza “prospectiva” a partir de las cuotas citadas por varias casas de apuestas internacionales, reflejando sus opiniones de expertos sobre el próximo torneo.
En tercer lugar, las valoraciones individuales de los jugadores se basan en sus contribuciones de goles a nivel de club y nacional. Y finalmente, la calidad actual y el potencial futuro de los jugadores se refleja en sus valores de mercado esperados. Estos están disponibles en el sitio web de Transfermarkt, que utiliza un enfoque de sabiduría popular para estimar valores de mercado reales desconocidos.
Estas cuatro variables se combinan con una amplia gama de aportaciones relevantes adicionales que reflejan el estado actual de los distintos equipos y los países de los que provienen. Esto incluye detalles específicos del equipo, como su clasificación FIFA y el número de jugadores en las semifinales de la Liga de Campeones de este año. También tomamos en cuenta factores socioeconómicos específicos de cada país, como el PIB per cápita.
Para determinar si estas características son relevantes para los resultados reales de la Copa Mundial y de qué manera, se utilizó un algoritmo de aprendizaje automático.
Aquí se entrena el llamado bosque aleatorio, que consta de muchos árboles de decisión que cubren subconjuntos de datos ligeramente diferentes. El algoritmo ha sido entrenado en todos los partidos jugados en los principales torneos de fútbol desde la Copa del Mundo de 2006. Por lo tanto, correlaciona la fuerza del equipo, el valor de mercado y otros factores con el número de goles marcados en partidos de la Copa del Mundo. Esta es la información que carga los cubos para nuestras simulaciones.
Descubra más
Esta no es la primera vez que nuestro equipo formado por Andreas Groll y Rouven Michels y colegas de la Universidad TU Dortmund en Alemania, Lars Magnus Hvattum de la Universidad de Molde en Noruega, Gunther Schauberger de la Universidad Técnica de Munich y yo colaboramos en las predicciones de la Copa del Mundo.
En la Copa Mundial Femenina de 2019, predijimos correctamente que Estados Unidos sería el ganador. En la Copa Mundial Femenina de 2023 y en la Copa Mundial Masculina de 2022, los ganadores (España y Argentina) no eran nuestros favoritos, aunque predijimos que serían serios contendientes.
La conclusión es que los pronósticos se basan en probabilidades. Nuestro programa no predecirá al ganador con un 100% de certeza, pero podría ser mejor que los moluscos de ocho brazos.
Descubre más desde USA TODAY NEWS INDEPENDENT PRESS US
Suscríbete y recibe las últimas entradas en tu correo electrónico.


