Sign in / Join

OptaX - 3e partie : le coaching à l'ère de l'intelligence artificielle

Si la gestion de la donnée est devenue un enjeu crucial dans l’économie actuelle, elle est aussi une thématique abordée de plus en plus régulièrement dans le football. Nouvelles données, nouveaux temps de mesure (quasi-instantanés désormais), nouvelles méthodes de visualisation : la data du football est un terrain en pleine floraison.

Il paraissait presque anormal dans ce contexte de ne pas voir d’événements spécifiques traitant de la data dans le football ; c’est désormais chose faite, grâce à cette conférence co-organisée par Opta, leader mondial reconnu de la donnée dans le sport, et l’Ecole Polytechnique, qui nous a fait l’honneur de nous recevoir dans ses locaux parisiens.

 

Introduction et Premier sujet : TIRAGES AU SORT, QUANTIFIER L’INJUSTICE

Deuxième sujet : DES SCIENCES PHYSIQUES AUX MEDAILLES OLYMPIQUES ET PARALYMPIQUES

 


Troisième sujet : COACHING A L’ERE DE L’INTELLIGENCE ARTIFICIELLE

Présentateurs : Omar El Euch, Othmane Mounjid, doctorants, Théo Guillaumot, Cédric Damien, élèves en 3ème année, et Mathieu Rosenbaum, leur encadrant, qui dirigeait le projet.

La présentation des étudiants

La présentation est disponible dans son intégralité  ici.

La   version rédigée en Latex (prononcez Latec) amène un peu de contenu supplémentaire (c’est un peu le commentaire qui accompagne la présentation), mais pas d’élément nouveau.

 

Cette session se scinde en 4 parties :

  1. « On refait le match », hommage à Eugène Saccomano : cette partie traite de la méthodologie d’analyse des données fournies. Elle sert de base pour la suite.
  2. « On anticipe le match »: nous rentrons dans la méthodologie de prédiction des matchs.
  3. « On joue le match »: place aux décisions à prendre en cours de match pour optimiser ses chances de victoires
  4. La coupe du monde 2018 : c’est le lancement dans le grand bain du modèle présenté, en l’appliquant à la CDM 2018

Nous allons rentrer dans le détail de chaque partie pour essayer d’être le plus clair possible. L’objectif de ce papier est double :

  • Permettre au lecteur de bien comprendre ce qui a été présenté (c’est toujours plus compliqué quand on ne lit qu’un compte rendu).
  • Analyser les forces et les failles du système présenté.

Coup d’envoi, c’est parti.

  1. « On refait le match » : comment se passer des données de tracking

Les étudiants rappellent que ce projet est né d’une collaboration avec Opta, qui leur a fourni un jeu de données homogène sur un grand nombre de matchs de football. Parmi celles-ci, on y retrouve naturellement les basiques : passes, tirs, dribbles, tacles, cartons, corners, etc. En analysant ces données par joueur/équipe, on peut calculer tout un tas de statistiques personnelles, qui pourront être réutilisées dans l’analyse prédictive : taux de passes/tirs/dribbles/tacles réussis, etc.

En revanche, très vite on se heurte à un (gros) os concernant les données positionnelles de chaque joueur : les données sont uniquement centrées sur le ballon. On ne sait pas où se trouvent les joueurs non-acteurs d’un événement. Cela complique sérieusement les choses tant cette donnée est essentielle.

Lorsqu’un jeu de données n’est pas suffisant pour recueillir une information, il faut essayer de la reconstituer soi-même. Ainsi, les étudiants testent plusieurs méthodes pour reconstituer les déplacements des joueurs sur le terrain :

  • Une méthode « naïve » linéaire
    • Principe : le joueur se déplace en ligne droite, à vitesse constante, entre chaque touche de balle.
    • Résultats : évidemment mauvais ; joueurs trop lents / statiques, placements irréalistes
  • Une méthode « quantile »
    • Principe: à chaque touche de balle d’un joueur, on note son déplacement par rapport à son poste de base, et on applique à peu près le même déplacement à toute son équipe.
    • Résultats: des mouvements beaucoup plus dynamiques et des équipes qui se déplacent en bloc. Le souci de ce modèle, c’est que si un joueur central touche le ballon au poteau de corner, à peu près tout le monde se retrouve au poteau de corner aussi.
  • Une méthode de Voronoi
    • Concept : Nous l’avons abordé dans la présentation précédente. Les cellules, la SVT, tout ça. Chaque joueur est entouré par une « surface d’influence » (on l’avait appelée « zone de domination » dans la partie 2).
    • Résultats : Pour comprendre comment les étudiants ont mis en œuvre le concept, c’est une autre affaire ; c’était assez flou sur le moment, et c’est toujours aussi flou après relecture. En effet, si le concept de Voronoi est intéressant, il se nourrit des données positionnelles des joueurs. Or, on essaie ici de reconstituer ces données positionnelles, donc on a du mal à comprendre ce que les étudiants ont fait. On salue le concept choisi mais on regrette le manque d’explications sur comment il a été institué.

 

Validation de la méthode de reconstitution positionnelle

Sans surprise, le modèle finalement utilisé est « une combinaison » des trois précédents. Pour valider ce modèle final, nous avons eu droit à la diffusion d’un extrait de 15 secondes d’un Real-Barça, avec les positions issues du modèle à côté. Résultat commenté en direct : « ça correspond à peu près donc ça va ».

Cette conclusion paraissait sur le moment assez décevante sur le plan scientifique. Si on avait voulu valider sérieusement ce modèle, on aurait mis un peu plus de moyens :

  • Prendre un match (au moins) et reconstituer (à la main s’il le faut) les positions des 22 acteurs au fil du match. Cela aurait constitué un jeu de données « réelles ».
  • Comparer les résultats issus des modèles aux données réelles et obtenir une sorte de « taux d’écart » (% du temps où un joueur est à plus de 5 mètres de sa position réelle par exemple)
  • Comparer les taux d’écarts selon les différents modèles pour confirmer que le modèle final est bien le meilleur
  • Identifier un taux d’écart acceptable (celui qui permet de dire « ça va ») et valider le modèle final une fois que son taux d’écart est devenu acceptable.

Gardons en tête que tout cela demande énormément de temps et d’application donc on ne va certainement pas jeter la pierre parce qu’une démonstration faite en 10 mn semble un peu bancale. Bref la suite.

 

 

 

  1. « On anticipe le match »

On rentre dans la méthodologie de prédiction du résultat des matchs. Pour ce faire, le terrain a été découpé en 18 zones, de surface à peu près égales. Ces zones servent à construire le modèle : un dribble ou la réception d’une passe aura moins de chances de succès dans une zone plus avancée du terrain.

En intégrant les statistiques de chaque joueur dans leur modèle, ce dernier a pu être mis en route pour prédire des résultats de match, après calibration par des « algorithmes d’intelligence artificielle / machine learning ». On n’en saura (malheureusement) pas plus. C’est dommage, l’occasion de faire un peu de pédagogie, d’autant plus quand une forme de scepticisme à l’égard de « la data » a été exprimée en introduction, était belle.

Le modèle sera plus ou moins validé par l’expérience L1 2016/2017 ; en intégrant les matchs aller dans la machine, celle-ci a simulé beaucoup de fois l’ensemble des matchs retours pour enfin proposer un classement final. En moyenne, on retrouve Monaco, le PSG et Nice dans le bon ordre même si certains classements moyens ont de quoi interloquer :

  • Monaco moins souvent premier que 3ème ou au-delà
  • Le PSG finit 4ème en moyenne
  • Lyon finit en moyenne au-delà de la 8ème place

Il aurait été intéressant de comparer ces méthodes de simulation avec celles de  Julien Assunçao (@Birdace), qui effectue le même genre de simulations régulièrement (voir exemple ci-dessous). Espérons que Julien aura sa tribune lors de la prochaine édition !

Enfin, sur la présentation, on peut regretter que les résultats des simulations ne soient pas comparés au classement final de L1 2016/2017, puisque l’idée essentielle de l’exercice est de confronter les prédictions initiales à la réalité des faits.

Réflexion faite, il paraît presque plus pertinent de raisonner en nombre de points prédits qu’en classement. En effet, le classement d’une équipe n’est que la conséquence de son nombre de points et des points des autres. Lorsque beaucoup d’équipes sont regroupées, un bon modèle donnera un faible écart-type de points, mais la densité des équipes (dans le fameux ventre mou notamment) amènera inévitablement un grand écart-type de classement qui aura tendance à décrédibiliser le modèle, ce qui est dommage. Retenons donc cela : en analyse prédictive, il est plus sensé de simuler un nombre de points final, et d’en découler un classement ensuite.

 

  1. « On joue le match » : coaching optimal

Une fois le modèle prédictif validé, on peut le tester sur plein d’événements. Ici, on le teste sur les décisions en cours de match. En analysant toutes les évolutions possibles (changements de joueurs, changement de formation) et en calculer leur impact prédit sur le résultat final grâce au modèle, on est capable d’identifier la meilleure décision possible. Nous précisons que la « meilleure décision possible » n’est pas nécessairement celle qui optimise le plus les chances de victoire ; cela peut aussi être celle qui minimise le plus les chances de défaite lorsque le match nul est satisfaisant.

Les élèves ont donc appliqué le modèle sur LE match qui a été le théâtre de décisions de coaching marquantes : Real Madrid – Paris Saint-Germain, 14 février 2018, 1/8 finale aller de la Ligue des Champions. Meunier pour Cavani, Asensio et Vazquez pour Casemiro et Isco… Et là, patatra : on nous parle du changement le plus insignifiant du match : Bale pour Benzema à la 76ème. Le modèle annonce que le Real avait 4% de chances supplémentaires de gagner.

Plusieurs reproches sur cette partie :

  • Encore une fois, on affiche un résultat un peu sorti du chapeau : la probabilité de gagner passe de combien à combien ? Pourquoi 4% ? La présence de Bale augmente les chances de victoire du Real, mais est-ce dû à ses qualités supérieures à celles de Benzema, au changement de formation que sa présence induit, les deux ?
  • C’est quand même dommage d’utiliser ce changement précis en exemple, d’autant que ce sont d’autres décisions venues du banc qui ont transformé ce match :  le papier de CulturePSG était très clair à ce sujet

 

  1. « La Coupe du Monde »

Au même titre que la partie 3 avec Real-PSG, la Coupe du Monde est un autre cas d’application du modèle. La méthode est différente ici :

  • On prend 8 équipes « majeures » pouvant constituer un XI parmi les 5 grands championnats (ANG, ESP, ITA, GER, FRA).
  • Pour chacune des 8 sélections retenues, un XI-type est défini. On regrette de n’avoir eu aucun aperçu de ces fameux XI-types, ni comment ils ont été constitués.
  • On retient un groupe de 17 joueurs a priori certains de faire partie du voyage ; puis, sur ces 17 joueurs, on fait tourner 200+ formations de l’Equipe de France contre ces XI-types, et on retient la formation qui a le plus de chances de gagner contre chaque équipe.

Résultats : Qui joue contre les grosses équipes ?

  • Kimpembe ne joue jamais vs. Umtiti, Koscielny et Varane.
  • Kanté, Matuidi, Lemar et Mbappé sont systématiquement retenus. Mbappé est le seul à connaître 3 postes : milieu droit, ailier droit, atttaquant de pointe.
  • Pour les postes avec moins de suspense : Lloris (vs. Mandanda), Mendy et Sidibé (seuls latéraux du groupe de 17) jouent toujours.
  • Les autres naviguent entre le banc et la titularisation.
  • Les formations sont presque toujours en 4-3-3 ; seule exception, le 4-4-2 préconisé vs. Le Portugal.

La liste des 23

Puis vient l’heure de remplir les cases vides et de sélectionner les 6 joueurs restants pour compléter la liste des 23 ! Il manque : un gardien, un latéral de chaque côté, un milieu et deux attaquants.

Pour sélectionner les meilleurs, c’est simple : on injecte les candidats à leur poste dans les XI retenus de l’équipe de France contre les grosses équipes, et on garde celui qui dégrade le moins les chances de victoire des Bleus.

Et les heureux élus du modèle sont :

  • Mike Maignan au goal (devant Areola, Costil ou Ruffier)
  • Debuchy devant Pavard
  • Amavi devant Digne, Hernandez et Kurzawa
  • Aouar ou Doucouré ou Kondogbia, devant Bakayoko, Nzonzi, Rabiot et Sissoko
  • Fekir devant Coman, Martial, Ribéry, Payet, Thauvin
  • Lacazette devant Benzema et Ben Yedder

Les résultats sont pour le moins surprenants. Il est délicat de les commenter vu le peu de visibilité que nous avons sur le fonctionnement du modèle.

 

Commentaires

C’est un travail absolument conséquent qui a été abattu pour ce projet : toutes nos félicitations à ceux qui l’ont mené. L’introduction de méthodes de machine learning appliquées à l’analyse du football est particulièrement intéressante. Deux regrets émergent toutefois de cette partie.

Le premier regret, qui ressort en fil rouge, c’est de ne pas avoir pu rentrer plus en profondeur dans les entrailles du modèle à chaque étape : sur la reconstitution du tracking des joueurs, sur la prédiction des matchs, sur l’impact des changements en cours de match, sur les XI-types des 8 grandes sélections du Mondial, et sur la construction en réponse de la formation optimale pour les Bleus.

Le deuxième regret concerne la démarche scientifique, qui aurait mérité un peu plus de robustesse pour mieux asseoir la qualité du modèle. Mais cela aurait probablement requis un temps bien plus long que ce qui était prévu pour mener ce projet à bout.

Laisser un commentaire

%d blogueurs aiment cette page :