Machine learning et sport : footovision ou le football 2.0
Les données ont toujours fait partie du monde du sport mais leur utilisation restait limitée dans certaines disciplines. Surtout dans le football, où avant même de pouvoir les exploiter, leur acquisition est en soi un défi. Si le « tracking » fournit des vidéos de matches, encore faut-il être capable de l’exploiter.
Pierre Miralles est diplômé de l’École Polytechnique et de l’ENSAE (Promotion 2003). Après plus de dix ans d’analyse quantitative en finance de marché, Pierre a co-fondé en 2014 Footovision dont le cœur de métier est d’extraire et d’analyser des données de matches de football pour proposer aux acteurs de ce sport une aide à la décision statistique et quantitative.
Pierre, pourquoi avoir fondé Footovision ?
Je voyais à l’époque une opportunité de lier ma passion avec mes compétences acquises en statistiques et en mathématiques financières. Il y avait un peu de fascination pour le film « Moneyball » (1) même si j’étais persuadé que le football est très différent du baseball. L’analyse des données n’était pas aussi développée à l’époque et vu le développement du secteur, les dernières années nous ont donné raison, à moi et mes deux associés cofondateurs.
Pouvez-vous nous décrire votre démarche ?
Nous proposons de l’analyse de données pour les acteurs du monde du football. Tout part de la vidéo. Certaines vidéos sont en plans fixes et d’autres en caméra mobile. Certaines entreprises se sont spécialisées dans l’acquisition de données à partir de vidéo (le tracking), d’autres se sont focalisées sur les évènements de jeu, « autour du ballon ». Pour notre part nous générons les données de tracking à partir de vidéo télé mais aussi les plans larges d’analyste vidéo. Nous « vectorisons » en quelque sorte ces données pour transformer le flux vidéo en données de mouvement, de déplacement, de passes, de tirs, et ce joueur par joueur.
Il y a donc une première phase de traduction de la vidéo avant l’analyse a posteriori. Dans cette optique il y a trois utilisations pour une équipe : suivre ses propres performances ; analyser le jeu de ses adversaires ; recruter des joueurs.
Pourquoi les joueurs ne disposent pas tout simplement de GPS en match ?
En fait les joueurs portent des GPS pendant les matches et les entraînements, mais chaque équipe a son propre système et ne dispose donc que de ses propres données de position et de vitesse. Les équipes utilisent principalement les systèmes GPS pour le suivi des performances athlétiques des joueurs au quotidien, pour mesurer l’accumulation de la charge de travail, l’état de forme physique et minimiser le risque de blessure. Comme chaque équipe conserve précieusement les données athlétiques de ses joueurs, il n’y a pas de partage de données entre les clubs et il n’est donc pas possible d’analyser en détail les matches.
Pour l’analyse détaillée des matches, c’est principalement le tracking vidéo qui est utilisé. Aujourd’hui la technologie de tracking en caméras fixes multiples est standardisée mais elle coûte très cher en installation, maintenance et demande un très haut débit internet dans les stades. Quand nous sommes arrivés sur ce marché, déjà mature, de tracking vidéo en caméras fixes multiples, nous avons préféré développer la technologie de tracking en caméra mobile pour pouvoir démocratiser l’analyse vidéo afin que nos partenaires s’affranchissent de coûts d’installation très élevés et puissent avoir accès à toute la donnée contenue dans les matches diffusés à la télévision partout dans le monde.
Via l’utilisation de vidéos plan large, nous arrivons à couvrir en moyenne 98 % du match d’un joueur avec une qualité similaire à la technologie caméras fixes multiples. La qualité de l’analyse dépend du plan vidéo mais dans les faits, il n’y a guère que les pas du gardien loin de l’action qui restent inanalysés. La qualité de nos données de tracking a notamment été validée par la Fifa avec qui nous étudions une collaboration sur la production de Coupes du monde passées pour lesquelles elle n’avait pas encore de système de tracking.
Qui sont vos clients ?
Nous nous adressons aux clubs de football, aux ligues, aux opérateurs de paris sportifs et aux médias.
Historiquement nous avons des liens très forts avec des clubs ou fédérations très prestigieux que nous ne pouvons pas nommer. Ils nous enrichissent de leur connaissance métier et nous les aidons par notre expertise, technologique et data, sur des thèmes stratégiques clés comme le suivi de la performance de leur équipe, l’analyse détaillée de leurs futurs adversaires et le recrutement. Par exemple nous collaborons très étroitement avec Leeds United depuis maintenant trois saisons et l’arrivée de Marcelo Bielsa. Nous les aidons sur l’analyse détaillée complète de tous leurs futurs adversaires. Avec les succès sportifs du club et son petit budget, c’est déjà un peu « Moneyball » appliqué au football. Depuis la saison dernière, nous travaillons directement avec La Liga espagnole et ses 42 clubs de première et deuxième division. Ceci nous a donné un coup d’accélérateur, nous a permis d’industrialiser notre solution de dashboard web d’analyse, et donne désormais de la visibilité financière à l’entreprise avec un contrat pluriannuel. Avoir des contrats directement avec les ligues nous permet d’être moins tributaires du « temps du foot » avec les changements réguliers d’entraineur et de staff.
En parallèle, comme nous avons tous les trois une solide expérience en finance de marché et nous avons commencé ces dernières saisons à travailler avec des opérateurs de paris sportifs pour étudier comment utiliser les données historiques de performance de joueurs pour la prédiction. C’est un sujet de R&D fascinant. Par exemple la notion d’Expected Goal est similaire à la notion de volatilité avec son estimation historique ou implicite. Pendant le déroulement d’un match on peut utiliser cette notion de « but attendu » pour calculer des quantités comme la probabilité (à chaque moment) de marquer dans les dix prochaines secondes.
Enfin, nous avons fait beaucoup de tests avec des médias Web et TV très connus sur de l’analyse post-match ; il y a un appétit certain pour les données qui aident à confirmer ou infirmer une impression. Cependant, le moment où la valeur des données de match est maximale reste pendant le déroulement même du match. Il est donc essentiel de pouvoir produire ces données en temps réel avec un haut niveau de qualité. C’est ce que nous sommes en train de développer.
Qu’est-ce qui vous démarque de vos concurrents ?
Concernant la production de données de match, nous sommes assez complémentaires des entreprises qui font du tracking pur, grâce à notre technologie de tracking en caméra mobile. Nous cherchons à garder un très haut niveau de qualité dans notre production de données. Certains de nos concurrents en caméra mobile sont déjà complètement automatisés et nous allons chercher à automatiser autant que possible la production pour diminuer nos coûts de production. Mais nous ne voulons pas renoncer à la qualité de nos chiffres.
Nous sommes aussi complémentaires d’Opta (8) (car Opta aide les clubs mais aussi les médias, en particulier les journalistes et les consultants pour la production spontanée de chiffres saillants à citer live au commentaire par exemple). Nous fournissons en effet les évènements sans ballon et des évènements ballons complexes (3).
Du côté de notre solution d’analyse, nous sommes vraiment sur un créneau de production de statistiques de jeu et d’aide à la décision des acteurs du jeu pour le recrutement et l’analyse du jeu. Nous proposons une solution web où l’utilisateur peut définir lui-même son rapport à l’information pertinente, selon ses critères propres ; alors que le marché tend à proposer historiquement des rapports pdf standardisés, de plusieurs centaines de pages qui s’accumulent sur le bureau de l’entraîneur.
Google a récemment annoncé via DeepMind s’intéresser au football (7). Comment voyez-vous cette « concurrence » ?
Ce n’est pas forcément un problème. Cette concurrence peut faire peur, évidemment, car ils rencontrent souvent du succès dans leurs initiatives. Mais je vois ça aussi comme la preuve que le marché des data analytics dans le sport, s’il ne représente pour le moment qu’environ un milliard par an, n’est « pas si petit ». Si Google s’y attaque, cela crédibilise à la fois le marché et notre démarche. Cela crée une émulation, chez les clients, dans les universités ou parmi les étudiants !
Il y a quand même encore beaucoup de problèmes ouverts. Ils ont eu des réussites incroyables sur le go ou les échecs. Mais ces derniers sont des jeux « statiques » : reste à voir ce qu’ils réussiront à faire sur des sports « de mouvement », pour qui, pour quoi, et avec qui.
Quelles sont les techniques statistiques utilisées dans le cadre de votre activité ?
Pour la partie d’analyse d’image, nous utilisons nos propres méthodes de computer vision, mais aussi les méthodes plus performantes de détection de personnes basées sur du deep learning. Il est intéressant de noter que la révolution qui arrive est apportée par les modèles de pose comme OpenPose : à partir de l’image d’une personne, ces modèles d’apprentissage statistique infèrent sa posture et permettent donc de « digitaliser » sa structure squelettique. En mouvement on peut donc diagnostiquer une posture, une attitude, une démarche, une vitesse, une intention. Outre la position 2D du joueur que nous pouvons suivre précisément, on pourra désormais suivre et analyser l’ensemble de ses mouvements.
Comme le rappelait déjà Yoann Cruyff, « Quand vous jouez un match, il est statistiquement prouvé que les joueurs n’ont la balle que 3 minutes en moyenne. Le plus important, c’est donc ce que vous faites pendant ces 87 minutes où vous n’avez pas la balle. C’est ce qui fait que vous êtes un bon joueur ou non. » Nous essayons donc d’analyser l’ensemble du jeu avec et sans ballon, en prenant en compte le contexte de jeu. En gros nous utilisons les méthodes d’espérance conditionnelle, en conditionnant sur le contexte de jeu pour obtenir des indicateurs de performance plus pertinents. Par exemple, ce qui caractérise notamment un très bon joueur par rapport a un joueur moyen, c’est sa capacité à résister à la pression. Autrement dit, les performances d’un très bon joueur ne doivent pas se dégrader quand la pression augmente.
Nous ajoutons ensuite des couches de classification avec surtout la création de 800 KPI par joueur et par match (6). Ceci nous sert à définir des profils types de joueurs très utiles pour le recrutement. Un sujet d’étude très intéressant dans ce domaine est la prédiction de performance d’un joueur d’une équipe à une autre : comment simuler l’adaptation d’un joueur d’un championnat à un autre, ou d’une équipe à une autre. Enfin, les évènements particuliers restent évidemment les plus durs à analyser. Sur les tirs de loin, la probabilité de réussir ce tir dépend de la proximité du gardien à sa ligne de but, mais le joueur ne déclenche justement souvent sa frappe que si le gardien sort loin de ses bases.
Une autre notion très utilisée sur laquelle nous travaillons beaucoup est celle d’Expected Goals – ou « buts attendus ». En fait il ne s’agit pas juste du nombre de buts que l’équipe aurait dû marquer au regard de ses tirs effectués. Il s’agit de voir par exemple l’apport de chaque action de joueur à l’Expected Goal global de l’équipe : un joueur peut apporter de l‘Expected Goal en créant une occasion de but ou en faisant une récupération proche de son but mais il peut aussi en perdre en perdant la balle ou en prenant une mauvaise décision. Ainsi ce critère s’est généralisé depuis quelques années et reflète la somme des performances de l’équipe, du gardien à l’attaquant. C’est le plus intéressant : être capable d’exprimer la performance d’un joueur comme sa contribution à celle de son équipe. Avoir le pourcentage de passes réussies ou ratées, c’est bien mais pas suffisant. Ce qui est décisif est de ramener la performance à un contexte de jeu. Pour un financier, je dirais qu’estimer un Expected Goal en amont des situations de tir est assez équivalent dans l’esprit au pricing backward des options.
Que manquerait-il justement si l’on composait une équipe uniquement avec des statistiques, comme dans le film « Moneyball » ?
Les données disent beaucoup mais les paramètres humains sont très importants et potentialisent le talent. Il y a des leaders, des joueurs qui tirent une équipe vers le haut, et il faut mélanger les profils. L’équipe d’Arsenal que j’ai soutenue dans mes années londoniennes avait des joueurs incroyables techniquement mais qui manquaient de caractère. L’expérience et le leadership, la langue et les aptitudes de communication, l’entente réelle entre les joueurs, ce sont des composantes essentielles dans les faits.
Dans leur livre célèbre, Szymanksi et Kuper (2) avaient identifié que les joueurs « ont peur des données ». Beaucoup de consultants et anciens joueurs marquent leur distance vis-à-vis de l’utilisation des données. Comprenez-vous cette défiance ?
Cela ne me choque pas, je peux le comprendre. Cela vient peut-être d’un problème culturel qui perdure mais qui change doucement avec le temps. Outre les joueurs, les journalistes ont une formation littéraire. Le chiffre pour le chiffre ramène à une analyse froide.
Côté terrain, José Mourinho (4) a beaucoup utilisé les données et a produit un jeu de protection et de défense très poussé, un peu destructif. Peut-être que jusqu’ici les données avaient été utilisées de manière négative (au sens du jeu). A contrario, Pep Guardiola (5), entraîneur de Manchester City est champion d’Angleterre et en finale de Ligue des Champions cette année tout en étant un très grand utilisateur de données. Mais Guardiola a une idée de jeu très nette, très marquée, basée sur la possession et il utilise les données pour minimiser ses risques. Sur un match, cela ne vous garantit pas de gagner. Sur un match seul, les données ne vous font pas gagner la partie. Mais sur une saison elles peuvent vous aident à gagner un championnat. C’est la loi des grands nombres : si les données vous aident à réduire vos risques, la répétition jouera en votre faveur et votre approche sera payante à long terme.
Enfin, sans données il est compliqué de définir la performance de certains postes. Un match raté ou réussi pour un attaquant est facile à déterminer puisque celui-ci doit être décisif quand il en a l’opportunité. C’est plus compliqué pour les milieux qui sont au cœur du jeu et ont pour mission de fluidifier le jeu : un grand milieu peut livrer une grande performance en étant plutôt « invisible » aux yeux du spectateur.
Pourriez-vous vous diriger vers d’autres sports ?
Alors même que le monde du football est le plus adapté à nos techniques, il faut toujours du temps pour y convaincre les acteurs du jeu et les clubs. A l’opposé les clubs de rugby sont très intéressés par notre démarche et nous contactent même spontanément. Le rugby sera probablement une suite envisageable. Le football américain pourrait être aussi un débouché. Une finale de Ligue des Champions génère à peu près autant de « buzz » qu’un Super Bowl. Le football américain est déjà lui aussi un sport de chiffres mais il reste tant à faire dans ce type de sports « dynamique » (au contraire du baseball où par exemple des séquences figées sont répétées inlassablement).
Une dernière éventualité serait le tennis : dans ce cas nos clients seraient directement les joueurs (ou leur entraîneur, leur staff technique) pour améliorer leur jeu ou cataloguer leurs adversaires. Les montants et les volumes de données sont pour le moment très inférieurs à ceux du football, mais dans ce cas précis, les modèles de pose marchent très bien et ce serait une application naturelle.
Un mot pour conclure ?
Il y a encore beaucoup à faire mais la « vision » reste totalement nécessaire : la vidéo reste un élément de base pour l’obtention de la data. Tout cela va s’industrialiser et les clubs vont de plus en plus internaliser la nécessité de travailler avec des données qui font déjà partie de leur quotidien.
Cet article a été publié sur Variances.eu le 24 juin 2021. Il est repris par Vox-Fi avec due autorisation.
Notes :
(1) « Moneyball » : « Le Stratège » en français, film tiré d’une histoire vraie – voir ici : https://www.imdb.com/title/tt1210166/
(2) Szymanski et Kuper – Les attaquants les plus chers ne sont pas ceux qui marquent le plus – DE BOECK SUP (2015) – https://www.amazon.fr/attaquants-plus-chers-sont-marquent/dp/2804171531
(3) NDLA : intuitivement, le spectateur « suit » à la télévision principalement le ballon. Historiquement, l’analyse s’est donc souvent retrouvée descriptive des actions associées au « porteur » de balle : X passe à Y, X se retourne, X tire, etc. Ces analyses ne sont plus suffisantes. Il faut être désormais capable d’analyser ce qui se passe dans le reste du jeu, à savoir les évènements sans le ballon : quel joueur se déplace dans quelle zone, même s’il ne reçoit pas de passe, quel joueur effectue un appel, etc. La description des évènements complexes avec le ballon peut être la qualification d’une passe ou d’un tir, une faute, un accrochage, etc.
(4) José Mourinho : entraîneur star de la décennie 2000-2010, passé par Porto, Chelsea, l’Inter, Manchester United, récemment licencié de Tottenham et qui prendra la responsabilité de l’équipe de l’AS Rome en Août 2021 – https://fr.wikipedia.org/wiki/Jos%C3%A9_Mourinho
(5) Josep « Pep » Guardiola : ancien joueur du FC Barcelone, théoricien du jeu désormais entraîneur, passé par le FC Barcelone, le Bayern Munich et désormais Manchester City, souvent considéré comme le meilleur entraîneur du monde à l’heure actuelle – https://fr.wikipedia.org/wiki/Pep_Guardiola
(6) KPI = Key Performance Indicators, soit 800 variables d’intérêt liées à la performance du joueur sur le match.
(8) Opta Sports est un pionnier et l’un des plus grands acteurs dans le domaine de la données sportive – https://www.optasports.com/