Les données massives : un processus de collecte inversé

Ces dernières années, le déploiement massif des nouvelles technologies numériques et leur application dans de plus en plus de domaines ont eu comme effet, entre autres, une explosion du volume et de la variété des données collectées. Les traces numériques des humains, devenus à la fois capteurs et censeurs, sont aujourd’hui stockées, explorées, analysées, et surtout considérées comme un nouveau et immense enjeu pour les entreprises. D’après Pat Gelsinger, aujourd’hui PDG d’Intel, « les données sont la nouvelle science ; le big data contient toutes les réponses ». Mais si les données collectées représentent sans doute un gisement précieux d’information, ainsi qu’un outil essentiel pour la décision et la stratégie, elles ne sont pas pour autant des oracles et renferment très probablement autant de questionnements et de limites que de réponses.

La quantité des données produites et stockées aujourd’hui donne le tournis par son côté exponentiel. D’après un rapport de l’IDC (nov. 2018)[1], le volume total des données stockées dans le monde pourrait passer de 33 zettaoctets (1 Zo = 1 milliard de To) en 2018 à 175 Zo en 2025.  Mais est-ce que beaucoup est synonyme de mieux ? L’impact de ces données massives sur la production de connaissances est-il à la hauteur de leur volume ?

Par sa complexité, ainsi que par son caractère récent, cette question est au cœur de nombreux débats et travaux de recherche. On observe en effet un changement fondamental par rapport au modèle classique des statistiques, induit par un processus de collecte inversé. Les données, et plus particulièrement les données du web, ne sont plus issues d’un plan d’expérience établi à l’avance par des experts, mais d’une collecte « naturelle » dans un contexte métier. En outre, ces données sont très souvent produites directement par les utilisateurs d’un service (commentaires, notes, etc.). Le contrôle limité sur ce processus de collecte mène à l’apparition de biais dans les données et dans leur traitement ultérieur.

Les données massives : les sources de biais sont multiples

Souvent utilisé avec une connotation négative, le terme “biais” désigne, dans son sens le plus général, une altération. Lorsque cela fait référence à une personne, on peut parler d’une altération de jugement ou d’un biais cognitif, et donc de la manière erronée dont le cerveau peut percevoir et traiter une information par rapport à la réalité. Introduite dans les années 70 par D. Kahneman et explorée notamment en économie comportementale, la notion de biais cognitif sous ses différentes formes s’invite dans les processus de production et d’analyse de la donnée.

 

En 2010, dans un article publié par la prestigieuse American Economic Review[2], deux chercheurs de Harvard avaient montré qu’une dette publique dépassant 90 % du PIB « tuait » la croissance. Leurs résultats avaient été repris par le vice-président de la Commission européenne de l’époque pour justifier une politique d’austérité budgétaire, ainsi que par d’autres institutions et personnalités publiques[3]. Depuis, cette étude a fait l’objet de nombreuses critiques pointant ses défauts méthodologiques[4]. Parmi eux, un biais de confirmation et la confusion – très fréquente – entre corrélation et causalité. S’il y a effectivement un lien entre la croissance et la dette, le sens de ce lien est difficile, voire impossible à établir. Les données massives induisent naturellement une multiplication d’associations et de corrélations et par conséquent augmentent fortement la tentation de conclure à l’existence de liens causaux douteux ou erronés.

 

Les biais peuvent se manifester dans toutes les étapes de ce processus. Un exemple bien identifié aujourd’hui sont les systèmes de notation intégrés à toutes les plateformes. Parmi les dérives identifiées, Y. Koren, R. Bell et Ch. Volinsky ont mis en évidence dès 2009 des biais de notoriété et d’ancrage[5] : les premiers utilisateurs ancrent la notation, alors que ceux qui arrivent après notent en fonction des scores déjà fixés. Ainsi, lorsque les données collectées correspondent au moins en partie au résultat d’une décision humaine, l’écart entre des données mesurées objectivement et des données induites par le choix de l’humain peuvent comporter une part importante de biais, mais également un côté très aléatoire et non-reproductible.

Si l’impact des biais cognitifs est évident dans le processus de production de la donnée, on doit remarquer aussi que la culture des data-scientists n’est pas nécessairement adaptée à la production de modèles sans biais. Par exemple, les critères de qualité utilisés classiquement pour calibrer un algorithme ne permettent pas de garantir l’impartialité de ses résultats.

De nombreux algorithmes utilisés par les grandes plateformes ont ainsi été évalués comme menant à des décisions discriminatoires, racistes ou sexistes. L’un des exemples les plus connus est probablement celui du logiciel COMPAS, utilisé aux USA pour estimer la probabilité de récidive d’un condamné[6]. Bien qu’aussi précis en moyenne sur les afro-américains que sur les blancs, les erreurs commises sont de natures opposées : l’algorithme surestime la probabilité de récidive des noirs et sous-estime celles des blancs. On observe sur ce sujet une contradiction entre la nécessaire protection des données personnelles, comme le groupe ethnique, et le besoin d’identifier des groupes spécifiques pour s’assurer qu’ils sont traités de façon équitable.

Outre les biais mentionnés ci-dessus, les données peuvent être également impactées par des biais de sélection ou des biais de représentativité. Cela fait référence, entre autres, à la capacité des données à reproduire les caractéristiques de la population générale. D’une part, ceci peut être notamment imputé à l’accès inégal et aux usages très différents des services numériques et des objets connectés. Des pans entiers de la population générale sont ainsi surreprésentés, alors que d’autres sont sous représentés, voire absents. D’autre part, la production de contenu n’est pas uniformément répartie, mais obéit plutôt au principe de Pareto : une petite minorité d’utilisateurs produit une majorité de contenu[7]. Enfin, le mode de discours dominant sur une plateforme numérique peut modifier la composition et la manière dont la population présente sur la plateforme s’exprime[8].

 

Les données massives : une question d’éducation

Malgré leur richesse et leur énorme potentiel pour la production de connaissances, les données massives ne fournissent donc qu’une image partielle et déformée d’une réalité complexe. Elles sont porteuses de multiples altérations qui trahissent leur origine humaine. Aujourd’hui, la question des biais est au cœur de nombreuses recherches académiques et industrielles visant à développer de meilleures stratégies de production et de collecte, ainsi que des algorithmes plus éthiques, transparents et équitables. Au-delà des travaux théoriques de traitement statistique et de développement algorithmique, la question de la prise en compte des biais implique également un facteur humain important. En mars 2020, l’Institut Montaigne a publié un rapport[9] sur les biais algorithmiques et émis une série de recommandations pour leur prise en compte par les entreprises et les institutions publiques. Nous souhaitons revenir sur l’une de ces recommandations : l’importance cruciale de la formation.

Une sensibilisation de tous à la présence et à l’importance des biais dans les données massives est un enjeu de société majeur. D’une part, la connaissance des questions liées aux biais et à l’apprentissage automatique ne doit pas être réservée ou concerner uniquement les ingénieurs et data-scientists en charge de développer les algorithmes, mais au contraire tous les acteurs impliqués dans un processus décisionnel s’appuyant sur l’utilisation de données. D’autre part, les formations des ingénieurs et des data-scientists doivent fournir des compétences en sciences sociales en plus des compétences mathématiques et informatiques : les data-scientists doivent maîtriser les notions d’équité et de biais au-delà de la stricte définition mathématique, et pouvoir anticiper et comprendre l’effet des algorithmes sur certaines catégories de population. C’est dans un dialogue éclairé et vigilant que de bonnes pratiques visant à contrôler ou à corriger des biais pourront être mises en place.

En 1903, H.G. Wells estimait que le jugement statistique sera un jour « aussi nécessaire à l’exercice de base des fonctions du citoyen que la capacité de lire et d’écrire ». Les biais représentent aujourd’hui l’une des raisons fortes justifiant cette nécessité, à large échelle.

 

 

[1] Reinsel, D., Gantz, J., & Rydning, J. (2018). IDC White Paper. The Digitization of the World from Edge to Core

[2] Reinhart, C., & Rogoff, K. (2010). Growth in a time of debt. American Economic Review, 2, 573–578 Growth in a Time of Debt

[3] La dette publique, jusqu’où ?

[4] Herndon, Th., Ash, M., & Pollin, R. (2014). Does high public debt consistently stifle economic growth? A critique of Reinhart and Rogoff. Cambridge Journal of Economics, 38, 257-279, Does high public debt consistently stifle economic growth? A critique of Reinhart and Rogoff

[5] Koren, Y., Bell, R., & Volinsky, C. (2009). Matrix factorization techniques for recommender systems. Computer, 42(8), 30-37. MATRIX FACTORIZATION TECHNIQUES FOR RECOMMENDER SYSTEMS

[6] Angwin, J., Larson, J., Mattu, S., & Kirchner, L. (2016) Machine bias: There’s software used across the country to predict future criminals, and it’s biased against blacks. ProPublica Machine Bias — ProPublica

[7] Ricardo Baeza-Yates. 2018. Bias on the web. Communications in ACM, 61, 54–61. Bias on the web | Communications of the ACM

[8] Le Caroff, C. (2015). Le genre et la prise de parole politique sur Facebook. Participations, 2(2), 109-137. Le genre et la prise de parole politique sur Facebook

[9] Algorithms: Please Mind the Bias!

 

Cet article a été publié dans le n°387 de Finance&Gestion. Il est repris par Vox-Fi avec due autorisation.