D’où le paradoxe de la prévision : un gros bout du travail du prévisionniste est de prévoir le passé proche, avant même de penser au présent et encore moins au futur.

Le COVID, confinement aidant, a eu cet avantage si l’on peut dire de gripper la production de la plupart des sources statistiques traditionnelles. D’où la nécessité d’être inventifs, c’est-à-dire souvent de mettre en application ce que la recherche statistique explorait depuis un certain temps sans qu’on l’ait fait passer au stade de la production. Il n’y a guère d’innovations sur un sol non préparé. De nouveaux indicateurs apparaissent, dont on réalise qu’ils ont souvent l’avantage d’être faciles à recueillir, même s’ils supposent en aval des traitements statistiques complexes. Comme ils éclairent le présent, on leur donne le terme bien trouvé, mais difficile à traduire, de nowcasting, par opposition au forecasting.

Les graphiques qui suivent témoignent de l’effort en cours. Ils sont tirés de la Note de conjoncture de l’INSEE en date du 17 juin 2020.

Le premier procède d’un traitement sémantique des articles de la presse économique française. En effet, ceux-ci contiennent une pléthore d’informations qualitatives sur le contexte économique en abordant des thématiques variées. À l’aide de techniques d’analyse textuelle et d’apprentissage supervisé (machine learning), l’INSEE a élaboré un indicateur de sentiment médiatique sur l’économie française à partir des articles numériques du quotidien Les Échos. Les mots qui apparaissent dans un article sont catégorisés en « positif » s’ils traduisent une opinion optimiste, en « négatif » dans le cas pessimiste. On met ainsi au point un indicateur en rapportant les mots « positifs » aux « négatifs ». Voici ce que ça donne si on le compare à l’évolution du PIB. Pour le moins, l’indicateur n’est pas dénué de sens.

On se doute aussi que les données de géolocalisation sont riches d’information sur la situation de l’économie. Ainsi, par association avec Orange, l’INSEE a tiré un indicateur des déplacements effectués par les gens, et donc de déplacements au travail si on se limite au créneau 7h-9h. On y voit le joli trou créé par le confinement.

Depuis belle lurette, on souhaitait utiliser les données de cartes bancaires, qui représentent désormais le gros des transactions marchandes effectuées par les particuliers. Dans le graphique qui suit, on voit à quel point le COVID a été du pain béni pour le commerce en ligne et du pain dur pour le commerce en physique (à croire même qu’on a voulu en profiter pour subventionner Amazon au détriment des petits commerces).

Mais on peut aller plus loin grâce à une source statistique exploitée depuis quelques années : les sorties de caisse de la grande distribution. Imaginez ! On capte enfin en temps réel les achats de centaines de milliers de produits qui franchissent les codes-barres de ces magasins. On en connait le prix et la quantité. Autrement dit, il devient possible de fabriquer de façon ultra-fine un indice de prix et un indice de progression de la consommation en volume. Il faut bien sûr, dans la conjoncture présente, redresser les données pour corriger le transfert des achats des petits commerces qui sont restés fermés vers les super et hypermarchés, ce que l’on fait à partir des données issues des cartes bancaires.

La dégringolade des achats de carburant, d’hôtellerie et de restauration durant le confinement apparait nettement.

On ne s’étonnera pas que les GAFAM soient des sources incroyables de données, si seulement elles voulaient les livrer ou si seulement les États exigeaient qu’elles les livrent. Elles préfèrent à ce stade bâtir leurs propres indicateurs, par exemple Apple avec son indice de mobilité.

L’INSEE recueille pour sa part des données, éparses à l’origine, mais qu’un bon statisticien sait travailler pour les faire confluer vers un ou une batterie d’indicateurs convergents. Ici, les données sur le kilométrage des camions, la concentration de l’air en NO2 et le Google Trend publié par Google.

On voit que l’imagination déborde. L’Internet des Objets va apporter demain son lot d’autres opportunités. On s’interroge simplement sur la possibilité pour les instituts statistiques et d’autres organismes publics de les recueillir et d’en faire des biens communs, avec les protocoles appropriés de protection de la vie privée et de la propriété intellectuelle. Les données collectées par Waze ou Google Maps, pour prendre cet exemple, rendent, une fois agrégées, un service d’information décisif pour la bonne gestion de la circulation urbaine et désormais pour la prévision économique. Ces entités renâclent à les livrer.

La loi statistique de 1951 impose aux entreprises de remettre à l’INSEE des données d’enquête, de même, au travers de la direction des impôts, des données financières. Des changements législatifs récents entrouvrent la possibilité de réclamer des données immatérielles (témoin les données de sortie de caisse de la grande distribution, désormais transmises à titre obligatoire) mais la route reste semée d’embûches. On attend des initiatives politiques plus résolues.

 

Cet article a été initialement publié sur le site variances.eu le 6 juillet 2020. Il est repris par Vox-Fi avec due autorisation.