L’évaluation en temps réel (nowcasting) du taux de croissance du PIB est extrêmement utile aux décideurs de politique économique afin d’appréhender correctement l’activité macroéconomique à une fréquence élevée. Dans ce travail, nous cherchons à évaluer en temps réel le PIB de la zone euro à l’aide d’une grande base de données de recherches Google par mots-clés. Notre objectif est de vérifier si, et quand, ce type d’information permet d’améliorer la précision des évaluations en temps réel lorsqu’on contrôle par des variables officielles d’enquêtes et de production. Pour cela, nous estimons des modèles de régression qui permettent une réduction de la dimension à partir des données Google préalablement présélectionnées de manière optimale, et nous montrons de manière empirique l’efficacité de cette approche lorsqu’on cherche à évaluer le PIB de la zone euro. En particulier, nous montrons que les données Google contiennent une information utile pendant les quatre premières semaines du trimestre, lorsque l’information macroéconomique officielle sur le trimestre en cours n’est pas disponible. Toutefois, lorsque les données officielles deviennent disponibles, le gain relatif des données Google se dissipe rapidement. Enfin, nous montrons qu’une analyse dans des vraies conditions de temps réel, à partir de données millésimées, confirme tous les résultats précédents, notamment que les données Google constituent une alternative crédible lorsque les données officielles ne sont pas encore disponibles.

 

L’évaluation en temps réel (nowcasting) du taux de croissance du PIB est extrêmement utile aux décideurs de politique économique afin d’appréhender correctement l’activité macroéconomique à une fréquence élevée. Ce concept a été popularisé par de nombreux chercheurs (voir par exemple Giannone et al., 2008) et diffère des approches de prévision standard en ce sens qu’il vise à évaluer les conditions macroéconomiques actuelles, mais sur une base haute fréquence.

Dans la littérature existante, les outils d’évaluation en temps-réel du PIB intègrent des informations macroéconomiques officielles provenant, par exemple, des instituts nationaux de statistique, des banques centrales et des organisations internationales. Toutefois, plus récemment, des travaux de recherche (voir par exemple Varian, 2014, Giannone et al., 2017, ou Buono et al., 2018) ont souligné le gain que les prévisionnistes peuvent tirer de l’utilisation de sources alternatives d’information à haute fréquence, généralement rassemblées dans de grandes bases de données (big data). L’une des principales sources de données alternatives est celle relative aux données issues de recherches par mots-clés sur Google; les articles séminaux sur l’utilisation de ces données pour la prévision économique étant ceux de Choi et Varian (2009, 2012). Même si certains travaux soulignent le gain à utiliser des données alternatives, il n’existe pas encore de consensus fort sur l’utilité de ce type de variables lorsqu’on contrôle par des données officielles standards.

Dans ce travail, nous cherchons à évaluer en temps réel le taux de croissance PIB de la zone euro entre T1 2014 et T1 2016 à l’aide d’une grande base de données de recherches Google par mots-clés. Notre objectif  est de vérifier si, et quand, ce type d’information permet d’améliorer la précision des évaluations en temps réel lorsqu’on contrôle par des variables officielles d’enquêtes et de production industrielle. L’approche que nous adoptons est délibérément extrêmement simple et repose sur des équations linéaires de régression qui intègrent des variables sélectionnées à partir d’un large ensemble de données Google. Plus précisément, nous présélectionnons les variables Google les plus liées à la croissance du PIB, à l’aide de la méthode Sure Independence Screening proposée par Fan et Lv, (2008). Après la pré-sélection, nous estimons des modèles de régression qui permettent une réduction de la dimension à partir des données Google (ridge regression), car le nombre de variables présélectionnées peut encore être important pour utiliser des régressions standards.

Quatre faits principaux stylisés ressortent de notre analyse empirique. Tout d’abord, nous soulignons l’utilité des données Google pour la prévision en temps réel du PIB de la zone euro pour les quatre premières semaines du trimestre. En effet, nous montrons qu’au début du trimestre, les données de Google donnent une image précise du taux de croissance du PIB, en l’absence d’informations officielles disponibles sur l’état de l’économie pour le trimestre en cours. Dans ce contexte, cela signifie que ces données constituent une bonne alternative en l’absence d’informations officielles et peuvent être utilisées comme aide à la décision. Deuxièmement, dès que les données officielles sont disponibles, c’est-à-dire à partir de la cinquième semaine du trimestre, le gain tiré de l’utilisation des données de Google pour la prévision en temps réel du PIB disparaît rapidement. Ce résultat contribue au débat sur l’utilisation de grands ensembles de données alternatives pour l’évaluation macroéconomique à court terme lorsqu’on tient compte de l’information macroéconomique habituelle standard. Troisièmement, nous montrons que la pré-sélection des données de Google avant d’estimer des modèles de prévision semble être une stratégie pertinente en termes de précision. En effet, cette approche permet de ne retenir que les variables Google qui ont un lien fort avec la variable cible, en l’occurrence le taux de croissance du PIB.  Enfin, nous effectuons une véritable analyse en temps réel en utilisant des données millésimées afin de reproduire les vraies conditions de l’exercice d’évaluation du taux de croissance du PIB de la zone euro. Nous montrons alors que les trois résultats précédents sont toujours valables en vraies conditions de temps réel, malgré l’augmentation prévue de la taille des erreurs, suggérant ainsi que les données Google peuvent être utilisées efficacement en pratique pour aider à évaluer les conditions macroéconomiques en début de trimestre.

 

Ce document de travail a été initialement publié sur le site publications.banque-france.fr le 11 avril 2019. Il est repris par Vox-Fi avec due autorisation.