Du SQL au GraphQL : la démocratisation de l’usage de la donnée

  • Les méthodes de traitement de la donnée ont parcouru un long chemin depuis les débuts de l’informatique. Au départ, les premiers systèmes comme les IBM AS/400 manipulaient les données séquentiellement, en parcourant des fichiers où étaient stockées des informations de même nature.
  • Par la suite ont émergé les bases de données relationnelles et le langage SQL pour répondre aux exigences des systèmes de gestion. Cette architecture, datant des années 1970, apportait une solution efficace aux contraintes de stockage et d’intégrité des données, ainsi qu’un langage standardisé pour manipuler ces données et leur structure. Ensuite, les progrès constants de la miniaturisation des mémoires et disques durs, et la baisse des coûts de fabrication de ces composants, ont permis de réduire la pression liée à la volumétrie. Les technologies de stockage en réseau (appelées NAS pour Network Attached Storage) et la généralisation du cloud computing ont définitivement levé ces contraintes. L’enjeu n’est plus le stockage optimal, mais l’accès efficient à la donnée. Avec l’accroissement des capacités de calcul, nous avons basculé d’une logique de traitement de masse (les fameux batchs de nuit) à une logique en temps réel. Cette révolution a favorisé l’émergence de nouveaux systèmes de base de données, que l’on appelle « base de données orientée documents », la plus populaire étant MongoDB.
  • Cependant, notre monde ne se résume pas à des ensembles de documents. Il est constitué d’entités de différentes natures interagissant les unes avec les autres. Les nouvelles architectures de bases de données orientées graphes (la plus populaire étant Neo4j) facilitent précisément la modélisation de ces interactions. Bien plus proche de notre mode de raisonnement humain, le concept de graphe permet de visualiser l’entourage d’une entité, ou d’étudier les liens, directs ou indirects, qui existent entre deux entités. Les révélations des « Panama Papers » ont pu aboutir notamment grâce à cette technologie. Les bases de données graphes ont permis aux journalistes d’investigation d’expliciter les liens entre sociétés offshore et responsables politiques, élus, chefs d’États et ministres, à partir de multiples sources d’information. Le consortium a publié un site Internet sur lequel figurent les graphes d’influence des individus analysés[1].
  • Ces progrès en matière d’utilisation des données n’expliquent pas à eux seuls la révolution qui se dessine autour de la Data. Des avancées considérables ont simultanément été réalisées en matière de partage des données. Imaginez des systèmes capables de s’échanger mutuellement leurs données avec leur structure, sans qu’aucune manipulation ne soit nécessaire… C’est le deuxième axe majeur de progression qui laisse entrevoir des capacités pratiquement illimitées.

 

Vers une communication efficiente entre systèmes

  • Jusqu’à présent, deux sociétés client/fournisseur échangeaient des données par EDI. Le principe consistait à déposer un fichier (bons de commande, ordres d’expédition, éléments à facturer, etc.) sur un serveur, pour être ensuite intégré au système du partenaire. Ce mode de fonctionnement nécessitait un cahier des charges préalablement convenu entre les parties, qui dépendait fortement des contraintes techniques des ERP sources et cibles. Parmi les paramètres, il fallait aussi définir la fréquence à laquelle le fichier serait mis à disposition et intégré. On ne parlait pas de temps réel.
  • Les API (pour « Application Programming Interface ») qui se développent avec l’économie digitale introduisent une nouvelle logique : le producteur de la donnée fournit publiquement la documentation régissant les interactions utilisables par tous les partenaires. Cette donnée peut être interrogée sur demande ou envoyée automatiquement lorsqu’un événement déterminé survient (par exemple, une nouvelle commande). Les informations sont alors accessibles à tous les partenaires de façon homogène, transmises ou consultables en temps réel. Ces données étant structurées, donc facilement interprétables, il ne reste plus qu’à faire son marché parmi celles qui nous intéressent. Nous avons ainsi les bases de l’économie de la prochaine décennie, carburant à l’Open Data.

 

Alexa, quel est mon chiffre d’affaires et mon résultat net pour la journée d’hier ?

  • C’était déjà l’idée sous-jacente du protocole XBRL, né en 1999 ! Ce format de données qui a pour objectif d’harmoniser la définition des agrégats mentionnés dans les documents financiers des entreprises cotées, permet aux investisseurs et analystes d’accéder automatiquement à ces informations, de calculer facilement leurs ratios et KPI, puis de les comparer entre toutes les sociétés. Il aura tout de même fallu attendre 2021 pour que XBRL soit adopté comme standard européen de reporting des comptes annuels…[2]
  • Peut-être avez-vous à ce stade commencé à réaliser les perspectives qu’offre la combinaison des avancées en matière de traitement et d’échange des données ? Finis les tableaux et fichiers en lignes et en colonnes. Les technologies actuelles ouvrent la voie à la modélisation d’une véritable réplique numérique de l’environnement réel.

 

Modéliser notre monde grâce aux jumeaux numériques

  • C’est précisément l’idée derrière le concept de fusion entre le physique et le digital (que certains appellent aussi « phygital ») ou encore de jumeau numérique (ou « digital twin » en anglais).
  • Vous avez très probablement, et peut-être sans le savoir, déjà un ou plusieurs jumeaux numériques. Le meilleur exemple est votre compte Google : le matin, c’est peut-être votre assistant Google qui programme l’heure de votre réveil, et connaît quelle radio vous écoutez en prenant votre petit déjeuner. Votre smartphone fournit également à Google le moment où vous prenez votre voiture pour aller au bureau, ou l’itinéraire que vous avez saisi sur Google Maps pour aller déjeuner dans tel restaurant, ainsi que les recherches que vous faites sur votre navigateur tout au long de la journée. Enfin, votre compte Google connaît également toutes les vidéos que vous visionnez sur Youtube dans la soirée…
  • Bon nombre d’entreprises de l’économie réelle (par opposition à l’économie numérique), qui ont développé leur architecture informatique sous l’ère des fichiers puis des bases de données, sont confrontées à un choc des cultures à l’heure de l’économie de l’Internet mobile. Face aux « pure players », elles doivent composer avec ce handicap que constitue leur galaxie de systèmes historiques (que les anglo-saxons appellent malicieusement « legacy », voulant dire héritage).
  • Dans les processus industriels complexes, le principe du jumeau numérique est déjà fréquemment mis en œuvre. Tous les nouveaux modèles de véhicules sont conçus et testés grâce à des simulateurs qui reproduisent le comportement qu’est supposé avoir l’engin avant même qu’un prototype ne soit construit. Les modèles physiques, développés notamment pour l’industrie du jeu vidéo, ont permis une optimisation considérable du processus de fabrication des machines. Mais nous sommes encore loin d’avoir cerné toute la portée de ce concept.
  • Il incombera aux Chief Data Officers, ces nouveaux métiers qui peinent encore à être positionnés et reconnus à leur juste valeur, de définir leur vision et d’évangéliser les dirigeants pour permettre à toutes les entreprises d’obtenir tous les bénéfices escomptés de cette révolution digitale.

 

Points à retenir
  • Les systèmes traditionnels des entreprises vont être profondément transformés par les nouvelles architectures de bases de données orientées graphes.
  • Les API, protocoles d’échange de données en temps réel, offrent des opportunités d’étendre mutuellement les systèmes d’information des partenaires.
  • Les progrès combinés en matière de partage des données (les API) et d’utilisation des données (les graphes) vont favoriser l’émergence des jumeaux numériques, offrant des perspectives de création de valeur dans de nombreux secteurs d’activité.

 

 

[1] https://offshoreleaks.icij.org/

[2] http://www.xbrl.org/ixbrl-samples/faurecia-income-statement-viewer.html#f-ixv-24

 

 

Cet article a été publié sur Vox-Fi le 6 avril 2021.