Des chercheurs de l’Université Cornell, du MIT et de l’Université McGill ont appliqué des théories relevant des sciences cognitives afin d’étudier le mode de construction du langage humain. La recherche a permis d’établir une correspondance entre les démarches du scientifique construisant des grammaires de langues et de l’enfant ou du néophyte apprenant ces langues. Kevin Ellis, professeur à l’Université Cornell, a déclaré : « L’une des motivations de ce travail était notre désir d’étudier des systèmes qui apprennent des modèles d’ensembles de données représentés d’une manière que les humains peuvent comprendre ». Le langage naturel est un domaine privilégié pour étudier la démarche scientifique, car les sciences du langage fournissent des ensembles de données et des grammaires provenant d’une grande variété de langages distincts. Elles représentent un banc d’essai pour analyser les algorithmes d’induction de nouvelles théories. Les enfants comme les linguistes acquièrent ou étudient le langage à partir de faibles quantités de données. Les théories de la représentation et de l’apprentissage des langues sont généralement formulées en termes informatiques basés sur des formalismes déployables par les chercheurs en IA.

 

Ces derniers ont adopté le paradigme de l’apprentissage par programme bayésien (BPL) [1] et ont construit leur modèle en utilisant sketch, un synthétiseur développé au MIT par Armando Solar-Lezama. Ils se sont concentrés sur les théories de la morphophonologie du langage naturel, le domaine du langage régissant l’interaction de la formation des mots et de la structure sonore. L’équipe a évalué le modèle BPL sur 70 ensembles de données couvrant la « morphophonologie » de 58 langues. Bien que d’une grande diversité linguistique, ces ensembles sont plus simples que l’apprentissage complet d’une langue ; ils ne comptent qu’une centaine de mots et présentent peu de difficultés grammaticales. Lorsqu’on lui donne des mots et des exemples de la façon dont ces mots changent pour exprimer différentes fonctions grammaticales (comme le temps, le genre, la déclinaison…), le modèle d’apprentissage automatique propose des règles qui expliquent pourquoi les formes de ces mots changent. Le modèle a été ainsi en mesure de proposer, dans plus de 60 % des cas, un ensemble correct de règles pour décrire ces changements de forme. Il pourrait donc être utilisé pour étudier les hypothèses linguistiques et étudier les similitudes dans la façon dont diverses langues transforment les mots. Ce modèle pourrait être étendu aux langages des métiers, et notamment, de celui de la finance.

 

L’étude Synthesizing theories of human language with Bayesian program induction a été publiée dans Nature Communications (https://doi.org/10.1038/s41467-022-32012-w ). Elle est citée dans JJ Pluchart et D. Bonnet, Intelligence humaine et Intelligence Artificielle, ESKA, 2021.

 

[1] méthode d’inférence statistique par laquelle on calcule les probabilités de diverses causes hypothétiques à partir de l’observation d’événements connus.

 

 

Cet article a été initialement publié sur Vox-Fi le 28 octobre 2022.