ED Mathématiques et Informatique
Ancrage des LLMS comme agents autotéliques d'apprentissage par renforcement
par Clément ROMAC (Institut national de recherche en informatique et en automatique - Bordeaux - Sud-Ouest)
Cette soutenance a lieu à 15h00 - Ada Lovelace Centre Inria de l'Université de Bordeaux - 200 Av. de la Vieille Tour, 33405 Talence
devant le jury composé de
- Pierre-Yves OUDEYER - Directeur de recherche - Centre Inria de l'Université de Bordeaux - Directeur de these
- Ellie PAVLICK - Associate Professor - Brown University - Rapporteur
- Prithviraj AMMANABROLU - Assistant professor - University of California, San Diego - Rapporteur
- Hugo LAROCHELLE - Professeur - Université de Montréal - Examinateur
- Matthieu CORD - Professeur - Sorbonne Université - Examinateur
- Thomas WOLF - Cadre scientifique - Hugging Face - Examinateur
La construction de machines capables de traiter et comprendre le langage naturel est un objectif historique de l'intelligence artificielle (IA). Récemment, les approches distributionnelles par réseaux neuronaux profonds, en particulier les grands modèles de langage (LLMs), ont permis des avancées spectaculaires. Ces modèles, entraînés à générer du texte en imitant de vastes corpus issus d'Internet, reposent toutefois sur un paradigme purement statistique, dont les limites sont de plus en plus mises en lumière. Cela contraste fortement avec l'acquisition du langage chez l'humain, profondément ancrée dans l'interaction sensorimotrice et sociale. Le langage humain est acquis pour atteindre des objectifs, dans un cadre fonctionnel, guidé par la motivation intrinsèque et la curiosité. Dans cette thèse, nous explorons comment rapprocher les LLMs des théories développementales de l'acquisition du langage, en les incarnant comme des agents curieux capables d'apprendre par renforcement via l'interaction avec un environnement. Nous introduisons d'abord le concept d'ancrage fonctionnel : l'alignement des représentations internes d'un agent avec un environnement externe afin d'agir efficacement. Pour cela, nous proposons GLAM, une méthode d'apprentissage par renforcement en ligne qui entraîne les LLMs dans des environnements textuels. GLAM améliore significativement leur compétence fonctionnelle — c'est-à-dire leur capacité à utiliser le langage pour atteindre des buts. Une analyse approfondie montre que combiner cet ancrage avec des contextes variés et un apprentissage contrastif en augmente la robustesse. Nous abordons ensuite la modélisation du monde avec WorldLLM, un cadre dans lequel les LLMs génèrent et affinent des théories en langage naturel à partir d'interactions curieuses, améliorant leurs capacités prédictives. Nous étendons ensuite ce cadre à des environnements complexes, où les objectifs possibles sont nombreux ou ouverts. Inspirés par l'apprentissage autotelique humain — où l'on choisit et poursuit ses propres buts — nous proposons SAC-GLAM, une extension de GLAM combinant apprentissage off-policy et réétiquetage a posteriori, afin de mieux exploiter des signaux de récompense rares ou bruités. Nous traitons ensuite le problème de la sélection d'objectifs via le progrès en apprentissage, et introduisons MAGELLAN, un module métacognitif permettant aux LLMs d'estimer leur compétence et de prioriser les objectifs les plus bénéfiques. MAGELLAN structure l'exploration des modèles en tenant compte des relations sémantiques et des dynamiques sous-jacentes entre les buts. Enfin, nous montrons que ces capacités métacognitives permettent également aux LLMs de reconnaître leurs limites et de demander de l'aide extérieure lorsqu'ils ne sont pas compétents. Cette recherche montre que l'incarnation des LLMs comme agents autotelique ouvre des perspectives fortes pour le développement de modèles de langage ancrés, adaptatifs et auto-améliorables. Elle constitue une avancée vers des modèles capables non seulement d'utiliser le langage de manière fonctionnelle, mais aussi de mieux comprendre le monde et leur propre fonctionnement. Néanmoins, de nombreuses questions restent ouvertes et atteindre un ancrage fonctionnel dans notre monde physique et social demeure un défi majeur pour la prochaine génération de systèmes intelligents.