ED Mathématiques et Informatique
Agents autonomes avec apprentissage par renforcement profond guidés par le langage
par Thomas CARTA (Institut national de recherche en informatique et en automatique - Bordeaux - Sud-Ouest)
Cette soutenance a lieu à 15h30 - Ada Lovelace Centre Inria de l'université de Bordeaux, 200 Av. de la Vieille Tour, 33405 Talence, France
devant le jury composé de
- Pierre-Yves OUDEYER - Directeur de recherche - Université de Bordeaux - Directeur de these
- Olivier SIGAUD - Professeur - Sorbonne université - CoDirecteur de these
- Martha WHITE - Associate Professor - University of Alberta - Examinateur
- Edward HUGHES - Docteur - The London School of economics - Examinateur
- Jean PONCE - Professeur - Ecole normale supérieure-PSL - Examinateur
- Georg MARTIUS - Professeur - Université de Tübingen - Rapporteur
- Pierre-Luc BACON - Associate Professor - University of Montreal's DIRO - Rapporteur
Les humains ont depuis longtemps inventé des outils pour surmonter leurs limites physiques et étendre leurs capacités, des outils en pierre aux dispositifs mécaniques. Cette innovation s'est finalement étendue au domaine cognitif avec les premières calculatrices et les ordinateurs programmables. Aujourd'hui, l'intelligence artificielle, en particulier les grands modèles linguistiques (LLM), représente la dernière étape de cette trajectoire, permettant aux humains d'augmenter leurs fonctions cognitives telles que le raisonnement, la créativité et la découverte. Malgré des progrès notables dans le domaine de l'IA, tels que la génération fluide de langage et les prévisions scientifiques, les systèmes actuels fonctionnent en grande partie selon des objectifs et des stratégies définis par l'homme. La véritable intelligence artificielle générale (AGI) reste un objectif à long terme, dans lequel les agents peuvent opérer dans des environnements ouverts, avec des objectifs non spécifiés et sans solutions prédéfinies. L'un des principaux défis pour atteindre l'AGI réside dans la création d'agents ouverts, c'est-à-dire des systèmes capables d'explorer de manière autonome, d'apprendre en continu et de développer des compétences de plus en plus complexes au fil du temps. Ces agents doivent non seulement acquérir de nouvelles connaissances à partir de leur environnement, mais aussi réinterpréter et s'appuyer sur les découvertes passées, à l'instar des humains tout au long de leur vie. Des travaux récents ont commencé à définir formellement ce qu'implique l'ouverture chez les agents, en mettant l'accent sur la production de résultats novateurs et apprenables. Le langage joue ici un rôle central, ancré dans les théories du développement, le langage peut soutenir l'exploration, la génération d'objectifs et la planification chez les agents artificiels. Pour fonctionner efficacement, un agent ouvert doit opérer à la fois dans l'environnement et dans un espace d'objectifs. Il doit explorer son environnement avec une motivation intrinsèque, s'adapter à une dynamique en constante évolution et acquérir efficacement de nouvelles compétences, même lorsque les tâches deviennent plus complexes. Structure de la thèse Partie I : Les fondements introduisent les concepts clés, notamment l'apprentissage par renforcement, la motivation intrinsèque et les capacités des LLM. Partie II : La modélisation de l'environnement se concentre sur la manière dont les agents peuvent comprendre et simuler leur environnement. Une méthode utilise un LLM comme apprenant par renforcement incarné, fondant sa compréhension sur l'interaction. Une autre utilise le LLM pour émettre des hypothèses et affiner des modèles basés sur le retour d'information de l'environnement. Partie III : Exploration de l'espace des objectifs examine comment les agents peuvent interpréter et générer des objectifs exprimés linguistiquement. Une approche évalue la compétence d'un agent à l'aide d'objectifs codés linguistiquement, en tirant parti des modèles linguistiques pour l'apprentissage du programme. Une autre propose un mécanisme de génération d'objectifs guidé par les progrès d'apprentissage de l'agent. Partie IV : Apprendre efficacement vise à améliorer la manière dont les agents apprennent les politiques. Les techniques comprennent la formation de récompenses basées sur le langage à l'aide de messages à compléter et l'apprentissage par renforcement hiérarchique où un LLM dirige l'utilisation des compétences de bas niveau. Conclusion Cette thèse soutient que le langage, lorsqu'il est considéré comme un outil cognitif et structurel, permet d'acquérir des capacités clés pour un apprentissage ouvert. En intégrant les LLM dans la conception d'agents intelligents, nous pouvons progresser vers des systèmes capables de découvertes autonomes et permanentes, des agents qui reflètent la nature adaptative, curieuse et créative de l'intelligence humaine.
ED Sciences de la Vie et de la Santé
Impact des isoformes DDR1a et DDR1b sur le développement du carcinome rénal à cellules claires (ccRCC)
par Chloé REDOUTE (BoRdeaux Institute of onCology)
Cette soutenance a lieu à 9h00 - Amphi RDC bâtiment BBS Bâtiment Bordeaux Biologie Santé 2 Rue Dr Hoffmann Martinot 33000 Bordeaux
devant le jury composé de
- Ulrich VALCOURT - Professeur des universités - Laboratoire de Biologie Tissulaire et Ingénierie Thérapeutique (LBTI) UMR 5305 CNRS et Université Claude Bernard Lyon 1 - Rapporteur
- Curzio RUEGG - Professeur émérite - University of Fribourg, Switzerland - Rapporteur
- Elisabeth GENOT - Directrice de recherche - Bioingénierie Tissulaire (BioTis) Inserm U1026 Université Bordeaux - Examinateur
- Hamid MORJANI - Professeur - BioSpectroscopie Translationnelle BioSpecT - EA7506 UFR de Pharmacie - Université de Reims - Examinateur
- Isabelle SAGOT - Directrice de recherche - IBGC UMR 5095 - Université de Bordeaux - Examinateur
Les carcinomes rénaux (RCC) représentent environ 90 % des cancers du rein, le carcinome à cellules claires (ccRCC) en constituant le sous-type le plus fréquent (75 % des cas). Les traitements actuels du ccRCC reposent sur des combinaisons d'inhibiteurs de tyrosines kinases (ITK) et d'inhibiteurs de points de contrôle immunitaire (anti-PD-1/PD-L1/CTLA-4). Malgré ces thérapies, certains patients en rémission peuvent présenter des rechutes tardives, parfois plusieurs décennies après la fin du traitement. Ce phénomène peut être attribué à la présence de cellules tumorales dormantes (quiescentes) au sein des organes cibles des métastases. Parmi les nombreuses cibles des ITK figure le récepteur DDR1 (Discoidin Domain Receptor 1), dont les ligands sont les collagènes fibrillaires. Cinq isoformes de DDR1 ont été décrites (a–e), mais seules DDR1a et DDR1b sont exprimées dans le ccRCC. L'isoforme DDR1b diffère de DDR1a par une séquence additionnelle de 37 acides aminés parmi laquelle se trouvent deux tyrosines : la tyrosine 513 (Y513) et la tyrosine 520 (Y520). Nos analyses des données TCGA ont montré qu'une expression élevée de DDR1 est corrélée à une meilleure survie des patients atteints de ccRCC, suggérant un rôle protecteur potentiel via l'inhibition de la progression tumorale. Afin d'explorer le rôle fonctionnel de DDR1 et de ses isoformes, la lignée cellulaire 786-O a été modifiée pour surexprimer séparément DDR1a ou DDR1b, ainsi que des versions mutées de DDR1b sur Y513, Y520 ou sur les deux tyrosines simultanément. Nos études in vitro ont révélé qu'en présence de collagène I seule l'isoforme DDR1a diminue la prolifération, la migration et l'invasion cellulaires. De plus, un enrichissement des cellules en phase G0 du cycle cellulaire, accompagné d'une accumulation nucléaire de p27, ont été observés, suggérant une entrée en quiescence possiblement liée à de la dormance cellulaire tumorale ou à un état de sénescence. Les Y513 et 520 participent toutes les deux aux phénotypes induits par DDR1b et seul le double mutant de DDR1b mime le phénotype DDR1a : réduction des propriétés pro-tumorales, enrichissement en phase G0 et augmentation de p27 nucléaire. Les objectifs de ce projet sont d'identifier les voies de signalisation intracellulaires impliquées dans l'état de quiescence induit par DDR1a, de discriminer entre quiescence réversible (dormance) ou irréversible (sénescence) et de déterminer l'importance des tyrosines 513 et/ou 520 dans les voies de signalisation de DDR1b permettant l'inversion de la quiescence. Afin d'identifier les voies de signalisation intracellulaires impliquées dans l'état de quiescence, des approches protéomiques et kinomiques ont été réalisées sur les cellules exprimant DDR1a et DDR1b. Le système rapporteur FUCCI est utilisé in vitro pour caractériser la capacité des cellules à réintégrer le cycle cellulaire, un critère discriminant entre dormance et sénescence. Afin de démontrer l'importance des Tyrosines 513 et 520 de DDR1b dans les voies de signalisation permettant l'inversion de la quiescence, une majorité des expériences in vitro utilisées précédemment ont été effectuées avec les différentes cellules mutantes sur Y513, 520 ou les deux. Ce projet de thèse permet une meilleure compréhension dans le rôle et l'importance des différentes isoformes de DDR1 dans le développement des ccRCC, dans l'état de quiescence des cellules de ccRCC et dans leur réactivation afin de former des métastases.