ED Mathématiques et Informatique
Modèles discrets et continus de dispersion aléatoire en dimension 1, analyse d'un algorithme d'apprentissage par renforcement
par Zoé VARIN (LaBRI - Laboratoire Bordelais de Recherche en Informatique)
Cette soutenance a lieu à 10h00 - Amphi LaBRI, Bâtiment A30, Domaine universitaire, 351, cours de la Libération, 33405 Talence
devant le jury composé de
- Jean-François MARCKERT - Directeur de recherche - Université de Bordeaux - Directeur de these
- Marie ALBENQUE - Directrice de recherche - Université Paris Cité - Rapporteur
- Arvind SINGH - Chargé de recherche - Université Paris-Saclay - Rapporteur
- Mireille BOUSQUET-MéLOU - Directrice de recherche - Université de Bordeaux - Examinateur
- Nicolas BROUTIN - Professeur des universités - Sorbonne université - Examinateur
- Valentin FéRAY - Directeur de recherche - Université de Lorraine - Examinateur
Cette thèse se situe à l'interface entre probabilités, combinatoire, et systèmes de particules. Nous étudions plusieurs modèles aléatoires, et nous nous intéressons notamment à leur comportement asymptotique. Dans une première partie, nous analysons deux familles de modèles, le modèle de golf et une nouvelle famille de modèles que l'on introduit, les modèles continus de dispersion. Bien que très différents au premier abord, ces deux familles possèdent des propriétés similaires. Le modèle de golf est un modèle discret, dans lequel des particules se déplacent sur Z/nZ jusqu'à s'arrêter sur des “trous libres”. Ce modèle est proche du modèle de parking, mais plus général de par la politique de déplacement des particules. Les modèles de dispersion continue, quant à eux, sont des modèles continus, dans lesquels de la masse est progressivement étalée sur le cercle unité, formant alors des composantes occupées et libres. Dans les deux cas, nous mettons en évidence des propriétés d'universalité : la distribution des composantes libres et occupées ne dépend pas de la façon dont les particules ou les masses sont diffusées, sous des hypothèses relativement faibles sur cette diffusion. Cela nous permet d'obtenir des résultats précis, asymptotiques notamment, sur la distribution de ces modèles. Dans la deuxième partie de cette thèse, nous étudions un processus d'apprentissage par renforcement, inspiré des modèles biologiques dans lesquel des fourmis, déposant des phéromones sur leur chemin, parviennent à trouver des chemins de longueur minimale entre leurs nids et une source de nourriture. Nous nous intéressons plus particulièrement à un modèle à boucles effacées, dans lequel les fourmis renforcent uniquement des chemins auto-évitants. Nous montrons la convergence de ce modèle sur une famille de graphes, appelés les graphes séries-parallèles en triangle, et dans lesquels les fourmis trouvent en effet des chemins optimaux.