ED Sociétés, Politique, Santé Publique
Clustering et analyse différentielle de données d'expression génique
par Benjamin HIVERT (Bordeaux Population Health Research Center)
Cette soutenance a lieu à 14h00 - Amphithéâtre Louis (ISPED) Université de Bordeaux 146 Rue Léo Saignat 33000 Bordeaux
devant le jury composé de
- Rodolphe THIEBAUT - Professeur des universités - praticien hospitalier - UNIVERSITE DE BORDEAUX - Directeur de these
- Franck PICARD - Directeur de recherche - LABORATOIRE DE BIOLOGIE ET MODÉLISATION DE LA CELLULE - ENS DE LYON - Rapporteur
- Cathy MAUGIS-RABUSSEAU - Maîtresse de conférences - INSTITUT DE MATHÉMATIQUES DE TOULOUSE - Rapporteur
- Boris HEJBLUM - Chargé de recherche - INSERM U1219 - BORDEAUX POPULATION HEALTH - CoDirecteur de these
- Pierre NEUVIAL - Directeur de recherche - INSTITUT DE MATHÉMATIQUES DE TOULOUSE - Examinateur
- Cécile PROUST-LIMA - Directrice de recherche - INSERM U1219 - BORDEAUX POPULATION HEALTH - Examinateur
Les analyses des données d'expression génique issues du séquençage de l'ARN (RNA-seq) en masse (bulk RNA-seq) ou en cellule unique (scRNA-seq) sont devenues courantes dans les études immunologiques. Elles permettent entre autres une meilleure compréhension de l'hétérogénéité présente dans les réponses immunitaires, qu'elle soit en réponse à la vaccination ou face à des maladies. Les analyses de ces données se font souvent selon deux étapes : i) d'abord une classification non supervisée, ou clustering, utilisant l'ensemble des gènes pour regrouper les échantillons en sous-groupes distincts et homogènes ; ensuite ii) l'analyse différentielle se faisant à l'aide de tests d'hypothèse visant à identifier les gènes qui sont différentiellement exprimés entre ces sous-groupes. Cependant, ces deux étapes successives soulèvent un problème méthodologique actuellement souvent ignoré dans la littérature appliquée. En effet, les méthodes traditionnelles d'inférence nécessitent des hypothèses de tests fixées a priori, sans dépendre des données, pour garantir un control effectif de l'erreur de type I. Dans le contexte de ces analyses en deux étapes, les hypothèses de tests sont basées sur les résultats du clustering ce qui compromet le contrôle de l'erreur de type I des méthodes traditionnelles qui peuvent alors conduire à de fausses découvertes. Nous proposons alors de nouvelles méthodes statistiques qui permettent de tenir compte de cette double utilisation des données, garantissant un control effectif du nombre de fausses découvertes.