Formulations probabilistes de techniques de réduction de dimension : une potentielle limitation

Orateur:
Lola ETIEVANT
Localisation: Université Lyon 1, France
Type: Séminaire de probabilités et statistiques
Site: UGE , N/A
Salle:
par Zoom
Date de début:
06/04/2021 - 14:00
Date de fin:
06/04/2021 - 15:00

De nombreuses études en épidémiologie du cancer visent actuellement à identifier les métabolites qui pourraient, par exemple, expliquer l’effet carcinogène de l’obésité, ou d’autres facteurs liés au mode de vie, sur plusieurs types de cancer. Les jeux de données à disposition sont ainsi de relativement grande dimension, et peuvent contenir des métabolites fortement corrélés les uns aux autres; c’est notamment le cas dans l’étude EPIC (European Prospective Investigation into Cancer and Nutrition) sur le cancer de l’endomètre, où environ 150 métabolites ont été mesurés. À cet effet, nous avons considéré des modèles à variables latentes pour la réduction de dimension, puisque des formulations probabilistes de certaines techniques, comme l’analyse en composantes principales ou les moindres carrés partiels (PLS), ont été proposées dans la littérature, et très récemment cette idée a été étendue aux modèles de médiation. En développant un modèle à variables latentes adapté aux analyses en médiation de grande dimension, où l’ensemble d’exposition est lui aussi multivarié, nous avons cependant identifié un défaut. Ce défaut est en fait également présent dans d’autres modèles probabilistes ; c’est en particulier le cas dans le modèle de PLS probabiliste (PPLS) proposé par el Bouhaddani et al. (JMVA, 2018). Nous décrirons en détail le défaut sous leur modèle, et montrerons que leurs contraintes sur les paramètres sont telles que le modèle définit un ensemble de lois de probabilité très particulières, où les composantes de covariance maximale sont nécessairement aussi de variances maximales, respectivement. Nous illustrerons ce défaut au moyen de simulations, et proposerons une extension du modèle, pour obtenir une formulation plus “générale” et qui n’est pas limitée à ces seules lois. Ces résultats suggèrent que les modèles à variables latentes doivent être développés avec précaution pour faire de la réduction de dimension, puisqu’ils peuvent perdre leur intérêt apparent lorsque les contraintes imposées sur les paramètres sont trop fortes.