Thèmes de recherche
Les principaux thèmes de recherche du groupe SSB sont les suivants :
statistiques de motifs dans les séquences biologiques,
modèles markoviens de séquences,
statistiques de scores pour l'analyse et/ou la comparaison de séquences,
statistiques des biopuces (ADN, CGH, tiling, etc.),
statistiques des réseaux biologiques (modèles probabilistes, motifs, inférence),
statistiques de données métagénomiques.
Voici une brève description de ces travaux.
Statistiques de motifs dans les séquences d'ADN
Le thème fondateur du groupe est la détection de motifs dont le nombre d'occurrences est inattendu dans les séquences d'ADN. On parle de mots sous-représentés et sur-représentés, voire "exceptionnels". De nombreux travaux ont été réalisés sur ce thème, en particulier sur la loi du comptage d'un mot dans une séquence markovienne ou sur le calcul approché de sa queue de distribution. La généralisation à un ensemble de mots (motif) ou à des motifs structurés a été étudiée. Plusieurs résultats statistiques sur la répartition de motifs ont été par ailleurs obtenus.
[logiciels : R'MES, Spatt].
Modèles markoviens de séquences d'ADN
Nous nous sommes rapidement intéressés à la prise en compte de l'hétérogénéité observée des séquences d'ADN dans leur modélisation. Différentes approches ont ainsi été mises en oeuvres : modèles de chaînes de Markov cachées, modèles semi-Markoviens cachés et chaînes de Markov régulées. Les applications en sont la segmentation d'une séquence, la détection de gènes mais aussi de motifs promoteurs.
Statistiques des scores pour l'analyse et la comparaison de séquences biologiques
L'analyse intrinsèque d'une séquence repose souvent sur le calcul de scores locaux que l'on cherche à maximiser. Nous avons donc étudié la distribution (exacte et approchée) de ces scores locaux dans des séquences de Bernoulli ou markoviennes pour mettre en évidence des régions d'intérêt dans les génomes.
[logiciels : LHisa, pLocalScore].
Analyse des biopuces
Nous travaillons sur plusieurs projets liés à l'analyse des biopuces (analyse différentielle, classification supervisée, segmentation, choix de modèles). Dans le cadre de l'analyse différentielle, par exemple, nous modélisons la variance de l'expression différentielle des gènes au moyen d'un modèle de mélange. L'une des difficultés consiste à choisir le nombre de classes. Nous avons aussi abordé la problématique des tests multiples (contrôle du taux de faux positifs, FDR).
[logiciels : Anapuce, VarMixt].
Analyse statistique des réseaux biologiques
Ce thème a démarré en 2006. Nous nous intéressons à trois sujets : développer des modèles de graphes aléatoires qui s'ajustent de façon satisfaisante aux réseaux biologiques, étudier la distribution du comptage de motifs dans des graphes aléatoires pour mettre en évidence des motifs exceptionnels dans des réseaux biologiques et enfin inférer un réseaux de régulation à partir de cinétiques de données d'expression de gènes.
[logiciels : MixNet].