Précédents séminaires

Next seminar: April 12th, 2016.

Mardi 12 Avril 2016 / April 12th (Paris, AgroParisTech, room 31)

14h00: Alexandre d'Aspremont (DI, ENS)

Relaxations convexes pour l'ordonnancement de données ADN

La sériation cherche à reconstruire un ordre linéaire entre un série de variables, en utilisant des données de similarité entre ces variables. Ce problème a des applications directes en archéologie et en assemblage de séquences ADN par exemple. Nous montrons l'équivalence entre le problème de sériation et un problème combinatoire quadratique sur les permutations (2-SUM). Nous proposons une relaxation convexe de 2-SUM qui améliore la robustesse des solutions dans le cas ou les données sont bruitées. Cette relaxation nous permet également d'inclure des contraintes structurelles sur la solution, pour résoudre des problèmes de sériation semi-supervisés.

16h00: Julie Josse (AgroCampus Ouest)

A missing values tour with principal components methods

The problem of missing values exists since the earliest attempts of exploiting data as a source of knowledge as it lies intrinsically in the process of obtaining, recording, and preparation of the data itself. Clearly, (citing Gertrude Mary Cox) ``The best thing to do with missing values is not to have any’’, but in the contemporary world of increasingly growing demand in statistical justification and amounts of accessible data this is not always the case, if not to say more. Missing values occur for a variety of reasons : machines that fail, survey participants who do not answer certain questions, destroyed or lost data, dead animals, damaged plants, etc. In addition, the problem of missing data is almost ubiquitous for anyone analyzing multi-sources data, performing meta analysis, etc. Missing values are problematic since most statistical methods can not be applied directly on a incomplete data. In this talk, we show how to perform dimensionality reduction methods such as Principal Component Analysis (PCA) with missing values. PCA is a powerful tool to study the similarities between observations, the relationship between variables and to visualize data. Then, we show how principal component methods can be used to predict (impute) the missing values. These approaches showed excellent performance in recommendation systems problems such as the "Netflix challenge" and consequently caught the attention of the machine learning community. Indeed, the methods can handle large matrices with large amount of missing entries. We present other popular techniques to impute missing values, discuss the potential pitfalls of the different approaches and challenges that need to be addressed in the future.

 

Mardi 15 Décembre 2015 / December 15th (Jouy-en-Josas, MaIAGE meeting room, building 210)

11h00: Edward IONIDES (University of Michigan, Department of Statistics)

Inference for dynamic and latent variable models via iterated, perturbed Bayes maps

Iterated filtering algorithms are stochastic optimization procedures for latent variable models that recursively combine parameter perturbations with latent variable reconstruction. Previously, theoretical support for these algorithms has been based on the use of conditional moments of perturbed parameters to approximate derivatives of the log likelihood function. We introduce a new theoretical approach based on the convergence of an iterated Bayes map. A new algorithm supported by this theory displays substantial numerical improvement on the computational challenge of inferring parameters of a partially observed Markov process.

14h00: Melina Gallopin (INRA/Université Paris-Saclay)

Classification et inférence de réseaux pour les données RNA-seq

Cette thèse regroupe des contributions méthodologiques à l'analyse statistique des données issues des technologies de séquençage du transcriptome (RNA-seq). Les difficultés de modélisation des données de comptage RNA-seq sont liées à leur caractère discret et au faible nombre d'échantillons disponibles, limité par le coût financier du séquençage. Une première partie de travaux de cette thèse porte sur la classification à l'aide de modèle de mélange. L'objectif de la classification est la détection de modules de gènes co-exprimés. Un choix naturel de modélisation des données RNA-seq est un modèle de mélange de lois de Poisson. Mais des transformations simples des données permettent de se ramener à un modèle de mélange de lois gaussiennes. Nous proposons de comparer, pour chaque jeu de données RNA-seq, les différentes modélisations à l'aide d'un critère objectif permettant de sélectionner la modélisation la plus adaptée aux données. Par ailleurs, nous présentons un critère de sélection de modèle prenant en compte des informations biologiques externes sur les gènes. Ce critère facilite l'obtention de classes biologiquement interprétables. Il n'est pas spécifique aux données RNA-seq. Il est utile à toute analyse de co-expression à l'aide de modèles de mélange visant à enrichir les bases de données d'annotations fonctionnelles des gènes. Une seconde partie de travaux de cette thèse porte sur l'inférence de réseau à l'aide d'un modèle graphique. L'objectif de l'inférence de réseau est la détection des relations de dépendance entre les niveaux d'expression des gènes. Nous proposons un modèle d'inférence de réseau basé sur des lois de Poisson, prenant en compte le caractère discret et la grande variabilité inter-échantillons des données RNA-seq. Cependant, les méthodes d'inférence de réseau nécessitent un nombre d'échantillons élevé. Dans le cadre du modèle graphique gaussien, modèle concurrent au précédent, nous présentons une approche non-asymptotique pour sélectionner des sous-ensembles de gènes pertinents, en décomposant la matrice variance en blocs diagonaux. Cette méthode n'est pas spécifique aux données RNA-seq et permet de réduire la dimension de tout problème d'inférence de réseau basé sur le modèle graphique gaussien.

Mardi 10 Novembre 2015 / November 10th (Evry, Lamme meeting room)

10h00: Emma Saulnier (LIRMM)

Assessing the accuracy of ABC approaches to infer epidemiological parameters from phylogenies.

Avec l'apparition de techniques de séquençage de plus en plus abordables, des phylogénies sont couramment générées au cours des études épidémiologiques sur les virus.  Des travaux récents dans le domaine de la phylodynamique ont mené au développement de méthodes d'inférence de paramètres épidémiologiques basées sur la vraisemblance. Cependant, ces méthodes sont essentiellement basées sur des modèles épidémiologiques simples comme le modèle de naissance et de mort (Birth-Death). En effet, ces méthodes sont limitées par la difficulté de calcul de la fonction de vraisemblance pour des modèles plus complexes. L'ABC (Approximate Bayesian Computation) permet d'inférer des valeurs de paramètres à partir de modèles sans calculer de leur fonction de vraisemblance. Les méthodes ABC sont basées sur la simulation et la comparaison entre donnée "cible" et données simulées, via l'utilisation de statistiques de résumé (summary statistics). Nous avons créé un système de simulation flexible qui implémente un modèle événement-centré de construction d'arbres à partir de modèles épidémiologiques. Nous avons conçu des summary statistics qui résument l'information épidémiologique contenue dans les phylogénies. La précision des inférences par méthodes ABC est vraiment proche de celle obtenue par des méthodes basées sur la vraisemblance implémentées dans BEAST. Ce travail montre que les phylogénies de séquences virales et l'ABC peuvent nous informer sur les paramètres épidémiologiques et peuvent constituer une bonne alternative aux méthodes existantes pour l'analyse de scénarios épidémiologiques plus complexes.

11h00: Mathieu Emily (Agrocampus Ouest / Université de Rennes I - IRMAR)

SMILE: a novel Dissimilarity-based Procedure for Detecting Sparse-Specific Profiles in Sparse Contingency Tables

A novel statistical procedure for clustering individuals characterized by sparse-specific profiles is introduced in the context of data summarized in sparse contingency tables. The proposed procedure relies on a single-linkage clustering based on a new dissimilarity measure designed to give equal influence to sparsity and specificity of profiles. Theoretical properties of the new dissimilarity are derived by characterizing single-linkage clustering using Minimum Spanning Trees. Such characterization allows the description of situations for which the proposed dissimilarity outperforms competing dissimilarities. Simulation examples are performed to demonstrate the strength of the new dissimilarity compared to 11 other methods. The analysis of a genomic data set dedicated to the study of molecular signatures of selection is used to illustrate the efficiency of the proposed method in a real situation.
This is a joint work with Alain Mom (Univ. Rennes 2-IRMAR) and Christophe Hitte (Univ. Rennes 1-IGDR).

Mardi 12 Mai 2015 / May 10th (AgroParisTech, salle 31)

10h00: Sandrine Pavoine (MNHN / Oxford University) transparents (pdf)

Mesurer la diversité dans et entre des assemblages d'espèces: exemple des diversités phylogénétiques et fonctionnelles alpha et beta.

La biodiversité désigne toute la variabilité du vivant, allant du gène à l'écosystème. Les indices de diversité permettent de quantifier cette biodiversité à différentes échelles. Par exemple il peuvent mesurer la diversité dans des assemblages d'espèces (diversité alpha) et la diversité entre assemblages d'espèces (diversité beta). Dans les années 1980, C.R. Rao proposait une axiomatisation des mesures de biodiversité dans laquelle il décomposait plusieurs indices de diversité selon des facteurs hiérarchiques et/ou croisés. Au cœur de cette axiomatisation, un indice, qu'il a nommé l'entropie quadratique, est le seul à pouvoir être décomposé selon n'importe quel nombre de facteurs croisés. Rao a également montré que cet indice unifie les concepts de diversité et de dissimilarité dans un même schéma mathématique. L'utilisation de l'entropie quadratique pour mesurer la diversité s'est répandue d'abord en génétique (par exemple sous le nom de diversité nucléotidique) puis plus récemment en écologie. L'engouement récent pour cet indice vient probablement de la simplicité de son interprétation: en écologie, on l'utilise par exemple pour mesurer la dissimilarité (phylogénétique ou fonctionnelle) moyenne entre deux espèces d'un assemblage. Malgré les propriétés de cet indice identifiées par Rao, l'entropie quadratique a récemment été critiquée notamment dans sa façon de mesurer la diversité beta: la diversité beta associée à cet indice est la différence entre la dissimilarité moyenne entre deux espèces tirées d'une région (définie par le mélange des assemblages d'espèces) et la dissimilarité moyenne entre deux espèces tirées d'un seul assemblage. Nous explorerons des solutions pour répondre à ces critiques tout en gardant des indices de diversité simples et facilement interprétables. Ces approches appliquées à la diversité biologique en écologie sont en réalité générales et peuvent être appliquées dans toutes les disciplines intéressées par un concept de diversité.

15h00: Martin Lindner (Robert Koch Institute / 4 Antibody) transparents (pdf)

Who's there? Two approaches to taxonomic profiling of environmental genomic samples.

In the context of genome sequence analysis, metagenomics describes the analysis of genomic samples taken directly from the environment. Since metagenomic samples typically consist of genomic material from multiple (in particular microbial) organisms, one of the key challenges in metagenomics is to disentangle the genomic ravel and identify the organisms present in the sample. In this talk, I will review the main ideas used in taxonomic profiling and present two reference genome based strategies in more detail. The first strategy aims at identifying and discriminating between highly similar microbial organisms in a metagenomic sample. Given a set of reference genomes, our approach correctly identifies and quantifies organisms in the sample using a non-negative Lasso formulation of the mixture problem. The second strategy has a broader focus and seeks to provide an overview over the whole complexity of the sample. Here, we first estimate the similarity between the organism in the sample and the reference genomes. This is accomplished by fitting discrete probability distributions to genome coverage profiles with a modified EM algorithm. The similarity is then used in the second step to cluster the available reference genomes into groups, where each group represents one organism in the dataset. The mathematical foundations as well as practical examples will be given for both strategies.

Mardi 10 Mars / March 10 (MaIAGE, salle 142, bâtiment 210)

14h00: Magali Champion (IMT/INSA Toulouse)

Statistical causal inference of Gene Regulatory Networks using l_1 penalized likelihood.

Les réseaux de régulation de gènes sont des outils permettant de modéliser sous forme de graphes les interactions qui existent entre un groupe de gènes donnés. Afin d'estimer des relations causales au sein de ces réseaux, on se place dans le cadre de modèles à équations structurelles gaussiennes, pour lesquels on cherche à maximiser la log-vraisemblance pénalisée. Nous proposons une réécriture originale de la matrice d'adjacence associée à un graphe qui nous permet d'une part d'obtenir des garanties théoriques de l'estimateur (inégalités oracles), d'autre part de mettre en place un algorithme hybride pour inférer ces réseaux. Pour finir, nous proposons une application numérique à des jeux de données simulés.

15h00: Flora Jay (MNHN)

Inbreeding and admixture inferred from the complete genome of Altai Neandertal.

In the last years several studies of archaic homminin genome sequences have been published. I will give an overview of previous findings about Neandertal and its sister group Denisova, and present new insights from a bone found in the Altai Mountains, Siberia. This bone was discovered in the same cave as the Denisova individual and was sequenced to 50-fold coverage. The genome is more closely related to Neandertal genomes from Croatia, Spain, and Caucasus than to Denisova, and provides evidence that both Neandertal and Denisova inhabited the Altai Mountains. I will briefly present findings about the complex population history of these two archaic groups and modern humans, which is characterized by several episodes of gene flow. I will talk in further details about inbreeding in the Altai Neandertal sequence: we detected long runs of homozygosity (ROH) that suggest that this individual was highly inbred. We compared the number of long ROH and the overall coverage to those found when simulating different inbreeding scenarios. We found evidence for both recent and background inbreeding.

Mardi 16 Décembre / December 16 (AgroParisTech, salle 39C)

10h00: Vincent Miele (CNRS/Université Lyon 1, LBBE)

Spatially constrained clustering of ecological networks (travail en collaboration avec Stéphane Dray et Franck Picard)

1. Spatial ecological networks are widely used to model interactions between georeferenced biological entities (e.g. populations or communities). The analysis of such data often leads to a two-step approach where groups containing similar biological entities are firstly identified and the spatial information is used afterwards to improve the ecological interpretation.
2. We develop an integrative approach to retrieve groups of nodes that are geographically close and ecologically similar. Our model-based spatially constrained method embeds the geographical information within a regularization framework by adding some constraints to the maximum likelihood estimation of parameters.
3. A simulation study and the analysis of two real data sets (faunal distribution in oceanic hydrothermal vents and anemonefish–anemone mutualistic interactions in Indonesia) demonstrate that our approach is able to detect complex spatial patterns that are ecologically meaningful.

11h00: Céline Lévy-Leduc (Agroparistech/INRA, UMR MIA518)

Two-dimensional segmentation for analyzing HiC data.

Motivation: The spatial conformation of the chromosome has a deep influence on gene regulation and expression. HiC technology allows the evaluation of the spatial proximity between any pair of loci along the genome. It results in a data matrix where blocks corresponding to (self-)interacting regions appear. The delimitation of such blocks is critical to better understand the spatial organization of the chromatin. From a computational point of view, it results in a 2D-segmentation problem.

Results: We focus on the detection of cis-interacting regions, which appear to be prominent in observed data. We define a block-wise segmentation model for the detection of such regions. We prove that the maximization of the likelihood with respect to the block boundaries can be rephrased in terms of a 1D-segmentation problem, for which the standard dynamic programming applies. The performance of the proposed methods are assessed by a simulation study on both synthetic and re-sampled data. A comparative study on public data shows good concordance with biologically confirmed regions.

Availability: The HiCseg R package is available from the Comprehensive R Archive Network (CRAN) and from the web page of the corresponding author.

14h00: Mathieu Gautier (INRA/IRD/Cirad/Montpellier SupAgro, CBGP)

Le génome du plus proche parent sauvage du boeuf domestique: comment l'histoire démographique du Bison Européen porte un éclairage nouveau sur les voies biologiques de la domestication bovine

Le bison européen (Bison bonasus) est le plus gros mammifère terrestre en Europe et figure parmi les espèces les plus emblématiques de la faune sauvage du vieux continent. Au cours du dernier million d’années, les bisons européens ont partagé une aire de répartition et une histoire démographique similaires (contraintes sélectives climatiques et anthropiques) à celle de l'aurochs (Bos primegenius), l'ancêtre sauvage des bovins domestiques dont le dernier spécimen a été tué en 1627. Ainsi, le bison européen représente l'espèce sauvage actuellement la plus proche de ces derniers et offre donc un modèle unique pour mieux comprendre l'histoire de la domestication bovine.
A partir du séquençage complet du génome (à une couverture d'environ 10X) de deux individus issus du troupeau conservé dans la forêt de Bialowieza (Pologne) et en s'appuyant sur l'assemblage et l'annotation du génome bovin, nous avons réalisé une caractérisation fine de l'histoire démographique des bisons européens. Dans un premier temps, nous avons ainsi pu reconstituer les fluctuations de son effectif efficace au cours des trois derniers millions années montrant que celui-ci a diminué de manière drastique au moment des grandes glaciations pour augmenter à nouveau dans une moindre mesure lors des périodes inter-glaciaires. Au début de l'holocène, une forte forte baisse démographique a été initée. Celle-ci s'explique vraisemblablement par l'action de l'homme avec l'intensification de la chasse et l'anthropisation des milieux conduisant à une restriction de l'habitat forestier de l'espèce. Il est à noter que le bison européen a frôlé l'extinction (plus que 9 individus à l'état sauvage à la fin de la première guerre mondiale) mais que grâce à un effort de conservation initié au milieu du XXe siècle à partir d'une cinquantaine d'animaux issus de divers parcs animaliers, cette espèce n'est plus aujourd'hui considérée que comme vulnérable par l'International Union for Conservation of Nature.
En accord avec l'origine des individus, la comparaison des séquences bisons avec le génome bovin n'a pas permis de mettre en évidence d'événements de flux de gènes récents issus de cette espèce comme suggéré précédemment. Nous avons pu estimer à environ 1% la divergence nucléotidique entre les deux espèces pour un temps de divergence de 1 MYA environ (estimé à partir de trois méthodes différentes) qui coïncide avec le début de la glaciation de Gunz. De plus, les résultats d'analyse de comparaison des modèles démographiques de type I (Isolation) et IM (Isolation with Migration) suggère un léger flux de gènes entre les deux espèces au moment de la spéciation.
Enfin, nous avons réalisé une étude pan-génomique de détection et d'annotation fonctionnelle des gènes sous sélection entre les deux lignées. Parmi les résultats les plus marquants, de nombreux gènes sous sélection positives sont impliqués dans des fonctions associées au syndrome de domestication (système nerveux, coloration, squelette) et appartiennent tous à un seul réseau génique global. Ce résultat est en accord avec l’hypothèse d'un rôle central des cellules de la crête neurale dans le syndrome de domestication et renforce ainsi l’idée qu’un seul réseau de régulation génétique puisse sous-tendre le processus de domestication chez les mammifères.

Mardi 18 Novembre / November 18 (Evry)

11h00: Sandrine Dudoit (UC Berkeley, Department of Statistics)

Normalization, Differential Expression, and Controls in RNA-Seq

Transcriptome sequencing (RNA-Seq) has become the assay of choice for high-throughput studies of gene expression. However, as in the case of microarrays, major technology-related artifacts affect the resulting expression measures.  In order to derive expression measures and compare these measures between samples and/or genomic regions of interest (ROI), one first needs to normalize read counts to adjust for differences in sample sequencing depths (i.e., total read counts) and ROI lengths, and possibly more complex unwanted technical effects, e.g., batch/library preparation/flow-cell/lane effects and nucleotide composition (e.g., GC-content) effects. Normalization is essential to ensure that observed differences in expression measures between samples and/or ROI are truly due to differential expression (DE) and not technical artifacts. This subject has received relatively little attention in the RNA-Seq literature and the merits of existing methods are still unclear due to the lack of comprehensive benchmarking studies and systematic use of controls.

In this talk, we focus on between-sample normalization and investigate the use of spike-in control sequences from the External RNA Control Consortium (ERCC) for benchmarking as well as direct inclusion in a normalization procedure. We show that usual normalization approaches mostly account for sequencing depth and fail to adjust for library preparation and other more complex unwanted technical effects. We demonstrate that the ERCC spike-ins are not effective at benchmarking normalization and DE methods and are not reliable enough to be used in standard global-scaling or regression-based normalization procedures. We propose and assess the performance of a novel normalization strategy, remove unwanted variation (RUV), that adjusts for nuisance technical effects by performing factor analysis of read counts based on suitable sets of control genes  (e.g., ERCC spike-ins), control samples (e.g., replicate libraries), or residuals.  We show that RUV leads to more accurate estimates of expression fold-changes and tests of differential expression compared to state-of-the-art normalization methods. 

References 

* D. Risso, J. Ngai, T. P. Speed, and S. Dudoit. The role of spike-in standards in the normalization of RNA-seq. In S. Datta and D. Nettleton, editors, Statistical Analysis of Next Generation Sequencing Data, Frontiers in Probability and the Statistical Sciences, Chapter 9, pages 169-190. Springer International Publishing, 2014.

* D. Risso, J. Ngai, T. P. Speed, and S. Dudoit. Normalization of RNA-seq data using factor analysis of control genes or samples. Nature Biotechnology, 32(9): 896-902, 2014. 

* RUVSeq: Remove unwanted variation from RNA-Seq data. D. Risso and S. Dudoit.
Bioconductor R package

14h00: Alexandru Amoriarei (Université Lille I, Laboratoire Paul Painlevé / INRIA Modal)

APPROXIMATIONS FOR ONE AND TWO DIMENSIONAL SCAN STATISTICS WITH APPLICATIONS

Tests based on scan statistics are usually employed when one wants to detect a local change (or hot spot) in the distribution of
the underlying random field via testing the null hypothesis of uniformity against an alternative which favors clusters of events.
To implement these testing procedures, one needs to find the distribution of the scan statistics. The object of this talk is to
illustrate some of the work we’ve done in the field of scan statistics. After introducing the framework and the problem, we
present, employing a result on extremes of 1-dependent stationary sequences of r.v.’s, a series of approximations along with
their corresponding error bounds for the tail distribution of one and two dimensional scan statistics. Due to the simulation
nature of the problem, we also include a general importance sampling algorithm to increase the efficiency of the proposed
estimation. We discuss different computational aspects of the procedure and we compare it with other existing algorithms.
We finish by considering the problem of discrete scan statistic over a random field generated by a new dependent model based
on block-factor constructions. We present several applications to illustrate this model (for example we give an estimate for the
distribution of the length of the longest increasing run in a sequence of i.i.d. r.v.’s). Numerical results for different scenarios
will be provided.

15h00: Jean-Michel Bécu (UEVE, LAMME)

Sélection de variable par la ridge adaptative

La régression pénalisée par la norme l1 (lasso) et ses variantes sont couramment utilisées pour la sélection de variables. Dans des problèmes de grande dimension, ces méthodes parcimonieuses ne permettent pas de contrôler les incertitudes liées à cette sélection. 

Nous proposons une approche en deux étapes, inspirée de la méthode "Screening and cleaning''  (Wasserman et Roeder, 09) et de l'adaptive Lasso. Cette méthode consiste en une première étape de criblage où l'on récupère le support du lasso, qui regroupe les variables potentiellement pertinentes; et une seconde étape de nettoyage où l'on calcule des p-valeurs sur ces variables potentiellement pertinentes, en utilisant une régression ridge avec une pénalité spécifique. Ce travail est basé sur deux problèmatiques, la premières et le transfert du maximum d'information entre les deux étapes et la seconde sur les tests statistiques sur le régression ridge du à la pénalité en norme l2.

La régression ridge nous permet de contrôler le risque de première espèce sur chaque variable testée. Le taux de faux positifs, sur l'ensemble des variables, est ensuite contrôlé par une procédure de correction de tests multiples. Dans nos expériences, nous observons une augmentation quasi-systématique de la sensibilité par rapport à la procédure originale de Wasserman et Roeder.

Mardi 13 Mai / May 13 (Evry)

10h00: Gregory Nuel (CNRS INSMI, LPMA UPMC)

Estimating Causal Effects in Gene Expression from a Mixture of Observational and Intervention Experiments

An important step in systems biology is to improve our knowledge of how genes causally interact with one another. A few approaches have been proposed for the estimation of causal effects among genes, either based on observational data alone or requiring a very precise intervention design with one knock-out experiment for each gene. We recently suggested a more flexible algorithm, using a Markov chain Monte Carlo algorithm and the Mallows ranking model, that can analyze any intervention design, including partial or multiple knock-outs, using the framework of Gaussian Bayesian networks.   We previously demonstrated the superior performance of this algorithm in comparison to alternative methods, although it can be computationally expensive to implement. The aim of this paper is to propose an alternative approach taking advantage of node pair ordering preferences to sample the posterior distribution according to the Babington-Smith ranking distribution. This novel algorithm proved, both in a simulation study and on the DREAM4 challenge data, to attain estimation of the causal effects as accurate as the MCMC-Mallows approach with a highly improved computational efficiency, being at least 100 times faster. We also tested our algorithm on the Rosetta Compendium dataset with more contrasted results. We nevertheless anticipate that our new approach might be very useful for practical biological applications.
 

14h00: Madalina Olteanu (SAMM, Université Paris I)

Cartes auto-organisées pour données complexes (travail en collaboration avec Nathalie Villa-Vialaneix)

Cet exposé sera dédié à la présentation de quelques extensions des cartes auto-organisées pour des données non-vectorielles. Dans un premier temps, on supposera que les données sont connues uniquement à travers une matrice de dissimilarités. Dans un deuxième temps, les données seront décrites par plusieurs sources numériques et/ou non-numériques (par exemple, un graphe étiqueté avec de l'information quantitative et/ou qualitative sur les noeuds). Les différentes sources d'information seront prises en compte à l'aide d'un mélange adaptatif de noyaux ou de dissimilarités. Quelques exemples sur données réelles et simulées permettront d'illustrer les différents algorithmes et d'introduire le package
R SOMbrero (http://sombrero.r-forge.r-project.org).

Mardi 11 Mars / March 11 (Jouy)

13h30: Marie-Laure Martin Magniette (URGV/UMR518, INRA/AgroParisTech)

HTSDiff : a Poisson mixture model for differential gene expression analysis of RNA-seq data

Based on their ability to detect and count individual cDNA molecules, next generation sequencing technologies are promising to radically change the way transcriptomic analyses are performed. To provide a critical assessment of this claim in plant gene expression analysis, the URGV performed a direct comparison of RNA-seq with the latest high-density CATMA microarray using Arabidopsis thaliana samples and validated more than 300 genes by qPCR on the same samples.
Surprisingly, CATMA microarrays largely outperformed RNA-seq in terms of the number of differentially expressed genes detected in several comparisons. A detailed analysis strongly suggested that, although RNA-seq data are potentially better at quantifying gene expression than microarray data, they are not optimally exploited by the statistical methods currently used for differential analysis. To tackle this problem, we recast the comparison of two samples as an unsupervised classification problem based on a mixture model of Poisson distributions. Methods are compared and discussed according to the qPCR data and synthetic datasets.

14h30: Lydia Robert (INRA/UPMC)

Division control in bacteria

Many organisms coordinate cell growth and division through size control mechanisms: cells must reach a critical size to trigger some cell cycle event. Bacterial division is often assumed to be under such control, but definite evidence is still lacking. Deciding whether division control relies on a "timer" or "sizer" mechanism requires quantitative comparisons between models and data. The "timer" and "sizer" hypotheses find a natural translation in models based on Partial Differential Equations. We confronted these models with recent data on Escherichia coli single cell growth. We demonstrated that a size-independent "timer" mechanism for division control, though theoretically possible, is quantitatively incompatible with the data and extremely sensitive to slight variations in the growth law. In contrast, a "sizer" model is robust and fits the data well.

Mardi 11 Février / February 11 (Evry)

11h00: Antoine Gerbaud (iRaiser)

Segmentation d'historiques de dons à l'aide de la distance de Wasserstein

Optimiser la collecte de fonds est primordial pour chaque association caritative. L'une des stratégies est de segmenter l'ensemble des donateurs afin d'adapter les sollicitations de dons. La segmentation peut s'effectuer sur de nombreux critères, par exemple sociologiques ou géographiques. Ici, nous nous appuyons sur les historiques de chaque donateur, c'est-à-dire les suites formées de leurs montants et dates de dons respectifs. Notre approche se base sur la distance de Wasserstein pour effectuer des statistiques sur ces historiques. En particulier, nous introduisons une notion de barycentre pour les historiques de dons. Plusieurs algorithmes de segmentation de la littérature peuvent alors être adaptés à nos données. Nous définissons également des indicateurs de qualité pour comparer ces algorithmes entre eux, et avec la segmentation RFM classiquement utilisée dans le domaine.

Mardi 17 Décembre / December 17 (AgroParisTech)

10h00: Simon Boitard (MNHN/INRA)

"Détection de signatures de sélection à l'aide de la différentiation haplotypique entre populations"

La détection des zones du génome ayant évolué sous l'effet de la sélection est un sujet important en génétique des populations, qui présente des enjeux à la fois théoriques (compréhension des mécanismes évolutifs) et appliqués (identification de gènes d'intérêt médicaux ou agronomiques). Dans ce contexte, une approche classique consiste à rechercher des zones du génome de forte différentiation génétique entre populations. Cette différentiation est généralement évaluée en termes de fréqences alléliques, dont la distance entre populations est mesurée par la statistque Fst.
Nous proposons ici une nouvelle statistique, qui tient compte de structure hiérarchique des populations et des fréquences haplotypiques dans ces populations (Fariello et al, 2013). A l'aide de données réelles et simulées, nous montrons que cette statistique permet d'améliorer la puissance de détection des signatures de sélection, y compris pour des scenarios évolutifs plus divers que ceux étudiés traditionellement.

11h00: Ewald Dijk (Netherlands Cancer Institute, Amsterdam)

Multi-scale Identification of Recurrent Events in DNA Copy Number Data

Tumor formation is partially driven by DNA copy number changes, which are typically measured using array comparative genomic hybridization, SNP arrays and DNA sequencing platforms. Many techniques are available for detecting recurring aberrations across multiple tumor samples, including CMAR, STAC,  GISTIC2.0 and KC-SMART. GISTIC2.0 is widely used and detects both broad and focal (potentially overlapping) recurring events. However, GISTIC2.0 performs false discovery rate control on probes instead of events. Here we propose Analytical Multi-scale Identification of Recurrent Events, a multi-scale  smoothing approach, for the detection of both broad and focal (potentially overlapping) recurring copy number alterations. Importantly, false discovery rate control is performed analytically (no need for permutations) on events rather than probes.
An important characteristic of the approach is that the error rate is controlled across all scales and that the algorithm outputs a single profile of significant events selected from the appropriate scales. We showcase its utility on a glioblastoma SNP array dataset. Importantly, ADMIRE detects focal events that are missed by GISTIC2.0, including two events involving known glioma tumor-suppressor genes: CDKN2C and NF1.

*****
The talk is based on a publication in NAR:
http://nar.oxfordjournals.org/content/41/9/e100.full.pdf+html

14h00: Nicolas Chopin (CREST, ENSAE)

"Particles as auxiliary variables: PMCMC, SMC^2, Particle Gibbs and other animals"

(based on joint projects with Sumeet Singh, Pierre Jacob and Omiros Papaspiliopoulos)

I will start by a general introduction to sampling algorithms based on auxiliary variables. From the simple case of GIMH (Grouped indepence Metropolis-Hastings, Beaumont, 2003), I will explain how to derive certain important properties of such algorithms, such as the validity with respect to an extended sampling space. I will then explain how these results carry over to PMCMC, a type of auxiliary variables algorithms, where the auxiliary variables are those of an interacting particle system. I will focus in particular on Particle Gibbs, and present some new results and extensions. I will also discuss briefly SMC^2, another variation of PMCMC, where the MCMC part is replaced by Sequential Monte Carlo.

15h00: Benjamin Guedj (LSTA, UPMC)

"COBRA : une stratégie d'agrégation non linéaire"

L'agrégation d'estimateurs et de prédicteurs a motivé de très nombreux travaux depuis la fin des années 1990. Le praticien voit son activité profondément modifiée par deux mouvements conjoints : nous entrons chaque jour un peu plus dans l'ère du "big data", les volumes et dimensions des données augmentent avec les progrès constants de l'outil informatique ; parallèlement, le nombre de méthodes d'estimation et de prédiction disponibles a accompagné cette inflation impressionnante, abordant tant en classification qu'en régression une variété croissante de modèles et de contextes statistiques (estimation de probabilités, modèles additifs, modèles parcimonieux...). Citons, parmi beaucoup d'autres, les méthodes pénalisées (le Lasso et ses variantes), les $k$-plus proches voisins, les arbres et forêts aléatoires, les approches bayésiennes, etc.
Il est dès lors légitime d'étudier des procédures d'agrégation de techniques existantes, afin de tirer le meilleur de chacune d'elles et d'éliminer autant que possible la phase---par essence subjective---de spécification d'un modèle. La littérature est riche de nombreuses méthodes d'agrégation de prédicteurs : sélection de modèles, combinaisons linéaires ou convexes sont les principales. Nous proposons dans cet exposé une approche différente, non linéaire en les prédicteurs, reposant sur un principe de moyenne locale. À la métrique usuelle induite par le design, nous proposons de substituer une métrique particulière, suggérée par des estimateurs préliminaires de la fonction de régression. Nous montrons en particulier que l'estimateur résultant est asymptotiquement aussi efficace que le meilleur des estimateurs initiaux. Nous obtenons également une inégalité oracle sharp non asymptotique en espérance, avec une vitesse de convergence explicite. Notre méthode est disponible sur le CRAN sous la forme du package R COBRA, dont les performances brutes et la vélocité sur données simulées et réelles seront commentées.
Références : http://arxiv.org/abs/1303.2236 et http://cran.r-project.org/web/packages/COBRA/index.html

 

Mardi 12 Novembre / November 12 (Stat et Génome, Evry)

14h00 : Andrea Rau (GABI, INRA)

"HTSFilter: filtering replicated RNA-seq data using a data-driven approach"

RNA sequencing (RNA-seq) is now widely performed to study differential expression among experimental conditions. As tests are performed on a large number of genes, stringent false-discovery rate control is required at the expense of detection power. Ad hoc filtering techniques are regularly used to moderate this correction by removing genes with low signal, with little attention paid to their impact on downstream analyses. In this work, we propose a data-driven method called HTSFilter (available on Bioconductor) based on the Jaccard similarity index to calculate a filtering threshold for replicated RNA-seq data. In comparisons with alternative data filters regularly used in practice on several real and simulated datasets, we demonstrate the effectiveness of our proposed method to correctly filter weakly expressed genes, leading to increased detection power for moderately to highly expressed genes. Interestingly, this data-driven threshold varies among experiments, highlighting the interest of the proposed method.

References:
-- Rau, A. et al. (2013) Data-based filtering for replicated high-throughput transcriptome sequencing experiments. Bioinformatics 29(17): 2146-2152.
-- http://www.bioconductor.org/packages/2.13/bioc/html/HTSFilter.html

15h00: Burkhard Morgenstern (Dept of Bioinformatics, University of Göttingen)

"Alignment-free sequence comparison with spaced words"

Mardi 19 Juin / June 19 (MIG, Jouy-en-Josas)

11h00 : Cheick Loucoubar

(Université Paris Descarte)

"Statistical genetic analysis of infectious disease (malaria) phenotypes from a longitudinal study in a population with significant familial relationships"

Identifying genetic variants that might have significant joint effects on complex disease traits is now in great interest, as single locus approach failed due to only weak marginal effects. Malaria is a complex disease occurring after infection by Plasmodium parasites. Frequency and severity of illness depends on some known individual and environmental aspects like age, sex and transmission intensity; but also on several unknown genetic aspects. Thus, to determine the susceptibility or the resistance of individuals to uncomplicated malaria, long-term longitudinal surveys are useful as they allow finding confirmed individual tendencies based on several sampling. Here, we studied data from a long-term epidemiological and genetic survey of malaria disease in two family-based cohorts in Senegal, followed for 19 years (1990–2008) in Dielmo and for 16 years (1993–2008) in Ndiop.
The main objectives of this work were to take into account familial relationships, repeated measures as well as effect of covariates to measure both environmental and host genetic (heritability) impacts on the outcome of infection with the malaria parasite Plasmodium falciparum, and then use findings from such analyses for linkage and association studies.
We evaluated the heritability of the number P. falciparum malaria attacks (PFA) per trimester, a malaria phenotype known to be influenced by human genetics. We performed Generalized Linear Mixed Models (GLMM) that account for correlated random effects such as those due to genetic relationships among individuals and repeated measures. We adjusted the models on the significant environmental variables to estimate and separate the variance of the phenotype among four sources: host additive genetics (heritability), intra-individual effects or permanent environmental effects including other personal effects like genetics non-additive, house effects and unexplained residuals.
We then performed genetic studies that focus on candidate genes for susceptibility/ resistance to malaria. We used family-based methods with a multi-locus model, more powerful and better adapted, for multifactorial diseases such as malaria, to test for genetic linkage and association at any number of independent loci simultaneously. We used 45 Single Nucleotide Polymorphisms (SNPs) on candidate genes as genetic variables and the adjusted individual effects on PFA as the phenotype of interest. Simulation studies showed a gain of power from single locus to multi-locus models in detecting a genetic effect on a phenotype suspected to be influenced by several independent loci. Then, multi-locus models should be appropriate for malaria phenotypes supposed to be the results of actions from many different genes having weak marginal effects. We then applied this method to real malaria data by analyzing the SNPs one by one in a first step and SNPs showing at least a weak significance (P-value ≤ 0.10) for association with the
phenotype were selected in a second step for a multi-locus model that analyzes simultaneous transmission of alleles from those SNPs. Five SNPs showed weak marginal protective effects against malaria after correction for multiple testing: three SNPs on the SLC4A1 (AE1) gene (Band 3) located on chromosome 17 (ae1_20_21, P = 0.0005; ae1_117_118, P = 0.0598; ae1_174_187, P = 0.0995), one SNP on the γ-globin gene (Xmn1) located on chromosome 11 (Xmn1, P = 0.0598) and one other on the gene ABO located on chromosome 9 (abo297, P = 0.0854). We then analyzed these five loci together and obtained more significant protective effects (P-values were distributed from 10-2 to 10-8 for joint effects corresponding to different ways of combining these five loci).

 

Mardi 15 Mai / May 15 (AgroParisTech)

14h00 : Gilles Didier (Institut de Mathématiques de Luminy, Marseille)

"Décodage local à longueur variable et comparaison de séquences sans alignement"

Le décodage local à longueur variable est une méthode qui permet de distinguer différents types de nucléotides selon leurs environnements dans les séquences. Les environnements des nucléotides sont ici de tailles variables et définis par un code préfixe.
Dans la première partie de l'exposé, on présente un algorithme permettant, étant donné un code préfixe, de calculer le décodage local d'un ensemble de séquences avec une complexité linéaire à la fois en temps et en mémoire.
Le reste de l'exposé est consacrée aux applications à la comparaison de séquences. On donne une heuristique permettant d'associer à un ensemble de séquence, un code préfixe permettant un décodage local adapté à leur comparaison. L'approche est ensuite évaluée sur le typage automatique de génomes viraux.

15h15 : Hélène Morlon (Ecole Polytechnique, Paris)

"Détecter les processus macroévolutifs dans l'arbre de la vie".

La richesse actuelle en espèces résulte des processus de spéciation, extinction et dispersion, eux-mêmes influencés par divers processus écologiques et évolutifs. Estimer les taux de diversification, et comprendre comment et pourquoi ils varient au cours du temps, dans l’espace géographique, et entre groupes d’espèces, est donc central pour comprendre comment les processus écologiques et évolutifs ont généré la biodiversité actuelle. Les approches phylogénétiques jouent un rôle critique pour faire de telles inférences, en particulier pour les groupes ou régions pauvres en données fossiles. Je présenterai trois études ayant pour but de répondre aux trois questions suivantes : « les inférences phylogénétiques sont-elles en accord avec les données fossiles ? », « la diversité biologique sur terre est elle saturée ? », « les explosions radiatives sont elles récurrentes à travers l’ensemble de l’arbre de la vie ? ». Je conclurai en discutant les approches qui permettent d’analyser non seulement comment, mais aussi pourquoi les taux de diversification varient à travers la surface terrestre et l’arbre du vivant.

 


 

Mardi 10 avril / April 10 (Evry)

14h00 : Nathalie Krell (Université de Rennes)

"Inférence statistique pour une population structurée et gouvernée par un terme de transport et un terme de fragmentation".

On s'intéresse à l'évolution structurée en taille pour un modèle de bactéries Escherichia coli et cela à travers différentes échelles. La taille du système évolue selon une équation de transport fragmentation: chaque individu croit avec un certain taux de transport et se divise en deux bactéries filles, selon un processus de fragmentation binaire dont le taux de division dépend de la taille de la bactérie et est inconnu. Macroscopiquement le système est bien approché par une EPD et la résolution statistiques se fait grâce à un problème inverse (confère le travail de M. Doumic, M. Hoffmann, P. Reynaud-Bouret et V. Rivoirard). Dans ce travail on s'est intéressé au point de vue microscopique qui permet d'introduire plus de dépendance et qui correspond à la réalité des observations. Cette analyse est complexe car elle se ramène à l'étude d'un processus évoluant dans $\mathbb{R}^{+^{\mathbb{N}}}$. Grâce à des techniques analogues à celle développées pour l'étude des fragmentations aléatoires, il existe une "many to one formula" qui permet de relier l'étude du processus complet à celle d'un PDMP (processus de Markov déterministe par morceaux) qui représente l'évolution d'une bactérie marquée aléatoirement. Grâce à l'étude de ce PDMP, on peut montrer que les deux points de vues sont bien compatibles. Cette nouvelle approche permet d'améliorer les vitesses obtenues précédemment par M. Doumic, M. Hoffmann, P. Reynaud-Bouret et V. Rivoirard.

C'est un travail en cours avec M. Doumic (INRIA & Paris 6), M. Hoffmann (ENSAE-CREST & Université Paris-Est) et L. Robert (INSERM).


 

Mardi 20 mars / March 20 (AgroParisTech)

11h00 : Lenka Zdeborova (Institut de Physique Théorique Orsay)

"Asymptotic analysis of the stochastic block model for modular networks".

In this talk we extend our previous work on the stochastic block model, a commonly used generative model for social and biological networks, and the problem of inferring functional groups or communities from the topology of the network. We use the cavity method of statistical physics to obtain an asymptotically exact analysis of the phase diagram. We describe in detail properties of the detectability/undetectability phase transition and the easy/hard phase transition for the community detection problem. Our analysis translates naturally into a belief propagation algorithm for inferring the group memberships of the nodes in an optimal way, i.e., that maximizes the overlap with the underlying group memberships, and learning the underlying parameters of the block model. Finally, we apply the algorithm to two examples of real-world networks and discuss its performance.


Mardi 14 february / February 14 (Evry)

14h00 : Franck Picard (LBBE, Lyon)

"Ondelettes et modeles mixtes pour la classification non supervisee de courbes".

Un nombre croissant de domaines scientifiques s'interessent aux donnees comportant beaucoup de mesures repetees pour chaque individu. Ce type de donnees peut etre vu comme une extension des donnees longitudinales en grande dimension et le cadre naturel de modelisation est alors l'analyse fonctionnelle pour laquelle les unites de base sont les courbes. Notre objectif est de realiser une classification non supervisee de ces courbes en presence de variabilite inter-individuelle.  Les approches existantes sont fondees sur les splines (James et Sugar (2003)). Cependant, ces modeles ne permettent pas de prendre en compte des fonctions presentant des irregularites et leur utilisation est limitee a des donnees de faible dimension.

Nous proposons une nouvelle procedure de classification de courbes non-supervisee fondee sur une decomposition en ondelettes des signaux. Nous introduisons un effet aleatoire prenant en compte la variabilite inter-individuelle et grace a une modelisation appropriee dans le domaine des ondelettes, nous nous assurons que les effets fixes et aleatoires appartiennent au meme espace fonctionnel (espace de Besov, Antoniadis et Sapatinas~(2007)). Ainsi nous obtenons un modele de melange Gaussien multivarie dont les composantes se s'ecrivent comme des modeles lineaires mixtes.

Nous proposons une procedure en deux etapes. Nous commençons par une etape de reduction de dimension basee sur les techniques de seuillage des ondelettes et sur les tests multiples. La taille consequente des donnees rend cette etape fondamentale et notre but est de selectionner les coefficients les plus informatifs pour la classification. Ensuite, une procedure de classification est appliquee sur les coefficients selectionnes : l'algorithme EM est utilise pour avoir une estimation des parametres par maximum de vraisemblance et predire conjointement les classes des individus et les effets individuels.

Les proprietes de notre procedure sont validees par une etude de simulation approfondie. Nous illustrons ensuite notre methode sur des donnees issues de la biologie moleculaire (donnees omics) comme les donnees CGH ou les donnees de spectrometrie de masse. Notre procedure est disponible dans le package R curvclust.


Mardi 10 janvier / January 10 (MIG, Jouy-en-Josas)

14h00 : Jean-Baka Domelevo Entfellner (LIRMM, Montpelier)

"Combinaison de modèles phylogénétiques et longitudinaux pour l'analyse des séquences biologiques : reconstruction de HMM profils ancestraux".

La modélisation statistique de séquences homologues par HMM profils laisse de côté l'information phylogénétique reliant les séquences. Nous proposons ici des modèles combinant efficacement analyse longitudinale (séquences protéiques vues comme des enchaînements d'acides aminés) et verticale (séquences vues comme étant le produit d'une évolution le long des branches d'un arbre phylogénétique). De tels modèles appartiennent à la famille des phylo-HMM, introduite dans le courant des années 1990 (Mitchison & Durbin). Notre objectif étant la détection d'homologues distants dans les bases de données, nous décrivons une méthodologie de dérivation complète des paramètres des phylo-HMM profils basée sur la phylogénie : les modèles que nous proposons sont des HMM de reconstruction ancestrale, issus d'un processus d'inférence phylogénétique des positions conservées, des probabilités d'émission de caractères sur les états Match et Insertion, ainsi que des probabilités de transition entre états du HMM. Nous suggérons notamment une nouvelle modélisation pour l'évolution des transitions entre états du HMM, ainsi qu'un modèle de type Ornstein-Uhlenbeck pour l'évolution des longueurs des insertions. Contraintes évolutives et contraintes longitudinales sont ainsi simultanément prises en compte. Le processus d'apprentissage développé a été implémenté et testé sur une base de données de familles de séquences homologues, mettant en évidence des gains à la fois en termes de vraisemblance accrue des homologues distants et en termes de performance lorsqu'il s'agit de détecter ceux-ci dans les grandes bases de données protéiques.

 

15h15 : Vincent Ducroq (Génétique et Génomique Bovine, GABI, INRA Jouy-en-Josas)

"Sélection génomique chez les bovins laitiers : méthodes et résultats en France"

Chez les trois principales races laitières françaises de bovins laitiers, la sélection génomique révolutionne complètement l’organisation de l’amélioration génétique. Des évaluations génomiques reposant sur les performances des filles de milliers de taureaux génotypés sur une puce 54k sont calculées (presque) tous les mois depuis Octobre 2008. Elles succèdent à une évaluation assistée par marqueurs basée sur un modèle linéaire mixte estimant des effets d’haplotypes. Ceux-ci avaient été choisis sur la base d’une recherche de QTL par analyse de liaison et de déséquilibre de liaison (LDLA).

Différentes méthodes d’évaluation génomique ont été comparées dans le cadre du programme ANR AMASGEN. Elles se répartissent entre méthodes classiques dérivées du BLUP, diverses méthodes Bayésiennes et des méthodes de sélection de variables. L’approche sur SNP donnant en général les meilleurs résultats a été l’Elastic Net. Mais nous avons pu améliorer légèrement ceux-ci en regroupant les SNP retenus par l'Elastic Net en haplotypes de SNP et en y ajoutant les haplotypes de QTL détectés par LDLA. On combine ainsi les avantages de l'évaluation génomique et de l'évaluation assistée par marqueurs. On décrira le contexte, la démarche suivie, les perspectives et les problèmes non résolus.

 


Mardi 22 novembre / November 22 (AgroParisTech)

15h15 : Eric Kolaczyk (Boston University)

Multi-Attribute Networks and the Impact of Partial Information on Inference and Characterization

Association networks represent systems of interacting elements, where a link between two different elements indicates a sufficient level of similarity between element attributes. While in reality relational ties between elements can be expected to be based on similarity across multiple attributes, the vast majority of work to date on association networks involves ties defined with respect to only a single attribute.  We propose an approach for the inference of multi-attribute association networks from measurements on continuous attribute variables, using canonical correlation and a hypothesis-testing strategy.  Within this context, we then study the impact of partial information on multi-attribute network inference and characterization, when only a subset of attributes is available.  We examine through a combination of analytical and numerical techniques the implications of the choice and number of node attributes on the ability to detect network links and, more generally, to estimate higher-level network summary statistics, such as node degree, clustering coefficients, and measures of centrality. We consider in detail the case of two attributes and discuss generalization of our findings to more than two attributes.  Our work is motivated by and illustrated within the context of gene/protein regulatory networks in human cancer cells. 
Joint work with Natallia Katenka.

 


Mardi 4 octobre / October 4 (Evry)

11h : Josée Dupuis (Boston University)

Meta-analysis of genome-wide association results allowing for gene-by-environment interactions

Despite the success of genome-wide association scans (GWAS) in identifying trait associated loci, most discoveries to date explain only a small portion of the total heritability.  Part of the missing heritability may be due to gene-by-environment effects that are not included in typical GWAS.  I introduce a methods to jointly meta-analyze the main and environmental interaction effects of a genetic variant on a trait of interest.  I also present results from application of the method to mapping genes influencing fasting insulin levels, a trait related to type 2 diabetes, by incorporating gene-by-body mass index interaction.

14h : Christophe Biernacki (Université de Lille)

A block regression approach for simultaneous clustering and variables selection: application to genetic data

Genome Wide Association (GWA) studies have proved the implication of numerous single nucleotides polymorphisms (SNP) in the etiology of common diseases. Nevertheless, only a small part of the expected heritability of those diseases is explained by the most significantly associated SNPs. Many researches that have been lately investigating this missing heritability have considered interactions between genes and/or environmental factors as a plausible and promising explanation. Considering all if not a large number (hundreds of thousands) of variants altogether stresses the problem of the high dimensionality that most regression-based methods cannot afford. To solve this issue one either reduces the number of variants to be analyzed (shrinkage approaches) or groups them according to a certain similarity. We introduce here a regression model that simultaneously clusterizes the variants sharing close effect size while selecting the most informative clusters. The estimation of the model parameters is proposed under a frequentist framework by maximizing the likelihood of the model parameters. Our method is not based on pre-existent structures over the variants like the group LASSO [1], but achieves the variants clustering through the estimation of a vector of discrete parameters. The latter step, which is basically of combinatorial complexity, is now solved using algorithms that are quadratic with respects to the number of variants. The challenges of this research rely then on finding efficient algorithms for the clustering part. The EM-like approaches and their stochastic versions now implemented, have shown good properties (bias and prediction) when compared to LASSO, RIDGE and Elastic-net on simulations [2]. A more complete simulations study is in progress that will include most recent methods like OSCAR [3], Sparse PLS regression [4], group and cooperative LASSO [5]. The optimal number of groups is now selected using the cross-validation. A first application on real data concerning a small genomic region was achieved. This primary analysis gave consistent result with classical regression estimates in terms of variables election. The analysis of GWA data will doubtless be the forthcoming and most exciting step.

(joint work with L. Yengo and J. Jacques).

References:

[1] R. Tibshirani. Regression shrinkage and selection via the lasso. J. Royal. Statist. Soc B., Vol. 58, No. 1, pages 267-288). 1996

[2] L. Yengo, J. Jacques and C. Biernacki. A block regression approach for simultaneous clustering and variables selection: application to genetic data. JOBIM 2011.

[3] H. Bondelland B. Reich, Simultaneous regression shrinkage, variable selection and supervised clustering of predictors with OSCAR. Biometrics, 64:115-123, 2008.

[4] K.A. Lê Cao , D. Rossouw D, C. Robert-Granié and P. Besse. A sparse PLS for variable selection when integrating omics data. Stat Appl Genet Mol Biol.< 2008.

[5] J. Chiquet, Y. Grandvalet and C. Charbonnier. Sparsity with sign-coherent groups of variables via the cooperative-Lasso. (in submission).


Mardi 21 juin / June 21, 2011, Jouy-en-Josas

11h : Bin Yu (univ. Berkeley)

Spectral clustering and the high-dimensional Stochastic Block Model

In recent years network analysis have become the focus of much  research in many fields including biology, communication studies,  economics, information science, organizational studies,  and social psychology.  Communities or clusters of highly connected actors  form an essential feature in the structure of several empirical networks. Spectral clustering is a popular and computationally feasible method to discover these communities.

The Stochastic Block Model is a social network model with well defined communities. This talk will give conditions for spectral clustering to correctly estimate the community membership of nearly all nodes. These asymptotic results are the first clustering results that  allow the number of clusters in the model to grow with the number of nodes, hence the name high-dimensional.
If time allows, I will also present on-going work on directed spectral clustering for networks whose edges are directed, including the enron data as an example.


 Mardi 31 mai / May 31, 2011, AgroParisTech

14h : Gilles Celeux, INRIA Saclay, France

Model-based cluster analysis for transcriptomic data

Cluster analysis is an important task for analyzing transcriptomic data. This communication is aiming to present model-based cluster analysis tools to deal properly with such data. It will present joint works with M.-L. Martin-Magniette (INRA), C. Maugis (INSA Toulouse) and A. Rau (INRIA). After a presentation of the mixture model, we will present tools for variable selection for clustering with Gaussian mixtures (Maugis et al. 2009 a, b). Applications on transcriptome datasets of Arabidopsis thaliana, extracted from the database catdb will be presented to highlight the interest of specifying different roles for the variables in a cluster analysis. In a second part of the talk, we will present preliminary results for mixture models devoted to clustering RNA-seq data sets such as Poisson, lognormal or negative binomial mixtures. The possibility to deal with inflated-zero data will be also considered for such count data. The pro and con of each mixture model will be discussed from numerical experiments. Finally, a discussion on the interests and limitations of mixture models to deal with transcriptomic data will conclude the talk.

References

C. Maugis, G. Celeux and M.-L. Martin-Magniette Variable selection for Clustering with Gaussian Mixture Models, Biometrics, 53, 3872-3882, (2009a).
C. Maugis, G. Celeux and M.-L. Martin-Magniette Variable selection in model-based clustering: A general variable role modeling, / Computational Statistics and Data Analysis, 65, 701-709, (2009b).


 

Mardi 29 mars / March 29, 2011, Evry

14h : Mikael Falconnet (Institut für Mathematische Statistik, Münster, Germany)

Autour de modèles d'évolution de séquences d'ADN avec influence du voisinage et/ou translocations

Dans la première partie de l'exposé, j'introduirai une classe de modèles d'évolution de séquences d'ADN étudiée par Bérard, Gouéré et Piau, et qui prend en compte l'effet de la méthylation des dinucléotides CpG dans le génome. Ensuite, j'expliquerai comment il est possible de fournir un estimateur du temps écoulé entre deux séquences homologues ayant évolué sous ce modèle, ainsi qu'un intervalle de confiance asymptotique. Enfin, je terminerai en exposant la construction d'un modèle d'évolution de séquences d'ADN qui prend en compte des possibilités de translocations, en énonçant les résultats que nous avons actuellement avec Nina Gantert sur l'ergodicité du modèle et ceux que nous aimerions avoir.


 

Mardi 11 janvier / January 11, 2011, Jouy-en-Josas

 

14h : Charles Bouveyron (Université Paris 1, Panthéon-Sorbonne)

Classification générative des données de grande dimension

La classification générative a du faire face ces dernières années à l'augmentation de la dimension des données et au fléau de la dimension qui lui est associée. Aprés une brève introduction à la classification générative, l'exposé passera tout d'abord en revue les méthodes récentes de classification dédiées aux données de grande dimension. Quelques avancées récentes seront ensuite présentées, concernant notamment la sélection de dimensions intrinséques et le clustering dans un sous-espace discriminant.


 

Mardi 23 novembre / November 23, 2010, Evry

 

14h : David Causeur (Département de Mathématiques Appliquées, Agrocampus Ouest)

Large scale signi cance testing in gene expression studies under dependence

High-throughput biotechnologies such as microarray allows the simultaneous measurements of thousands of
gene transcriptional variations along with a variable of interest, which can be a genotype or any other controlled
experimental condition. Such experiments are usually conducted to identify genes or modules of genes which
characterize most the relationship with the variable of interest. A simple di erential analysis is usually the rst
step to draw a list of interesting genes in which the expected false discovery proportion is controlled.
Stability of multiple testing procedures can however be a ected by an expression heterogeneity which can
be due to unmodelled genetic, environmental or technological factors. This has been demonstrated by many
authors (see Leek and Storey 2007, 2008, Friguet et al., 2009 and Blum et al., 2010) for the ranking of genes
in di erential analysis. We propose to identify components of heterogeneity in gene expressions using a factor
model (see Friguet et al., 2009) and show that this leads to a better reproducibility of gene ranking and a better
stability of the error rates. We present extensions of our method to model selection in supervised classi cation
and inference on gene networks with gaussian graphical models.
Références
[1] Blum Y., Le Mignon G., Lagarrigue S., and Causeur D. (2010). A Factor Model to Analyze Heterogeneity in
Gene Expression, BMC Bioinformatics, 11{368.
[2] Friguet, C. and Kloareg, M. and Causeur, D. (2009). A factor model approach to multiple testing under
dependence, Journal of the American Statistical Association, 104 (488), 1406{1415.
[3] Leek, J. T. and Storey, J. (2007). Capturing heterogeneity in gene expression studies by Surrogate Variable
Analysis, PLoS Genetics, 3, e161.
[4] Leek, J. T. and Storey, J. (2008) A general framework for multiple testing dependence, Proceedings of the
National Academy of Sciences, 105, 18718{18723.

 


 

Mardi 21 septembre / September 21, 2010, AgroParisTech

 

14h : Michael Blum (TIMC-IMAG, Grenoble)

Approximate Bayesian Computation: a Nonparametric Perspective

Approximate Bayesian Computation is a family of likelihood-free inference techniques that are well-suited to models de fined in terms of a stochastic generating mechanism. In a nutshell, ABC consists in computing a distance between simulated and observed summary statistics and weighting the simulations according to this distance. Here, we derive the asymptotic bias and variance of the standard estimators of the posterior distribution which are based on rejection sampling and linear adjustment. Additionally, we introduce an original estimator of the posterior distribution based on quadratic adjustment and we show that its bias contains a fewer number of terms than the estimator with linear adjustment. We fi nd that the estimators with adjustment can achieve better performance when there is a nearly homoscedastic relationship between the summary statistics and the parameter of interest. To make this relationship as homoscedastic as possible, we propose to use transformations of the summary statistics. In di fferent examples borrowed from the population genetics and epidemiological literature, we show the potential of the methods with adjustment and of the transformations of the summary statistics.


 

Mardi 29 juin / June 29, 2010, Jouy-en-Josas

 

11h : Kousuke Hanada (RIKEN Plant Science Center, Kanagawa, Japan)

Functional analysis of small coding genes with coding potential in plant genome (A. thaliana and O. sativa)

Some of small coding genes play a significant role in various aspects of either plant development or stress response. However, it is believed that such the genes tend not to be identified because of the conservative nature of prediction algorithms. Using our recently published pipeline to infer small coding genes specifically, we identified novel 7,442 and 28,883 small coding genes with high coding potential in Arabidopsis thaliana and Oryza sativa genomes. Toward functional analysis of these small coding genes, we developed microarray to examine the expression of identified small coding genes, and generated expression profiles in various organs and various stress condition. Currently, we focused on small coding genes with high expression, high homology in other plant genomes and peptide hormone-like amino acid compositions in A. thaliana and O. sativa. Throughout the over-expression analysis of some focused genes, we identified phenotypic changes. These preliminary results indicate that some of our identified small coding genes are functional.

1.     Hanada K, Akiyama K, Sakurai T, Toyoda T, Shinozaki K and Shiu SH. sORF finder: a program package to identify small open reading frames (sORFs) with high coding potential. Bioinformatics. 2010 26(3):399-400.

2.     Hanada K, Zhang X, Borevitz JO, Li WH, Shiu SH*: A large number of novel coding small open reading frames in the intergenic regions of the Arabidopsis thaliana genome are transcribed and/or under purifying selection. Genome Res 2007, 17(5):632-640.

 


14h30 : Franck Picard (LBBE, Lyon)

Statistical mapping of replication origins in the human genome

DNA replication is a process whose influence on genome organization is still a matter of debate. Mapping replication origins is a challenging task from the experimental point of view, but the development of new high throughput protocols has allowed a systematic characterization of replication origins in humans. In October 2008, Cadoret et al. (PNAS 105(41):15837-15842) used amplification of DNA short nascent strands that were hybridized on a microarray covering ENCODE regions. This constituted the first high resolution map of replication origins in HeLa cells, with the identification of 10 times more origins that previously known. As these experiments are based on DNA enrichment microarrays, origins could be identified by finding peaks in the signal. Statistical techniques that were used in this work were very conservative to prevent from false positive origins, leading to a lack of power. We propose first to re-investigate these data using advanced statistical techniques to identify new origins. We use non-parametric wavelet-based techniques to find relevant peaks in the data, with the use of a structural intensity criterion to find relevent discontinuities in the signal. This technique allows us to identify new origins that share similar biological properties compared with previously identified origins. This work leads to interesting statistical perspectives in terms of model selection, non-parametric regression. In a second part, we will investigate new replication origins data (on a different cell line) that come from deep sequencing. The statistical question shifts towards the identification of exceptional accumulation of reads along the sequence, and we propose to use scan statistics for this purpose. This work is still under investigation but we will discuss preliminary bological conclusions on these new sets of human replication origins.


 

Mardi 11 mai / May 11, 2010, Evry

 

14h : John Rhodes (University of Fairbanks, Alaska)

Phylogenetic Models

The goal of molecular phylogenetics is to infer evolutionary trees from sequence data collected from different taxa. After a brief
survey of the main approaches to phylogenetic inference, we will focus on some of the models most commonly used, their shortcomings, and
various attempts to improve on them. The talk should be accessible to those who have had little previous exposure to phylogenetics.


 

Mardi 13 avril / April 13, 2010, AgroParisTech

 

14h : Niels Richard Hansen, University of Copenhagen

Penalized MLE for multivariate point process models with applications to genome organization

To model the organization of transcription regulatory elements along the genome we have considered the use of multivariate point process models. We have, in particular, used the multivariate, nonlinear Hawkes process. This model class fits into a general framework of generalized linear point process models, which we present.

We show a new theoretical result on the minimization of the penalized minus-log-likelihood function over a Sobolev space, which in a special
case gives that the solution is in an explicit finite dimensional subspace and in general gives an infinite dimensional descent algorithm.

For the nonlinear Hawkes process the parameters of interest are infinite dimensional linear filter functions, and in the talk we discuss different practical modeling strategies involving basis expansions and reproducing kernels. We illustrate the talk with applications to genome organization based on data from ChIP-chip and ChIP-seq experiments.

 

15h : Pierre Neuvial, Berkeley University

Detecting and calling DNA copy number aberrations in cancer samples from genotyping microarrays.

Genotyping microarrays (SNP arrays) are a tool of choice for DNA copy number studies in cancer research, as they quantify both Total Copy
Numbers (TCN) and Allelic Imbalances (AI).  I will discuss statistical issues raised by the analysis of this type of data and illustrate them
on ovarian and brain cancer data from the Cancer Genome Atlas (TCGA).

I will show that various types of copy number changes can be detected from both TCN and AI with comparable statistical power, which
motivates the construction of a joint (TCN, AI) segmentation method. I will also discuss the influence of tumor ploidy and normal
contamination (the presence of normal cells in the tumor sample) on detection and calling of CN aberrations.


 

Mardi 16 mars / March 16, 2010, AgroParisTech

 

14h : Emmanuel Viennet, Université Paris 13, France

Analyse des réseaux sociaux : problématiques pour la fouille de données

L'étude des réseaux sociaux a récemment connu un essor remarquable, avec le développement de nouvelles méthodes d'analyse et de fouille de données. De nombreuses applications industrielles produisent des données structurées en réseaux : sites Web 2.0, opérateurs de télécommunications, etc. Les problèmes posés sont très variés et vont de la catégorisation de documents (ou de messages) à la détection de communautés d'utilisateurs, en passant par les systèmes de recommandation et le "marketing viral".

L'analyse des réseaux sociaux pose des problèmes difficiles, comme la modélisation des interactions "sociales", la fouille de données structurées (graphes, textes, données hétérogènes) et la prise en compte de l'évolution temporelle des réseaux. De plus, les applications génèrent souvent des volumes de données très importants, avec des graphes comptant plusieurs dizaines des millions de noeuds, ce qui pose de sérieuses restrictions sur les algorithmes utilisables.

Dans cet exposé, nous présenterons ce domaine de recherche et décrirons quelques problématiques et exemples pouvant intéresser les statisticiens.


 

Mardi 16 février / February 16, 2010, Evry.

 

14h : Cécile Low-Kam, Univ. Montpellier 2, France.

Estimation de l'ordre d'une chaîne de Markov cachée à émissions de la famille exponentielle

Nous cherchons à estimer l'ordre (le nombre d'états cachés) d'un modèle de Markov caché, lorsque aucune borne n'est connue à priori sur cet ordre, et lorsque la distribution des états observables appartient à la famille exponentielle. Nous présentons deux estimateurs dans la lignée de ceux proposés par Gassiat et Boucheron (2003), et Chambaz et al. (2008). L'un est une version pénalisée de l'estimateur de maximum de vraisemblance, et l'autre une version pénalisée de l'estimateur de mélange bayésien introduit par Liu et Narayan (1994). Nous prouvons également la consistance de ces estimateurs.

(Travail en collaboration avec André Mas)


 

Mardi 19 janvier / January 19, 2010, Jouy-en-Josas.

 

14h : Robin Ryder, Cérémade - Université Dauphine, France.

Modèles phylogénétiques de la diversification des langues

La diversification des langues est un processus aléatoire semblable en bien des points à l'évolution biologique. On modélisera la diversification des données lexicales, et plus spécifiquement du vocabulaire dit « de base », par un processus stochastique sur un arbre phylogénétique.On se concentra sur la famille des langues Indo-Européennes. L'âge du dernier ancêtre commun de ces langues est sujet à controverse et les problèmes de datation de langues anciennes sont donc particulièrement intéressante. On estimera la topologie de l'arbre phylogénétique, l'âge des langues ancestrales et les paramètres du modèle à l'aide de méthodes MCMC. Le modèle présenté incorpore plusieurs aspects spécifiques à la diversification des langues, tels l'hétérogénéité des taux de diversification ou le processus d'observation des données, et on montrera que les phénomènes d'emprunt de mots ne biaisent pas nos résultats. Enfin, on analysera deux jeux de données afin d'estimer l'âge du Proto-Indo-Européen.

(Travail en collaboration avec Geoff Nicholls).


 

 

Mardi 17 novembre / November 17, 2009, Evry.

 

14h : Sarah Behrens, Max Planck Institute for Molecular Genetics, Berlin.
Studying the evolution of promoters: a waiting time problem

While the evolution of coding DNA sequences has been intensively studied over the past decades, the evolution and structure of regulatory DNA sequences still remain poorly understood. However, there is growing body of experimental evidence that promoter sequences are highly dynamic and that significant changes in gene regulation can occur on a microevolutionary time scale.
In order to give a probabilistic explanation for the rapidness of cis-regulatory evolution, we have addressed the following question: how long do we have to wait until a a given transcription factor (TF) binding site (a given k-mer or a set of k-mers) emerges at random through the evolutionary process of single nucleotide mutations?
Using a Markovian model of sequence evolution, we can exactly compute the expected waiting time until a TF binding site is newly created in a promoter sequence of a given length. The evolutionary rates of nucleotide substitution are estimated from a multiple species alignment (Homo sapiens, Pan troglodytes and Macaca mulatta). Since the CpG methylation deamination process (CG!TG and CG!CA) is the predominant evolutionary substitution process, we have also incorporated these neighbor dependent substitution rates into our model.

As a result, we obtain expected waiting times for every k-mer, 3 <= k <= 10. Therewith, we can identify TF binding sites which can be easily generated during evolution and those which are not very ”convenient” to ”wait for”. For example, ’CCCTG’ is the fastest emerging 5-mer with an expected waiting time of 82 million years (Myrs) to appear in one promoter of length 1 kb and approximately 4,000 years to occur in at least one of all the human promters, while ’ATATA’ is the slowest emerging 5-mer (338 Myrs for one promoter; 17,000 years for appearance in at least one of all the human promoters). For 10-mers, the average expected waiting time is 96 billion years for one promoter and around 5 Myr for all promoters - suggesting that in terms of time, it is more favorable to create several short TF binding sites instead of one long TF binding site.
Our results indicate that new TF binding sites can indeed appear on a small evolutionary time scale and that the CpG methylation deamination process probably is one of the driving forces in generating new TF binding sites. Our approach of calculating waiting times for TF binding sites in dependency of their length and composition sheds new light on the process of TF binding site emergence and therefore extends the previous knowledge about the dynamics of promoter sequence evolution.

(joint work with Martin Vingron).

15h30 : Wilson Toussile, Laboratoire de Mathématique d'Orsay.Variables selection in unsupervized classification by mixture using genotypic data

We propose a variable selection procedure in model-based clustering using multilocus genotype data. Indeed, it may happen that some loci are not relevant for clustering into statistically different populations. Inferring the number K of clusters and the relevant clustering subset S of loci is seen as a model selection problem. The competing models are compared using penalized maximum likelihood criteria. Under weak assumptions on the penalty function, we prove the consistency of the resulting estimator $${(\widehat{K}_n, \widehat{S}_n)}$$. An associated algorithm named Mixture Model for Genotype Data (MixMoGenD) has been implemented using c++ programming language and is available on http://www.math.u-psud.fr/~toussile. To avoid an exhaustive search of the optimum model, we propose a modified Backward-Stepwise algorithm, which enables a better search of the optimum model among all possible cardinalities of S. We present numerical experiments on simulated and real datasets that highlight the interest of our loci selection procedure.

(collaboration avec E. Gassiat). Ref : http://www.springerlink.com/content/r7k02q167120xl64/


 

Mardi 13 octobre / October 13, 2009, AgroParisTech.

11h : John Bunge, Department of Statistical Science, Cornell University.

Recent Developments in Statistical Analysis of Biodiversity.

I will discuss recent developments, some yet unpublished, in statistical analysis of biodiversity.  These include objective (noninformative) Bayesian methods, with a remarkable result regarding objective priors; a new approach based on ratios of successive frequency counts, which can be analyzed in many cases with a simple weighted linear regression model; and finite-mixture models, which are implemented in our new software package CatchAll.  I will describe applications to metagenomic data from environmental microbial surveys (terrestrial and aquatic), and challenges related to incorporation of covariates such as time, location, biogeochemical conditions, etc.


 

Mardi 16 juin / June 16, 2009, Jouy-en-Josas.

11h : Hanna Döring, Ruhr-Universität Bochum, Germany.
Asymptotics for subgraph counts in random graphs.

We prove a moderate deviation principle for subgraph count statistics of Erdös-Rényi random graphs. This is done via an estimation of the log-Laplace transform and the Gärtner-Ellis theorem. We obtain upper bounds on the upper tail probabilities of the number of occurrences of small subgraphs.
The method of proof is used to show supplemental moderate deviation principles for a class of symmetric statistics, including non-degenerate U-statistics with independent or Markovian entries.
(In collaboration with Peter Eichelsbacher) 

14h30 : Frédéric Dayan, Université de Nice.
Gene regulation in response to graded hypoxia: The non-redundant roles of the oxygen sensors PHD and FIH in the HIF pathway.

HIF, being the master protein involved in adaptation to low pO2, plays a ma jor role in many physiological and pathological phenomena: development, inflammation, ischemia and cancer. PHD and FIH are the two oxygen sensors
that regulate the HIF pathway. Here we model the regulatory dynamics in an oxygen gradient by a system of differential
equations. A part of the work consists in a qualitative analysis, driven independently of the values of the parameters,
which explains the non-redundant functional roles of FIH and PHD. In a second part, we use biological experiments to
fit the model in a physiologically relevant context and run simulations. Simulation results are confronted with success to
independent biological experiments. The combination of biological data and mathematical analysis stresses that FIH is a
fine modulator determining whether a given gene should be induced in mildly or in strongly hypoxic areas. Moreover it gives access to other functional predictions that are not directly accessible by pure experiments, for instance the stoechiometry of prolyl-hydroxylation on HIF, and the switch-like properties of the system.


 

mardi 19 mai 2009, Evry

10h : Elizabeth Ford, Oxford University
Bounds for convergence for the degree distribution of Barabasi-Albert random graphs

Barabasi-Albert random graph models are a class of models that are often used to model social networks. It has been shown that such models have an asymptotic scale-free degree distribution as the size of the graph tends to infinity.
We compare the evolution of Barabasi-Albert random graphs to species and genus sizes in Yule's model for evolution. We couple the models and apply Stein's method to obtain total variation distance bounds between the degree distributions of Barabasi-Albert random graphs of a given size and the Yule-Simon (scale-free) distribution.


 

mardi 7 avril 2009, AgroParisTech

11h : Alain Franc, UMR Biodiversité Gènes et Communautés, INRA Bordeaux
Macro-écologie et populations microbiennes

14h : Xavier Gendre, Université de Nice
Sélection de modèle et estimation d'une composante en régression additive

Etant donné un vecteur aléatoire Y de moyenne s et de matrice de covariance quelconque et connue à une constante multiplicative sigma près, nous proposons d'estimer s par sélection de modèle. Les résultats sont établis sous l'hypothèse d'un bruit gaussien et sous des hypothèses de moment pour sigma connu ou inconnu. Nous les appliquons ensuite au cadre de la régression additive afin d'estimer une composante de la fonction de régression.


 

mardi 3 mars 2009, AgroParisTech

14h : Simona Grusea, LATP, Université de Provence
Approximation de Poisson composée et tests statistiques pour la détection de régions génomiques conservées.

Nous présentons une approximation de Poisson composée pour calculer des probabilités impliquées dans des tests statistiques pour la significativité des régions génomiques conservées entre deux espèces différentes. On considère le cas des régions génomiques conservées trouvées par une approche de type région de référence. Un aspect important de notre démarche est le fait de prendre en compte l’existence des familles multigéniques. Nous obtenons des résultats de convergence pour l’erreur de notre approximation en utilisant la méthode de Stein-Chen pour l’approximation de Poisson composée. Nous présentons aussi quelques applications sur des données biologiques.

15h : Samis Trevezas, Université de Compiègne
Etude de l'estimation du Maximum de Vraisemblance dans des modèles Semi-Markoviens et Semi-Markoviens Cachés avec Applications.

Les modèles semi-markoviens cachés (MSMC) constituent une généralisation des modèles markoviens cachés. En fait, les temps de séjour dans les états cachés peuvent suivre une loi quelconque et non nécessairement géométrique. L'exposé commence par une étude de l'estimation du maximum de vraisemblance exacte des chaînes semi-markoviennes (CSM) finies. Il s'agit d'une estimation basée sur une seule trajectoire dont la longueur tend vers l'infini, ainsi que sur plusieurs trajectoires censurées à un instant fixe, dont le nombre tend vers l'infini.
Ensuite, l'étude du modèle semi-markovien est étendue au MSMC, en particulier, au MSMC général avec dépendance des temps de récurrence en arrière. Du point de vue théorique, la convergence et la normalité asymptotique de l'EMV, dans le cas où le support des lois des temps de séjour conditionnelles pour les états cachés est fini, sont montrées. Et, du point de vue appliqué, une version améliorée de l'algorithme EM (Estimation-Maximisation) et une version stochastique de cet algorithme (SAEM) sont proposées, afin de trouver l'EMV pour les MSMC non paramétriques. Des exemples numériques sont également présentés pour ces deux algorithmes.
Enfin, des perspectives de ce travail sont proposées, comme par exemple, l'estimation des îlots de bases CpG dans les chaînes d'ADN.


 

mardi 18 novembre 2008, AgroParisTech.

14h : Patricia Reynaud-Bouret, ENS Paris
Estimation adaptative dans le modèle de Hawkes.

Les processus de Hawkes sont des processus ponctuels qui peuvent permettre  de modéliser les distances favorisées ou évitées entre occurrences d'un même phénomène le long du génome. Dans cet exposé,  nous montrerons comment des techniques de sélection de modèle permettent de réaliser une estimation adaptative de la fonction de reproduction (ou fonction profil). Nous nous attacherons plus particulièrement aux estimations par constantes par morceaux, le problème principal étant alors de choisir la famille d'intervalles sur laquelle réaliser l'estimation. Vu la nature du problème biologique, on s'attend a ce que la fonction de reproduction soit très irrégulière avec de grandes plages nulles et de brusques variations à des distances précises. La famille d'intervalles choisie devra donc être fondamentalement irrégulière, ce qui empêche d'utiliser les critères de type AIC. Nous nous intéresserons donc à des estimateurs par projection pénalisée et à la calibration théorique et pratique de la pénalité en fonction de la complexité de la famille de modèles.


 

mardi 7 octobre 2008, Jouy

14h : Etienne Roquain,  Université Paris 6, LPMA
p-values pondérées et contrôle du FDR.

Dans le contexte du test multiple, nous cherchons à optimiser la procédure de Benjamini et Hochberg [1], en proposant une façon particulière de pondérer les p-values. Nous obtenons une procédure qui contrôle le false discovery rate (FDR) et qui dépend d'une information a priori sur les données. Des simulations montrent que lorsque cet a priori est correct, la nouvelle procédure améliore celle de [1]. Nous proposons également une application sur des données de puces à ADN.


 

mardi 17 juin 2008, Jouy

14h: Fabrice Touzain, LORIA, Nancy
Recherche des sites de fixation des sous-unités sigma de l'ARN polymérase dans des génomes bactériens par approche comparative en suivant des critères statistiques.

Les Sites de Fixation des sous-unités (ou Facteurs) Sigma (SFFS) sont indispensables à la première étape de l'expression d'un gène: l'initiation de la transcription. Ils sont généralement composés de deux boîtes, dites -35 et -10 en référence à la leur position par rapport au site d'initiation de la transcription (point +1). Je présenterai une nouvelle approche pour l'identfication des SFFS. Elle compare deux génomes bactériens phylogénétiquement apparentés. La méthode, appelée
SIGffRid (pour SIGma Factor Finder using R'MES to select Input Data) analyse des paires de régions promotrices de gènes orthologues. Elle utilise la sur-représentation statistique dans les génomes complets comme critère de sélection de chaque boîte potentielle (-35 ou -10). Les paires de boîtes conservées sont alors groupées en utilisant des paires
de courtes graines (l'une d'elle pouvant présenter des gaps), en autorisant la variabilité de l'espacement qui les sépare. Les motifs sont ensuite étendus suivant des considérations statistiques (événement rare si l'on considère sa fréquence d'apparition attendue). Un test statistique distinct (ratio de vraisemblance ou LRT) évalue la significativité de la sur-représentation des motifs générés dans les régions amonts par rapport au reste du génome. Cet algorithme a été
appliqué aux paires de génomes bactériens apparentés de Streptomyces coelicolor A3(2) et Streptomyces avermitilis. Les recoupements avec les SFFS bien définis du régulon SigR dans S. coelicolor ont validé l'algorithme. D'autres SFFS sont également trouvés, pour HrdB, BldN, ou les promoteurs induits par un rayonnement UV, suggérant un certain
nombre de nouvelles cibles pour ces facteurs sigma. Deux consensus de SFFS peu ou non connus sont proposés. Des résultats tout aussi prometteurs sont obtenus chez Bacillus subtilis et Bacillus licheniformis où les consensi des motifs reconnus par les facteurs sigma SigA et SigW sont particulièrement bien définis par la méthode.


 

mardi 20 mai 2008, AgroParisTech

14h: David Hunter, Penn State University et Université d'Orléans
Exponential random graphs models


 

mardi 15 avril 2008, Evry

14h: Didier Piau, Université Joseph Fourier, Grenoble
Sur quelques modèles d'évolution avec influence du voisinage

On modélise couramment l'évolution par mutations des séquences d'ADN en supposant que chaque site évolue indépendamment des autres, selon un noyau markovien plus ou moins sophistiqué. Pourtant, les biologistes savent bien que l'identité des voisins immédiats d'un site modifie sensiblement les taux de mutation en ce site. Je présenterai une classe de modèles d'évolution qui incorpore ces effets, certaines de ses propriétés mathématiques et, si le temps le permet, quelques unes des nombreuses questions qui restent ouvertes à son sujet.


 

mardi 25 mars 2008, Jouy

14h: Nathalie Peyrard, INRA, MIA Toulouse
Long-range correlations improve understanding the influence of network structure on per contact dynamics

(travail en collaboration avec Alain Franc et Ulf Dieckmann)

Models of infectious diseases are characterized by a phase transition between extinction and persistence. A challenge in contemporary epidemiology is to understand how the geometry of a host's interaction network influences disease dynamics close to the critical point of such a transition. Here we address this challenge with the help of moment closures. Traditional moment closures (like mean field, pair or Bethe approximations), however, do not provide satisfactory predictions close to such critical points. We therefore introduce a new method for incorporating longer-range correlations into existing closures. Our method is technically simple, remains computationally tractable, and significantly improves the approximation's performance. Our extended closures thus provide an innovative tool for quantifying the influence of interaction networks on spatially or socially structured disease dynamics. In particular, we examine the effects of a network's clustering coefficient, as well as of new geometric measures, such as a network's square clustering coefficients. We compare the relative performance of different closures from the literature, with or without our long-range extension. In this way, we demonstrate that the normalized version of the Bethe approximation -- extended to incorporate long-range correlations according to our method -- is an especially good candidate for studying influences of network structure. Our numerical results highlight the importance of the clustering coefficient and the square clustering coefficient for predicting disease dynamics at low and intermediate values of transmission rate, and demonstrate the significance of path redundancy for disease persistence.


 

mardi 12 février 2008, AgroParisTech

14h : Pierre Neuvial , Institut Curie et Laboratoire de Probabilités et Modèles Aléatoires, P7
Propriétés asymptotiques de procédures de contrôle du False Discovery Rate

Dans le contexte des tests d'hypothèses multiples, nous nous intéressons aux procédures de contrôle du FDR. Le FDR (False Discovery Rate) est l'espérance de la proportion de faux positifs parmi les hypothèses rejetées, appelée FDP pour False Discovery Proportion.
Nous introduisons un formalisme général permettant de calculer la loi asymptotique du FDP lorsque le nombre d'hypothèses testées tend vers l'infini. Nous étudions la procédure de Benjamini et Hochberg [1], ainsi que des variantes assurant un contrôle moins conservateur du FDR.
Références
[1] Y. Benjamini and Y. Hochberg. Controlling the false discovery rate : A practical and powerful approach to multiple testing. Journal of the Royal Statistical Society, Series B, 57(1), 1995.


 

mardi 15 janvier 2008, Evry

14h : Christophe Giraud, INRA Jouy
Estimation de graphes gaussien par sélection de modèles

Les graphes gaussiens ont été proposés pour modéliser les réseaux  d'interactions entres gènes et/ou protéines. Nous présenterons un petit travail théorique sur l'estimation de graphes gaussiens par minimisation d'un risque empirique pénalisé.  Nous nous concentrerons sur le cas défavorable où la taille $n$ de l'échantillon est inférieure au nombre $p$ de cofacteurs. Nous nous intéresserons d'une part à la "complexité" maximale des graphes que l'on peut espérer estimer, et d'autre part à la taille minimale de la pénalité permettant d'éviter le phénomène de "sur-adaptation". Nous proposerons ensuite un choix particulier de pénalité et établirons une inégalité de type "oracle" pour l'estimateur résultant. Pour finir, nous présenterons quelques simulations numériques mettant en oeuvre la méthode proposée ainsi que des variantes (plus économes en temps de calcul).


 

mardi 4 décembre 2007, AgroParisTech

14h: Jean-Stéphane Varré, LIFL, Lille
Calcul de P-valeur efficace et exact pour un motif PWM

Les matrices poids-position (PWMs : Position Weighted Matrices) sont des représentations probabilistes de signaux dans les séquences biologiques. On les trouve fréquemment pour représenter un motif approché à la fois dans les séquences nucléiques et protéiques. Par exemple les matrices sont utilisées pour représenter des sites de fixation de facteurs de transcription. Des banques de données existent telles que Jaspar et Transfac. Une matrice poids-position M est donnée sous la forme d’une matrice de taille m × |A| de réels où m est la longueur de la matrice et A l’alphabet sur lequel est écrit la séquence. Chaque valeur M (i, x) de la matrice donne le score associé à la lettre x de A pour la position i dans [1, m]. La matrice est utilisée classiquement afin de rechercher dans une séquence de A* les occurrences de celle-ci. Etant donné un mot u de A^m, le score de M sur u est défini comme la somme des scores de chaque lettre de u. On décide ensuite si il y a ou non occurrence en comparant le score de la matrice sur u à un seuil de score α préalablement défini. Habituellement ce seuil de score est calculé grˆace à une fonction P-valeur qui indique la significativité d’une occurrence en fonction de son score. La P-valeur représente la probabilité de l’ensemble des mots dont le score est plus grand que α pour la matrice M.
Dans l’exposé, nous nous intéresserons à deux probl`emes. D’une part nous décrirons un
algorithme de localisation d’un grand ensemble de matrices dans une séquence. D’autre part nous discuterons du calcul de la P-valeur.


 

mardi 6 novembre 2007, Jouy

11h : Sophie Lèbre, Evry SG - Gaëlle Lelandais, Paris 7 EBGM
Inférence de réseaux homogènes par morceaux pour l'étude de la réponse transcriptionnelle de la levure S. cerevisiae en présence d'un composé toxique

De manière à  décrire le plus finement possible  la réponse transcriptionnelle de la levure S. cerevisiae en  présence d'un composé toxique dans le milieu de culture, des  analyses comparatives du  transcriptome ont été  réalisées entre des cellules  en présence de  bénomyl (produit antimitotique)  dans différents contextes génétiques (souche sauvage versus souches délétantes pour un facteur de transcription).
La  possibilité   d'une  action  chronologique  des   différents  facteurs  de transcription  impliqués  dans cette  réaction  a  été  mise en  évidence  par Lucau-Danila et al (2005).  Pour étudier ce phénomène temporel, nous proposons de modéliser l'effet des facteurs de transcription par un réseau bayésien dont la structure varie au cours du temps.
Nous considérons  ainsi un modèle  de régression à ruptures  multiples. Chaque rupture  marque  un  changement   des  paramètres  du  modèle  de  régression, c'est-à-dire de  la façon dont un  niveau d'expression dépend  des facteurs de transcription.   En utilisant  des  méthodes MCMC  à  sauts réversibles,  nous développons une  procédure permettant d'estimer simultanément  la position des points de rupture et la structure du réseau au sein de chaque phase.
Les premiers résultats obtenus nous ont  permis de mettre en évidence un effet différé du facteur de transcription YAP1 sur certains gènes cibles.


 

mardi 9 octobre 2007, Evry

11h : Julien Fayolle, LRI
Comptages des occurences d'un nombre fini de mots

Nous comptons le nombre d'occurrences dans un texte de chacun des mots d'un ensemble fini quelconque. Les objets que nous manipulons sont les séries génératrices et d'autres objets analytiques. Nous utilisons une technique combinatoire appelée « inclusion-exclusion » pour déterminer la série génératrice multivariée des textes comptés selon leur longueur et selon le nombre d'occurrences de chacun des motifs d'un ensemble fini. Le principe d'inclusion-exclusion repose sur la décomposition combinatoire d'un texte en amas, c'est-à-dire en blocs d'occurrences se recouvrant. La complexité des différents calculs est ensuite regardée.

(Travail commun avec Frédérique Bassino, Julien Clément et Pierre Nicodème.)


 

mardi 3 avril 2007, AgroParisTech

11h : Romain Rivière, U.Montreal,
Algorithmes de graphes pour la recherche de blocs de construction pertinents pour la modélisation 3D des ARN.

La fonction biologique des structures d'ARN est liée à leurs structures spatiales. Le problème de la modélisation tridimensionnelle d'une structure d'ARN se réduit à un problème combinatoire sur des graphes, qui reste très coûteux en temps de calcul. Une meilleur sélection des blocs de construction primordiaux permettrait d'augmenter grandement la taille des problèmes étudiés. Dans cet exposé, je présente une méthode de sélection de blocs de construction primordiaux et développe principalement 3 points de cette approche:
 - Une énumération efficace de tous les sous-graphes induits connexes d'un graphe permet une recherche de blocs sans a priori.
 - Un étiquetage canonique des sous-graphes permet de manipuler les blocs comme des séquences.
 - Un problème de hitting set permet de sélectionner les blocs de construction primordiaux.
Je termine en proposant un ensemble de blocs de construction pertinent issus d'une structure d'ARN ribosomal de H. marismortui.


 

mardi 13 mars 2007, Jouy

11h : Virginie Bernard, URGV - UM INRA CNRS
Organisation topologique des séquences régulatrices et activité transcriptionnelle chez Arabidopsis

résumé


 

mardi 23 janvier 2007, Evry

11h : Adeline samson
Estimation dans les modèles mixtes définis par systèmes différentiels: application à la modélisation de l'infection par le VIH

résumé


 

mardi 21 novembre 2006, AgroParisTech

14h : Gerton Lunter, Oxford
An Irreversible Context-dependent Substitution Model

résumé

15h : Marie-Luce Taupin, Paris 5
Estimation semi-paramétrique du risque instantané dans un modèle avec erreurs sur les covariables

résumé


 

mardi 24 octobre 2006, Jouy

11h: Antoine Chambaz, Paris 5
Une approche MDL des chaines de Markov cachèes à émissions gaussienne ou poissonienne ; application à l'estimation de l'ordre

résumé


 

mardi 22 septembre 2006, Jouy

11h : Gesine Reinert, Department of Statistics, Oxford University
Statistics for Watts-Strogatz Small Worlds

résumé


 

mardi 13 juin 2006, Jouy

14h : Nicolas Brunel, Paris Dauphine
titre

résumé

15h : Christian Houdré, Georgia Institute of Technology
Lois limites pour quelques problemes de plus longues sous-suites croissantes ou communes

résumé


 

mardi 9 mai 2006, Evry

11h : Marc Lavielle, Universités Paris 5 et Paris 11, INRIA Futurs
Détection de ruptures et sélection de modèles

résumé


 

mardi 10 janvier 2006, Jouy

11h : Laurent Bréhélin, LIRM Montpellier
Une approche bayésienne pour la classification de cinétiques d'expression de gènes

résumé


 

mardi 6 décembre 2005, AgroParisTech

11h : Ana Arribas-Gil, Université Orsay
Parameter estimation in pair hidden Markov models

résumé


 

mardi 8 novembre 2005, Jouy

14h : Florence Forbes, INRIA Rhône-Alpes
Champs de Markov cachés et fusion de données individuelles et pairées pour l'identification de groupes de gènes

résumé


 

mardi 11 octobre 2005, Evry

11h : Peggy Cenac, INRIA Rocquencourt
Test de structure de séquences biologiques basé sur la Chaos Game Representation

résumé


 

mardi 28 juin 2005, AgroParisTech

11h : Wojciech Pieczynski, INT, Evry
Estimation et restauration de sequences par chaines de Markov triplet

résumé


 

mardi 7 juin 2005, Jouy

14h : Sébastien Hergalant, LORIA Nancy
Classification non supervisée par HMM de sites de fixation de facteurs de transcription chez les bactéries actinomycètes

résumé


 

mardi 9 mai 2005, Jouy

11h: Brigitte Mangin, Unité de Biométrie et Intelligence Artificielle, INRA, Toulouse
Déséquilibre de liaison et cartographie fine

résumé