47èmes Journées de Statistique de la Société Française de Statistique

Transcription

47èmes Journées de Statistique de la Société Française de Statistique
47èmes Journées de Statistique de la SFdS
Livret des participants
http://jds2015.sfds.asso.fr/
Lille, 1-5 juin 2015
Comité de programme
Président
Vincent Rivoirard (CEREMADE / Université Paris Dauphine)
Membres
•
•
•
•
•
•
•
•
•
•
•
•
•
Liliane Bel (AgroParisTech)
Alain Célisse (Painlevé/ Lille1-CNRS, MODAL / Inria)
Yann Guedon (Virtual Plants / Cirad-Inria-INRA)
Chantal Guihenneuc (EA 4064 / Université Paris Descartes)
Julie Josse (Agrocampus Ouest)
Béatrice Laurent (IMT / INSA Toulouse)
Erwan Le Pennec (École Polytechnique)
Olivier Lopez (ENSAE - CREST)
Gael de Peretti (Insee)
Cristian Preda (Painlevé / Lille1-CNRS)
Clémentine Prieur (Université de Grenoble)
Emmanuel Remy (EDF R&D)
Jean-Michel Zakoian (CREST)
Comité d’organisation
Président Christophe Biernacki (Painlevé / Lille1-CNRS, MODAL / Inria)
Vice-Présidente Sophie Dabo-Niang (LEM / Lille3)
Trésorier Alain Duhamel (CERIM / Lille2)
Secrétariat Trésorerie Marie-Noëlle Nirel (CERIM / Lille2)
Secrétariat Inscriptions Corinne Jamroz (MODAL / Inria)
Secrétariat Logistique Sabine Hertsoen (UFR Mathématiques / Lille1)
Céline Rouillon (UFR Mathématiques / Lille1)
Webmaster Marion Romo (LEM / Lille3)
Aboubacar Amiri (LEM / Lille3)
Gestion des repas Nicolas Wicker (Painlevé / Lille1-CNRS)
Gestion des locaux Marie-Françoise Barme (Painlevé / Lille1-CNRS)
Emeline Schmisser (Painlevé / Lille1-CNRS)
Proceedings Emmanuel Chazard (CERIM / Lille2)
Benjamin Guedj (MODAL / Inria)
Baba Thiam (LEM / Lille3)
Thomas Verdebout (Université libre de Bruxelles – LEM / Lille3)
Programme social Gwenaëlle Castellan (Painlevé / Lille1-CNRS)
Radu Stoica (Painlevé /Lille1-CNRS)
Yujin Jung (Lille2)
Communication Karin Sahmer (ISA)
Laurence Broze (RIME Lab/ Lille3)
Appariteurs Hiba Alawieh, Aladji Bassene, Anne-Lise Bedenel, Maxime Brunin, Emad
Drwesh, Quentin Grimonprez, Jérémie Kellner, Aurore Lavigne, Ingrid Rochel, Ahmed
Salem, Hoang Van Hà, François Westerlynck
3
Conférenciers invités
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
François Beck (OFDT/INPES, Paris)
David Bessis (tinyclues, Paris)
Nicole El Karoui (Université Pierre et Marie Curie, Paris)
Arthur Gretton (University College London, Royaume-Uni)
Fred Hickernell (Illinois Institute of Technology, États-Unis)
Peter Hoff (University of Washington, Seattle, États-Unis)
Sophie Lambert-Lacroix (Université Pierre Mendes France, Grenoble)
Valérie Monbet (IRMAR, Rennes)
Andrea Montanari (Stanford, États-Unis)
Gregory Nuel (UPMC, Paris)
Fabrizio Ruggeri (Milan, Italie)
Gerhard Tutz (Munich, Allemagne)
Sara van de Geer (ETH, Zurich, Suisse) – lauréate de la Conférence Le Cam
Nicolas Verzelen (INRA, Montpellier)
Qiwei Yao (London School of Economics, Royaume-Uni)
• Lauréat du prix Norbert Marx : Paul Blanche (University of Copenhagen, Danemark)
• Lauréat du prix SFdS-STID : Gauthier Plault (IUT STID, Lyon)
• Lauréate du prix Marie-Jeanne Laurent-Duhamel : Mélanie Prague (Harvard T.H. School of
Public Health, États-Unis)
5
Informations pratiques
Les 47èmes Journées de Statistique auront lieu du 1er au 5 juin 2015, dans le bâtiment M1 du
campus de l’Université de Lille 1.
Les JdS lilloises, comment ça marche ?
Kit de survie pratique
Accès au réseau wifi dans tous les amphis et dans le hall.
Identifiant : JDS-2015
Code : WIFI-JDS-2015
Tout au long des Journées, une permanence est assurée en salle Cartan, pour toute question
pratique.
Salles ordinateurs et imprimantes : Clairin / Gauss (voir description locaux).
Kit de survie scientifique
Des commentaires, des questions, des remarques sur le contenu scientifique des exposés ? La
plate-forme YSP Online est là pour vous.
Contribuez : https://goo.gl/rHO0HW
Votez : https://goo.gl/KHS1LC
Suivez les tendances : https://goo.gl/yyU3pl
Décryptage des thèmes les plus populaires le vendredi 5 juin à 13h30, en présence d’Anne
Gégout-Petit et Nicolas Verzelen.
Le succès des Journées, c’est vous !
Par la qualité scientifique des exposés, mais également par votre participation enthousiaste :
les 47èmes Journées se veulent collaboratives !
Envoyez à photosjds2015@gmail.com vos films et photos de la semaine !
Revivez ensuite les Journées sur https://goo.gl/qeM4Nk
Enfin, voici le hashtag des Journées pour Twitter : #JDSLille
Autour des Journées
La bibliothèque de maths recherche est située dans le bâtiment M2 (en face du M1 en sortant
du côté de la salle Cartan).
Les repas auront lieu au restaurant universitaire Pariselle (voir plan ci-après) avec les tickets
remis lors de votre arrivée.
Mercredi 3 juin avant 19h : soirée de gala. Pour aller au stade Pierre Mauroy, descendre soit
à la station de métro Cité Scientifique, soit à la station 4 Cantons. Attention, le dernier métro
part à 00h17, et il n’y a pas de bus de nuit pour retourner à Lille le mercredi.
Jeudi 4 juin à partir de 18h30 : afterwork avec les conférenciers invités, organisé par le groupe
Jeunes Statisticiens au Moulin d’Or (Morel & fils), 31 place du Théâtre, 59800 Lille (métro Rihour).
7
Informations pratiques
Programme social
Un passe pour les transports en commun (valable une journée) vous sera remis lors de votre
arrivée. Idéal pour le mercredi !
Visite guidée des Monts de Flandre (Bailleul)
Visite guidée des Monts de Flandre en autocar (durée estimée : 2h)
Départ en autocar.
Rendez-vous à 13h20 au parking du métro 4 Cantons.
Retour : gare Lille Flandres (vers 17h45).
Vieux-Lille gourmand (Lille)
Balade à pieds dans le Vieux-Lille avec visite des monuments historiques et dégustation de
spécialités locales (durée estimée : 2h)
Rendez-vous à 14h15 à l’accueil de l’Office de Tourisme de Lille, place Rihour (Métro ligne 1,
Rihour).
Visite de deux brasseries artisanales (Bailleul et Esquelbecq)
Visite guidée des brasseries “Beck” et “Thiriez” et dégustation de bière (durée estimée : 4h).
Départ en autocar.
Rendez-vous à 12h40 au parking du métro 4 Cantons.
Retour : Parking du métro 4 Cantons (vers 18h30).
Musée du Louvre (Lens)
Visite guidée du musée (durée estimée : 1h30). Une pause goûter est prévue après la visite à
la cafétéria du musée.
Départ en autocar.
Rendez-vous à 13h00 au parking du métro 4 Cantons.
Retour : gare Lille Flandres (vers 17h45).
Route du genièvre (Lille et Wambrechies)
Balade en bateau sur la Deûle avec visite d’une distillerie et dégustation de genièvre (durée
estimée : 4h)
Rendez-vous à 14h15 à l’Ecluse de la Barre (Pont de la Citadelle).
Métro ligne 1, station République - Beaux-Arts puis 15 minutes de trajet à pied via le Boulevard
de la Liberté (ou en bus).
Retour : Ecluse de la Barre (vers 18h30).
Musée la Piscine (Roubaix)
Visite guidée du musée (durée estimée : 1h30). Une pause goûter est prévue après la visite au
café Meert situé à l’intérieur du musée.
Rendez-vous à 14h45 à l’accueil du musée La piscine (23 Rue de l’Espérance, 59100 Roubaix)
Métro ligne 2, Station Gare Jean Lebas puis 5 minutes de trajet à pied.
Rendez-vous à 14h40 à l’accueil du musée.
8
Informations pratiques
Locaux
Étages
Attention, il n’est pas possible de faire le tour des étages. Le haut des amphis est desservi
par le grand escalier, le bas par le petit escalier de derrière. Il n’est pas possible d’aller de l’un à
l’autre, sauf au niveau des deux rez-de-chaussée.
Amphithéâtres
•
•
•
•
Galois et Painlevé : 3ème étage (grand escalier) et 2ème étage (petit escalier)
Cauchy et Châtelet : 1er étage (grand escalier) et rez-de-chaussée haut (petit escalier)
Bernoulli : rez-de-chaussée haut
Archimède : rez-de-chaussée bas
Rez-de-chaussée haut
•
•
•
•
•
•
Salles ordinateurs et imprimantes : Clairin / Gauss
Incriptions et accueil : Cartan
Entreprises : Dirichlet
Vestiaire : Cartan
Pauses café : Hall et 1er étage
AG de la SFB : Levy
Rez-de-chaussée bas
• Salles disponibles pour travailler : Weierstrass, Riemann, Newton (wifi), Lie (wifi), Lebesgue,
Hilbert, Euler, Pascal, Fatou, Hermite, Hadamard, Desmartres
• CA SFdS, commission publication et réunion JES 2016 : de La Vallée Poussin
Accès au bâtiment M1
9
Plans
Campus
10
Plans
Accès au Grand Stade (stade Pierre Mauroy)
Accueil soirée
de gala
11
Plans du bâtiment M1
Rez-de-chaussée bas
De la Vallée
Poussin
Rez-de-chaussée haut
CARTAN
Dirichlet
Gauss
Clairin
Levy
12
Plans du bâtiment M1
1er étage
2ème étage
3ème étage
13
15
19h00
17h15-18h35
16h55-17h15
15h35-16h55
14h30-15h30
12h50-14h30
11h10-12h50
10h00-11h00
9h30-10h00
8h45-9h30
Cauchy
Châtelet
Cauchy
Châtelet
Galois
Analyse
de sensibilité
Pause café
Galois
Copules
Déjeuner
Galois
Algorithmes
stochastiques
Painlevé
Classification
en grande dimension
Painlevé
Archimède
Séries
temporelles 1
Archimède
Session du groupe
Banque finance assurance
Cauchy
Fred Hickernell
Segmentation
Painlevé
Estimation
non paramétrique
Réception à l’hôtel de région
Statistique
mathématique 1
Cauchy
Châtelet
AMIES 1
Données
manquantes
Données en grande dimension
méthodes Lasso
Châtelet
Nicole El Karaoui
Analyse de survie
données censurées
Forêts Aléatoires
Châtelet
Conférence Le Cam : Sara van de Geer
Châtelet
Ouverture des Journées
Accueil des participants
Lundi 1er juin 2015
16
17h35-20h00
16h35-17h35
16h15-16h35
14h55-16h15
13h50-14h50
12h30-13h50
11h10-12h30
10h50-11h10
9h50-10h50
8h45-9h45
Plan
d’expériences 1
Cauchy
Châtelet
Cauchy
Châtelet
Enseignement
IUT STID
Séries
temporelles 2
Châtelet
Galois
AMIES 2
Pause café
Galois
Tests
statistiques 1
Déjeuner
Galois
Apprentissage
et classification 1
Painlevé
Régression
logistique
Painlevé
Extrêmes
Painlevé
Châtelet
Archimède
Régression
Archimède
Régression
en grande dimension
Cauchy
Qiwei Yao
Statistique bayésienne
non paramétrique
Assemblée générale de la SFdS
Nicolas Verzelen
Cauchy
Finance
Biostatistiques
Châtelet
Environnement 1
Pause café
Châtelet
Prix du Docteur Norbert Marx : Paul Blanche
Châtelet
David Bessis
Mardi 2 juin 2015
19h
12h30
10h50-12h30
10h35-10h50h
9h35-10h35
8h30-9h30
Cauchy
Châtelet
Cauchy
Châtelet
Galois
Modèles
de mélange
Painlevé
Étude de cas
ENBIS
Repas de Gala
Programme social et culturel
Déjeuner ou panier repas (selon programme social choisi)
Données
fonctionnelles
Enseignement
et big data
Pause café
Châtelet
Prix Marie-Jeanne Laurent-Duhamel : Mélanie Prague
Arthur Gretton
Peter Hoff
Mercredi 3 juin 2015
17
18
18h30-...
16h45-18h05
16h25-16h45
15h05-16h25
14h00-15h00
12h40-14h00
11h40-12h40
11h20-11h40
10h20-11h20
9h15-10h15
Cauchy
Châtelet
Galois
Fiabilité
et incertitudes
Pause café
Galois
Painlevé
Trucs et astuces
pour StatMath
Painlevé
Tests
statistiques 2
Rencontre Jeunes Statisticiens
Enseignement
de la statistique
Cauchy
Châtelet
Environnement 2
Statistique
spatiale 1
Analyse de données,
data mining
Statistique
mathématique 2
Archimède
Archimède
Statistique
bayésienne
Cauchy
Painlevé
Modèles mixtes
Châtelet
Déjeuner
Galois
Statistique
d’enquête
Valérie Monbet
Cauchy
Châtelet
Graphes
Gerhard Tutz
Plan
d’expériences 2
Statistique
pour le climat
Cauchy
Châtelet
Pause café
Fabrizio Ruggeri
François Beck
Châtelet
Andrea Montanari
Jeudi 4 juin 2015
13h30 - 15h30
12h15 -13h30
11h40-12h15
10h00-11h40
9h45-10h00
8h45-9h45
Cauchy
Châtelet
Painlevé
Estimation
de densité
Châtelet
Clôture des journées
Galois
Statistique
spatiale 2
Châtelet
YSP Online
Déjeuner ou panier repas
Apprentissage
et classification 2
Médecine,
Épidémiologie
Archimède
Speed meetings
statisticiennes et lycéennes
Cauchy
Châtelet
Pause café
Grégory Nuel
Sophie Lambert-Lacroix
Vendredi 5 juin 2015
19
Table des matières
Comités de programme et d’organisation
3
Conférenciers invités
5
Informations pratiques
7
Programme
15
Lundi 1er juin
10h00-11h00 - Conférence Le Cam (Sara Van de Geer) . . . . . . . . . . . . . .
Norm-regularized empirical risk minimization . . . . . . . . . . . . . . . . . . . . .
11h10-12h50 - Forêts aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sélection de variables groupées avec les forêts aléatoires. Application à l’analyse des
données fonctionnelles multivariées . . . . . . . . . . . . . . . . . . . . . . .
Feature extraction and selection of electrodermal reaction towards stress level recognition : two real-world driving experiences . . . . . . . . . . . . . . . . .
Consistance des forêts aléatoires médianes . . . . . . . . . . . . . . . . . . . . . . .
Random forests and big data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Prix ENSAI-SFdS : Prévision de la validation d’un brevet . . . . . . . . . . . . . .
11h10-12h50 - Analyse de survie, données censurées . . . . . . . . . . . . . . . .
Modèle à hasards non proportionnels et survie marginale . . . . . . . . . . . . . . .
Analyse de survie appliquée à la modélisation de la transmission des maladies infectieuses : mesurer l’impact des interventions . . . . . . . . . . . . . . . . .
Normalité asymptotique d’estimateurs à noyau de la densité et du taux de hasard
pour des données censurées . . . . . . . . . . . . . . . . . . . . . . . . . . .
Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lasso pour données censurées à gauche : une comparaison par simulation d’algorithmes proposés dans la littérature . . . . . . . . . . . . . . . . . . . . . .
11h10-12h50 - Algorithmes stochastiques . . . . . . . . . . . . . . . . . . . . . . .
Modeles mixtes et penalité fused lasso pour une comparaison de groupes . . . . . .
Modélisation conjointe de données longitudinales non-linéaires et de survie dans le
contexte du cancer de la prostate métastatique et hormono-résistant . . . .
Ré-échantillonnage dans un schéma séquentiel d’échantillonnage préférentiel . . . .
Evaluation de l’algorithme SAEM dans le cadre de données longitudinales et de
données d’événements répétés : application à la maladie de Gaucher . . . .
Widening and clustering techniques to apply monotone CFTP algorithm . . . . . .
11h10-12h50 - Estimation non-paramétrique . . . . . . . . . . . . . . . . . . . . .
Estimation non-paramétrique dans des modèles d’équations différentielles stochastiques à effets aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Estimation du noyau de division dans une population structrurée par taille . . . .
On the lower bounds for the rates of convergence in estimation at a point under
multi-index constraint . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
31
31
31
21
31
31
32
32
32
33
33
33
33
34
34
34
34
35
35
35
36
36
36
36
37
L-estimation des quantiles conditionnels . . . . . . . . . . . . . . . . . . . . . . . .
Kernel estimation of the intensity of Cox processes . . . . . . . . . . . . . . . . . .
11h10-12h50 - Séries temporelles 1 . . . . . . . . . . . . . . . . . . . . . . . . . . .
Test d’un modèle non-paramétrique pour des séries chronologiques lorsque les vecteurs aléatoires sont non stationnaires et absolument réguliers . . . . . . . .
On periodic threshold GARCH processes : probabilistic structure and empirical
evidence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
QML inference for volatility models with covariates . . . . . . . . . . . . . . . . . .
Estimation de la VaR conditionnelle d’un portefeuille de rendements GARCH multivariés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Two-stage least absolute power deviation estimation for a general class of conditionally heteroskedastic models . . . . . . . . . . . . . . . . . . . . . . . . . .
14h30-15h30 - Nicole El Karoui . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Détection robuste d’instants de rupture dans l’intensité d’un processus de Poisson
14h30-15h30 - Fred Hickernell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Guaranteed fixed-width confidence intervals for Monte Carlo and quasi-Monte Carlo
simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15h35-16h55 - Données en grandes dimensions, méthodes Lasso . . . . . . . .
Test de normalité en grande dimension par méthodes à noyaux . . . . . . . . . . .
De l’usage du saut de dualité pour la pré-sélection dynamique des variables pour le
Lasso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Puissance du test TLT construit depuis l’estimateur Lasso . . . . . . . . . . . . . .
Sélection de variables par le GLM-Lasso pour la prédiction du risque palustre . . .
15h35-16h55 - Session du groupe Banque Finance Assurance . . . . . . . . . .
Consistency of tree-based estimators in censored regression with applications in
insurance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Parameter estimation for mixed-type distributions with application to destruction
rate modeling in insurance . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distribution hybride pour la modélisation de données asymétriques à queue lourde :
application sur des données assurentielles . . . . . . . . . . . . . . . . . . .
Dépendance des personnes âgées : une approche multi-états basée sur la notion de
processus semi-markovien . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15h35-16h55 - Données manquantes . . . . . . . . . . . . . . . . . . . . . . . . . .
Imputation par régression dans le modèle linéaire fonctionnel avec valeurs manquantes dans la réponse . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Méthodes statistiques pour prendre en compte l’occurrence de données manquantes
aléatoires conjointement avec la méthode du temps jusqu’à détérioration
d’un score de qualité de vie : une étude de simulation . . . . . . . . . . . .
L’effet de visites manquantes sur l’estimateur des GEE, une étude par simulation .
Imputation multiple pour variables qualitatives par analyse des correspondances
multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15h35-16h55 - Copules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Prise en compte d’information pour l’estimation de quantiles agrégés . . . . . . . .
Estimating new multivariate risk measures . . . . . . . . . . . . . . . . . . . . . . .
Probit transformation for nonparametric kernel estimation of the copula density .
Application des copules à l’estimation de fronts de Pareto . . . . . . . . . . . . . .
15h35-16h55 - Segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Vraisemblance auto-pénalisante pour la sélection du nombre de ruptures dans la
segmentation bidimensionnelle utilisée pour l’analyse des données Hi-C . . .
Formation d’un phénomène temporel à l’aide d’un méta-modèle via la segmentation
Détection de motifs disruptifs au sein de plantes : une approche de quotientement/classification d’arborescences . . . . . . . . . . . . . . . . . . . . . . .
Heuristique de pente pour les modèles de détection de ruptures multiples . . . . .
17h15-18h35 - AMIES 1 - Panorama . . . . . . . . . . . . . . . . . . . . . . . . . .
22
37
37
37
38
38
38
38
39
39
39
39
39
40
40
40
40
40
41
41
41
41
42
42
42
42
43
43
44
44
44
44
45
45
45
45
46
46
46
Programme de la session spéciale AMIES 1 - Panorama . . . . . . . . . . . . . . .
17h15-18h35 - Statistique mathématique 1 . . . . . . . . . . . . . . . . . . . . . .
Intervalles de confiance valides en présence de sélection de modèle . . . . . . . . .
Z-estimateurs indexés par la fonction objective . . . . . . . . . . . . . . . . . . . .
Certainty bands for the conditional cumulative distribution function and applications
Consistance de la minimisation du risque empirique pour l’optimisation de l’erreur
relative moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17h15-18h35 - Analyse de sensibilité . . . . . . . . . . . . . . . . . . . . . . . . . .
Plans emboîtés pour l’estimation itérative des indices de Sobol’ par méthode répliquée
Discrete and continuous nonparametric kernel estimations for global sensitivity analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Analyse de sensibilité et application en finance . . . . . . . . . . . . . . . . . . . .
Redéfinition de la pod comme fonction de répartition aléatoire . . . . . . . . . . .
17h15-18h35 - Classification en grandes dimensions . . . . . . . . . . . . . . . .
Détection de profils conditionnels dans des matrices creuses pour la sélection génomique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Variable selection by decorrelated HCT for supervised classification in high dimension
Sélection de modèles pour la classification de données de régression en grande dimension : un résultat théorique . . . . . . . . . . . . . . . . . . . . . . . . .
Une pénalité de groupe pour des données multivoie de grande dimension . . . . . .
Mardi 2 juin
08h45-09h45 - David Bessis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Titre à venir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
09h50-10h50 - Prix Norbert Marx (Paul Blanche) . . . . . . . . . . . . . . . . .
Évaluation des capacités pronostiques de modèles joints pour données longitudinales
et de survie : inférence et application au pronostic de la démence . . . . . .
11h10-12h30 - Environnement 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mélange de prédicteurs pour la prévision séquentielle de la pollution par les PM10
en Haute-Normandie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Processus avec sauts sur arbres : détection de changements adaptatifs . . . . . . .
Équation différentielle stochastique basée sur un potentiel gaussien pour décrire le
déplacement en écologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sciences participatives et suivi de la biodiversité . . . . . . . . . . . . . . . . . . .
11h10-12h30 - Finance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Impact de la compétition bancaire sur la méthode de financement . . . . . . . . . .
A new approach in nonparametric estimation of returns in mean-downside risk
portfolio frontier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Test de changement de régimes dans des séries financières par un modèle conditionnellement hétéroscédastique à seuil endogène . . . . . . . . . . . . . . . . .
Transmission des chocs de rendement et de volatilité entre marchés boursiers :
application de modèles GARCH multivariés . . . . . . . . . . . . . . . . . .
11h10-12h30 - Apprentissage et classification 1 . . . . . . . . . . . . . . . . . . .
Classification ascendante hiérarchique à noyaux et pistes pour un meilleur passage
à l’échelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Classification de courbes individuelles et prévision désagrégée de la consommation
électrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Classification ascendante hiérarchique avec contraintes de proximité géographique .
Sélection de groupes de variables corrélées par classification ascendante hiérarchique
et group-Lasso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11h10-12h30 - Statistique bayésienne non-paramétrique . . . . . . . . . . . . . .
Quantification de l’incertitude d’une partition issue d’un processus de Dirichlet à
mélange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Estimation bayésienne non-paramétrique pour les processus de Hawkes . . . . . . .
23
46
46
46
47
47
47
47
48
48
48
49
49
49
49
50
50
51
51
51
51
51
51
51
51
52
52
52
53
53
53
54
54
54
54
54
55
55
55
55
Vitesse de convergence de l’a posteriori pour les modèles non-paramétriques de
Markov cachés à espace d’état fini . . . . . . . . . . . . . . . . . . . . . . .
Approche bayésienne non-paramétrique pour la factorisation de matrice binaire à
faible rang avec loi de puissance . . . . . . . . . . . . . . . . . . . . . . . .
11h10-12h30 - Régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Partial Least Squares : une nouvelle approche au travers de polynômes orthogonaux
Extension de la régression linéaire généralisée sur composantes supervisées à une
partition thématique des régresseurs . . . . . . . . . . . . . . . . . . . . . .
Sélection d’estimateurs ridge en régression gaussienne . . . . . . . . . . . . . . . .
Une formule exacte pour la validation croisée dans le cadre de la régression ’poolsample’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13h50-14h50 - Nicolas Verzelen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Détection de communautés dans des réseaux aléatoires . . . . . . . . . . . . . . . .
13h50-14h50 - Qiwei Yao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Segmenting multiple time series by contemporaneous linear transformation : PCA
for time series . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14h55-16h15 - Biostatistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Un modèle statistique pour la pharmacovigilance . . . . . . . . . . . . . . . . . . .
Modèle poisson-gamma pour le recrutement de patients lors d’essais cliniques. Etude
des limites de pertinence du modèle par simulations . . . . . . . . . . . . .
Unsupervised clustering under local constraints of dynamics using multiple equivalence tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Statistical estimation of genomic tumoral alterations . . . . . . . . . . . . . . . . .
14h55-16h15 - Series temporelles 2 . . . . . . . . . . . . . . . . . . . . . . . . . . .
Propriétés asymptotiques des estimateurs pour des modèles VARMA à coefficients
dépendant du temps, avec exemples . . . . . . . . . . . . . . . . . . . . . .
Un estimateur de qmv-poisson pour les séries temporelles multivariées à valeurs
entières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A unified approach to the estimation of periodically integrated autoregressive models
Inférence statistique des modèles autorégressifs à coefficients aléatoires périodiques
14h55-16h15 - Tests statistiques 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Test de comparaison de deux modèles de régression non-paramétriques basé sur les
coefficients de Fourier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tests d’uniformité sur la sphère unité de grande dimension . . . . . . . . . . . . .
Tests d’adéquation pour des données directionnelles bruitées . . . . . . . . . . . . .
Procédure diagnostique en arbre utilisant les tests lisses d’adéquation . . . . . . . .
14h55-16h15 - Extrêmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Modèles multivariés pour l’indépendance asymptotique des extrêmes . . . . . . . .
Conditional tail index estimation for random fields . . . . . . . . . . . . . . . . . .
Quantiles extrêmes conditionnels et application à la surveillance en temps réel d’un
système aquatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
On the effects of model misspecification in the study of non-stationary series of
maxima : a stochastic simulation perspective . . . . . . . . . . . . . . . . .
14h55-16h15 - Régression en grandes dimensions . . . . . . . . . . . . . . . . . .
Utilisation d’estimateurs en plusieurs étapes appliqués à des modèles additifs modélisant la prévision de consommation électrique . . . . . . . . . . . . . . .
Estimation conjointe de plusieurs modèles de régression avec des pénalités `1 . . .
Binarsity : prédiction en grande dimension via la sparsité induite par la binarisation
de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Une relaxation continue du rasoir d’Ockham pour la régression en grande dimension
16h35-17h35 - Enseignement, IUT STID . . . . . . . . . . . . . . . . . . . . . . .
Les plans d’expériences : apprentissage actif . . . . . . . . . . . . . . . . . . . . . .
Étude de cas en statistique et informatique décisionnelle : un exemple basé sur une
enquête en DUT STID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
56
56
56
56
57
57
57
57
58
58
58
58
58
59
59
59
60
60
60
60
61
61
61
61
61
62
62
62
63
63
63
63
64
64
64
64
65
65
65
Prix SFdS-STID : De l’automatisation d’un outil de pilotage à l’analyse de la productivité au sein d’un call center . . . . . . . . . . . . . . . . . . . . . . . .
16h35-17h35 - Plan d’expériences 1 . . . . . . . . . . . . . . . . . . . . . . . . . . .
Processus gaussiens déformés pour l’apprentissage de zones instationnaires . . . . .
The informational approach to global optimization in presence of very noisy evaluation results. Application to the optimization of renewable energy integration
strategies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Estimation des mesures de sensibilité globale basées sur les dérivées via un métamodèle par processus gaussien . . . . . . . . . . . . . . . . . . . . . . . . .
16h35-17h35 - AMIES 2 - Témoignages . . . . . . . . . . . . . . . . . . . . . . . .
CorReg : prétraitement en régression linéaire par modélisation explicite des corrélations. Application aux variables manquantes . . . . . . . . . . . . . . . . .
Modèle linéaire généralisé hiérarchique Gamma-Poisson à 3 facteurs aléatoires. Application au contrôle de qualité . . . . . . . . . . . . . . . . . . . . . . . . .
Intégration de données hétérogènes pour l’identification de signatures moléculaires :
une approche par score-local . . . . . . . . . . . . . . . . . . . . . . . . . .
16h35-17h35 - Régression logistique . . . . . . . . . . . . . . . . . . . . . . . . . .
Nouveaux modèles de choix qualitatifs prenant en compte des caractéristiques individuelles et des caractéristiques de choix . . . . . . . . . . . . . . . . . . .
Courbes de prédictivité appliquées au criblage virtuel . . . . . . . . . . . . . . . . .
Adaptive sparse PLS for logistic regression . . . . . . . . . . . . . . . . . . . . . . .
Mercredi 3 juin
08h30-09h30 - Peter Hoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bayes and empirical Bayes methods for tensor data . . . . . . . . . . . . . . . . . .
08h30-09h30 - Arthur Gretton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kernel nonparametric tests of homogeneity, independence and multi-variable interaction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
09h35-10h35 - Prix Marie-Jeanne Laurent-Duhamel (Mélanie Prague) . . . .
Utilisation des modèles dynamiques pour l’optimisation des traitements des patients
infectés par le VIH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10h50-11h50 - Études de cas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Penalized MDF for protein movement detection . . . . . . . . . . . . . . . . . . . .
Conservative estimates of excursion sets in reliability engineering . . . . . . . . . .
Etude de cas pour la modélisation de la consommation domestique d’eau chaude .
10h50-12h30 - Enseignement et Big Data . . . . . . . . . . . . . . . . . . . . . . .
Le mastère spécialisé big data de Télécom ParisTech . . . . . . . . . . . . . . . . .
Enseigner la statistique pour l’analyse de mégadonnées . . . . . . . . . . . . . . . .
Un DU d’analyste big data en formation continue courte au niveau L3 . . . . . . .
Systèmes de recommandations : algorithmes de bandits et évaluation expérimentale
Pourquoi et comment enseigner l’analyse de données massives (Big Data) . . . . .
10h50-12h30 - Données fonctionnelles . . . . . . . . . . . . . . . . . . . . . . . . .
Estimation robuste de courbes moyennes de consommations électriques par sondage
en population finie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sur le calcul d’une moyenne de surfaces fonctionnelles . . . . . . . . . . . . . . . .
Régression linéaire fonctionnelle bayésienne explicable . . . . . . . . . . . . . . . .
Modélisation non paramétrique de la régression pour variables explicatives fonctionnelles avec autocorrélation des erreurs . . . . . . . . . . . . . . . . . . .
Classification des hydrogrammes avec des outils de l’analyse de données fonctionnelles
10h50-12h30 - Modèles de mélange . . . . . . . . . . . . . . . . . . . . . . . . . . .
Nonparametric mixture models with conditionally independent multivariate component densities . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Classification de données binaires via l’introduction de mesures de similarités dans
les modèles de mélange . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
66
66
66
66
66
67
67
67
68
68
68
68
69
71
71
71
71
71
71
71
72
72
72
72
73
73
73
73
74
74
74
74
75
75
75
76
76
76
76
Transformation des données et comparaison de modèles pour la classification des
données RNA-seq . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Estimation de l’apparentement entre plusieurs individus à l’aide d’un algorithme EM
Choix de modèles quand la vraisemblance est incalculable . . . . . . . . . . . . . .
11h50-12h30 - The challenge of communicating about complicated statistical
models - Session sponsored by ENBIS . . . . . . . . . . . . . . . . . . . . . .
Skeletons, flying carpets and ridge gymnastic. Visualizing models with multiple X
and Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Jeudi 4 juin
09h15-10h15 - Andrea Montanari . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Computational barriers to statistical inference . . . . . . . . . . . . . . . . . . . . .
10h20-11h20 - François Beck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Entre invisible et indicible : comment aborder des sujets sensibles telles que les
usages de drogues ou la santé mentale dans les enquêtes en population générale ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10h20-11h20 - Fabrizio Ruggeri . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
On Bayesian estimation of thermal diffusivity in materials . . . . . . . . . . . . . .
11h40-12h40 - Statistique pour le climat . . . . . . . . . . . . . . . . . . . . . . .
Estimation of multivariate critical layers : applications to rainfall data . . . . . . .
A statistical analysis of trends for warm and cold spells by means of counts . . . .
Estimation par maximum de vraisemblance par paires de champs gaussiens multivariés spatio-temporels. Application à une fonction de covariance entièrement
non séparable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11h40-12h40 - Plan d’expériences 2 . . . . . . . . . . . . . . . . . . . . . . . . . . .
Plans en blocs ’pairwise’ partiellement équilibrés résolvables et plans numériques
’Space filling’ associés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Cages and mice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Méthodologie des surfaces de réponse pour données fonctionnelles . . . . . . . . . .
11h40-12h40 - Graphes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Inférence de structure de modèle graphique à l’aide d’arbres couvrants . . . . . . .
Détection de l’indépendance locale entre neurones . . . . . . . . . . . . . . . . . . .
Modelling time evolving interactions in networks through a non stationary extension
of stochastic block models . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11h40-12h40 - Statistique d’enquête . . . . . . . . . . . . . . . . . . . . . . . . . .
L’algorithme CURIOS pour l’optimisation du plan de sondage en fonction de la
non-réponse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Comment enquêter les familles sans domicile ? L’expérience de l’enquête ENFAMS
L’essaimage statistique, une généralisation du Bootstrap . . . . . . . . . . . . . . .
11h40-12h40 - Modèles mixtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Estimation de l’héritabilité dans les modèles linéaires mixtes parcimonieux . . . . .
Estimation dans les modèles mixtes fonctionnels en présence de déformations individuelles non-linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Estimation paramétrique pour des modèles mixtes complexes à l’aide de méta-modèles
14h00-15h00 - Gerhard Tutz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Regularized regression for discrete structure . . . . . . . . . . . . . . . . . . . . . .
14h00-15h00 - Valérie Monbet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Modèles auto-régressifs à chaîne de Markov cachée pour des séries temporelles multivariées de température de l’air . . . . . . . . . . . . . . . . . . . . . . . .
15h05-16h25 - Analyse de données, data mining . . . . . . . . . . . . . . . . . . .
Analyse discriminante par noyaux associés pour données mixtes . . . . . . . . . . .
Analyse discriminante matricielle descriptive. Application à l’étude de signaux EEG
Comparaison de méthodes multivariées pour la détection d’observations atypiques
Multiway regularized generalized Canonical Correlation Analysis . . . . . . . . . .
26
77
77
77
78
78
79
79
79
79
79
79
79
79
80
80
80
80
81
81
81
81
81
82
82
82
83
83
83
84
84
84
85
85
85
86
86
86
86
86
87
87
15h05-16h25 - Statistique spatiale 1 . . . . . . . . . . . . . . . . . . . . . . . . . .
Détection automatique de cibles sous-résolues . . . . . . . . . . . . . . . . . . . . .
Borne pour l’erreur de discrétisation du maximum d’un champ aléatoire . . . . . .
Spatial dependence in (origin-destination) air passenger flows . . . . . . . . . . . .
Un modèle de mélange pour la segmentation de données spatiales . . . . . . . . . .
15h05-16h25 - Statistique mathématique 2 . . . . . . . . . . . . . . . . . . . . . .
Problèmes d’adéquations entre distributions : une approche par un modèle de déformations et la distance de Wasserstein . . . . . . . . . . . . . . . . . . . .
Reconstruction simpliciale de variété via l’estimation d’espace tangent . . . . . . .
Éléments spectraux d’une fonction cyclostationnaire . . . . . . . . . . . . . . . . .
Méthodes statistiques d’identification et de quantification en métabolomique. Application aux spectres RMN . . . . . . . . . . . . . . . . . . . . . . . . . . .
15h05-16h25 - Tests statistiques 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tests d’indépendance entre deux processus ponctuels et application en neurosciences
Influence de la forme de la fenêtre de scan sur la distribution des statistiques de
scan bidimensionnelles discrètes . . . . . . . . . . . . . . . . . . . . . . . . .
Détection de motifs de dépendance avec délai . . . . . . . . . . . . . . . . . . . . .
Contrôle du taux de faux positifs dans le cas dépendant bilatéral . . . . . . . . . .
15h05-16h25 - Statistique bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . .
Identifier les segments génomiques expliquant les variations de fonctions de réponse :
intérêt des équations différentielles stochastiques dans un contexte bayésien
Étude des propriétés fréquentistes des estimateurs bayésiens de la différence de deux
proportions, du risque relatif et du rapport de cotes . . . . . . . . . . . . .
Autour des a prioris peu informatifs dans les modèles bayésiens de régression logistique
Bayesian Model Averaging à l’aide d’un échantillonnage préférentiel adaptatif et
multiple pour l’estimation du risque de leucémie infantile radio-induite . . .
16h45-18h05 - Environnement 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Une construction statistique échangeable pour le post-traitement des ensembles de
séries météorologiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Construction bayésienne de prévisions probabilistes à partir des sorties d’un modèle
déterministe pluie-débit . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Analyse du comportement multivarié de la réponse hydro-géomorphologique basée
sur les statistiques des rangs . . . . . . . . . . . . . . . . . . . . . . . . . .
Courbe régionale d’indice de crue basée sur la classification hydro-géomorphologique
16h45-18h05 - Enseignement de la statistique . . . . . . . . . . . . . . . . . . . .
La statistique vue par des étudiants en sciences de l’éducation : formation inititale
versus formation continue . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Évolution de la moyenne et de l’écart-type chez les étudiants en sciences humaines
et sociales : étude sur des échantillons appariés . . . . . . . . . . . . . . . .
« J’aime pas les stats ! » Mesure et analyse de l’attitude à l’égard des statistiques
dans une école de management . . . . . . . . . . . . . . . . . . . . . . . . .
Compétitions d’apprentissage automatique avec le package R rchallenge . . . . . .
16h45-18h05 - Fiabilité et incertitudes . . . . . . . . . . . . . . . . . . . . . . . . .
L’utilisation du modèle de Cox-PLS dans la prévision de défaillance des entreprises
Méthodes de détection d’une rupture dans des échantillons de petite taille suivant
des lois exponentielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Echantillonnage préférentiel et méta-modèles : méthodes bayésiennes optimale et
défensive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Le facteur de Bayes appliqué à la validation des codes de calcul . . . . . . . . . . .
16h45-18h25 - Trucs et astuces pour Stat Math : la symétrisation . . . . . . .
Symétrisation 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Symétrisation 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
On the restricted eigenvalues condition for Gaussian matrices . . . . . . . . . . . .
Un test adaptatif fondé sur la symétrisation . . . . . . . . . . . . . . . . . . . . . .
27
87
87
88
88
88
89
89
89
89
89
90
90
90
91
91
91
91
92
92
92
93
93
93
94
94
95
95
95
96
96
96
96
97
97
97
98
98
98
98
99
Symétrisation dans les problèmes à deux échantillons : le cas des processus de Poisson 99
18h30-... - Rencontre Jeunes Statisticiens . . . . . . . . . . . . . . . . . . . . . . . 99
Vendredi 5 juin
101
08h45-09h45 - Sophie Lambert-Lacroix . . . . . . . . . . . . . . . . . . . . . . . . 101
Modèles mixtes fonctionnels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
08h45-09h45 - Grégory Nuel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Prédiction individuelle du risque de cancer en fonction des antécédents familiaux . 101
10h00-11h40 - Médecine, épidémiologie . . . . . . . . . . . . . . . . . . . . . . . . 101
Using a structural Bayesian approach to account for measurement error : an application to radiation epidemiology . . . . . . . . . . . . . . . . . . . . . . . . 101
Application de la cartographie du risque aux données contagieuses . . . . . . . . . 101
Comparing t-year absolute risk prediction strategies : the multi-split testing approach102
Semi-parametric dose finding methods . . . . . . . . . . . . . . . . . . . . . . . . . 102
Prix ESSAI-SFdS : Implémentation d’une solution de mesure d’aide à la décision
de bioéquivalence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
10h00-11h40 - Apprentissage et classification 2 . . . . . . . . . . . . . . . . . . . 103
Sélection de variables en classification non-supervisée sans estimation de paramètres 103
Classification non-supervisée de trajectoires . . . . . . . . . . . . . . . . . . . . . . 103
Mélanges de lois de Student à échelles multiples pour la caractérisation de tumeurs
par IRM multiparamétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Méta-algorithme de classement. Application à la sécurité routière . . . . . . . . . . 104
Modélisation statistique de la toxicité de molécules et domaine de validité : application en chémoinformatique . . . . . . . . . . . . . . . . . . . . . . . . . . 104
10h00-11h40 - Statistique spatiale 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Spatial statistics in discrete-choice models . . . . . . . . . . . . . . . . . . . . . . . 105
Asymptotic spectral theory for nonlinear random fields . . . . . . . . . . . . . . . . 105
Estimation non-paramétrique de la fonction de régression par la méthode des k-plus
proches voisins pour données spatiales . . . . . . . . . . . . . . . . . . . . . 105
Critères de choix de modèle pour champs de Gibbs cachés . . . . . . . . . . . . . . 105
Prédire l’intensité locale d’un processus ponctuel partiellement observé . . . . . . . 106
10h00-11h40 - Estimation de densité . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Approche bayésienne dans l’estimation non-paramétrique de la densité des données
de dénombrement par noyau associé . . . . . . . . . . . . . . . . . . . . . . 106
Estimation rapide non-paramétrique de la densité de la distribution d’entropie maximale pour les statistiques d’ordre . . . . . . . . . . . . . . . . . . . . . . . . 106
Déconvolution adaptative de densité sur R+ . . . . . . . . . . . . . . . . . . . . . . 107
Comportement asymptotique de l’estimateur à noyau de la densité, avec données
discrétisées, pour des champs aléatoires dépendants et non-stationnaires . . 107
BlockShrink probability density estimator for dependent processes . . . . . . . . . 107
10h00-11h40 - Speed meetings - Statisticiennes et lycéennes . . . . . . . . . . . 107
13h30-15h30 - YSP Online . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Liste des participants
109
Index des auteurs
119
28
29
Lundi 1er juin 2015
10h00-11h00 - Conférence Le Cam (Sara Van de Geer)
Norm-regularized empirical risk minimization
Sara van de Geer (ETH Zürich)
The usefulness of `1 -norm regularization in high-dimensional problems is nowadays well recognized. A fundamental property of the `1 -norm that allows for adaptive estimation and oracle
results is its decomposability. The `1 -norm of a vector β ∈ Rp is
kβk1 =
p
X
|βj |.
j=1
With decomposability of k · k1 we mean that for any set S ⊂ {1, . . . , p},
kβk1 = kβS k1 + kβ−S k1 ,
where βS = {βj : j ∈ S} and β−S := {βj : j ∈
/ S}. In this talk, we review results for alternative
norms Ω on Rp . Fix some β ∈ Rp . We call Ω weakly decomposable at β if
Ω ≥ Ω+ + Ω − ,
where Ω+ and Ω− are semi-norms on Rp , and where Ω+ (β) = Ω(β) and Ω− (β) = 0. We will
show sharp oracle results - depending on the (approximate) weak decomposability of Ω at certain
“oracle" values β - for empirical risk minimizers with regularization penalty proportional to Ω. We
also present an approach based on the so-called triangle property. We say that Ω has the triangle
property at β if there exists semi-norms Ω+ and Ω− such that for all β 0
max z T (β 0 − β) ≥ Ω− (β 0 ) − Ω+ (β 0 − β).
z∈∂Ω(β)
Here, ∂Ω(β) is the sub-differential of Ω at β. Several examples with various loss functions (least
squares, minus log-likelihood) and penalties (wedge penalty, nuclear norm penalty) will illustrate
the theory.
11h10-12h50 - Forêts aléatoires
Sélection de variables groupées avec les forêts aléatoires. Application à
l’analyse des données fonctionnelles multivariées
Baptiste Gregorutti (Safety Line), Bertrand Michel (UPMC), Philippe Saint Pierre (UPMC)
Dans cet article, nous étudions la sélection de groupes de variables avec les forêts aléatoires.
Dans un premier temps, nous introduisons une nouvelle mesure d’importance pour des groupes de
variables. Nous étudions théoriquement cette mesure pour un modèle de régression additive. Nous
montrons en particulier qu’en toute généralité, l’importance d’un groupe ne peut s’écrire comme
la somme des importances individuelles des variables le composant. Dans une seconde partie, nous
présentons une approche originale de sélection de variables en analyse de données fonctionnelles.
En particulier, lorsque l’on observe un grand nombre de covariables à valeurs dans un espace de
fonctions, chacune de ces variables peut être vue comme le groupe formé par ses coefficients de
base (ondelettes, ACP fonctionnelle, etc.). Nous proposons donc d’utiliser l’importance groupée
et un algorithme pas-à-pas pour sélectionner les covariables fonctionnelles. Cette méthode est
appliquée au problème de l’analyse des données des enregistreurs de vol pour la prédiction des
risques opérationnels en aéronautique.
31
Lundi 1er juin 2015
Feature extraction and selection of electrodermal reaction towards stress
level recognition : two real-world driving experiences
Neska El Haouij (U2S-ENIT, CEA-LinkLab), Raja Ghozi (U2S-ENIT), Jean-Michel Poggi
(Univ. Paris Descartes et Univ. Paris Sud), Sylvie Sevestre Ghalila (CEA-LinkLab), Mériem Jaidane (U2S(ENIT), CEA LinkLab)
This study is based on the electrodermal activity (EDA) which is a reliable physiological
indicator of human arousal. Signals resulting from two different driving experiences, are used to
classify the stress level assuming that city driving produces higher stress level compared to highway
driving. For each EDA dataset, six features are extracted from each 1-min segment : the mean, the
standard deviation and four electrodermal response characteristics defining the “startle” level. In
our work, we were able to identify these features by order of relevance using random forest and to
confirm this order using a cross validation on a recognition algorithm. Startle features were found
to be the most relevant for the first database while the mean was selected as the best feature to
recognize stress level for the second database.
Consistance des forêts aléatoires médianes
Erwan Scornet (UPMC - Institut Curie)
Les forêts aléatoires, proposées par L. Breiman (2001), comptent parmi les méthodes les plus
utilisées dans les problèmes d’estimation de la régression en grande dimension, particulièrement
dans des domaines comme la génomique. Bien que les forêts aléatoires montrent de très bonnes
performances en pratique, la compréhension théorique des phénomènes mis en oeuvre dans ces
algorithmes demeure incomplète. Dans cet exposé, nous montrerons que la forêt médiane est
consistante alors même que les arbres qui la compose sont inconsistants. Ce résultat illustre les
avantages d’une forêt par rapport à un unique arbre de décision.
Random forests and big data
Robin Genuer (ISPED Univ. Bordeaux, Inria SISTM), Jean-Michel Poggi (Univ. Paris Descartes et Univ. Paris Sud), Christine Tuleau-Malot (Lab. Jean-Alexandre Dieudonnée, Univ. Nice
- Sophia Antipolis), Nathalie Villa-Vialaneix (INRA, UR 875 MIAT, Toulouse)
Le Big Data est un des grands défis que doit relever la statistique et a de nombreuses conséquences sur les plans théorique et algorithmique. Le Big Data implique toujours le caractère massif
des données mais comprend bien souvent aussi des données en flux (en ligne) et implique le traitement de données hétérogènes. Récemment, certaines méthodes statistiques ont été adaptées pour
traiter le Big Data, par exemple les modèles de régression linéaire, les méthodes de classification et
les schémas d’échantillonnage. Basées sur des arbres de décision et exploitant les idées d’agrégation
et de bootstrap, les forêts aléatoires introduites par Breiman en 2001, sont une méthode statistique
non paramétrique puissante et versatile permettant de prendre en compte dans un cadre unique
tant les problèmes de régression que les problèmes de classification binaire ou multi-classes. Ce
papier examine les propositions disponibles de forêts aléatoires en environnement parallèle ainsi
que sur les forêts aléatoires en ligne. Ensuite, nous formulons diverses remarques avant d’esquisser
quelques directions alternatives pour les forêts aléatoires dans le contexte du Big Data.
Prix ENSAI-SFdS : Prévision de la validation d’un brevet
Sandra Fourcade (Ensai), Ketsia Guichard (Ensai), Marion Vichery (Ensai/Ensae)
Notre objectif est de prévoir la validation en France de brevets délivrés par l’Office Européen
des Brevets (OEB). Cette étude, proposée par la Caisse des Dépôts et Consignation Propriété
Intellectuelle et Bluestone, s’inscrit dans le cadre plus général de la notation des brevets, dont
la validation nationale (en France et dans d’autres états membres de l’OEB) est une composante
importante. Nous disposons de données décrivant l’ensemble des brevets du champ technologique
’IT methods for management’ délivrés par l’OEB avec une date de dépôt postérieure à 1988.
32
Lundi 1er juin 2015
Une analyse descriptive préalable ne permet de révéler que peu de variables discriminantes de la
validation en France des brevets, mais elle révèle toutefois de nombreuses corrélations entre les
variables potentiellement explicatives - corrélations prises en compte par la suite. Les modèles de
régressions logistiques ensuite mis en œuvre avec différents schémas d’échantillonnage montrent
un pouvoir prédictif très relatif ; en revanche, la modélisation par forêt aléatoire révèle finalement
une meilleure capacité prédictive. Nos modélisations permettent également de mettre en lumière
un certain nombre de caractéristiques des brevets apparemment liées à leur validation en France,
parmi lesquelles : le nombre de déposants de la demande de brevet, le nombre de revendications
du brevet ou encore le pays prioritaire.
11h10-12h50 - Analyse de survie, données censurées
Modèle à hasards non proportionnels et survie marginale
Roxane Duroux (LSTA, UPMC, Paris), Cécile Chauvel (Laboratoire Jean Kuntzmann, Université Joseph Fourier, Grenoble), John O’Quigley (LSTA, UPMC)
Nous nous plaçons dans le cadre de l’analyse de survie, c’est-à-dire de l’analyse de données
censurées. On notera T la variable aléatoire modélisant le temps de décès et Z un vecteur de
covariables. Nous souhaitons modéliser la loi de T sachant Z en prenant en compte dans l’analyse la
fonction de survie marginale de T . Nous proposerons dans ce cadre un nouvel estimateur convergent
de E[β(T )].
Analyse de survie appliquée à la modélisation de la transmission des
maladies infectieuses : mesurer l’impact des interventions
Génia Babykina (Université Lille 2, CERIM), Simon Cauchemez (Institut Pasteur, Paris)
Dans l’article, la modélisation de la transmission des maladies infectieuses au sein de ménages
est approchée par l’analyse de données de survie. Des approches similaires ont été précédemment
utilisées pour estimer les paramètres décrivant la transmission de la grippe dans les ménages.
Nous explorons ici la performance de ces méthodes pour évaluer l’impact d’interventions (usage
de masques ou traitements antiviraux) visant à réduire la transmission dans le ménage. Le taux
d’infection journalier pour un individu est défini comme la somme du risque que cet individu soit
infecté par tous les membres déjà malades du ménage et du risque d’infection communautaire qui
peut dépendre des caractéristiques propres de la communauté et du jour. Le risque de transmission de la maladie au sein du ménage dépend des caractéristiques de l’individu susceptible d’être
atteint et de l’infectivité de l’individu contagieux, cette dernière étant une fonction du temps.
L’impact d’interventions est pris en compte dans la fonction d’infectivité dont l’évolution au cours
du temps dépendra de l’intervention. L’inférence se fait dans un cadre Bayésien, où une stratégie
d’augmentation de données est mise en place pour gérer les problèmes de données manquantes, les
instants d’infection n’étant pas observés. L’algorithme MCMC est utilisé pour explorer la distribution jointe a posteriori des paramètres et des données augmentées. L’étude de Monte Carlo montre
la convergence et l’absence de biais dans les estimations. Cette analyse de simulation démontre
que ces méthodes peuvent être utilisées pour évaluer l’impact d’interventions visant à réduire la
transmission dans les ménages.
Normalité asymptotique d’estimateurs à noyau de la densité et du taux
de hasard pour des données censurées
Fatiha Messaci (Université des frères Mentouri), Mohamed Boukeloua (Université des frères
Mentouri)
Dans ce travail, nous considérons l’estimation non paramétrique de la densité de probabilité et
du taux de hasard d’une variable aléatoire d’intérêt X pouvant être censurée. D’abord, nous considérons un cadre général de censure dans lequel, au lieu d’observer X, nous observons une variable
33
Lundi 1er juin 2015
Z et un indicateur de censure qui détermine si l’observation est complète ou non. En utilisant une
idée classique de l’estimation à noyau, nous introduisons un estimateur de la densité de X et nous
établissons sa normalité asymptotique. Ensuite, nous appliquons notre résultat en vu de déduire la
normalité asymptotique des estimateurs de la densité et du taux de hasard dans les cas de la censure à droite, la censure double et la censure mixte. Dans le premier cas, l’observation Z=min(X,R)
où R est une variable de censure à droite. Pour les deux autres cas, Z=max((min(X,R),L), où L
est une variable de censure à gauche et la variable X est indépendante du couple (L,R). Ce qui
différencie les deux derniers modèles est que dans le premier L est inférieure à R (p.s), alors que
dans le cas de la censure mixte les variables X,R et L sont indépendantes. Signalons le fait que les
résultats de normalité asymptotique dans les deux premiers cas existaient déjà dans la littérature
statistique sous des conditions qui semblent plus contraignantes et sont, à notre connaissance, nouveaux dans le dernier cas. Finalement, nous illustrons la normalité asymptotique des estimateurs
précédents par une étude de simulation, complétée par des tests graphiques et numériques.
Modèle de troncature gauche : Comparaison par simulation sur données
indépendantes et dépendantes
Zohra Guessoum (Laboratoire MSTD. Faculté de m), Farida Hamrani (Laboratoire MSTD.
Faculté de m)
Our interest in this work of simulation is to compare the performance of the kernel estimator of
the regression function in the random left truncated (RLT) model, when the data are independent,
α-mixing and associated. We recall some results for the first and second case and we give our result
in the associated case
Lasso pour données censurées à gauche : une comparaison par simulation
d’algorithmes proposés dans la littérature
Perrine Soret (SISTM Inria), Marta Avalos (INSERM U897, SISTM Team Inria), Linda
Wittkop (INSERM U897), Rodoplhe Thiebaut (INSERM U897, SISTM Team Inria), Daniel Commenges (INSERM U897, SISTM Team Inria)
Dans le cas de la recherche contre le VIH, lorsque la sensibilité d’une technique de dosage utilisée
pour quantifier la charge virale, est faible, certaines valeurs sont censurées à gauche. Il existe un
seuil de quantification analytique, en dessous duquel la valeur exacte de la mesure n’est pas connue,
les concentrations sont dites indétectables. Cependant, même incomplètes, ces données apportent
de l’information et méritent d’être conservées dans l’analyse. Nous proposons une comparaison
par simulation de différents algorithmes proposés dans la littérature qui prennent en compte la
censure dans une étude de grande dimension et dont les implémentations sont disponibles. Les
méthodes ont été adaptées à l’hypothèse de données censurées gaussiennes.
11h10-12h50 - Algorithmes stochastiques
Modeles mixtes et penalité fused lasso pour une comparaison de groupes
Edouard Ollier (Université Lyon 1), Adeline Leclercq-Samson (Université Joseph Fourier, Grenoble), Xavier Delavenne (Groupe de Recherche sur la Thrombose, EA3065, Université de SaintEtienne, Jean Monnet, F-42023, S), Vivian Viallon (Univ Lyon 1 - UMRESTTE - IFSTTAR)
Nous considerons des donnees longitudinales possedant une structure de groupes. Par exemple,
en recherche clinique, les groupes peuvent correspondre à differentes modalites de traitement.
Ces donnees peuvent etre analysees par groupe, un modele non lineaire mixte etant alors estime
dans chacun de ces groupes. La comparaison entre les groupes est ensuite realisee en identifiant
les parametres dont l’estimation varie significativement a travers les groupes. Dans ce travail,
nous nous interessons a l’estimation jointe de modeles non-lineaires mixtes par une methode de
vraisemblance penalisee de type fused lasso. Cette approche permet d’identifier automatiquement
34
Lundi 1er juin 2015
les parametres qui ne varient pas entre certains groupes. La vraisemblance d’un modele non lineaire
mixte etant non explicite, on utilise une version stochastique de l’algorithme EM. L’approche
est illustree par simulation, et utilisee pour les donnees d’un essai clinique etudiant l’interaction
medicamenteuse entre un anticoagulant et un antibiotique.
Modélisation conjointe de données longitudinales non-linéaires et de survie dans le contexte du cancer de la prostate métastatique et hormonorésistant
Solène Desmée (INSERM, IAME, UMR 1137 ; Univ Paris Diderot), Jérémie Guedj (INSERM,
IAME, UMR 1137 ; Univ Paris Diderot), Christine Veyrat-Follet (Sanofi), France Mentré (INSERM, IAME, UMR 1137 ; Univ Paris Diderot, Sorbonne Paris Cité)
Dans les essais cliniques sur le cancer de la prostate métastatique hormono-résistant, l’évaluation du traitement repose principalement sur le délai de survie et la cinétique de l’antigène
spécifique de la prostate (PSA). La modélisation conjointe est de plus en plus utilisée pour caractériser la relation entre un délai de survie et la cinétique d’un biomarqueur, mais des difficultés
numériques limitent souvent cette approche à des modèles linéaires. Ici nous avons évalué par
simulation la capacité de l’algorithme Stochastic Approximation Expectation-Maximization implémenté dans Monolix à estimer les paramètres d’un modèle conjoint où la cinétique du PSA
était définie par un modèle non linéaires à effets mixtes. Nous avons considéré plusieurs scénarios
avec des paramètres de lien entre PSA et survie croissants et les résultats ont été comparés à ceux
obtenus avec un modèle en deux étapes. Le modèle conjoint estime précisément les paramètres
longitudinaux et de survie, contrairement au modèle en deux étapes. Ensuite, nous avons développé un modèle conjoint pour caractériser le lien entre la cinétique du PSA et la survie dans une
étude clinique en construisant un modèle de la cinétique du PSA physiologique et complexe. Notre
attention s’est particulièrement portée sur le choix de la forme de la fonction de risque instantané. Cette étude encourage l’utilisation plus systématique de modèles conjoints afin de décrire la
relation entre un processus longitudinal non-linéaire et un risque d’évènement.
Ré-échantillonnage dans un schéma séquentiel d’échantillonnage préférentiel
Coralie Merle (Université de Montpellier)
Nous nous intéressons au calcul de la vraisemblance d’un modèle à processus latent pour une
valeur (φ) fixée du paramètre d’intérêt. Nous appliquons une méthode d’échantillonnage préférentiel sur les trajectoires d’un processus Markovien de saut inhomogène en temps jusqu’à un
temps d’arrêt τ . Pour améliorer cet échantillonnage de l’espace des trajectoires, avant d’atteindre
le temps d’arrêt, nous proposons de ré-échantillonner les débuts des trajectoires en fonction des
poids et de l’état courant. Nous expliquerons quand et comment ré-échantillonner. Les méthodes
d’échantillonnage préférentiel sont particulièrement utilisées en génétique des populations. En effet, la distribution du polymorphisme génétique d’un échantillon actuel dépend de l’évolution de la
taille de la population au travers de processus stochastiques latents : son histoire passée. Mais ces
méthodes sans ré-échantillonnage ne sont pas toujours efficaces, en particulier pour des modèles
de populations dont la taille varie au cours du temps. Nous mettrons en évidence le gain obtenu
grâce au ré-échantillonnage sur le cas d’une contraction de la taille de la population.
Evaluation de l’algorithme SAEM dans le cadre de données longitudinales
et de données d’événements répétés : application à la maladie de Gaucher
Marie Vigan (INSERM, IAME, UMR 1137 ; Univ Paris Diderot, Sorbonne Paris Cite. MODAL’X, Univ Paris Ouest Nanterre), Jérôme Stirnemann (Division of General Internal Medicine,
Geneva Univ Hospital), France Mentré (INSERM, IAME, UMR 1137 ; Univ Paris Diderot, Sorbonne Paris Cité)
35
Lundi 1er juin 2015
La modélisation conjointe est utilisé pour décrire la relation entre l’évolution des biomarqueurs
et des événements, répétés ou non. L’algorithme SAEM implémenté dans Monolix a été étendu
et évalué pour les modèles conjoints. Dans ce travail, nous cherchons à évaluer, par simulation,
la précision d’estimation des paramètres et les propriétés du test du rapport de vraisemblance
pour détecter l’impact de l’évolution des biomarqueurs sur la survenue d’événements. Ensuite,
les données du registre national français de la maladie de Gaucher ont été analysés à l’aide d’un
modèle conjoint. Nous avons testé le lien entre les données longitudinales de chitotriosidase et la
survenue d’événements osseux répétés. L’évolution des biomarqueurs est définie par un modèle non
linéaire à effets mixtes de décroissance exponentielle et les données d’événement par un modèle de
fragilité avec un risque de base exponentielle. Différents scénario sont étudiés : i) absence, faible
ou forte association entre l’évolution des biomarqueurs et les événements, ii) probabilité différente
d’événements et iii) absence ou présence de censure. Pour chaque scénario, nous simulons 500 jeux
de données avec 200 patients. Les estimations ont été effectuées en utilisant l’algorithme SAEM
de Monolix 4.3.0, avec 3 chaînes de Markov, et la vraisemblance a été évaluée par échantillonnage
préférentiel avec 20000 chaînes. Pour tous les scénarios, les résultats nous donnent de bonnes
estimations des paramètres avec peu de biais. Le risque de première espèce et la puissance à
détecter un lien ont été évalué pour difféerents scénario.
Widening and clustering techniques to apply monotone CFTP algorithm
Mohamed Yasser Bounnite (Université Cadi Ayyad), Abdelaziz Narroallah (Department of Mathematics, Cadi Ayyad University, Faculty of Sciences Semlalia)
Le célèbre protocole du à Propp et Wilson (1996,1998) nommé couplage depuis le passé ’Coupling From The Past (CFTP’), assure la simulation exacte de la distribution stationnaire d’une
chaîne de Markov. Dans le cas où le cardinal de l’espace d’état est très grand, l’algorithme CFTP
dans sa forme standard déploit un nombre important d’opérations ; réclamant ainsi, trop de place
mémoire. Afin de remédier à cette complexité, nous proposons une approche d’élargissement de
l’espace d’état, rendant la chaîne de Markov stochastiquement monotone et apériodique. En conséquent, le coût de la simulation est réduit en utilisant l’algorithme CFTP monotone. Un algorithme
est également proposé dit ’CFTP par Grappe’ dédié a une structure donnée de l’espace d’état,
permet de réduire le coût de la simulation.
11h10-12h50 - Estimation non-paramétrique
Estimation non-paramétrique dans des modèles d’équations différentielles
stochastiques à effets aléatoires
Charlotte Dion (LJK & MAP5), Valentine Genon-Catalot (MAP5)
Nous étudions des modèles d’équations différentielles stochastiques à effets aléatoires dans
le coefficient de dérive. En observant de manière continue N trajectoires d’un processus donné,
nous proposons une procédure pour estimer la densité commune des effets aléatoires, supposés
indépendants et identiquement distribués. Les différences entre les observations sont alors dues
au mouvement Brownien et à la réalisation des effets aléatoires, c’est pourquoi ces derniers font
l’objet d’une étude approfondie. Dans un premier nous nous intéressons au modèle d’OrnsteinUhlenbeck à un effet aléatoire puis nous étudions un modèle de diffusion général à deux effets
aléatoires linéaires dans la dérive. Nous proposons dans les deux cas une procédure d’estimation
des effets aléatoires et de leur densité : univariée ou bivariée.
Estimation du noyau de division dans une population structrurée par
taille
Van Ha Hoang (Université de Lille 1)
36
Lundi 1er juin 2015
Dans ce travail, nous considérons une population de cellules structurée par la taille. La taille
des cellules croît de façon déterministe et les cellules se divisent à des temps exponentielles. La
population est décrite par une mesure empirique et nous observons les divisions sur l’intervalle de
temps continu [0, T ]. Nous nous intéressons ici au problème d’estimation du noyau de division h(·)
(ou noyau de fragmentation) dans le cas de données complètes. Nous construisons un estimateur
adaptatif à noyau K fondé sur un choix de fenêtre inspiré par la méthode de Goldenschluger et
Lepski. Nous obtenons une inégalité oracle et une vitesse de convergence exponentielle.
On the lower bounds for the rates of convergence in estimation at a point
under multi-index constraint
Nora Serdyukova (Université de Concepción)
Dans le cadre de l’estimation non paramétrique d’une fonction multidimensionnelle on cherche
à obtenir la borne inférieure minimax. On suppose que la fonction à estimer possède la structure ’
multi-index ’, dans lequel ni fonction de lien et ni vecteurs d’indice ne sont connus. Par exemple,
en régression, ce hypothèse signifie que l’espérance de la variable réponse est défini par celle
sachant uniquement une projection du vecteur de covariables sur un sous-espace de dimension
plus petite. Par conséquent, cette manière de réduire la dimension est un compromis convenable
entre les approches paramétrique et purement non paramétrique. D’après les résultats obtenus pour
les pertes ponctuelle, sous l’hypothèse structurelle, on a un nouveau type de bornes inférieures
minimax.
L-estimation des quantiles conditionnels
Ines Jlassi (Université de Monastir), Ali Gannoun (Université Montpellier 2), Salah Khardani
(Ecole Nationale d’Ingénieurs de Monastir)
Un intéressant problème dans l’étude de l’interdépendance entre deux variables aléatoires X
et Y est l’estimation des quantiles conditionnels. Nous étudions ici une méthode d’estimation
non paramétrique des quantiles conditionnels : une méthode d’estimation à noyau basée sur les
statistiques d’ordre. Nous présentons également quelques résultats de convergence de l’estimateur
ainsi qu’une comparaison des performances avec autres estimateurs. L’exposé sera illustré par des
simulations et une application sur des données biomédicales (Courbes de références).
Kernel estimation of the intensity of Cox processes
Gaspar Massiot (IRMAR), Nicolas Klutchnikoff (IRMA)
Un processus de Cox d’intensité aléatoire λ = (λ(t))t∈[0,1] est un processus de comptage N =
(Nt )t∈[0,1] tel que la loi conditionnelle de N sachant λ est un processus de Poisson d’intensité λ. Par
abus, nous appellerons processus de Cox un processus de comptage N = (Nt )t∈[0,1] accompagné
d’un co-processus Z == (Zt )t∈[0,1] tel que, conditionnellement à Z, la loi de N est un processus
de Poisson d’intensité θ(Z) avec θ une fonction déterministe. Idéalement, on voudrait estimer la
fonction θ à partir d’un n-échantillon (N 1 , Z 1 ), . . . , (N n , Z n ) de copies de (N, Z). Cependant, un
telle approche se heurte inévitablement au fléau de la dimension, car la convariable est à valeurs
dans un espace de dimension infinie. En pratique, il n’est souvent pas nécessaire, ou tout du
moins ce n’est pas strictement nécessaire pour la modélisation, d’observer toute la trajectoire du
co-processus, mais seulement ses valeurs en des instants aléatoires. De la sorte, si le co-processus
n’est observé qu’en un nombre fini d’instants aléatoires, on circonvient au fléau de la dimension.
Nous construisons et étudions sous ce modèle les propriétés d’un estimateur de type noyau pour
la fonction θ. Sa consistance, un théorème de la limite centrale ainsi qu’une vitesse de convergence
pour l’erreur quadratique moyenne sont données.
37
Lundi 1er juin 2015
11h10-12h50 - Séries temporelles 1
Test d’un modèle non-paramétrique pour des séries chronologiques lorsque
les vecteurs aléatoires sont non stationnaires et absolument réguliers
Echarif El Harfaoui (Université Chouaib Doukkali (Faculté des Sciences)), Michel Harel (Université de Limoges (ESPE))
Dans cette note, nous étudions quelques méthodes générales pour tester un modèle paramétrique associé à une série chronologique markovienne à valeurs réelles lorsque les vecteurs aléatoires
sont non stationnaires et absolument réguliers. Notre idée est d’utiliser un processus empirique
marqué basé sur les résidus qui converge en loi vers un processus gaussien.
On periodic threshold GARCH processes : probabilistic structure and
empirical evidence
Abdelouahab Bibi (UMC(1))
In this paper, we propose a natural extension of threshold GARCH (TGARCH) processes to
periodically time-varying coefficients (PTGARCH) one, so some theoretical probabilistic properties of PTGARCH are discussed. This models, can be viewed as a special of random coefficient
GARCH models. For this class of processes, firstly, we establish theoretical conditions, which ensure that the process in the threshold model is strictly and second-order stationary (in periodic
sense). Secondary, we derive conditions ensuring the existence of moments of any order. As a consequence, we observe that some subclass have the β-structures of threshold periodic ARMA processes
(PTARMA) and hence admit PARMA representation. The concept of geometric ergodicity and
β-mixing of PTGARCH processes are also discusses under general and tractable assumptions.
These results are applicable to standard GARCH models and have statistical implications such
that parameter estimation and order identification. Some examples as special cases are proposed
and studied.
QML inference for volatility models with covariates
Christian Francq (Université Lille 3 et CREST), Le Quyen Thieu (LSTA, UPMC, Paris)
La loi asymptotique de l’estimateur du quasi-maximum de vraisemblance gaussien est établie
pour la vaste classe des modèles GARCH asymétriques avec covariables exogènes. La vraie valeur
du paramètre n’est pas contrainte à se situer à l’intérieur de l’espace des paramètres, ce qui nous
permet de développer des tests de significativité des paramètres. En particulier, la pertinence
des variables exogènes peut être évaluée. Les résultats sont obtenus sans faire l’hypothèse que
les innovations sont indépendantes, ce qui permet de prendre en compte différents ensembles
d’information. Des expériences de Monte Carlo et des applications sur séries financières illustrent
les résultats asymptotiques. En particulier, une étude empirique montre que la volatilité réalisée
est une covariable utile pour prévoir les carrés des rendements, mais ne constitue pas un proxy
idéal de la volatilité.
Estimation de la VaR conditionnelle d’un portefeuille de rendements
GARCH multivariés
Christian Francq (Crest), Jean-Michel Zakoian (Crest)
Nous considérons l’estimation de la valeur à risque (VaR) conditionnelle d’un portefeuille d’actifs. La composition du portefeuille peut varier au cours du temps et le vecteur des rendements
est supposé satisfaire un modèle de la forme t = µt (ϕ0 ) + Σt (ϑ0 )βt , où µt (ϕ0 ) et Σt (ϑ0 ) sont
respectivement la moyenne et la variance conditionnelle de t . Sous l’hypothèse que la loi de l’innovation βt est sphérique, la VaR conditionnelle est caractérisée par un paramètre. Nous donnons
un estimateur de ce paramètre de VaR et nous étudions sa distribution asymptotique. Une autre
approche multivariée, qui n’est pas fondée sur l’hypothèse de sphéricité, est développée et ses
38
Lundi 1er juin 2015
propriétés asymptotiques sont établies. Des expériences de Monte Carlo et une étude empirique
illustrent la supériorité de ces deux approches multivariées sur l’approche univariée fondée sur la
série du rendement du portefeuille agrégé.
Two-stage least absolute power deviation estimation for a general class
of conditionally heteroskedastic models
Abdelhakim Aknouche (U.S.T.H.B)
Dans ce travail, nous proposons une méthode, dite des moindres déviations fonctionnelles
absolues en puissances en deux étapes (2S-LAPD), pour l’estimation d’une classe générale de
modèles conditionnellement hétéroscédastiques, comprenant notamment le modèle GARCH, le
modèle GARCH asymétrique en puissance et le modèle ARCH infini. L’estimateur proposé est indexé par une fonction instrumentale dont le choix permet de contrôler et alléger les hypothèses sur
les moments du processus d’innovation, hypothèses sur la base desquelles nous montrons consistance et normalité asymptotique (CAN) de l’estimateur 2S-LAPD. Dans le cas d’une puissance
du carré, l’estimateur 2S-LAPD possède la même variance asymptotique que le quasi-maximum
de vraisemblance généralisé et ce pour certaines classes de fonctions instrumentales et même pour
des innovations à queues lourdes et/ou asymétriques. De plus, pour une puissance unité, l’estimateur 2S-LAPD se réduit à des variantes en deux-étapes de l’estimateur des moindres déviations
absolues (2S-LAD).
14h30-15h30 - Nicole El Karoui
Détection robuste d’instants de rupture dans l’intensité d’un processus
de Poisson
Nicole El Karoui (UPMC)
Nous considérons le problème de détection optimale d’un instant de changement non-observable
dans le taux d’un processus de Poisson non homogène, dans un cadre non bayésien. Nous cherchons
une règle d’arrêt qui minimise le critère robuste de Lorden. Ce dernier est formulé en terme
de nombre d’événements avant détection, à la fois en terme de délai que du point de vue de
contraintes concernant les fausses alarmes. Dans le cas d’un processus de Wiener, un tel problème
a été résolu en utilisant la stratégie dite ’custom’ par de nombreux auteurs (Moustakides (2004),
ou Shyraiev (1963,..2009)). Dans notre situation, nous montrons l’optimalité de la règle d’arrêt
cusum en utilisant du calcul des variations finies, et des propriétés élémentaires de martingales
afin de caractériser la performance des fonctions de la règle de détection cusum en termes de
fonctions d’échelle. Elles apparaissent comme des solutions d’équations différentielles retardées
que nous résolvons de manière élémentaire. Le cas de la détection d’une baisse d’intensité est aisé
à étudier, du fait que les fonctions de performance sont continues. Dans le cas d’une augmentation,
les propriétés de martingale requièrent d’utiliser un temps local discontinu. Néanmoins, à partir
d’une identité reliant les fonctions d’échelle, l’optimalité de la règle cusum reste satisfaite. Des
applications numériques sont proposées.
14h30-15h30 - Fred Hickernell
Guaranteed fixed-width confidence intervals for Monte Carlo and quasiMonte Carlo simulation
Fred Hickernell (Illinois Instit. of Technology)
Monte Carlo and quasi-Monte Carlo simulation is widely used for estimating the means of random variables and approximating multidimensional integrals. Applications arise in financial risk
management, computer generated images, statistical physics, and other areas. Users would like to
know how many samples are required to ensure that the estimate is within a given error tolerance
39
Lundi 1er juin 2015
of the true quantity with a high degree of certainty. Unfortunately, most methods for constructing fixed-width confidence intervals rely on asymptotic results or heuristics. Quasi-Monte Carlo
methods, which are based on low discrepancy sequences, may be much more accurate than IID
Monte Carlo, but the existing theoretical error bounds for quasi-Monte Carlo methods do not lend
themselves to practical computation. This talk describes recently derived data-based error bounds
for (quasi-) Monte Carlo methods, which have rigorous guarantees of success. The key to constructing these error bounds is to identify suitable cones of random variables or integrands. In turn,
these data-based error bounds may then be used to construct guaranteed fixed-width confidence
intervals. These algorithms described have been implemented in freely available software.
15h35-16h55 - Données en grandes dimensions, méthodes Lasso
Test de normalité en grande dimension par méthodes à noyaux
Jérémie Kellner (Université Lille I), Alain Célisse (UMR 8524 CNRS-Université Lille 1)
Nous proposons un nouveau test de normalité dans un espace de Hilbert à noyau reproduisant
(RKHS). Ce test reprend le principe de la MMD (Maximum Mean Discrepancy) - traditionnellement employé pour des tests d’homogénéité ou d’indépendance. Notre méthode intègre une procédure spéciale de bootstrap paramétrique - typique des tests d’adéquation - qui est parcimonieuse
en temps de calcul par rapport au bootstrap paramétrique standard. En outre, une borne théorique pour l’erreur de Type-II est donnée. Enfin, des simulations montrent la puissance de notre
test là où les tests de normalité courants deviennent rapidement inutilisables en grande dimension.
De l’usage du saut de dualité pour la pré-sélection dynamique des variables pour le Lasso
Olivier Fercoq (Institut Mines-Télécom, Télécom ParisTech, CNRS LTCI), Alexandre Gramfort (Institut Mines-Télécom, Télécom ParisTech, CNRS LTCI), Joseph Salmon (Institut MinesTélécom, Télécom ParisTech, CNRS LTCI)
À l’aide de certificats d’optimalité vérifiées par les solutions du Lasso il est possible d’écarter,
avant optimisation, certaines des variables non pertinentes. Ce faisant on peut accélérer drastiquement les algorithmes résolvant le problème du lasso. Nous proposons de nouvelles règles de
pré-sélection qui reposent sur le saut de dualité. Elles s’appuient sur la création de régions dites
de sécurité, dont le diamètre tend vers zéro, sous l’hypothèse que l’on dispose d’un algorithme
convergeant pour résoudre le Lasso. Cette propriété permet à la fois de dépister plus de variables
non pertinentes, et de considérer de plus grandes plages pour le paramètre de régularisation. Même
si notre cadre englobe tout algorithme résolvant le Lasso, nous démontrons la pertinence de notre
approche pour la méthode de descente par coordonnées, particulièrement bien adaptée pour des
problèmes de grande dimension. Des gains de temps de calcul importants sont ainsi obtenus par
rapport aux précédentes règles de pré- sélection.
Puissance du test TLT construit depuis l’estimateur Lasso
Jean-Marc Azaïs (Institut Math Toulouse (IMT)), Yohan de Castro (Laboratoire de Math Orsay), Stephane Mourareau (Institut Math Toulouse (IMT))
Dans des travaux récents, Taylor, Lockhart et Tibshirani ont proposé une nouvelle statistique de
test pour le problème général de détection de signal en utilisant les propriétés de l’algorithme LARS
(Least-Angle Regression). Sous l’hypothèse nulle, ils donnent une distribution exacte pour leur
statistique de test et ce en dimension quelconque. A notre connaissance, aucun résultat n’a encore
été démontré concernant son comportement sous l’alternative. Dans ce papier, nous prouvons que
ce test est bien sans biais. De plus, nous comparons son efficacité à celle du test d’adéquation du
χ2 dans de nombreux cas.
40
Lundi 1er juin 2015
Sélection de variables par le GLM-Lasso pour la prédiction du risque
palustre
Bienvenue Kouwaye (Université Paris 1 SAMM), Noël Fonton (Université d’Abomey-Calavi),
Fabrice Rossi (Université Paris 1 SAMM)
Nous étudions dans ce travail une méthode de sélection de variables basée sur le Lasso dans le
contexte épidémiologique. L’un des objectifs est de construire automatiquement un modèle prédictif en limitant le recours aux experts médicaux qui opèrent des prétraitements sur les données
collectées. Ces prétraitements consistent entre autres à recoder certaines variables en classe et à
choisir manuellement certaines interactions en se basant sur la connaissance des données. L’approche proposée utilise toutes les variables explicatives sans traitement et génère automatiquement
toutes les interactions entre les variables, ce qui nous conduit en grande dimension. Nous utilisons
le Lasso qui est une méthode robuste de sélection de variables en grande dimension. Le nombre
d’observations dans les études épidémiologiques étant faible, nous proposons une validation croisée
à deux niveaux pour éviter le risque de sur apprentissage dans la phase de sélection de variables.
Les estimateurs Lasso étant biaisés et la variable d’intérêt qu’est le nombre d’anophèles à prédire
étant discret, nous utilisons un modèle GLM pour débiaiser les variables sélectionnées par le Lasso
et faire de la prédiction. Les résultats montrent que quelques variables climatiques et environnementales seulement sont des facteurs principaux liés au risque d’exposition au paludisme.
15h35-16h55 - Session du groupe Banque Finance Assurance
Consistency of tree-based estimators in censored regression with applications in insurance
Xavier Milhaud (ENSAE ParisTech - CREST LFA), Olivier Lopez (ENSAE - CREST), Pierre
Thérond (Univ Lyon 1, ISFA)
Les arbres de regression et de classification sont devenus tres populaires dans les trente dernieres
annees. L’application historique de cette technique concerne l’estimation non-parametrique d’une
esperance conditionnelle, en fonction de certains facteurs de risque representes par des covariables.
Nous adaptons ici cette methode au cas de donnees de survie, pour lesquelles la problematique
de censure des donnees doit etre traitee. Les proprietes de ces estimateurs par morceaux sont
etudiees, et des resultats theoriques permettent de conclure sur la vitesse de convergence de tels
estimateurs. Ces resultats sont ensuite valides par une etude simulatoire, puis deux applications
sur donnees reelles en assurance sont proposees afin d’illustrer l’interêt de la methode.
Parameter estimation for mixed-type distributions with application to
destruction rate modeling in insurance
Christophe Dutang (LMM, Université du Mans), Giorgio Spedicato (associate member of the
Casualty Actuarial Society)
Within actuarial jargon, an exposure curve is a distribution of the ratio between the limited
expected loss at various limits and the unlimited expected loss. We present destruction rate models
either defined by their distribution function or equivalently by their exposure curve. A particular
attention is given to one-inflated distributions and the so-called MBBEFD distribution. Parameter
estimation for these two models is carried out by maximum likelihood estimation and moment
matching estimation. Properties of these estimators are studied. Finally, numerical illustrations
are given in the actuarial context.
Distribution hybride pour la modélisation de données asymétriques à
queue lourde : application sur des données assurentielles
Nehla Debbabi (URCA et SUP’COM), Marie Kratz (ESSEC, Business School, Paris)
41
Lundi 1er juin 2015
L’un des principaux problemes rencontres en theorie des valeurs extrêmes concerne l’estimation de l’indice de queue de distribution, fortement liee a la determination d’un seuil a partir
duquel une distribution de Pareto generalisee (GPD) peut être ajustee. Les approches existantes
d’estimation de ce seuil peuvent être classees en deux categories : les approches supervisees, ou
le seuil est determine graphiquement selon le probleme etudie, et les approches non supervisees,
ou le seuil est determine algorithmiquement. Notre etude appartient a cette seconde categorie,
proposant un modele hybride reliant une distribution gaussienne a une GPD avec une exponentielle, cette derniere distribution jouant le rôle d’intermediaire entre comportements en moyenne
et asymptotique. Un nouvel algorithme est ensuite developpe pour estimer les parametres de ce
modele. L’efficacite de notre modele hybride est etudiee en termes de qualite d’ajustement sur
des donnees simulees et reelles, et comparee avec d’autres approches existantes. Une application
assurantielle est developpee sur des donnes de sinistres incendie a titre illustratif.
Dépendance des personnes âgées : une approche multi-états basée sur la
notion de processus semi-markovien
Guillaume Biessy (SCOR Global Life SE)
La tarification des produits d’assurance dépendance se base aujourd’hui sur des modèles
simples, où la dépendance est considérée comme un état unique et homogène. En raison du vieillissement de la population et des progrès rapides de la médecine, il est primordial d’acquérir une
vision plus claire de ce risque. Nous pensons que cet objectif peut être atteint en prenant en
compte plusieurs niveaux de dépendance. Un processus multi-états est dit semi-markovien lorsque
les probabilités de transition du processus dépendent à la fois de l’état actuel et du temps passé
dans cet état. De tels processus s’avèrent plus flexibles que les processus markoviens simples, et
ont fait l’objet de nombreuses publications dans le domaine de l’épidémiologie. Cependant, leur
application à l’assurance dépendance est restée principalement théorique, en raison notamment
du manque de données accessibles aux assureurs. Cette communication a pour but de présenter la
démarche de construction d’un modèle semi-markovien considérant 2 niveaux de dépendance. Ce
travail s’appuie sur des données recueillies dans le cadre de l’Allocation Personnalisée d’Autonomie (APA). Tout d’abord, nous introduisons les paramètres intervenant dans la modélisation des
transitions entre les états. Nous procédons ensuite à l’estimation de ces paramètres par la méthode
du maximum de vraisemblance, en tenant compte des spécificités liées aux données APA. Enfin,
nous proposons une application du modèle à la tarification d’un produit d’assurance dépendance
fictif, à l’aide d’une méthode de type Monte Carlo.
15h35-16h55 - Données manquantes
Imputation par régression dans le modèle linéaire fonctionnel avec valeurs manquantes dans la réponse
Christophe Crambes (Université de Montpellier), Yousri Henchiri (Université du Québec à
Montréal)
Nous nous intéressons au modèle linéaire fonctionnel lorsque la variable d’intérêt, réelle, est
sujette à des observations manquantes et la variable explicative, fonctionnelle, est complètement
observée. Une méthode d’imputation des données manquantes par régression est présentée, en
utilisant l’estimation du coefficient fonctionnel du modèle par régression fonctionnelle sur composantes principales. Nous étudions le comportement asymptotique de l’erreur commise lorsque
la valeur manquante est replacée par la valeur imputée par régression, dans un cadre de données
manquantes ’missing at random’. Le comportement de la méthode est également étudié en pratique
sur des données simulées.
42
Lundi 1er juin 2015
Méthodes statistiques pour prendre en compte l’occurrence de données
manquantes aléatoires conjointement avec la méthode du temps jusqu’à
détérioration d’un score de qualité de vie : une étude de simulation
Amélie Anota (Unité de méthodologie et de qualité de vie en cancérologie (EA3181), CHRU
de Besançon), Francesco Cottone (Italian Group for Adult Hematologic Diseases (GIMEMA) ,
Rome, Italie), Fabio Efficace (Italian Group for Adult Hematologic Diseases (GIMEMA) , Rome,
Italie), Franck Bonnetain (Unité de méthodologie et de qualité de vie en cancérologie (EA3181),
CHRU de Besançon)
L’objectif de ce projet était de comparer trois approches statistiques pour prendre en compte
les données manquantes aléatoires conjointement avec la méthode du temps jusqu’à détérioration
d’un score de qualité de vie (QdV) utilisée en cancérologie via une étude de simulations. Les
méthodes comparées étaient les méthodes de probabilités inversées et d’appariement du score
de propension ainsi qu’une méthode d’imputations multiples basée sur l’algorithme de MonteCarlo par Chaîne de Markov. Ces méthodes ont été comparées selon le nombre d’évènements, la
médiane de détérioration, l’erreur de type I et la puissance statistique du test du Log-rank, le
coefficient Hazard Ratio mesurant l’effet traitement, le coefficient Kappa de Cohen pour comparer
les évènements et le coefficient de corrélation de Spearman pour comparer les temps de survie.
Les données de QdV longitudinales ont été simulées selon un modèle à crédit partiel longitudinal
en considérant que la QdV suit une loi normale multivariée. Cinq items à 4 modalités de réponse
ont été considérés, reflétant la dimension physique du questionnaire EORTC QLQ-C30. Cinq
covariables associées à l’occurrence de données manquantes ont été simulées. Les simulations sont
en cours d’implémentation et les résultats seront présentés lors du congrès.
L’effet de visites manquantes sur l’estimateur des GEE, une étude par
simulation
Julia Geronimi (IRIS), Gilbert Saporta (Cedric-Cnam)
La recherche clinique s’intéresse régulièrement au suivi longitudinal du patient au cours de
plusieurs visites. Toutes les visites prévues ne sont pas effectuées et il n’est pas rare d’avoir un
nombre de visites différent selon les individus. Les Generalized Estimating Equations permettent
d’étudier une réponse continue ou discrète autocorrélée. Cette méthode permet un nombre de
visites qui diffère selon les patients. Les GEE sont robustes aux données manquantes complètement
aléatoires. Cependant dans le cas où les visites de fin d’étude sont moins nombreuses, l’estimateur
peut être biaisé. Nous proposons une étude par simulation pour étudier l’impact de visites non
effectuées sur les estimateurs obtenus par GEE sous divers schéma de données manquantes. Deux
types de réponses sont étudiées avec une structure échangeable ou auto-régressive d’ordre un. Le
nombre de sujets touchés et le nombre de visites supprimées varient afin d’évaluer leur impact.
Nos simulations montrent que les estimateurs calculés par GEE sont résistants jusqu’à un certain
taux de données manquantes. Les résultats sont homogènes quelle que soit la structure de données
manquantes imposée.
Imputation multiple pour variables qualitatives par analyse des correspondances multiples
Vincent Audigier (Agrocampus Ouest), François Husson (Agrocampus Ouest), Julie Josse (Agrocampus Ouest)
Il est très fréquent de rencontrer des données manquantes dans la pratique de la statistique.
Or la plupart des méthodes statistiques ne peuvent pas être directement appliquées sur un jeu
incomplet. Pour dépasser cette difficulté on peut remplacer les données manquantes par des valeurs
plausibles, on parle alors d’imputation simple. Cependant, l’imputation simple ne permet pas de
prendre en compte l’incertitude liée aux données imputées. Pour refléter cette incertitude, on
peut proposer plusieurs imputations pour chaque donnée manquante. On parle alors d’imputation
multiple. L’objet de cette présentation est de proposer une méthode d’imputation multiple dédiée
43
Lundi 1er juin 2015
aux variables qualitatives et basée sur l’analyse des correspondances multiples (ACM). L’emploi
d’une approche bootstrap va permettre de se doter de M jeux de composantes principales et
vecteurs propres. Ces jeux de paramètres sont ensuite utilisés pour construire M imputations du
jeu de données permettant de refléter l’incertitude sur les paramètres du modèle d’imputation.
Après avoir rappelé les principes de l’imputation multiple, nous présenterons notre méthodologie.
La méthode proposée sera ensuite évaluée par simulation et comparée aux quelques méthodes
existantes : imputation multiple par modèle loglineaire, par équations enchaînées et par modèle à
classes latentes. La méthode proposée fournit de bonnes estimations ponctuelles des paramètres
d’intérêt et de bons intervalles de confiance. De plus, elle peut s’appliquer sur des jeux de données
de tailles quelconques et permet notamment de traiter les cas où le nombre d’individus est inférieur
au nombre de variables.
15h35-16h55 - Copules
Prise en compte d’information pour l’estimation de quantiles agrégés
Véronique Maume-Deschamps (Université Claude Bernard Lyon 1), Esterina Masiello (Université Claude Bernard Lyon 1), Andrés Cuberos (SCOR)
On propose une méthode d’estimation de quantiles agrégés basée sur la copule ’checkerboard’.
Cette méthode permet de prendre en compte de l’information sur la distribution multivariée.
Estimating new multivariate risk measures
Elena Di Bernardino (CNAM), José María Fernández Ponce (Universidad de Sevilla, Departamento de Estadística e Investigación Operativa), Fátima Palacios Rodríguez (Universidad
de Sevilla, Departamento de Estadística e Investigación Operativa), María del Rosario Rodríguez
Griñolo (Universidad Pablo de Olavide, Departamento de Economía, Métodos Cuantitativos e
Historia Económica)
Adrian and Brunnermeier (2011) proposed a risk measure with the purpose of quantifying the
systemic risk in the financial system. This measure is called CoVaR (Conditional Value-at-Risk).
CoVaR measures a financial institution’s contribution to systemic risk and its contribution to the
risk of other financial institutions. In spite of the fact that the problem of measuring risk market
has been traditionally handled in a univariate version, by Value-at-Risk, many multidimensional
extensions have been investigated in the last decade. Two multivariate extensions of the classic
univariate CoVaR are defined in this work. These new multivariate measures are based on the
level sets of multivariate distribution functions (resp. of multivariate survival distribution). Several
important properties of the new multivariate risk measures are provided. Particularly, elicitability,
invariance and comonotonic dependence properties are examined. Interestingly, easily computed
expressions for the multivariate CoVaRs are given in the class of Archimedean copulas. The aim
of this work is focussed on the estimation of the multivariate CoVaR measures. A semiparametric
estimation procedure is presented for the proposed multivariate risk measure. The estimators are
obtained from the expressions of the multivariate CoVaRs under Archimedean copula conditions.
Furthermore, they are constructed by using a semiparametric estimator of the generator associated
with the copula (resp. survival copula) and the empirical estimation of the quantile function. The
performance of the defined estimators is studied by considering different models of simulated data.
Finally, the estimators of the multivariate CoVaR measures are calculated in an insurance real
case.
Probit transformation for nonparametric kernel estimation of the copula
density
Arthur Charpentier (UQAM), Gery Geenens (University of New South Wales), Davy Paindaveine (ULB)
44
Lundi 1er juin 2015
Nous proposons ici plusieurs estimateurs de densité de copule bivariées basés sur des noyaux.
Afin de contourner les biais de bord, les données sont normalisées par une transformation probit.
On estimate alors la densité par noyau sur l’espace transformée, et en utilisation la transformation
inverse, on obtient un estimateur pour la densité de la copule. Des améliorations de cet estimateur
naif sont proposées.
Application des copules à l’estimation de fronts de Pareto
Mickaël Binois (Mines Saint-Etienne), Didier Rullière (ISFA, Lyon 1), Olivier Roustant (Mines
Saint-Etienne)
Il est courant en optimisation de débuter par un tirage aléatoire dans l’espace des variables
pour initialiser une population ou créer un métamodèle. En particulier, dans le cas multi-objectifs,
cela conduit à un ensemble de points non-dominés qui ne renseignent que peu sur le vrai front
de Pareto. Nous proposons d’étudier ce problème du point de vue de l’analyse multivariée, en
introduisant un cadre probabiliste et en particulier en utilisant les copules. Ainsi, des expressions
pour les lignes de niveau sont accessibles dans l’espace des objectifs et permettent par conséquent
d’obtenir une estimation de la position du front de Pareto, lorsque le niveau tend vers zéro. Des
expressions analytiques explicites sont disponibles quand des copules archimédiennes sont utilisées.
La procédure d’estimation correspondante est détaillée puis appliquée sur plusieurs exemples.
15h35-16h55 - Segmentation
Vraisemblance auto-pénalisante pour la sélection du nombre de ruptures
dans la segmentation bidimensionnelle utilisée pour l’analyse des données
Hi-C
Vincent Brault (AgroParisTech/INRA), Maud Delattre (AgroParisTech), Emilie Lebarbier (AgroParisTech), Céline Lévy-Leduc (AgroParisTech), Tristan Mary-Huard (INRA/AgroParisTech, UMR
518, 75231, Paris, France)
Nous proposons d’étudier un modèle statistique utilisé pour analyser les données Hi-C. Ces
données représentent la mesure du degré d’interaction physique entre différentes positions chromosomiques (voir par exemple Dixon et al. 2012) : les zones de fortes interactions dans le génome
forment des blocs diagonaux de valeurs homogènes différentes du reste de la matrice. Dans ce
cadre, Lévy-Leduc et al. (2014) proposent un modèle de segmentation bidimensionnelle d’une matrice symétrique dont l’objectif est de retrouver les instants de ruptures délimitant ces blocs. Dans
leur article, Lévy-Leduc et al. (2014) utilisent un algorithme de programmation dynamique pour
estimer les instants de ruptures maximisant la vraisemblance et proposent de sélectionner leur
nombre en maximisant cette dernière sans pénalisation. Dans cet exposé, nous démontrerons que
l’estimation obtenue du nombre de ruptures est consistante si la distance minimale entre deux
ruptures estimées n’est pas trop petite. Ce résultat sera illustré par des simulations.
Formation d’un phénomène temporel à l’aide d’un méta-modèle via la
segmentation
Christian Derquenne (EDF R&D)
Est-ce qu’une réponse temporelle est systématiquement expliquée par les mêmes facteurs ? Corollairement, quels sont les poids respectifs de ces facteurs explicatifs dans la formation de cette
réponse ? L’approche proposée permet de répondre à ces deux questions afin de comprendre comment se forme une réponse temporelle non stationnaire par morceaux à l’aide préditeurs temporels,
mais aussi quelles sont les contributions statistiques de ceux-ci. Pour cela, nous appliquons, tout
d’abord une méthode de segmentation de série temporelle afin d’exhiber des comportements distincts sous forme de segments contigus, puis sur chacun d’eux, différentes stratégies de régression
multiple (estimateur des moindres carrés avec sélection des prédicteurs pas à pas, régression Partial
45
Lundi 1er juin 2015
Least Squares) sont utilisées afin d’obtenir un méta-modèle. Ce dernier fournit des informations
fructueuses pour l’expert du domaine d’application car il lui permet non seulement de détecter les
ruptures de comportements de sa variable réponse, mais aussi d’analyser l’influence de ses facteurs
significatifs. Différents types de résultats sont proposés à l’expert : les équations de régression
avec les coefficients standardisés, des tableaux de contributions des prédicteurs par segment de
la variable réponse, des graphiques affichant la série temporelle de la réponse observée, de son
estimation et les prédicteurs significatifs pour chaque segment de la réponse. Cette approche est
appliquée à des prix de marché de l’énergie. Les futurs travaux de recherche seront principalement
consacrés à la prévision à court terme d’une réponse temporelle à l’aide de l’approche méta-modèle.
Détection de motifs disruptifs au sein de plantes : une approche de quotientement/classification d’arborescences
Pierre Fernique (Inria), Jean-Baptiste Durand (Univ. Genoble Alpes), Yann Guédon (CIRAD,
UMR AGAP et Inria, Virt)
Les modèles de détection de ruptures multiples pour séquences sont transposés aux arborescences. L’objectif est de quotienter une arborescence en sous-arborescences homogènes. Comme
les algorithmes optimaux de segmentation de séquences ne peuvent être transposés aux arborescences, nous proposons ici une méthode heuristique permettant de segmenter efficacement une
arborescence. Les sous-arborescences obtenues sont ensuite groupées dans une phase de posttraitement car des sous-arborescences disjointes relativement similaires sont observées dans les
canopées d’arbre. Ces modèles sont illustrés par le cas du manguier où les collections de sousarborescences permettent d’identifier les motifs disruptifs (juxtaposition de sous-arborescences
végétatives, florifères ou en pause) observés dans les canopées.
Heuristique de pente pour les modèles de détection de ruptures multiples
Yann Guédon (CIRAD, UMR AGAP et Inria, Virt)
En ce qui concerne la détection de ruptures multiples, la sélection du nombre de ruptures a fait
l’objet ces dernières années de nombreux travaux. Mais les approches proposées sont soit dédiées à
un modèle particulier (par exemple modèle gaussien de changement sur la moyenne) soit donnent
des résultats peu satisfaisants sur des séquences de taille petite ou moyenne. Nous proposons
ici d’appliquer l’heuristique de pente, un critère non-asymptotique de vraisemblance pénalisée
récemment proposé, pour sélectionner le nombre de ruptures. Nous appliquons en particulier la
méthode d’estimation de la pente dirigée par les données, le point clé étant de définir la forme
de la pénalité. L’approche proposée est illustrée sur deux jeux de données de référence pour les
modèles de détection de ruptures multiples.
17h15-18h35 - AMIES 1 - Panorama
Programme de la session spéciale AMIES 1 - Panorama
Anne Philippe (Université de Nantes), Thierry Dumont (Université Paris Ouest)
17h15 : Présentation générale de AMIES par Anne Philippe ; 17h30 : Thèse de statistiques
dans une PME : la localisation intra-muros WiFi - Présentation d’un partenariat réussi université
/ entreprise par Thierry Dumont ; 18h15 : Discussions
17h15-18h35 - Statistique mathématique 1
Intervalles de confiance valides en présence de sélection de modèle
François Bachoc (University of Vienna), Hannes Leeb (University of Vienna), Benedikt M.
Pötscher (University of Vienna)
46
Lundi 1er juin 2015
Dans le contexte de la régression linéaire, on considère l’inférence statistique en présence de sélection de modèle. Sur ce sujet, Berk et al. (Annals of Statistics, 2013) ont récemment introduit une
nouvelle classe d’intervalles de confiance, appelés intervalles de confiance PoSI, qui couvrent une
certaine quantité d’intérêt non-standard. Ces intervalles de confiance sont uniformément valides,
quelle que soit la procédure de sélection de modèle sous-jacente. Dans cet article, nous généralisons
les intervalles de confiance PoSI à la prédiction post-sélection de modèle. Nous définissons deux
prédicteurs non standards : le premier étant l’extension naturelle de la quantité d’intérêt de Berk
et al., le second ayant des propriétés d’optimalité plus pertinentes. Pour ces deux prédicteurs,
nous construisons des intervalles de confiance, qui étendent ceux de Berk et al., et nous donnons
des résultats théoriques, exacts et asymptotiques, associés. Nous renforçons ces résultats par une
étude de simulation.
Z-estimateurs indexés par la fonction objective
François Portier (ISBA-Louvain-La-Neuve)
ˆ
On étudie la convergence de Z-estimateurs θ(η)
pour lesquels la fonction objective dépend
d’un paramètre η appartenant à un espace de Banach H. On démontre la consistence uniforme sur
H, la convergence faible dans l∞ (H) et la validité du bootstrap. Lorsque η est un paramètre de
“tuning” ayant pour valeur optimale η0 , on donne des conditions pour qu’un estimateur ηˆ puisse
être remplacé par η0 sans changer la variance asymptotique. Ces conditions ne demandent pas de
vitesse particulière concernant la convergence de ηˆ vers η0 . De manière similaire on montre que
ˆ η ) est valide même sans effectuer un bootstrap de ηˆ. On s’intéresse à plusieurs
le bootstrap de θ(ˆ
applications et on étudie plus en details le cas où η est la fonction de poids d’une régression
pondérée. Cette nouvelle approche permet d’obtenir des conditions générales quant à la procédure
d’estimation des poids optimaux. La précision de différentes procédures est évaluée par simulation.
Certainty bands for the conditional cumulative distribution function and
applications
Aurélie Muller-Gueudin (IECL, Inria, BIGS), Sandie Ferrigno (IECL Inria, BIGS), Myriam
Maumy-Bertrand (IRMA, Strasbourg)
Nous étudions l’estimateur polynomial local de la fonction de répartition conditionnelle. Nous
donnons un résultat de consistence uniforme de cet estimateur, puis nous en déduisons des bandes
de confiance asymptotiques de cette fonction. En corollaires, nous pouvons obtenir des estimateurs
et des bandes de confiance asymptotiques pour les quantiles et la fonction de regression. Nous
illustrons nos résultats par des simulations.
Consistance de la minimisation du risque empirique pour l’optimisation
de l’erreur relative moyenne
Arnaud de Myttenaere (viadeo), Bénédicte Le Grand (Université Paris 1 Panthéon Sorbonne,
CRI), Fabrice Rossi (Université Paris 1 SAMM)
Nous nous intéressons au problème de la minimisation de l’erreur relative moyenne dans le
cadre des modèles de régression. Nous montrons que l’optimisation de ce critère est équivalente à
la minimisation de l’erreur absolue par régressions pondérées et que l’approche par minimisation
du risque empirique est, sous certaines hypothèses, consistante pour la minimisation de ce critère.
47
Lundi 1er juin 2015
17h15-18h35 - Analyse de sensibilité
Plans emboîtés pour l’estimation itérative des indices de Sobol’ par méthode répliquée
Laurent Gilquin (Inria), Clémentine Prieur (Université de Grenoble), Elise Arnaud (Université
de Grenoble)
Ce travail s’intéresse à l’estimation d’indices de Sobol d’ordre un et deux pour l’analyse de sensibilité. Dans ce cadre, l’utilisation de la méthode répliquée permet d’assurer un nombre d’appels
considérablement réduit par rapport aux méthodes classiques. L’objectif de cette étude est de proposer une approche itérative par plans répliqués, pour estimer les indices de sensibilité. L’élément
clé est la construction de plans emboîtés. Nous proposons ici une adaptation de la méthode répliquée par l’utilisation d’un plan emboîté pour estimer les indices de Sobol’ d’ordre un ou d’ordre
deux globaux. Pour l’estimation des indices d’ordre un, nous exploitons un plan particulier ayant
déjà été introduit dans la littérature. Pour l’estimation des indices d’ordre deux globaux, la méthode repose sur des tableaux orthogonaux. Nous présentons donc deux approches pour construire
un tableau orthogonal de force deux emboîté. La première méthode est stochastique et repose
sur des résultats de théorie des graphes. L’ idée de la méthode est de combler itérativement les
zones lacunaires de l’espace des paramètres d’entrée. La deuxième méthode consiste à construire
un tableau orthogonal de force deux d’index supérieur à un, puis à rééchantillonner à l’intérieur
de chaque cellule par une loi uniforme. Nous conduisons des tests numériques sur des fonctions
classiques afin de comparer les indices d’ordre un et d’ordre deux globaux obtenus par chacune
des deux méthodes à ceux obtenus par une méthode standard (non emboîté).
Discrete and continuous nonparametric kernel estimations for global sensitivity analysis
Tristan Senga Kiessé (Université de Nantes), Andy Andrianandraina (Université de Nantes)
Ce travail porte sur la méthode d’estimation à noyau discret dans le cadre de l’analyse de
sensibilité d’un modèle f visant à évaluer l’influence des variables d’entrée discrètes X sur la
variable réponse Y. En effet, l’estimation à noyau discret est maintenant connue pour être adaptée
au lissage des distributions de données à support discret. Cependant, dans le cadre de l’analyse
de sensibilité, seule l’estimation à noyau continu a été étudiée jusqu’à récemment pour évaluer
l’influence de variables d’entrée continues comme discrètes. Ici, l’approche à noyau discret est
utilisée pour construire un estimateur non-paramétrique du modèle Y=f(X) décomposé par analyse
de variance. Des simulations sur la fonction test d’Ishigami et sur un cas d’étude issu du domaine
de l’agriculture montrent l’intérêt de l’approche par noyau discret en comparaison avec l’approche
par noyau continu, à travers l’estimation des indices de sensibilité de Sobol. Pour des paramètres
d’entrée discrets qui sont moyennement ou très influents, l’approche discrète estiment mieux la
contribution de leur variance sur la variance totale du modèle par rapport à l’approche continue.
Analyse de sensibilité et application en finance
Ibrahima Niang (Université Claude Bernard Lyon 1), Véronique Maume-Deschamps (Université Claude Bernard Lyon 1), Alexandre Janon (Université Paris Sud), Areski Cousin (Université
Claude Bernard Lyon 1)
Les récents épisodes d’instabilité financière de 2008 ont remis en cause la précision des modèles
mathématiques utilisés en finance pour évaluer les risques financiers et actuariels. Bien souvent,
cette modélisation basée sur des approches stochastiques est imparfaite, notamment en raison
des incertitudes sur les paramètres qui défissent le modèle. Nous souhaitons à travers ce travail,
présenter des outils d’analyse de sensibilité globale basèe sur les indices de Sobol pour quantifier,
pour un modèle financier donné, l’impact de l’incertitude des paramètres du modèle sur une
quantité d’intérêt appelée sortie du modèle. Cette sortie du modèle représente en général, le prix
48
Lundi 1er juin 2015
d’un actif financier, la probabilité de défaut où de ruine d’une compagnie d’assurance, la MCEV
(market consistent embedded value), la Value at Risk(VaR), etc.
Redéfinition de la pod comme fonction de répartition aléatoire
Thomas Browne, Jean-Claude Fort (Université Paris Descartes)
les probabilités de détection de défauts (POD) sont des outils standards dans l’industrie pour
évaluer la performance d’un procédé de contrôle données. Elles se modélisent mathématiquement
par une courbe déterministe qui est une fonction de la taille du défaut étudié. les aléas pris en
compte pour le calcul de la probabilité sont les prorpiétés géomtriques de la structure étudiée
(X ∈ Rd ) ainsi qu’un bruit d’observation... la courbe de POD possède les caractéristiques d’une
fonction de répartition. le but est ici de faire évoluer ce modèle en un fonction de répartition
aléatoire X. pour chaque réalisation x des paramètres X πX lui associe la POD correspondante,
i.e. la courbe de probabilités calculées sous la condition X = x. pour quantifier une distribution
aléatoire de f.d.r. il est nécessaire de définir un nouveau cadre de travail. On cherche à répondre
aux questions suivantes : comment comparer les possibles réalisations ? Peut-on par exemple parler
de courbe moyenne ? À l’aide de la distance de Wasserstein on propose des définitions de PODmoyenne, de POD-quantiles par analogie avec les notions d’espérance et de quantiles de variables
aléatoires réelles. on s’intéresse également à la définition d’estimateurs pour ces grandeurs ainsi
qu’à leurs propriétés asymptotiques. Pour des besoins industriels il est important de distinguer les
variables de X les plus influentes. dans ce but on propose une extension des méthodes d’analyse
de sensibilité de type Sobol.
17h15-18h35 - Classification en grandes dimensions
Détection de profils conditionnels dans des matrices creuses pour la sélection génomique
Mathieu Emily (Agrocampus Ouest), Alain Mom (Université Rennes 2)
L’objectif de cet article est de proposer une méthodologie statistique pour détecter des profils conditionnels particuliers, appelés profils sparse-spécifiques. Ces profils correspondent à des
signatures moléculaires caractérisant la présence d’une sélection génomique. L’approche proposée
s’appuie sur une classification hiérarchique obtenue à partir d’une nouvelle dissimilarité appelée d2s .
Par une approche théorique, appuyée par des simulations, nous montrons que d2s est adaptée à la
détection de profils sparse-spécifiques, notamment dans le cas de matrices de contingences creuses.
L’application de notre méthodologie à un jeu de données traitant de la sélection génomique chez
le chien domestique illustre également les avantages de notre dissimilarité d2s par rapport à des
dissimilarités classiques comme les distances du χ2 et d22 .
Variable selection by decorrelated HCT for supervised classification in
high dimension
Emeline Perthame (Agrocampus Ouest IRMAR), David Causeur (Agrocampus Ouest IRMAR)
Nous considérons un problème de classification supervisée où Y est une variable aléatoire de
Bernoulli et X un vecteur de covariables suivant une loi normale. Dans ce contexte, l’analyse
linéaire discriminante (LDA) atteint de bonnes performances de classification, même en grande
dimension où de nombreux algorithmes de sélection de variables permettent de réduire la dimension. Dans ce cadre, le Higher Criticism Thresholding (HCT) permet d’estimer le support du
signal, même en situation de covariables corrélées. Toutefois, certains auteurs suggèrent qu’il peut
être amélioré en considérant cette dépendance. Dans le contexte des tests multiples, plusieurs auteurs montrent l’impact négatif de la dépendance sur la stabilité de la sélection de variables et
suggèrent de travailler sur des données ajustées de la dépendance. Nous proposons une méthode
49
Lundi 1er juin 2015
combinant une sélection par HCT suivie d’une LDA, les deux étapes étant fondées sur un postulat d’indépendance entre les covariables, conditionnellement à un vecteur de facteurs latents. La
méthode HCT s’appuie sur la distribution asymptotique de p-values associées à des statistiques
individuelles de sélection (souvent des t-tests). Sous l’hypothèse d’un modèle à facteurs latents, on
peut définir des statistiques de sélection décorrélées, par ajustement de l’effet des facteurs, et leurs
p-values associées. Un nouvel HCT est déduit de l’expression analytique de la fonction de répartition conditionnelle des p-values, dépendant de la structure de dépendance. L’estimation du modèle
de classification proposé utilise également la structure en facteurs pour gérer la dépendance. Les
propriétés de la méthode sont illustrées sur des simulations et sur des données réelles.
Sélection de modèles pour la classification de données de régression en
grande dimension : un résultat théorique
Emilie Devijver (Université Paris-Sud / Select)
Les modèles de mélange en régression sont utilisés pour modéliser la relation qui existe entre
la réponse et les prédicteurs, lorsque ces données sont hétérogènes. Avec l’augmentation des données de grande dimension, les modèles doivent aujourd’hui tenir compte des problèmes entrainés.
Durant cet exposé, nous proposerons deux procédures de classification non supervisée en grande
dimension. Dans chacune, nous construisons une collection de modèles de mélanges en faisant
varier la dimension des modèles, pour pallier la grande dimension. Nous estimons les paramètres
de chaque modèle par maximum de vraisemblance, sous contrainte de faible rang ou non, puis
nous sélectionnons un modèle grâce à l’heuristique de pente introduite par Birgé et Massart. Nous
obtenons une inégalité oracle pour chacune de nos procédures, ce qui nous permet de justifier la
sélection de modèles par un critère pénalisé.
Une pénalité de groupe pour des données multivoie de grande dimension
Laurent Le Brusquet (L2S, UMR CNRS 8506 - CentraleSupelec,Bioinformatics/Biostatistics
Platform IHU-A-ICM,Brain and Spine), Arthur Tenenhaus (L2S, UMR CNRS 8506 - CentraleSupelec,Bioinformatics/Biostatistics Platform IHU-A-ICM,Brain and Spine), Gisela Lechuga (L2S,
UMR CNRS 8506 - CentraleSupelec,Bioinformatics/Biostatistics Platform IHU-A-ICM,Brain and
Spine), Vincent Perlbarg (Bioinformatics/Biostatistics Platform IHU-A-ICM, Brain and Spine),
Louis Puybasset (AP-HP, Pitié-Salpêtrière Hospital, Surgical Neuro-Intensive Care Unit), Damien
Galanaud (AP-HP, Pitié-Salpêtrière Hospital, Department of Neuroradiology)
Le problème de la classification supervisée de données multivoie de grande dimension avec un
a priori de structure de groupes sur les variables est étudié. Plus précisément la pénalité proposée
vise à modifier les termes de régularisation pour tenir compte d’une part de la structure tensorielle
et d’autre part le la structure de groupes des données. Sans surcoût calculatoire notable, le but
cherché étant un gain en interprétabilité, la pénalité est conçue de manière à : (i) Séparer l’influence
des variables de l’influence des modalités et (ii) Homogénéiser les poids associés à des variables
d’un même groupe. La pénalité est ici développée pour l’analyse discriminante et la régression
logistique. Une application à l’analyse de données de neuroimagerie multimodale est présentée.
50
Mardi 2 juin 2015
08h45-09h45 - David Bessis
Titre à venir
David Bessis (tinyclues)
09h50-10h50 - Prix Norbert Marx (Paul Blanche)
Évaluation des capacités pronostiques de modèles joints pour données
longitudinales et de survie : inférence et application au pronostic de la
démence
Paul Blanche (University of Copenhagen)
La modélisation conjointe de marqueurs longitudinaux et de données de survie gagne actuellement en popularité. Motivé par l’intérêt croissant pour la médecine personnalisée, elle commence
notamment à être utilisée pour calculer des prédictions de risques individuels dites dynamiques.
Ces prédictions sont dites dynamiques car elles sont actualisées au fur et à mesure que l’information
sur le profil de santé d’un sujet évolue au cours de son suivie.
Dans ce travail, nous nous intéressons aux méthodes statistiques pour quantifier et comparer les
capacités pronostiques de ce type de prédictions. L’aire sous la courbe ROC et le Brier score sont
proposés pour quantifier les capacités pronostiques. Une approche non paramétrique de pondération par l’inverse de la probabilité de censure est proposée. Elle permet de s’adapter simplement à
la présence de données censurées et d’éventuels risques concurrents, ce qui est important puisque
leur présence est fréquente en recherche médicale. Quelques résultats asymptotiques sont présentés
et des tests et des méthodes de calcul d’intervalles de confiance ponctuels et simultanés en sont
dérivés.
11h10-12h30 - Environnement 1
Mélange de prédicteurs pour la prévision séquentielle de la pollution par
les PM10 en Haute-Normandie
Jean-Michel Poggi (Université Paris Descartes), Benjamin Auder (Univ. Paris-Sud Orsay),
Bruno Portier (Normandie Université, INSA Rouen)
Dans le cadre de la surveillance de la qualité de l’air en Normandie, on expérimente les méthodes
d’agrégation séquentielle pour la prévision le jour pour le lendemain, des concentrations de PM10.
Outre le domaine d’application et l’adaptation au contexte concret du travail du prévisionniste, la
principale originalité de ce travail est que l’ensemble initial d’experts contient à la fois des modèles
statistiques bâtis à l’aide de différentes méthodes et d’ensemble de prédicteurs divers, ainsi que des
experts qui sont des modèles déterministes de prédiction physico-chimiques modélisant pollution,
météo et atmosphère. Des résultats numériques sur des données récentes d’avril 2013 à mars 2014,
sur trois sites de mesures, illustrent et comparent diverses méthodes d’agrégation. Les résultats
obtenus montrent qu’une telle stratégie améliore nettement les performances du meilleur expert
tant en erreurs qu’en alertes et assure un « débiaisage » du nuage réalisés-prévus, difficile à obtenir
d’ordinaire.
Processus avec sauts sur arbres : détection de changements adaptatifs
Paul Bastide (AgroParisTech - Univ Paris Sud), Stéphane Robin (AgroParisTech/INRA), Mahendra Mariadassou (INRA)
En écologie comparative et évolutive, les traits quantitatifs d’un jeu d’espèces peuvent être vus
comme le résultat d’un processus stochastique courant le long d’un arbre phylogénétique. Cette
modélisation permet de prendre en compte les corrélations produites par une histoire évolutive
51
Mardi 2 juin 2015
partagée. Le processus stochastique est choisi afin de de capturer les mécanismes qui gouvernent
l’évolution d’un trait. Les écologues préfèrent ainsi le processus d’Orstein-Uhlenbeck (OU) au
Mouvement Brownien (BM), plus simple mais moins réaliste. Le processus OU modélise la sélection
naturelle s’opérant sur un trait par un mécanisme de rappel vers une valeur centrale, interprétée
comme optimale dans un environnement donné. On s’intéresse ici à des changements de niche
évolutive qui auraient entraîné un changement abrupt dans la valeur de cet optimum, et dont il
s’agit de retrouver la position sur l’arbre. À partir des mesures d’un trait pour un jeu d’espèces
liées par un arbre phylogénétique connu, on se propose de construire, d’étudier, et d’implémenter
efficacement un modèle à données incomplètes permettant d’inférer simultanément la position des
sauts et la valeur des paramètres. Les sauts sur l’arbre induisent naturellement une classification
des espèces actuelles en groupes cohérents avec la phylogénie et définis par une même valeur de
trait. Au vu des données, seule cette classification est identifiable, ce qui pose problème pour
la localisation exacte des sauts sur l’arbre. On se propose alors de dénombrer, d’une part, les
allocations non-identifiables équivalentes, et, d’autre part, les solutions distinctes identifiables.
Cette dernière quantité nous sert alors à calibrer une pénalité de sélection de modèle.
Équation différentielle stochastique basée sur un potentiel gaussien pour
décrire le déplacement en écologie
Pierre Gloaguen (IFREMER), Sylvain Le Corff (CNRS), Marie-Pierre Etienne (Agroparistech)
En écologie, comprendre les mécanismes guidant le mouvement d’un individu est un enjeu pour
définir de meilleures mesures de gestion. Afin de décrire le déplacement d’un individu en temps
continu, les équations différentielles stochastiques (EDS) offrent un cadre général. Cependant, les
modèles de mouvement existant se basant sur les EDS sont restreintes aux EDS « pratiques »
(Ornstein Ulhenbeck). Nous proposons un cadre plus général de modélisation-estimation pour
décrire le mouvement d’un individu à partir de données GPS. Le processus bidimensionnel des
positions d’un individu est supposé être solution d’une l’EDS dont la dérive est une surface de
potentiel. Cette surface de potentiel traduit l’attractivité du mouvement dans lequel se déplace
l’individu. En se basant sur les travaux de Beskos et al (2006), on propose un cadre d’estimation
se basant sur la simulation du processus solution de l’EDS, conditionnellement aux observations
(les données GPS). Cette simulation conditionnelle se fait de manière exacte, évitant les erreurs
d’approximation des schémas discrétisés. Intégrées à une approche EM, ces simulations permettent
de trouver l’estimateur du maximum de vraisemblance des paramètres de dérive, et de la diffusion.
Nous montrerons une application de ce modèle à des données réelles.
Sciences participatives et suivi de la biodiversité
Camille Coron (Université Paris Sud), Clément Calenge (ONCFS), Christophe Giraud (Université Paris Sud), Romain Julliard (MNHN)
Les programmes de sciences participatives se sont beaucoup développés au cours des vingt
dernières années, notamment dans le domaine de l’écologie et du naturalisme. Nous disposons
dans ce travail de deux jeux de données issus de tels programmes : un jeu de données dites
standardisées et un jeu de données dites opportunistes. Le premier présente un nombre plus faible
de données, mais qui sont associées à un protocole d’observation et de récolte très précis, tandis que
le deuxième fournit un très grand nombre de données rapportées selon les souhaits et habitudes des
observateurs. Grâce à ces données, nous cherchons à estimer les abondances relatives de plusieurs
espèces sur différentes régions de l’espace et/ou à différents moments. Nous prouvons dans un
premier temps que la combinaison de ces deux types de jeux de données permet une estimation
plus précise de ces abondances, que l’utilisation des seules données standardisées. La prise en
compte dans un deuxième temps des préférences respectives des observateurs et des observés pour
les différents types d’habitats présents sur l’espace considéré permet des estimations plus réalistes
et applicables.
52
Mardi 2 juin 2015
11h10-12h30 - Finance
Impact de la compétition bancaire sur la méthode de financement
Jérémie Bertrand (Groupe ISA), Jean-Christophe Statnik (Lille 2)
Durant les 20 dernières années, la littérature sur l’impact de la compétition bancaire sur le
choix de la méthode de financement - relationnel vs. transactionnel - n’a fait que croitre, tant
théoriquement qu’empiriquement. Cependant, cette question n’a toujours pas été résolue. Dans
cette étude, nous amenons une réponse à cette question en utilisant une nouvelle approche dans la
mesure de la méthode de financement : une mesure de la quantité d’information soft utilisée par la
banque lors de l’octroi du crédit et de son coût (spread). Utilisant cette nouvelle approche, nous
démontrons que les banques préfèrent utiliser un financement relationnel lorsque la compétition
bancaire est faible. De plus, nous démontrons que le lien entre la compétition et le choix de financement n’est pas linéaire mais concave : relationnel lorsque la compétition est faible, transactionnel
lorsqu’elle augmente et, passé un certain seuil de compétition, à nouveau relationnel.
A new approach in nonparametric estimation of returns in mean-downside
risk portfolio frontier
Ali Gannoun (Université de Montpellier), Hanen Ben Salah (ISG Tunis, ISFA Lyon1), Mathieu
Ribatet (Université Montpellier 2), Christian de Peretti (ISFA, Lyon1)
La variance est devenue la définition mathématique la plus populaire du risque pour la sélection de portefeuille. Quand les distributions des rendements sont asymétriques, la sélection du
portefeuille basée sur la variance peut être un handicap potentiel, de fait qu’elle sacrifie trop de rendements prévus en éliminant les rendements extrêmes. Pour palier à ce problème, la semi-variance
a été proposée comme une autre mesure alternative du risque. C’est une mesure du Downside
Risk. Dans ce modèle, les investisseurs minimisent uniquement les rendements inférieurs à un taux
de rendement cible. Le modèle moyenne-downside risk utilise une matrice semivariance-covariance
endogène aux aux poids des actifs constituants le portefeuille. Le problème d’optimisation est
difficile à résoudre. Athayde (2001) explicite un algorithme itératif convergeant pour le résoudre.
Néanmoins, il souligne que, pour un nombre limité d’observations, la frontière efficiente présente
une discontinuité. Pour contrecarrer cette faiblesse, il propose dans un article de (2003) de remplacer les données par des moyennes calculées par la méthode du noyau. Ben Salah et al (2014)
proposent un estimateur plus robuste basé sur l’estimation non paramétrique de la médiane conditionnelle mais l’algorithme est lent à converger. Dans cette communication, nous proposons une
amélioration sensible de cet algorithme en commençant par remplacer tous les rendements des
actions par leurs estimateurs non paramétriques (utilisant la moyenne ou la médiane), puis déduire les estimateurs des rendements du portefeuille et appliquer l’algorithme classique d’Athayde
sur les données estimées. L’application de cette nouvelle approche sera effectuée sur des nombre
marchés nationaux et internationaux.
Test de changement de régimes dans des séries financières par un modèle
conditionnellement hétéroscédastique à seuil endogène
Youssef Saidi (Bank Al-Maghrib, Rabat)
En finance, les modèles autorégressifs conditionnellement hétéroscédastiques (ARCH), et leurs
nombreuses extensions se sont avérés être des instruments très efficaces. Une nouvelle classe de
modèles conditionnellement hétéroscédastiques non linéaires, introduite dans Saïdi (2003) et Saïdi
et Zakoïan (2006), fait dépendre la volatilité de la position relative des innovations passées. Cette
dernière se rattache aux extensions précédentes par l’existence de plusieurs régimes. Dans ce papier,
nous proposons une méthode de test de changement de régime dont la construction repose sur la
nouvelle classe de modèles introduite par Saïdi (2003) et Saïdi et Zakoïan (2006), et inspirée de la
méthode développée par Tsay (1989) pour les modèles autorégressifs à seuils. Ensuite, nous testons
53
Mardi 2 juin 2015
la présence de la modification des régimes de volatilité dans le rendement de l’indice boursier CAC
40 en utilisant le modèle proposé.
Transmission des chocs de rendement et de volatilité entre marchés boursiers : application de modèles GARCH multivariés
Ahmed El Ghini (Universite Mohammed V de Rabat), Youssef Saidi (Bank Al-Maghrib, Rabat)
Dans ce papier, nous nous intéressons à l’étude des liens de volatilité et de rendement entre
le marché financier marocain et ceux des États-Unis et trois pays européens (France, Allemagne
et Royaume-Uni) avant et après la crise financière des subprimes de 2008. Plus précisément, nous
utilisons les indices boursiers MASI, CAC, DAX, FTSE et NASDAQ représentatifs respectivement
des marchés boursiers : marocain, français, allemand, anglais et américain. Notre échantillon porte
sur les indices boursiers journaliers de la période allant du 2 janvier 2002 au 31 décembre 2012
(jours fériés exclus). A partir de nos résultats d’estimation des modèles bi-variés VAR-BEKK
GARCH, nous analysons la transmission des chocs de rendement et de volatilité entre le marché
financier marocain et les autres marchés financiers considérés. Par ailleurs, l’identification de la
date de rupture structurelle relative à la crise des subprimes est effectuée en utilisant les deux
tests de changement structurel de Lee-Strazicich ( 2003, 2004) et Bai-Perron (1998, 2003). Les
résultats empiriques obtenus mettent en évidence un changement des degrés d’interdépendance et
les effets de spillover entre les grands marchés financiers considérés et le marché financier marocain
émergent liés à la crise financière globale de 2008.
11h10-12h30 - Apprentissage et classification 1
Classification ascendante hiérarchique à noyaux et pistes pour un meilleur
passage à l’échelle
Julien Ah-Pine (Université de Lyon), Xinyu Wang (Université de Lyon)
Nous nous intéressons au problème de la classification ascendante hiérarchique d’un ensemble
d’individus représentés dans un espace euclidien. Nous donnons une expression de la formule
de Lance et Williams en fonction de produits scalaires plutôt qu’en termes de distances. Nous
établissons les conditions dans lesquelles cette nouvelle expression est équivalence à la méthode
initiale. L’intérêt de cette approche est double. Tout d’abord, nous pouvons étendre naturellement
les techniques classiques de classification ascendante hiérarchique aux fonctions noyaux. Ensuite,
le raisonnement sur des matrices de produits scalaires est davantage propice à la définition de
méthodes de filtrage de mesures de proximités. Nous proposons alors de prétraiter la matrice de
proximités de façon à la rendre éparse afin de permettre un meilleur passage à l’échelle de ces
techniques de classification.
Classification de courbes individuelles et prévision désagrégée de la consommation électrique
Jairo Cugliari (Université Lumière Lyon 2), Yannig Goude (EDF R&D), Jean-Michel Poggi
(Univ. Paris Descartes et Univ. Paris Sud)
La disponibilité de données électriques, à des résolutions temporelles et géographiques plus fines
met l’industrie face à de nouveaux défis et opportunités. Nous nous intéressons à la prévision non
paramétrique d’une série par désagrégation et le profilage des consommateurs individuels à des fins
commerciales. On se propose de construire des outils de classification utiles pour les deux tâches
en général considérées séparément. L’idée est de décomposer le signal global de telle sorte que la
somme des prévisions désagrégées améliore considérablement la prédiction du signal global. La
stratégie est en trois étapes : à partir d’une première classification de courbes par partitionnement
on définit des super-consommateurs, on construit ensuite une hiérarchie de partitions à l’intérieur
de laquelle on sélectionne la meilleure partition pour de la prévision désagrégée.
54
Mardi 2 juin 2015
Classification ascendante hiérarchique avec contraintes de proximité géographique
Amaury Labenne (IRSTEA UR - ETBX), Marie Chavent (Univ. Bordeaux, IMB / Inria,
CQFD), Vanessa Kuentz-Simonet (IRSTEA UR - ETBX), Jérôme Saracco (Univ. Bordeaux, IMB
/ Inria, CQFD)
La Classification Ascendante Hiérarchique (CAH) est une méthode bien connue de classification
d’individus décrits par différentes variables. Cette méthode vise à rassembler dans une même classe
les individus qui se ressemblent du point de vue des variables. Cependant lorsque les individus
dont on dispose sont des territoires géographiques, on souhaite parfois que des individus proches
géographiquement se retrouvent dans la même classe sans que cela ne nuise trop à la qualité de la
partition. La méthode ClustGeo que nous avons développée permet d’intégrer des contraintes de
proximité géographique au sein d’une CAH, pour cela on utilise le critère d’homogénéité de Ward
sur deux matrices différentes de distances.
Sélection de groupes de variables corrélées par classification ascendante
hiérarchique et group-Lasso
Quentin Grimonprez (Inria Lille - Nord Europe), Alain Célisse (Inria Lille-Nord Europe &
Laboratoire Paul Painlevé, Université Lille 1), Guillemette Marot (Inria Lille-Nord Europe & EA
2694, Université Lille 2)
Dans un contexte de sélection de variables, utiliser des régressions pénalisées en présence de
fortes corrélations peut poser problème. Seul un sous-ensemble des variables corrélées est sélectionné. Agréger préalablement les variables liées entre elles peut aider aussi bien à la sélection qu’à
l’interprétation. Cependant, les méthodes de regroupement de variables nécessitent la calibration
de paramètres supplémentaires. Nous présenterons une nouvelle méthode combinant classification
ascendante hiérarchique et sélection de groupes de variables.
11h10-12h30 - Statistique bayésienne non-paramétrique
Quantification de l’incertitude d’une partition issue d’un processus de
Dirichlet à mélange
Aurore Lavigne (Université de Lille), Silvia Liverani (Brunel University London)
Nous présentons ici nos résultats sur la quantification de l’incertitude liée à une partition.
Dans la littérature sur la classification, une unique partition est généralement identifiée comme
“optimale” par rapport à un critère donné, et l’incertitude sur cette partition n’est en général pas
discutée. En effet, l’espace des partitions est vaste et complexe, et quantifier cette incertitude reste
une tâche difficile. Nous nous intéressons à l’incertitude associée aux partitions obtenues à l’aide
d’un processus de Dirichlet à mélange sous le paradigme bayésien. Nous proposons deux méthodes
pour quantifier l’incertitude. L’une est basée sur la distribution marginale a posteriori de la variable
d’allocation du processus de Dirichlet, l’autre sur la comparaison des probabilités d’appartenance
de chaque individu à chaque classe dans le modèle de mélange estimé. Pour cette seconde méthode,
nous fournissons aussi une représentation graphique de ces probabilités. Finalement, nous étudions
comment ces méthodes sont liées, et nous les utilisons pour comparer certaines des stratégies
utilisées pour définir la partition “optimale”. Nous appliquons ces méthodes à un jeu de données
en océanographie.
Estimation bayésienne non-paramétrique pour les processus de Hawkes
Sophie Donnet (INRA), Vincent Rivoirard (Université Paris Dauphine), Judith Rousseau (Université Paris Dauphine)
Les processus de Hawkes multidimensionnels sont utilisés pour la modélisation des potentiels
d’actions neuronaux. L’estimation des fonctions d’intensité permet de comprendre la structure
55
Mardi 2 juin 2015
d’interactions des neurones. L’estimation non-paramétrique de ces fonctions a été proposée par
des méthodes de type LASSO dans un cadre fréquentiste. Nous nous intéressons à leur estimation
non-paramétrique dans un cadre bayésien. Pour cela, nous mettons en place des algorithmes du
type Sequential Monte Carlo Sampler, particulièrement adaptés à ces processus ponctuels.
Vitesse de convergence de l’a posteriori pour les modèles non-paramétriques
de Markov cachés à espace d’état fini
Elodie Vernet (Université Paris Sud)
Les modèles de Markov cachés (HMMs) sont très utilisés en pratique, comme en génomique, reconnaissance de parole ou économétrie. Comme la modélisation paramétrique des densités d’émission peut conduire à de mauvais résultats en pratique, un récent intérêt pour les modèles de Markov
cachés non paramétriques est apparu dans les applications. Or ces modèles ont peu été étudiés en
théorie. Je présenterai des résultats asymptotiques sur les modèles bayésiens non paramétriques
de Markov cachés à espace d’états fini. Je donnerai des hypothèses garantissant l’obtention de
vitesses de convergence. Je finirai par exhiber des vitesses obtenues pour des a priori usuels.
Approche bayésienne non-paramétrique pour la factorisation de matrice
binaire à faible rang avec loi de puissance
Adrien Todeschini (Inria Bordeaux), François Caron (Univ. Oxford)
Nous proposons un modèle bayésien non paramétrique (BNP) à faible rang pour les graphes bipartis. Récemment, Caron (2012) a proposé un modèle BNP où chaque élément possède son propre
paramètre de sociabilité permettant de capturer le comportement en loi de puissance observé dans
les graphes bipartis réels. Ce modèle peut être considéré comme une factorisation non négative
de rang un de la matrice d’adjacence. En nous appuyant sur les mesures composées aléatoires
récemment introduites par Griffin et Leisen (2014), nous dérivons une généralisation de rang p de
ce modèle où chaque élément est à présent associé à un vecteur p-dimensionnel de paramètres de
sociabilité représentant plusieurs dimensions latentes. Tout en préservant les propriétés désirées
d’interprétabilité, de passage à l’échelle et de comportement en loi de puissance, notre modèle est
plus flexible et offre de meilleures performances prédictives comme illustré sur plusieurs jeux de
données.
11h10-12h30 - Régression
Partial Least Squares : une nouvelle approche au travers de polynômes
orthogonaux
Mélanie Blazère (Institut de mathématiques de Toulouse), Fabrice Gamboa (Institut de mathématiques de Toulouse), Jean-Michel Loubes (Institut de mathématiques de Toulouse)
La méthode PLS est largement utilisée pour la prédiction en régression multivariée, notamment
lorsque l’on a de fortes corrélations au sein des variables explicatives ou lorsque ces dernières
dépassent le nombre d’ observations. La PLS est une méthode de réduction de dimension astucieuse
qui cherche à résoudre le problème de multicollinéarité en créant de nouvelles variables latentes
qui maximisent la variance des variables initiales tout en restant optimales pour la prédiction.
Si la PLS se révèle être très utile et puissante dans de nombreux domaines, elle n’en reste pas
moins une procédure complexe et peu de ses propriétés théoriques sont connues. Dans cet exposé,
je vous présenterai une nouvelle façon de considérer la PLS basée sur les liens étroits qu’elle
a avec des polynômes orthogonaux particuliers que j’expliciterai et que nous appellerons par la
suite polynômes résiduels. La théorie des polynômes orthogonaux permet ensuite d’obtenir une
expression analytique explicite pour ces polynômes. Nous verrons que cette expression éclaire la
dépendance entre l’estimateur PLS et le signal et le bruit. A la suite de quoi, nous montrerons
la puissance de cette nouvelle approche dans l’analyse des propriétés statistiques de la PLS en
56
Mardi 2 juin 2015
établissant de nouveaux résultats sur son risque empirique et son erreur quadratique moyenne
de prédiction. Nous évoquerons aussi certaines propriétés de seuillage de cet estimateur. Nous
conclurons enfin en montrant de quelle façon l’approche par polynômes orthogonaux fournit un
cadre unifié permettant de retrouver facilement des propriétés déja connues.
Extension de la régression linéaire généralisée sur composantes supervisées à une partition thématique des régresseurs
Catherine Trottier (Univ. Paul Valéry Montpellier), Xavier Bry (I3M), Frédéric Mortier (CIRAD), Guillaume Cornu (CIRAD), Thomas Verron (SEITA)
Nous proposons de construire des composantes permettant de régulariser un Modèle Linéaire
Généralisé Multivarié (MGLM). Un ensemble de réponses aléatoires Y est supposé dépendre, via
un GLM, d’un ensemble X de variables explicatives, ainsi que d’un ensemble T de covariables
additionnelles. X est partitionné en R blocs X1 , . . . , XR , conceptuellement homogènes, considérés
comme autant de thèmes explicatifs. Les variables dans chaque Xr sont supposées nombreuses
et redondantes. Il est donc nécessaire de régulariser la régression linéaire généralisée dans chaque
thème. À l’inverse, les variables de T sont supposées peu nombreuses et sélectionnées de sorte à
n’exiger aucune régularisation. On procède à la régularisation en cherchant dans chaque thème
un nombre approprié de composantes orthogonales permettant de modéliser Y tout en extrayant
une information structurelle pertinente dans chaque thème. Nous proposons un critère très général
mesurant la pertinence structurelle d’une composante dans un thème, que nous introduisons dans
l’algorithme des Scores de Fisher d’estimation du modèle. La méthode, nommée THEME-SCGLR,
est testée sur simulations et appliquée à la modélisation de l’abondance des espèces d’arbres dans
la forêt tropicale du bassin du Congo.
Sélection d’estimateurs ridge en régression gaussienne
Carole Binard (Laboratoire J.A. Dieudonné)
Dans le cadre de la régression Gaussienne à variance inconnue, Baraud et al. (2012) ont développé une procédure permettant de sélectionner un estimateur de l’espérance d’un vecteur Gaussien Y, sélection opérée au sein d’une collection arbitraire d’estimateurs. Dans un premier temps,
nous comparons les performances de cette procédure appliquée aux estimateurs Ridge à celles de
la validation croisée. Dans un second temps, nous considérons des estimateurs Ridge à noyaux
et comparons cette procédure à la validation croisée. Puis nous regardons, d’un point de vue
théorique, la sélection d’estimateurs Ridge par morceaux qui consiste à sélectionner un ’meilleur’
paramètre de lissage sur chacun des morceaux d’une partition fixée de [0,1].
Une formule exacte pour la validation croisée dans le cadre de la régression ’pool-sample’
Tristan Mary-Huard (INRA/AgroParisTech), Julien Chiquet (UMR 8071 CNRS/UEVE/USC
INRA), Alain Célisse (UMR 8524 CNRS-Université Lille 1), Mathias Fuchs (LMU)
En régression ’pool sample’, on dispose d’un échantillon de N individus pour lesquels les
variables explicatives sont mesurées, tandis que la variable réponse n’est disponible que pour
n < N d’entre eux. Cette disymétrie entre information disponible sur les variables d’une part
et la réponse d’autre part amène à modifier la forme des estimateurs classiques (OLS et Ridge)
pour exploiter l’intégralité des données. Lorsque plusieurs modèles sont en compétition et doivent
être comparés, cette modification doit être intégrée aux procédures de validation croisée. Nous
proposons ici une approche fondée sur le rééchantillonnage des seules variables réponses pour la
validation croisée. Nous montrons qu’une formule exacte et explicite peut alors être obtenue pour
le critère de validation croisée proposé. La sélection de modèles peut être alors réalisée sur la base
de ce critère sans en payer le coût algorithmique.
57
Mardi 2 juin 2015
13h50-14h50 - Nicolas Verzelen
Détection de communautés dans des réseaux aléatoires
Nicolas Verzelen (INRA)
L’analyse des réseaux est aujourd’hui un domaine ayant donné lieu à une abondante littérature
aux croisements de la combinatoire, de l’algorithmique, de la physique des systêmes complexes et
plus récemment des statistiques. La détection de communautés vise à découvrir des groupe de
noeuds fortement liés entre eux et faiblement liés aux autres. Dans cet exposé, on discutera de
modèles de réseaux aléatoires permettant de rentre compte de l’hétérogénéité rencontrée dans les
réseaux réels. Ce cadre probabiliste permet de formaliser statistiquement le problème de détection
de communautés. On obtiendra ainsi une caractérisation fine des difficultés statistiques inhérentes
au problème de détection en faisant apparaître un compromis précision statistique contre complexité algorithmique.
13h50-14h50 - Qiwei Yao
Segmenting multiple time series by contemporaneous linear transformation : PCA for time series
Qiwei Yao (London School of Economics)
We seek for a contemporaneous linear transformation for a p-variate time series such that the
transformed series is segmented into several lower-dimensional subseries, and those subseries are
uncorrelated with each other both contemporaneously and serially. The method may be viewed
as an extension of principal component analysis (PCA) for multiple time series. Technically it
also boils down to an eigenanalysis for a positive definite matrix. When p is large, an additional
step is required to perform a permutation in terms of either maximum cross-correlations or FDR
based on multiple tests. The asymptotic theory is established for both fixed p and diverging p
when the sample size n tends to infinity. Numerical experiments with both simulated and real
datasets indicate that the proposed method is an effective initial step in analysing multiple time
series data, which leads to substantial dimension-reduction in modelling and forecasting highdimensional linear dynamical structures. The method can also be adapted to segment multiple
volatility processes.
14h55-16h15 - Biostatistique
Un modèle statistique pour la pharmacovigilance
Valérie Robert (Université Paris Sud), Gilles Celeux (SELECT Inria Saclay), Christine Keribin (Université Paris Sud, Laboratoire de Mathématiques d’Orsay)
Les effets indésirables des médicaments sont le plus souvent découverts après l’autorisation de
mise sur le marché de ces médicaments. La pharmacovigilance consiste alors à détecter le plus précocement possible l’existence d’associations entre médicaments et événements indésirables. Dans
cette optique, des méthodes statistiques exploratoires (IC, Bate et al., 1998 ; GPS, Dumouchel,
1999...) sont développées depuis une vingtaine d’années. Cependant, ces méthodes sont limitées
par l’utilisation de données agrégées (tableau de contingence), ce qui présume d’une homogénéité
des individus à l’origine des notifications. Or il est raisonnable de supposer une certaine hétérogénéité dans la population étudiée. L’objectif est donc de proposer une alternative à ces méthodes
intégrant cette dimension hétérogène du problème grâce à l’étude des données individuelles peu informatives, produisant des matrices creuses. Dans ce cadre, en adaptant le modèle des blocs latents
(Govaert et Nadif, 2008), nous proposons un nouveau modèle statistique qui fournit une classification simultanée des lignes et des colonnes de deux tableaux de données binaires en leur imposant
58
Mardi 2 juin 2015
le même classement en ligne. Il permet alors d’établir des classes d’individus selon leur profil médicamenteux et des sous-groupes d’effets et de médicaments en interaction. Dans cet exposé, nous
présenterons le modèle et montrerons la nouveauté de cette approche en pharmacovigilance. Nous
donnerons des conditions suffisantes pour obtenir son identifiabilité et nous l’expérimenterons sur
des matrices simulées creuses ou non.
Modèle poisson-gamma pour le recrutement de patients lors d’essais cliniques. Etude des limites de pertinence du modèle par simulations
Nathan Minois (INSERM UMR 1027 - UPS TLSE), Guillaume Mijoule (Département de Mathématiques, Université Paris XI), Stéphanie Savy (INSERM UMR 1027 - Université Toulouse
III), Valérie Lauwers-Cances (Unité Épidémiologique, CHU Toulouse), Sandrine Andrieu (INSERM UMR 1027 - Université Toulouse III - Unité Épidémiologique, CHU Toulouse), Nicolas
Savy (Université Toulouse III - Institut Mathématiques de Toulouse, UMR 5219)
étant donné un nombre de patients nécessaire pour la mise en place d’un essai clinique ou
d’une cohorte, une des questions importantes est l’estimation du temps minimum requis, suivant
les moyens de recrutement déployés, permettant d’atteindre ce nombre de sujets nécessaire. depuis
une quinzaine d’année, l’utilisation de processus de poisson est devenue une approche acceptable,
avec cependant un manque de prise en compte de la variabilité des intensités de recrutement entres
les centres recruteurs. pour pallier à ce problème anisimov et fedorov utilisent le modèle nommé
gamma-poisson dans lequel l’ensemble des intensités est considéré comme distribué selon une loi
gamma. ce modèle s’est montré efficace sous les hypothèses d’un nombre de centres important (les
résultats théoriques sont asymptotiques) et lorsque les intensités de recrutement sont constantes
dans le temps. dans le but d’évaluer son application sur données réelles, nous avons étudié son
efficacité lorsque ces hypothèses ne sont pas respectées. l’impact de telles erreurs de spécifications
est estimé via des études par simulation suivant différents scénarios. nous finissons par donner
des recommandations dans l’utilisation du modèle lorsqu’au moins une des hypothèses n’est pas
respectée.
Unsupervised clustering under local constraints of dynamics using multiple equivalence tests
Fuchen Liu (Université Paris Descartes MAP5 - UMR CNRS 8145&Intrasense), Yves Rozenholc (Inria Saclay Ile de France Equipe Select), Charles-André Cuenod (Université Paris Descartes
LRI - INSERM U970 PARCC&Hôpital Européen Georges Pompidou)
L’imagerie de perfusion joue un rôle majeur pour étudier la microvascularisation tumorale qui
est perturbée par une angiogenèse anormale pendant la croissance de la tumeur. Enregistrant
une information dynamique liée à l’injection d’un bolus d’agent de contraste, ce type d’imagerie permet de construire des biomarqueurs diagnostic, prognostic ou de suivi dans le cadre des
traitements anti-angiogéniques. Toutefois l’imagerie de perfusion souffre d’un fort niveau de bruit
et il est nécessaire d’améliorer le rapport signal sur bruit, par exemple via la construction de
régions d’intérêt (ROI) au sein desquelles l’information dynamique est moyennée. Réalisée de façon manuelle ou automatique avec des outils mal adaptés, ces ROI souffrent actuellement d’un
manque d’homogénéité ou d’une perte d’information dynamique. Nous proposons de remédier à
ces problèmes à travers une classification non supervisée qui préserve les dynamiques et offre un
degré d’homogénéité contrôlable. Notre méthode s’appuie sur une utilisation de tests d’équivalence multi-résolution, qui préservent la structure dynamique, et d’un algorithme itératif de type
dendrogramme qui protège les propriétés de l’image. La construction itérative s’arrête automatiquement à l’aide d’un contrôle des erreurs de type I et II permettant ainsi de choisir le nombre de
classes automatiquement.
59
Mardi 2 juin 2015
Statistical estimation of genomic tumoral alterations
Yi Liu (Inria Saclay Ile de France Equipe Select), Christine Keribin (Université Paris Sud,
Laboratoire de Mathématiques d’Orsay), Tatiana Popova (nstitut Curie, INSERM U830), Yves
Rozenholc (Inria Saclay Ile de France Equipe Select)
La caractérisation des altérations génomiques tumorales est une étape importante dans le
développement de la médecine personnalisée en cancérologie. Parmi les méthodes de traitement des
données de micro-array, la méthode GAP (Genome Alteration Print) de Popova et al. caractérise
les mutations à partir de la segmentation des signaux du nombre de copies et de la fréquence de
l’allèle majoritaire (BAF) obtenus en chaque site de SNP. Elle utilise un critère déterministe que
nous proposons de remplacer par une modélisation probabiliste paramétrique. Nous définissons
ainsi un modèle de mélange gaussien dont les classes caractérisent les types de mutations. Ce
modèle est estimé par maximum de vraisemblance grâce à l’algorithme EM, permettant d’obtenir
l’estimation des paramètres et la caractérisation de l’altération tumorale de chaque segment. Dans
notre approche, la ploidy de la tumeur est déduite de l’utilisation d’un critère pénalisé de sélection
de modèle. Notre modèle est testé avec des données simulées et expérimentales.
14h55-16h15 - Series temporelles 2
Propriétés asymptotiques des estimateurs pour des modèles VARMA à
coefficients dépendant du temps, avec exemples
Guy Mélard (Université libre de Bruxelles, ECARES et ITSE), Abdelkamel Alj (Université
Moulay Ismail, FSJES, Meknès), Christophe Ley (Université libre de Bruxelles, Dépt de Mathematiques)
Cet article concerne les modèles vectoriels autorégressifs-moyenne mobile (VARMA) à coefficients dépendant du temps pour représenter des séries chronologiques non stationnaires. Contrairement à Dahlhaus (2000) et certaines parties d’Azrak et Mélard (2006) dans le cas univarié,
les coefficients dépendent du temps mais pas de la longueur n des séries. Sous des suppositions
appropriées, on montre qu’un estimateur quasi-maximum de vraisemblance gaussien est presque
sûrement consistant et asymptotiquement normal. Les résultats théoriques sont illustrés au moyen
de deux exemples de processus bivariés généralisant Kwoun et Yajima (1986). On montre que les
suppositions sous-jacentes à la théorie s’appliquent. Dans le second exemple les innovations sont
aussi marginalement hétéroscédastiques avec une corrélation variant de -0,8 à 0,8. Dans les deux
exemples, la matrice d’information asymptotique est obtenue dans le cas gaussien. Finalement, le
comportement pour échantillons finis est vérifiée par une étude de Monte Carlo pour n allant de
25 à 400. Les résultats confirment la validité des propriétés asymptotiques même pour des séries
courtes et révèlent que la matrice d’information asymptotique déduite de la théorie est correcte.
Un estimateur de qmv-poisson pour les séries temporelles multivariées à
valeurs entières
Ali Ahmad (Université de Lille 3)
Nous utilisons l’estimateur de quasi maximum de vraisemblance de poisson (PQMLE) pour
estimer, équation par équation, les paramètres des moyennes conditionnelles d’une série temporelle
multivariée à valeurs entières. Des conditions de régularité sont données pour la consistance et la
normalité asymptotique de cet estimateur. des applications à des modèles particuliers, comme les
modèles INAR et INGARCH multivariés, sont ainsi considérées. des illustrations numériques, sur
des simulations de Monte Carlo et sur des données réelles, sont fournies.
A unified approach to the estimation of periodically integrated autoregressive models
Georgi Boshnakov (University of Manchester), Lina Hamadeh (University of Manchester)
60
Mardi 2 juin 2015
Stochastic trends and periodicity are common features of time series, for example in economics and business. These features are often intertwined in such a way that traditional seasonal
decomposition, exponential smoothing and seasonal unit root (including ARIMA) methods are
not always fully satisfactory. We consider an approach based on periodically correlated and periodically integrated models. Using the multi-companion form of the periodic autoregressive model
and a spectral parameterisation, we develop a general framework for periodically integrated models which allows for fitting models with any configuration of non-periodic, seasonal and periodic
unit roots. Since we work directly with the eigenvalues, we are able to directly fix some of them
to be equal to one, thus eliminating the need to impose complex non-linear restrictions on the
autoregressive parameters.
Inférence statistique des modèles autorégressifs à coefficients aléatoires
périodiques
Nassim Touche (Université de Bejaia), Abdelhakim Aknouche (U.S.T.H.B), Nacer Demouche
(Université Bouira)
Dans ce travail, nous nous intéressons à l’inférence statistique du modèle autorégressif à coefficients aléatoires périodiquement distribués (PRCA) dans lequel l’innovation et le coefficient aléatoire ne sont pas astreints à être non-corrélés. Nous établissons consistance et normalité asymptotique pour l’estimateur des moindres carrés pondérés en quatre étapes (4SWLSE) ainsi que pour
l’estimateur du quasi-maximum de vraisemblance Gaussien (QMLE) et ce indépendamment de
l’hypothèse de stationnarité périodique stricte. Des applications aux tests de stationnarité périodique ainsi qu’à des données rélles sont proposées.
14h55-16h15 - Tests statistiques 1
Test de comparaison de deux modèles de régression non-paramétriques
basé sur les coefficients de Fourier
Zaher Mohdeb (Univ. Mentouri Constantine)
Dans ce travail, nous proposons une nouvelle méthode de comparaison de deux fonctions de
régression f1 et f2 dans le cas homoscédastique et un échantillonnage fixé. Notre approche est basée
sur les coefficients de Fourier empiriques des fonctions de régression respectivement de f1 et f2 .
On obtient la distribution asymptotique de la statistique de test proposée, sous l’hypothèse nulle
« f1 = f2 » ainsi que sous les alternatives globales et locales. Une étude par simulation est menée
pour montrer la performance du test proposé.
Tests d’uniformité sur la sphère unité de grande dimension
Davy Paindaveine (ULB), Christine Cutting (Université libre de Bruxelles), Thomas Verdebout
(Université libre de Bruxelles)
Nous considérons le problème de test d’uniformité sur la sphère unité en grande dimension.
Notre intérêt se porte principalement sur les propriétés de puissance. A cette fin, nous considérons des contre-hypothèses à symétrie rotationnelle et nous identifions les hypothèses contigués
à l’hypothèse nulle d’uniformité. Ceci révèle une structure de normalité locale et asymptotique
(LAN), qui, pour la première fois, permet de recourir au troisième lemme de Le Cam en grande
dimension. Sous des conditions très faibles, nous obtenons la loi asymptotique non nulle du test
de Rayleigh en grande dimension et montrons que ce test mène à des taux de convergence plus
lents. Tous nos résultats (n, p)-asymptotiques sont "universels", dans le sens que la dimension p
peut aller vers l’infini de façon arbitraire en fonction de la taille d’échantillon n. Une partie de nos
résultats couvre également le cas de petite dimension, ce qui permet d’expliquer heuristiquement
le comportement asymptotique du test de Rayleigh en grande dimension. Une étude de Monte
Carlo confirme nos résultats asymptotiques.
61
Mardi 2 juin 2015
Tests d’adéquation pour des données directionnelles bruitées
Thanh Mai Pham Ngoc (Université Paris Sud), Peter T. Kim (University of Guelph), Jae-Yong
Koo (Korea University), Claire Lacour (Université Paris Sud)
Nous disposons d’observations bruitées sur la sphère unité de R3 . Celles-ci sont le résultat
de directions corrompues par une rotation aléatoire. il s’agit là d’un problème de déconvolution
sphérique puisque la densité des observations est la convolée de la densité originelle et de celle du
bruit. C’est l’analogue sphérique du problème bien connu de la déconvolution sur la droite réelle.
Nous nous attacherons à tester si les directions originelles proviennent de la densité uniforme ou
non à partir des données bruitées. Le test d’adéquation mis en oeuvre se fait dans un cadre nonparamétrique sur des classes de Sobolev ou analytiques. Nous considérons deux types de bruit
’smooth’ et ’supersmooth’, plus le bruit étant régulier et plus le problème inverse devient difficile.
La procédure de test statistique proposée s’appuie sur les harmoniques sphériques. Les vitesses de
tests obtenues sont optimales au sens minimax. Nous illustrerons nos résultats théoriques par des
simulations et sur des données réelles provenant de l’astrophysique où ce problème de test de la
densité uniforme est particulièrement prégnant.
Procédure diagnostique en arbre utilisant les tests lisses d’adéquation
Walid Al akhras (Université Montpellier), Gilles Ducharme (Université Montpellier)
Un test d’adéquation est une procédure d’évaluation de l’hypothèse H0 : F = F0 , où F est la
loi, inconnue, d’une variable aléatoire X qui prend ses valeurs dans l’ensemble S, et F0 est la loi
de référence. Cette hypothèse H0 peut être non rejetée ou rejetée. Dans ce dernier cas, il est alors
intéressant de connaître les raisons d’un tel rejet. Pour cela, il faut appliquer des procédures qui
s’appellent “Procédures de diagnostic d’adéquation” (PDA). Dans la littérature, il y a deux classes
de PDA. La première est locale et basée sur les composantes de la statistique du X 2 de Pearson
(1900) ; elle permet de déterminer des intervalles de S où le modèle ne colle pas au données. La
deuxième est globale et basée sur les composantes de la statistique du test lisse de Neyman (1937) ;
elle donne des informations sur les écarts entre les moments du modèle posé en H0 et ceux des
données. Il nous a semblé que si on pouvait les combiner d’une certain façon, il serait possible
d’aller plus loin dans l’extraction d’informations diagnostiques. Notre idée consiste à proposer une
procédure de diagnostic locale basée sur le test lisse. Il faut donc disposer de tests lisses “locaux”,
c’est-à-dire restreints à des éléments d’une partition de S. La méthode qu’on utilise est basée sur
une structuration en arbre des hypothèses de la famille de tests, cette méthode assure un contrôle
fort de taux d’erreur FWER.
14h55-16h15 - Extrêmes
Modèles multivariés pour l’indépendance asymptotique des extrêmes
Nejib Dalhoumi (Université Montpellier), Jean-noel Bacro (Université Montpellier), Gwladys
Toulemonde (Université Montpellier)
L’absence d’un cadre paramétrique exhaustif pour les extrêmes multivariés constitue un obstacle majeur pour l’étude de la dépendance des extrêmes. En effet, sous l’hypothèse de maxstabilité, les problèmes liés à la dépendance asymptotique sont résolus mais les modèles max-stables
sont restrictifs en ce qui concerne les aspects d’indépendance asymptotique. Ledford et Tawn (1996,
1997) ont proposé un modèle décrivant le comportement de queue d’une distribution bivariée avec
une décroissance plus lente dans le cas des variables asymptotiquement indépendantes. Ce modèle
a constitué la brique de base pour la majorité des résultats de modélisation de queues de distributions présentés dans la dernière décennie. Par exemple, Resnick (2002) et Resnick et Maulik (2004)
ont utilisé ce modèle pour définir la variation régulière cachée d’un vecteur bivarié, ce qui leur a
permis de définir une nouvelle mesure adaptée à l’indépendance asymptotique. Ramos et Ledford
(2011) ont utilisé le processus ponctuel introduit par Ledford et Tawn (1997) pour définir une mesure angulaire régulière cachée particulière et une nouvelle loi de maxima. Ces derniers imposent
62
Mardi 2 juin 2015
une condition de normalisation sur la mesure angulaire régulière cachée qui généralise la condition
relative au cadre max-stable. De façon générale, cette nouvelle condition est difficile à satisfaire.
En utilisant la technique de Ramos et Ledford (2011), nous montrons comment construire des
mesures angulaires satisfaisant cette condition de normalisation à partir de distributions positives
définies sur un simplexe et, par suite, comment de nouveaux modèles paramétriques multivariés
permettant de gérer dépendance et indépendance asymptotiques peuvent être obtenus.
Conditional tail index estimation for random fields
Aladji Bassene (Université de Lille), Sophie Dabo-Niang (Université de Lille), Aliou Diop
(Université Gaston Berger)
Estimation de l’indice de queue conditionnel pour des champs aléatoires. Nous traitons l’estimation de l’indice de queue d’une distribution à queue lourde en présence de covariables pour les
processus spatiaux en utilisant l’estimateur de Hill. Soit un processus spatial strictement stationnaire, nous étudions une estimation de l’indice de queues lourdes de la fonction de distribution
conditionnelle spatiale de la variable réponse Y étant donnée la variable explicative X. Notre estimateur est construit sur la base de l’estimateur bien connu de Hill tout en combinant une approche
de fenêtre mobile pour capter l’information des covariables. La consistance de l’estimateur de Hill
est obtenue lorsque l’échantillon considéré est une suite alpha-mélangeante.
Quantiles extrêmes conditionnels et application à la surveillance en temps
réel d’un système aquatique
Gilles Durrieu (Université de Bretagne Sud), Ion Grama (Université de Bretagne Sud), QuangKhoai Pham (Université de Bretagne Sud), Jean-Marie Tricot (Université de Bretagne Sud)
Nous présentons une méthode statistique pour estimer les quantiles extrêmes de la distribution
de la vitesse de fermeture des valves en valvométrie. L’idée de notre approche est d’ajuster la
queue de la fonction de distribution de cette vitesse par une distribution de Pareto de paramètre
θt,τ au delà d’un seuil τ . Le paramètre θt,τ est estimé en utilisant un estimateur à noyau non
paramétrique de taille de fenêtre h à partir des observations plus grandes que τ . Nous donnons sous
des hypothèses de régularités les vitesses de convergence des estimateurs des quantiles extrêmes et
de θt,τ . Notre modélisation fournit en temps réel une analyse du comportement d’un bioindicateur
du milieu marin et apparaît comme un moyen efficace pour la surveillance de la qualité des eaux
d’un système aquatique.
On the effects of model misspecification in the study of non-stationary
series of maxima : a stochastic simulation perspective
Tipaluck Krityakierne (Department of Mathematics and Statistics, University of Bern), David
Ginsbourger (Department of Mathematics and Statistics, University of Bern), Jörg Franke (Institute of Geography, University of Bern), Christoph Welker (Institute of Geography, University of
Bern), Olivia Martius (Institute of Geography, University of Bern), Martin Grosjean (Oeschger
Centre for Climate Change Research, University of Bern)
Accounting for possible non-stationarities in series of maxima is of crucial importance for quantifying risks in a changing climate. However, when appealing to models relying on the Generalized
Extreme Value distribution, it happens that practitioners do not take such non-stationarities into
account, or simply truncate data sets in order to reduce the influence of past trends. Here we adopt
a stochastic simulation approach for studying the effects of model misspecifications on return level
estimation errors in the case of GEV-distributed simulated data, both with fixed and time-varying
location parameters. Our results suggest that in the case of a location parameter with a linear
trend in time, truncating the data does lead to an improved estimation of return levels with small
return periods, but turns out to degrade estimation for larger return periods. Finally, we will
present results obtained on series of yearly maxima from climatological and hydrological series of
measures recorded in Switzerland over more than a century.
63
Mardi 2 juin 2015
14h55-16h15 - Régression en grandes dimensions
Utilisation d’estimateurs en plusieurs étapes appliqués à des modèles
additifs modélisant la prévision de consommation électrique
Vincent Thouvenot (EDF/Univ. Orsay), Anestis Antoniadis (Univ. Joseph Fourier/ Univ.
Cap Town), Xavier Brossat (EDF), Yannig Goude (EDF R&D), Jean-Michel Poggi (Univ. Paris
Descartes et Univ. Paris Sud)
L’électricité ne se stockant pas aisément, EDF a besoin d’outils de prévision de consommation
et de production efficaces. Le développement de nouvelles méthodes automatiques de sélection et
d’estimation de modèles de prévision est nécessaire. En effet, grâce au développement de nouvelles
technologies, EDF peut étudier les mailles locales du réseau, ce qui amène à un nombre important
de séries chronologiques à étudier. De plus, avec les changements d’habitude de consommation
et la crise économique, la consommation électrique en France évolue. Pour cette prévision, nous
adoptons ici une méthode semi-paramétrique à base de modèles additifs. L’objectif de ce travail
est de présenter des procédures automatiques de sélection et d’estimation de composantes d’un
modèle additif. Nous utilisons du Group LASSO, qui est, sous certaines conditions, consistant en
sélection, et des P-Splines, qui sont consistantes en estimation. Les procédures sont illustrées sur
des applications pratiques.
Estimation conjointe de plusieurs modèles de régression avec des pénalités `1
Vivian Viallon (Univ Lyon 1 - UMRESTTE - IFSTTAR), Edouard Ollier (Université Lyon
1)
Nous proposons une nouvelle approche, ainsi que des extensions, reposant sur l’utilisation de
pénalisation L1 avec comme objectif l’estimation conjointe de plusieurs modèles de régression. Ce
type de problème survient régulièrement en statistique appliquée, notamment en recherche clinique et en épidémiologie, lorsque les données proviennent de plusieurs strates d’observation. Un
des intérêts principaux de notre approche est qu’elle peut être réécrite comme un simple Lasso
pondéré sur une transformation des données originales. Son implémentation est de fait directe
sous une variété de modèles de régression puisqu’il suffit d’utiliser les packages R disponibles pour
l’implémentation du Lasso pondéré. Nous obtenons par ailleurs les propriétés oraculaires asymptotiques pour la version adaptative de notre approche, ainsi que des résultats non-asymptotiques
préliminaires. A travers une étude de simulations, nous établissons par ailleurs les bonnes propriétés empiriques de notre approche. Nous l’illustrons enfin sur un jeu de données en épidémiologie
du risque d’accident de la route.
Binarsity : prédiction en grande dimension via la sparsité induite par la
binarisation de variables
ElMokhtar EzZahdi Alaya (LSTA-UPMC), Stéphane Gaiffas (CMAP, Ecole Polytechnique),
Agathe Guilloux (LSTA, Université Pierre et Marie Curie)
Nous considérons le problème d’estimation d’une fonction de régression en grande dimension.
Pour cela, nous nous intéressons à la construction et à la mise en oeuvre d’une nouvelle notion de
sparsité nommée binarsity. Elle compte le nombre de valeurs différentes du vecteur de paramètres
à estimer dans un espace engendré par des variables binarisées. Nous introduisons une procédure
d’estimation basée sur une relaxation convexe avec poids de binarsity. Nous proposons des inégalités oracles pour cette procédure et un algorithme efficace pour la résolution du problème convexe
étudié.
64
Mardi 2 juin 2015
Une relaxation continue du rasoir d’Ockham pour la régression en grande
dimension
Pierre-Alexandre Mattei (MAP5, Université Paris Descartes), Pierre Latouche (SAMM, Université Paris 1 Panthéon-Sorbonne), Charles Bouveyron (MAP5, Université Paris Descartes),
Julien Chiquet (LaMME, Université d’Evry)
Nous considérons le problème de la régression parcimonieuse bayésienne. Dans ce cadre, un
modèle génératif est proposé dans lequel un a priori de type spike-and-slab est supposé sur le
paramètre de régression en multipliant un vecteur déterministe binaire, traduisant la parcimonie du problème, avec un vecteur aléatoire gaussien. Notre principale contribution consiste en
l’utilisation d’une méthode d’inférence approchée basée sur une relaxation continue simple du
modèle ainsi qu’un algorithme de type expectation-maximization. Nous pouvons ainsi maximiser
la vraisemblance marginale des donne ?es avant de sélectionner quelles variables sont pertinentes
grâce au rasoir d’Ockham. Des comparaisons numériques entre notre méthode (appelée spinyReg) et d’autres procédés de régression parcimonieuse (lasso, lasso adaptatif, stability selection
et spike-and-slab) sont présentées. Que ce soit sur données réelles ou simulées, l’approche choisie
se révèle être particulièrement efficace, tant en performances de prédiction que de sélection. Une
nouvelle base de données de régression en grande dimension est également présentée : il s’agit
de prédire le nombre de visiteurs du musée d’Orsay à une certaine heure en observant l’activité des 1200 stations Vélib’ de Paris. Dans ce cas, spinyReg permet de sélectionner efficacement
quelles stations sont particulièrement liées à la fréquentation du musée. Un paquet R implémentant
l’algorithme spinyReg est en cours de développement et est accessible à l’adresse https ://r-forge.rproject.org/projects/spinyreg.
16h35-17h35 - Enseignement, IUT STID
Les plans d’expériences : apprentissage actif
Céline Helbert (Institut Camille Jordan)
Nous proposons ici le témoignage de la conception d’un cours en école d’ingénieur où le problème réel, l’apprentissage actif et coopératif sont au coeur de l’aquisition des compétences. Outre
un déroulement plutôt classique (alternance cours-TP), le cours s’articule autour de deux temps
forts. Le premier temps fort consiste en un cours introductif, première séance de cours au format TD, où les élèves sont confrontés à trois problèmes relevant des plans d’expériences. Cette
séance permet d’identifier et de s’approprier le besoin d’outils de planification expérimentale. Le
deuxième temps fort consiste en une séance “étude de cas” où les élèves répartis par petits groupes
doivent apporter une solution à un problème réel posé par un commanditaire extérieur, disponnible sur place pour interagir avec eux. L’action se déroulant en temps limité, les étudiants ne
peuvent réussir qu’en coopérant et en interagissant fortement avec l’acteur industriel à l’origine
du problème. Les élèves, souvent déstabilisés en début de cours, ressortent avec des acquis solides
en plans d’expériences et des compétences développées en formalisation de problèmes.
Étude de cas en statistique et informatique décisionnelle : un exemple
basé sur une enquête en DUT STID
Frédérique Letué (LJK), Marlène Villanova-Oliver (STID Grenoble/LIG)
Dans le nouveau Programme Pédagogique National (PPN) du DUT STID figure un module
intitulé « étude de cas en statistique et informatique décisionnelle ». Si les projets tuteurés par
exemple constituent depuis toujours dans la formation une occasion d’associer au sein d’un même
cadre pédagogique la statistique et l’informatique, il s’agit ici d’instaurer un enseignement alliant
explicitement les deux disciplines. Nous présentons la première version de ce module, tel qu’il a
eu lieu à l’automne 2014 au sein du Département STID de Grenoble. Ce module s’adresse aux
étudiants de 2ème année de DUT et s’est tenu au cours du premier semestre. Nous détaillons
le contexte dans lequel s’inscrit le module en faisant le point sur les cours déjà dispensés à ce
65
Mardi 2 juin 2015
public en statistique et informatique au moment où a eu lieu le module. Celui-ci est ensuite plus
particulièrement présenté à travers son format, le cas sur lequel il s’appuie et son contenu. Nous
mettons ensuite en regard les attentes du cours et les difficultés rencontrées permettant ainsi de
dégager des pistes d’amelioration possibles.
Prix SFdS-STID : De l’automatisation d’un outil de pilotage à l’analyse
de la productivité au sein d’un call center
Gauthier Plault (IUT STID, Lyon)
16h35-17h35 - Plan d’expériences 1
Processus gaussiens déformés pour l’apprentissage de zones instationnaires
Sébastien Marmin (UniBerne-É.Cent.Marseille-IRSN), David Ginsbourger (Université de Berne),
Jean Baccou (IRSN), Frédéric Perales (IRSN), Jacques Liandrat (École Centrale de Marseille)
En planification d’expériences simulées, le recours à des méthodes de prédiction issues des
statistiques spatiales a fait ses preuves pour raffiner l’exploration de l’espace des variables dans
des régions d’intérêt. Les modèles considérés ici substituent la fonction inconnue par un processus
gaussien interpolant (krigeage). Dans ce contexte, la covariance des processus gaussiens est souvent
supposée stationnaire. Cette hypothèse peut conduire à des prédictions décevantes si le comportement de la réponse est très hétérogène en espace. Cette situation est rencontrée dans beaucoup
d’études en sûreté nucléaire, ce qui motivent cette présentation. La première partie est consacrée
à la comparaison et à la validation de modèles sur des données hautement non-stationnaires, provenant d’un code de calcul développé à l’IRSN simulant la fissuration de matériaux hétérogènes
et utilisé dans le cadre d’études relative au vieillissement des centrales nucléaires. Deux approches
connues de modélisation par processus gaussien non-stationnaires sont abordées : déformation de
l’espace des variables et combinaison localisée de plusieurs processus gaussiens. La deuxième partie est dédiée à la planification adaptative d’expériences pour l’exploration de zones de variations
brutales. Pour cela, nous définissons et comparons plusieurs critères qui sélectionnent les points
à évaluer dans des zones fortement non-stationnaires. Nous concluons en présentant les avancées
obtenues sur un cas test en mécanique de la fissuration d’un bimatériau.
The informational approach to global optimization in presence of very
noisy evaluation results. Application to the optimization of renewable
energy integration strategies
Héloïse Dutrieux (EDF R&D), Ivana Aleksovska (CentraleSupelec), Julien Bect (L2S), Emmanuel Vazquez (L2S), Gauthier Delille (EDF R&D), Bruno François (L2EP)
Nous considérons le problème de l’optimisation globale d’une fonction f à partir d’évaluations
très bruitées. Nous adoptons un point de vue bayésien séquentiel : les points d’évaluation sont choisis de manière à réduire l’incertitude sur la position de l’optimum global de f , cette incertitude
étant mesurée par l’entropie de la variable aléatoire correspondante (Informational Approach to
Global Optimization, Villemonteix et al., 2009). Lorsque les évaluations sont très bruitées, l’erreur
d’estimation de l’entropie par simulation conditionnelle devient non négligeable par rapport à ses
variations sur son domaine de définition. Nous proposons une solution à ce problème en choisissant les points d’évaluation comme si plusieurs évaluations allaient être faites en ces points. Une
application à l’optimisation d’une stratégie d’insertion des énergies renouvelables dans un réseau
de distribution d’électricité illustre la méthode proposée.
66
Mardi 2 juin 2015
Estimation des mesures de sensibilité globale basées sur les dérivées via
un métamodèle par processus gaussien
Matthias De Lozzo (CEA), Amandine Marrel (CEA)
Les phénomènes physiques sont souvent étudiés via des simulateurs numériques aux entrées
incertaines, dont les impacts sur la sortie peuvent être quantifiés grâce à une analyse de sensibilité
globale (GSA). Les indices de Sobol, basés sur une décomposition de la variance de sortie, sont
souvent utilisés pour une GSA quantitative. Récemment, des mesures de sensibilité globale basées
sur les dérivées (DGSMs), avec un sens plus physique, ont été étudiées. Cependant, les simulateurs
fournissent rarement le gradient de la sortie, compliquant l’estimation des DGSMs. Pour pallier ce
problème, nous estimons les DGSMs via un métamodèle par processus gaussien (GPM) approchant
le simulateur. Nous proposons deux estimateurs de DGSM basés sur ce GPM : un estimateur
plug-in défini par le DGSM du prédicteur du GPM et un autre estimateur défini par l’espérance
du DGSM associé à une instance du GPM, pouvant s’accompagner d’un intervalle de confiance.
Pour des noyaux gaussiens et des lois uniformes, des formules analytiques sont données pour
ces estimateurs. Pour les autres situations, des méthodes d’estimation de type Monte-Carlo sont
proposées : une version propagative de l’échantillonneur de Gibbs et une approximation par loi du
chi-deux. Un test de significativité est également construit pour le criblage, permettant d’isoler
les entrées non influentes. La convergence des estimateurs et les méthodes de Monte-Carlo sont
comparées sur une fonction analytique. Enfin, ces développements sont appliqués à un modèle de
transport hydrogéologique de strontium 90, montrant l’intérêt du test de significativité et discutant
du sens des DGSMs.
16h35-17h35 - AMIES 2 - Témoignages
CorReg : prétraitement en régression linéaire par modélisation explicite
des corrélations. Application aux variables manquantes
Clément Théry (ArcelorMittal), Christophe Biernacki (Lille 1, Inria), Gaétan Loridant (ArcelorMittal)
La régression linéaire suppose en général l’usage de variables explicatives décorrélées, hypothèse souvent irréaliste pour les bases de données d’origine industrielle où les corrélations sont
nombreuses et mènent à des estimateurs dégénérés. Le modèle proposé explicite les corrélations
présentes sous la forme d’une famille de régressions linéaires entre covariables, permettant d’obtenir par marginalisation un modèle de régression parcimonieux libéré des corrélations, facilement
interprétable et compatible avec les méthodes de sélection de variables. La structure de corrélations
est estimée à l’aide d’un algorithme MCMC qui maximise la vraisemblance de la loi marginale sur
les données. Un package R dénommé CorReg (sur le CRAN) permet la mise en oeuvre de cette
méthode. La puissance CorReg repose sur le couple modèle génératif / modélisation automatique
et explicite des corrélations multiples. Le modèle génératif sur les données et la modélisation explicite des corrélations permettent de gérer les valeurs manquantes, c’est cette conséquence de
CorReg qui sera présentée.
Modèle linéaire généralisé hiérarchique Gamma-Poisson à 3 facteurs aléatoires. Application au contrôle de qualité
Florence Loingeville (Inria Lille - Nord Europe), Julien Jacques (Université Lumière Lyon
2), Cristian Preda (Laboratoire Paul Painlevé), Philippe Guarini (AGLAE), Olivier Molinier
(AGLAE)
Le dénombrement de particules dans une phase homogène est idéalement représenté par la
loi de Poisson. En pratique, il s’avère pourtant que la dispersion des résultats de dénombrements
de germes est supérieure à celle attendue d’après le modèle de Poisson. Nous proposons dans ce
67
Mardi 2 juin 2015
travail un Modèle Linéaire Généralisé Hiérarchique Gamma-Poisson à trois facteurs aléatoires, afin
d’estimer les dispersions induites par les différents facteurs d’un essai interlaboratoires.
Intégration de données hétérogènes pour l’identification de signatures
moléculaires : une approche par score-local
Marine Jeanmougin (Institut Curie), Mickael Guedj (Pharnext), Christophe Ambroise (Laboratoire de Mathématiques et Modélisation d’Evry (UMR 8071))
Au cours de la dernière décennie, les progrès en Biologie Moléculaire ont favorisé l’essor de techniques d’investigation à haut-débit. En particulier, l’étude du transcriptome à travers les puces à
ADN ou les nouvelles technologies de séquençage, a permis des avancées majeures dans les sciences
du vivant et la recherche médicale. Dans ces travaux, nous nous intéressons au problème de sélection d’un ensemble de gènes d’intérêt, aussi appelés ’signature moléculaire’. De telles signatures
sont utilisées en recherche médicale, et en particulier en oncologie, pour le diagnostic et le pronostic
ainsi que pour l’identification de nouvelles cibles thérapeutiques. Afin de pallier les limites des méthodes classiques de sélection de gènes qui s’avèrent peu reproductibles, nous présentons un nouvel
outil, DiAMS (DIsease Associated Modules Selection), dédié à l’identification de modules enrichis
en gènes significativement associés à la maladie. DiAMS repose sur une extension du score-local
et permet l’intégration de données d’expressions et de données d’interactions protéiques. Dans cet
exposé, nous détaillerons les différents principes de cette approche et proposerons une stratégie
de simulation afin d’évaluer les performances de notre méthode, en terme de puissance, de taux
d’erreur de type I et de reproductibilité. DiAMS sera ensuite intégré dans un pipeline d’analyse
que nous appliquerons à l’étude de la rechute métastatique dans le cancer du sein.
16h35-17h35 - Régression logistique
Nouveaux modèles de choix qualitatifs prenant en compte des caractéristiques individuelles et des caractéristiques de choix
Jean Peyhardi (Université de Montpellier)
En économétrie, les modèles logit multinomial et logit conditionnel sont des modèles de choix
qualitatifs très utilisés qui prennent en compte respectivement des caractéristiques individuelles et
des caractéristiques de choix. Ils se différencient par leur paramétrisation bien qu’ils partagent la
fonction de lien canonique. Cette fonction de lien se décompose en le ratio de probabilités référence
et la fonction de répartition logistique. Nous proposons alors de conserver le ratio référence, approprié pour des modalités de choix qualitatives, mais de sélectionner la fonction de répartition parmi
une plus grande famille, contenant par exemple celle associée à la loi de Student. Ces nouveaux
modèles donnent bien souvent de meilleurs résultats que les modèles classiques et restent pour
autant facilement estimables et interprétables. Ceci est vérifié sur un jeu de données classique sur
les modes de transport entre Sydney et Melbourne.
Courbes de prédictivité appliquées au criblage virtuel
Charly Empereur-Mot (CNAM - Lab. GBA), Hélène Guillemain (CNAM - Lab. GBA), Aurélien Latouche (CNAM - Lab. CEDRIC), Jean-François Zagury (CNAM - Lab. GBA), Vivian
Viallon (Univ Lyon 1 - UMRESTTE - IFSTTAR), Matthieu Montes (CNAM - Lab. GBA)
Le criblage virtuel permet de calculer des scores d’affinité de liaison entre une vaste bibliothèque
de molécules et une cible d’intérêt thérapeutique. Il est utilisé extensivement dans le processus de
conception de médicaments afin de réduire le nombre de molécules à tester expérimentalement.
La métrique de référence pour une évaluation comparative des performances des méthodes de
criblage virtuel est la courbe de ROC, qui permet d’évaluer la performance globale d’une méthode
à mieux classer les molécules actives qu’inactives dans des tests rétrospectifs. Cependant, elle ne
prend pas en compte la dispersion des scores d’affinité, complexifiant la détermination de valeurs
68
Mardi 2 juin 2015
de score à utiliser pour sélectionner des composés à tester expérimentalement lors de criblages
prospectifs. Il existe une métrique de référence dans le domaine de l’épidémiologie, la courbe
de prédictivité, qui permet d’estimer 1. la capacité prédictive de marqueurs biologiques pour le
diagnostic d’une maladie et 2. leurs valeurs seuils justifiant des examens plus poussés ou plus
invasifs. En transférant cette métrique au domaine du criblage virtuel, il est possible d’estimer la
capacité prédictive d’une méthode de criblage au-delà d’un quantile de scores, ainsi que la valeur
de score seuil pour laquelle nous avons une bonne confiance en cette capacité prédictive, pertinente
pour la sélection des molécules à tester expérimentalement lors de criblages virtuels prospectifs.
Nous proposons l’utilisons des courbes de prédictivité, reposant sur des modèles de régression
logistique, pour compléter les outils d’analyse des résultats de criblage virtuel.
Adaptive sparse PLS for logistic regression
Ghislain Durif (Université Lyon 1 – LBBE), Franck Picard (Université Lyon 1 – LBBE),
Sophie Lambert-Lacroix (UMR 5525 UPMF)
Depuis quelques années, l’analyse de données rencontrent des problématiques liées à la grande
dimension. Dans ce contexte, c’est-à-dire quand le nombre de variables considérées est bien supérieures au nombre d’observations dans l’échantillon, les méthodes classiques de classification sont
inappropriées, ce qui appelle au développement de nouvelles méthodologies. Je présenterai une
nouvelle méthode appropriée pour la classification en grande dimension. Elle utilise la régression
sparse Partial Least Squares ou SPLS, réalisant compression et sélection de variables combinés à
une régression logistique pénalisée par Ridge. Par des simulations, nous montrons la précision, la
stabilité et la convergence de notre méthode, comparé à d’autres approches dans l’état de l’art.
En particulier, il apparaît que la compression améliore l’exactitude de la sélection, et que notre
méthode est plus stable concernant le choix des hyper-paramêtres par validation croisée, contrairement aux approches réalisant la classification avec la sparse PLS.
69
Mercredi 3 juin 2015
08h30-09h30 - Peter Hoff
Bayes and empirical Bayes methods for tensor data
Peter Hoff (University of Washington)
Many modern multivariate datasets are naturally represented as arrays or tensors. For example,
multivariate and/or longitudinal network data may be represented as a multiway data array. In
this talk I will discuss some tools for modeling such data, such as the array normal distribution,
reduced-rank tensor models and Stein estimation. Regarding the array normal distribution, we
will consider applications such as ANOVA and factor analysis, and discuss priors that provide
optimal equivariant inference. For mean estimation, we will discuss methods for dimension-specific
eigenvalue shrinkage, and extensions of these methods to accommodate ordinal array-valued data.
08h30-09h30 - Arthur Gretton
Kernel nonparametric tests of homogeneity, independence and multivariable interaction
Arthur Gretton (University College London)
We consider three nonparametric hypothesis testing problems : (1) Given samples from distributions p and q, a homogeneity test determines whether to accept or reject p=q ; (2) Given a
joint distribution pxy over random variables x and y, an independence test investigates whether
pxy = px py , (3) Given a joint distribution over several variables, we may test for whether there
exist a factorization (e.g., Pxyz = Pxy Pz , or for the case of total independence, Pxyz = Px Py Pz ).
The final test (3) is of particular interest in fitting directed graphical models, as it may be used
in detecting cases where two independent causes individually have weak influence on a third dependent variable, but their combined effect has a strong influence, even when these variables have
high dimension. We present nonparametric tests for the three cases described, based on distances
between embeddings of probability measures to reproducing kernel Hilbert spaces (RKHS), which
constitute the test statistics (eg for independence, the distance is between the embedding of the
joint, and that of the product of the marginals). The tests benefit from decades of machine research on kernels for various domains, and thus apply to distributions on high dimensional vectors,
images, strings, graphs, groups, and semigroups, among others. The energy distance and distance
covariance statistics are particular instances of these RKHS statistics.
09h35-10h35 - Prix Marie-Jeanne Laurent-Duhamel (Mélanie
Prague)
Utilisation des modèles dynamiques pour l’optimisation des traitements
des patients infectés par le VIH
Mélanie Prague (Harvard T. H. Chan)
De nos jours, la plupart des patients infectés par le VIH ont une charge virale qui peut être rendue indétectable par des combinaisons antirétrovirales hautement actives (cART) ; cependant, il
existe des effets secondaires de ces traitements qui doivent être pris à vie. L’utilisation des modèles
mécanistes dynamiques basés sur des équations différentielles ordinaires (ODE) a considérablement
amélioré les connaissances de la dynamique HIV-système immunitaire et permet désormais d’envisager une personnalisation du traitement. L’objectif de ces travaux de thèse est d’améliorer les
techniques statistiques d’estimation de paramètres dans les modèles mécanistes dynamiques afin
de proposer des stratégies de surveillance et d’optimisation des traitements chez les patients infectés par le VIH. Dans une première partie, nous présentons les problématiques d’inférence dans les
modèles ODE avec effets mixtes sur les paramètres. Nous introduisons un algorithme d’estimation
bayésienne basé sur une maximisation de la vraisemblance pénalisée puis un programme associé
71
Mercredi 3 juin 2015
NIMROD. Nous montrons la puissance des approches mécanistes dynamiques concernant l’évaluation des effets traitements par rapport aux méthodes descriptives basées sur des modèles de
regression d’analyse des trajectoires des biomarqueurs. Dans une deuxième partie, nous définissons
le modèle à cellules cibles : un système ODE à 4 compartiments décrivant la dynamique du VIH,
des CD4 quiescents, activés et activés-infectés. Nous l’ajustons sur des données cliniques et nous
montrons qu’il possède de bonnes capacités prédictives. Nous proposons une preuve de concept
de la possibilité de contrôler individuellement la dose de traitement. Cette stratégie adaptative
tire parti des critères de stabilité des modèles ODE et réajuste la dose du patient en fonction
de sa réaction à la dose précédente par une procédure bayésienne. Pour finir, nous introduisons
les différents facteurs, en particulier génétiques et pharmacologiques, à prendre en compte pour
envisager l’ individualisation des changements de cART. Ce travail passe par la quantification in
vivo d’effets de cART en utilisant des indicateurs d’activité antivirale établis in vitro.
10h50-11h50 - Études de cas
Penalized MDF for protein movement detection
Hiba Alawieh (Université Lille 1), Nicolas Wicker (Université Lille 1), Baydaa Al Ayoubi
(Université Libanaise), Luc Moulinier (ICube/LBGI)
La structure tridimensionnelle des protéines peut prendre différentes conformations qui dépendent des réactions qu’elles subissent. Plusieurs méthodes existent pour étudier ces changements
conformationnels, mais une seule, appelée DynDom, est clairement consacrée à la détection de mouvement et elle est dirigé vers la détection biaisée des domaines de mouvement. Nous proposons
une méthode alternative fondée sur l’analyse multivariée des données, en pénalisant une méthode
d’analyse multidimensionnelle qui s’appelle ’Multidimensional fitting’ (MDF). L’idée consiste à
approcher les distances de la première conformation aux distances de la seconde conformation en
ne modifiant que la matrice de coordonnées de la première structure. Cette méthode est appliquée
sur des protéines différents.
Conservative estimates of excursion sets in reliability engineering
Dario Azzimonti (IMSV University of Bern), David Ginsbourger (Department of Mathematics
and Statistics, University of Bern), Clément Chevalier (University of Zurich), Yann Richet (IRSN)
Dans le cadre de la modélisation par processus Gaussiens, nous nous penchons sur un problème
d’estimation d’ensemble d’excursion pour une fonction chère à évaluer. L’espérance de Vorob’ev,
récemment revisitée dans ce contexte, donne une estimation de l’ensemble d’excursion sous une
contrainte de volume égal au volume d’excursion moyen, mais ne permet pas directement de tirer des conclusions en termes d’ensemble de confiance. L’espérance de Vorob’ev est en effet un
ensemble de niveau particulier de la probabilité de couverture, c’est à dire d’une probabilité marginale de dépassement de seuil pour le champ Gaussien sous-jacent. Il a été montré récemment en
se concentrant plus spécifiquement sur les probabilités jointes d’excursion en plusieurs points qu’il
était possible de construire des ensembles de confiance dans le cas des champs Gaussiens Markoviens. De tels ensembles de confiance sont définis comme ensembles de volume maximal parmi
les ensembles de probabilité donnée d’être contenu dans l’ensemble d’excursion. Nous étendons ici
cette approche au cas non-Markovien et explorons plusieurs pistes pour améliorer le calcul de la
probabilité jointe d’excursion en plusieurs points. De plus, nous appliquons cette méthode pour
obtenir une estimation conservative de l’ensemble des configurations sûres dans le cadre d’un cas
test IRSN en sûreté-criticité nucléaire. Nous introduisons finalement une stratégie de réduction
d’incertitude pour l’estimation conservative séquentielle d’un ensemble d’excursion.
Etude de cas pour la modélisation de la consommation domestique d’eau
chaude
Aurore Lomet (CEA), Frédéric Suard (CEA), David Chèze (CEA)
72
Mercredi 3 juin 2015
Ce papier présente une étude sur la modélisation de la consommation d’eau chaude sanitaire
(ECS) de résidences équipées de ballons d’eau. L’objectif est de prévoir les besoins journaliers des
habitants afin d’anticiper ces besoins dans un système de pilotage visant à réduire les dépenses
énergétiques. Dans le cadre de cette étude, les usages réels de plusieurs résidences en France ont
été analysés sur une période de deux ans. Les données mesurent en continu le volume journalier
consommé, la température à l’entrée et à la sortie du ballon par jour. Cette étude préliminaire a
mis en évidence la présence de variations aléatoires, une faible influence saisonnière, une périodicité
d’une semaine pour l’ensemble des résidences qui sont cependant distinctes par différents profils
journaliers suivant la résidence observée et le jour de la semaine. N’ayant aucune information
a priori, nous proposons des modèles de séries temporelles avec une partie auto-régressive dont
la forme est basée sur l’analyse de données. Les estimations de ces modèles nécessitent peu de
ressources et peuvent être aisément embarquées. Ces modèles sont comparés à l’état de l’art sur
l’ensemble des données réelles disponibles et sur des données de consommation de résidences en
Suède. Les résultats montrent une nette amélioration de la qualité de la prévision pour les processus
auto-régressifs et la généricité de notre approche.
10h50-12h30 - Enseignement et Big Data
Le mastère spécialisé big data de Télécom ParisTech
Stephan Clémençon (Télécom ParisTech)
Les espoirs, comme les craintes, suscitées par le Big Data, la perspective d’usages maîtrisés de
megadonnées désormais perçues comme un levier de progrès et d’innovation dans de nombreux
secteurs invitent les équipes académiques à definir de nouveaux programmes de formation, interdisciplinaires, associant technique (mathématiques et informatique) et réflexion strategique (aspects
légaux, création de valeur économique, cas d’usage) en collaboration étroite avec l’Industrie et les
Services.
Enseigner la statistique pour l’analyse de mégadonnées
Philippe Besse (Université de Toulouse, INSA & IMT, UMR CNRS 5219), Nathalie VillaVialaneix (INRA, UR 875 MIAT, Toulouse), Anne Ruiz-Gazen (Gremaq (TSE))
L’objectif de cette communication est un retour d’expérience sur l’introduction d’un cours
et/ou de notions liées à l’analyse des mégadonnées ’Big Data’ et abordant les notions d’exploration,
apprentissage, parallélisme dans ce contexte. Plus précisément, nous décrirons deux cours de ce
type, que nous avons conçus en collaboration bien que leurs contextes, contenus et organisations
diffèrent. Il s’agit, d’une part des modules d’Exploration et Logiciels Statistiques (4ème année)
et d’Apprentissage Statistique 5ème année) du cursus Génie Mathématiques et Modélisation de
l’INSA de Toulouse et, d’autre part, d’un cours de ’Multivariate data analysis - Big data analytics’
dispensé en 1ère année du master ’Economics and Statistics’ de Toulouse School of Economics.
Notre objectif, outre une introduction basique à la problématique enseignée, est de montrer les
difficultés, matérielles et pédagogiques, auxquelles se heurte l’enseignant statisticien pour aborder
ces concepts et de présenter quelques choix que nous avons faits et la manière dont ils ont été
reçus par les étudiants.
Un DU d’analyste big data en formation continue courte au niveau L3
Jean-Michel Poggi (Université Paris Descartes), Charles Bouveyron (MAP5, Université Paris
Descartes), Georges Hébrail (EDF), François-Xavier Jollois (Université Paris Descartes)
Nous présentons le diplôme d’université (DU) Analyste Big Data, délivré depuis cette année par
le département STID de l’IUT de l’Université Paris Descartes. D’un volume global de 150h, réservé
aux apprenants en formation continue courte, au niveau L3, il constitue une voie de diplomation
originale dans ce domaine émergent. Constitué de 5 modules, le DU est articulé autour de deux
modules plutôt dédiés aux méthodes informatiques, deux plutôt statistiques qui font la part belle
73
Mercredi 3 juin 2015
aux données de type « open data » et à la fouille des réseaux sociaux, et un dernier module dédié
aux enjeux cruciaux concernant la qualité et la confidentialité des données. Il s’agit d’orienter
fortement vers la mise en oeuvre des outils liés à ce sujet émergent. Ainsi plus d’une moitié
des intervenants sont issus du monde économique et industriel, en collaboration avec une équipe
académique mélangeant statisticiens et informaticiens.
Systèmes de recommandations : algorithmes de bandits et évaluation
expérimentale
Jonathan Louëdec (IMT-IRIT / Université Paul Sabatier), Max Chevalier (IRIT / Université Paul Sabatier), Aurélien Garivier (IMT / Université Paul Sabatier), Josiane Mothe (IRIT /
Université Paul Sabatier)
Les systèmes de recommandation à très grande échelle sont aujourd’hui omniprésents sur internet : ouvrages conseillés à l’achat dans les librairies en ligne, articles recommandés sur les sites
d’information, sans parler des cadres publicitaires qui financent l’essentiel de très nombreux sites
aujourd’hui... Trouver la meilleure recommandation à faire à un visiteur peut être considéré comme
un ’problème de bandits’ : il faut en même temps apprendre ses préférences, et utiliser les interactions déjà passées pour maximiser le nombre de recommandations suivies, tout en restant capable
de gérer des flux de données très importants. Nous présentons ici quelques-uns des algorithmes
les plus célèbres pour résoudre ce type de problèmes, et notamment l’algorithme UCB (upperconfidence bound), l’algorithme EXP3 (Exponential weights for Exploration and Exploitation) et
le Thompson Sampling (du nom de l’inventeur, au début des années trente, de cette méthode
d’inspiration bayésienne). Leurs mérites respectifs sont soulignés et discutés, avec la présentation
des résultats théoriques les plus importants les concernant. En outre, nous montrerons comment
expérimenter l’efficacité de ces méthodes pour la recommandation : ceci pose une difficulté particulière, car des jeux de données statiques rendent peu aisée l’évaluation de méthodes vouées à
servir lors d’interactions avec des utilisateurs. Nous montrerons en particulier comment mettre en
place des expériences sur deux jeux de données célèbres : movielens et jester.
Pourquoi et comment enseigner l’analyse de données massives (Big Data)
Chloé Friguet (IUT de Vannes), Frédérique Letué (LJK), Vincent Vandewalle (IUT de Roubaix)
Les dernières années ont connu une grande effervescence autour du « big data » ou données
massives. Celles-ci soulèvent de nouveaux enjeux scientifiques autour des problèmes de stockage
des données (volume des données massives), de leur hétérogénéité (variété) et de leur traitement
en temps réel (vélocité). Ces enjeux relèvent de l’informatique, mais aussi de la statistique. Face
à ce défi, de nombreux établissements proposent aujourd’hui des modules, voire des formations
entières dédiées au “big data”, la demande en spécialistes de ce nouveau domaine étant très forte.
La table ronde proposée abordera les enjeux pédagogiques liés à ces nouvelles formations.
10h50-12h30 - Données fonctionnelles
Estimation robuste de courbes moyennes de consommations électriques
par sondage en population finie
Anne De Moliner (EDF R&D), Hervé Cardot (Université de Bourgogne), Camelia Goga (Université de Bourgogne)
De nombreuses études menées à EDF RetD se basent sur l’analyse de courbes de consommations électriques moyennes pour différents groupes de clients. Ces courbes moyennes sont estimées
à l’aide de panels de milliers de courbes individuelles, sélectionnées selon un plan de sondage, et
mesurées au pas de temps demi-horaire. Cependant, du fait de la forte asymétrie des consommations électriques, ces échantillons contiennent fréquemment des individus atypiques, qui peuvent
avoir à eux seuls un impact important sur les estimations, en particulier lorsque l’on travaille sur
74
Mercredi 3 juin 2015
de petites sous-populations. Afin de limiter l’influence de ces individus atypiques, nous avons testé
quatre estimateurs basés sur le concept de biais conditionnel permettant d’adapter les méthodes
d’estimation robuste en sondages (Beaumont et al (2013)) au cadre des données fonctionnelles.
Pour cela, on propose soit d’utiliser la notion de profondeur afin de réaliser la troncature des
influences de manière cohérente entre les différents instants, soit de se ramener au cas de variables
non corrélées par une Analyse en Composantes Principales Sphérique (Locantore (1999)). Ces
estimateurs sont comparés entre eux et à des estimateurs non robustes sur des données réelles.
Sur le calcul d’une moyenne de surfaces fonctionnelles
Benjamin Charlier (I3M -Université de Montpellier), Nicolas Charon (Center for Imaging
Sciences, Johns Hopkins University), Alain Trouvé (Centre de Mathématiques et Leurs Applications, École Normale Supérieure de Cachan)
On appelle surface fonctionnelle une surface géométrique sur laquelle est définie une fonction à
valeurs réelles. Ce type de données, très courant en imagerie médicale, reste complexe à étudier d’un
point de vue statistique. Pour analyser un jeu de données composé de surfaces fonctionnelles, il est
nécessaire de modéliser et de quantifier les variations géométriques et fonctionnelles de manières
jointes. Dans cet exposé, nous décrivons un cadre mathématique et numérique pour calculer une
moyenne de surfaces fonctionnelles à la manière des modèles statistiques de déformations. Le cadre
mathématique permet de montrer que les formulations variationnelles proposées pour résoudre ce
problème possèdent bien des solutions. Une méthode de résolution algorithmique est implémentée
dans le logiciel fshapesTk qui est disponible en ligne.
Régression linéaire fonctionnelle bayésienne explicable
Paul-Marie Grollemund (Université de Montpellier), Christophe Abraham (UMR Mistea, Montpellier SupAgro - INRA), Meïli Baragatti (UMR Mistea, Montpellier SupAgro - INRA), Pierre
Pudlo (I3M, UMR CNRS 5149, Université de Montpellier)
Nous nous plaçons dans le cadre d’un modèle de régression linéaire où la variable à expliquer est
réelle et la covariable est fonctionnelle. Nous proposons un modèle bayésien basé sur la projection
de ce paramètre dans une base d’histogrammes parcimonieuse et adaptative. Afin d’obtenir une
estimation de la fonction coefficient explicable, nous sommes aussi amenés à introduire une nouvelle
fonction de coût. Certaines grandeurs du modèle proposé étant analytiquement intractables, il
est nécessaire en pratique d’utiliser des stratégies MCMC pour les déterminer. La structure des
estimations obtenues facilite, autant qu’il soit possible, leur interprétation.
Modélisation non paramétrique de la régression pour variables explicatives fonctionnelles avec autocorrélation des erreurs
Camille Ternynck (Masdar Institute - iWater), Sophie Dabo-Niang (Université de Lille), Serge
Guillas (University College London)
Dans cette présentation, nous introduisons une nouvelle approche basée sur l’estimateur à
noyau pour estimer le modèle de régression non linéaire en présence de variables réponses réelles
et de variables explicatives à valeurs dans un espace fonctionnel. Par ailleurs, le processus résiduel
est considéré stationnaire et autocorrélé. La procédure consiste à pré-blanchir la variable dépendante en se basant sur l’autocorrélation estimée. L’idée principale est de transformer le modèle de
régression original de sorte que le terme d’erreur du modèle transformé devienne non corrélé. Nous
établissons la convergence de l’estimateur de la régression ainsi que sa normalité asymptotique en
considérant de variables explicatives a-mélangeantes, le cas le plus général de variables faiblement
dépendantes. Bien que, dans la littérature sur les méthodes à noyau, il est généralement préférable
d’ignorer entièrement la structure de corrélation, nous montrons ici que la fonction d’autocorrélation du processus des erreurs apporte de l’information utile permettant d’améliorer l’estimation de
la fonction de régression. Nous appliquons l’estimateur proposé à des données simulées ainsi qu’à
des données de concentration en ozone dans l’air. Lorsque le processus des erreurs présente une
75
Mercredi 3 juin 2015
forte corrélation, nous constatons que notre procédure permet d’améliorer les résultats obtenus
avec l’estimateur classique.
Classification des hydrogrammes avec des outils de l’analyse de données
fonctionnelles
Camille Ternynck (Masdar Institute - iWater), Mohammed Ali Ben Alaya (Institut National de
la Recherche Scientifique), Fateh Chebana (Institut National de la Recherche Scientifique), Sophie
Dabo-Niang (Université de Lille), Taha B.M.J. Ouarda (Masdar Institute - iWater)
La classification des hydrogrammes de débit joue un rôle important dans un grand nombre
d’études hydrologiques et hydrauliques. Elle permet, par exemple, de prendre des décisions quant
à l’implémentation de structures hydrauliques, de caractériser différents types de crues induisant
une meilleure compréhension des comportements extrêmes des débits. Les méthodes employées
pour classifier les hydrogrammes sont généralement basées sur un nombre fini de caractéristiques
de l’hydrogramme, n’incluant pas toute l’information disponible contenue dans la série de données. Dans ce travail, nous adaptons et appliquons trois méthodes statistiques de classification
pour données fonctionnelles pour l’analyse des hydrogrammes de débit. La classification fonctionnelle emploie directement toutes les données de la série étudiée et utilise toute l’information
disponible sur la forme, le pic, la date, etc. Les méthodes sont appliquées aux données provenant
de la province du Québec, Canada. Nous montrons que les classes obtenues en utilisant la méthodologie fonctionnelle présentent de l’intérêt et peuvent mener à une meilleure représentation
que celles obtenues en utilisant une méthode multidimensionnelle hiérarchique usuelle. L’approche
fonctionnelle présente l’avantage d’utiliser toute l’information contenue dans l’hydrogramme, réduisant ainsi la subjectivité inhérente à l’analyse multidimensionnelle sur le type et le nombre de
caractéristiques à utiliser, et par conséquent diminuant l’incertitude associée.
10h50-12h30 - Modèles de mélange
Nonparametric mixture models with conditionally independent multivariate component densities
Lynh V.T.Hoang (Université d’Orleans, France), Didier Chauveau (Université d’Orleans, France)
Les mélanges non-paramétriques font l’objet de nombreux travaux récents, portants sur la
détermination de modèles identifiables ainsi que de méthodes d’estimation souvent fondées sur le
principe de l’algorithme EM. Ces modèles sont plus flexibles que les mélanges paramétriques car les
densités des composantes y sont semi- ou totalement non-paramétriques. Dans le cas d’observations
multivariées, l’hypothèse communément posée afin d’assurer l’identifiabilité consiste à admettre
que les coordonnées sont indépendantes, conditionnellement à la sous-population de provenance des
individus. Or dans de nombreux cas cette hypothèse n’est pas raisonnable. Nous proposons ici un
nouveau modèle de mélange multivarié, dans lequel les densités des composantes sont composées
de blocs indépendants conditionnellement à la sous-population, mais eux-mêmes multivariés et
non-paramétriques. Ce modèle est identifiable, et nous définissons un algorithme de type ’EM non
paramétrique’ incluant une stratégie de choix de fenêtres, afin d’en estimer les paramètres. Les
performances de ce modèle et cet algorithme sont illustrés au travers de simulations et d’une étude
sur un jeu de données réel pour un objectif de classification.
Classification de données binaires via l’introduction de mesures de similarités dans les modèles de mélange
Seydou Nourou Sylla (Inria- IRD- UGB), Stephane GIrard (Inria Grenoble), Abdou Ka Diongue
(UGB), Aldiouma Diallo (IRD), Cheikh Sokhna (IRD)
Les évaluations dans le domaine sanitaire font de plus en plus appel aux données relatives aux
causes de décès provenant des autopsies verbales dans les pays ne tenant pas de registres d’état
76
Mercredi 3 juin 2015
civil ou disposant de registres incomplets. La méthode d’autopsie verbale permet de disposer
des causes probables de décès. Cette communication présente une méthode de classification sur
des données binaires de diagnostics par autopsie verbale dans les zones de Niakhar, Bandafassi et
Mlomp (Sénégal). Cette méthode combine l’utilisation de mesures de similarités avec une méthode
de classification récente basée sur l’introduction d’un noyau dans le modèle de mélange gaussien.
Transformation des données et comparaison de modèles pour la classification des données RNA-seq
Mélina Gallopin (Université Paris Sud 11, Orsay), Andrea Rau (INRA, Jouy-en-Josas), Gilles
Celeux (Inria, Saclay Ile-de-France), Florence Jaffrézic (INRA, Jouy-en-Josas)
Les données d’expression issues du séquençage haut-débit RNAseq sont des données de comptage très hétérogènes. Il est naturel de les représenter par des modèles basés sur des lois discrètes
comme la loi de Poisson ou la loi binomiale négative. Mais des transformations simples des données peuvent permettre de se ramener à des modèles plus répandus fondés sur des lois gaussiennes.
Nous montrons comment comparer objectivement les vraisemblances de ces modèles travaillant
sur des données différentes. Nous nous focalisons pour mener ces comparaisons sur des problèmes
de classification où les mélanges de Poisson et gaussiens peuvent être mis en compétition.
Estimation de l’apparentement entre plusieurs individus à l’aide d’un
algorithme EM
Fabien Laporte (INRA, UMR 0320 / UMR 8120), Alain Charcosset (INRA, UMR 0320 /
UMR 8120 Génétique Quantitative et Evolution), Tristan Mary-Huard (INRA/AgroParisTech,
UMR 518, 75231, Paris, France)
L’apparentement entre deux individus est une distribution de probabilités liée au nombre d’allèles hérités d’un ou plusieurs ancêtres communs. Ce concept a de multiple applications en génétique, dont l’étude de la génétique d’association, Yu (2006) ou la médecine légale. Plus récemment,
la matrice d’apparentements a aussi été utilisée en prédiction génomique. Dans cette présentation,
nous nous focaliserons sur l’estimation proposée par Milligan (2002) qui modélise le problème d’estimation à l’aide d’un modèle de mélange. Dans ce modèle, les variables observées sont 4 allèles qui
définissent un mode IBS (Identity by State). Les variables cachées sont les origines ancestrales des
allèles, qui définissent un mode IBD (Identity by Descent) du marqueur. L’objectif est d’estimer
les proportions des modes IBD sur l’ensemble des marqueurs. Milligan suppose que les marqueurs
sont multialléliques (plus de 3 allèles). En considérant que les marqueurs bialléliques sont largement utilisés, et que l’information des marqueurs peut être phasée (i.e. l’origine du gamète de
l’allèle est connue), nous étendons l’approche à ces hypothèses. Nous l’étendons aussi au cas où les
individus sont originaires de populations différentes, ce qui n’est pas pris en compte par la plupart
des modèles d’estimation de l’apparentement. Cette méthode d’estimation sera disponible dans
un package R. Les temps de calcul et les performances de ce dernier sont illustrés sur des données
simulées.
Choix de modèles quand la vraisemblance est incalculable
Christine Keribin (Université Paris Sud, Laboratoire de Mathématiques d’Orsay)
Les critères pénalisés comme le critère BIC sont des méthodes fréquemment utilisées pour la
sélection de modèles et qui nécessitent le calcul de la vraisemblance. Malheureusement, il peut arriver que la vraisemblance ne soit pas numériquement calculable, comme c’est le cas par exemple
pour le modèle des blocs latents (LBM). LBM est un modèle de mélange pour la classification croisée (co-clustering), permettant la classification non supervisée simultanée des lignes et colonnes
de grandes matrices de données. A cause de la structure de dépendance complexe entre les variables d’appartenance à une classe en ligne et en colonne conditionnellement aux observations, il
est nécessaire d’opérer des approximations pour calculer l’étape d’estimation de l’algorithme EM,
77
Mercredi 3 juin 2015
conduisant ainsi à un minorant de la vraisemblance maximisée. Pour la même raison, l’approximation asymptotique usuelle pour définir le critère BIC doit être remise en question. D’un autre
côté, le critère de vraisemblance complète intégrée (ICL) peut être calculé de façon exacte pour
LBM, mais nécessite d’étudier l’influence d’hyper-paramètres. Les liens entre les deux critères sont
analysés et une comparaison avec l’inférence bayésienne est discutée.
11h50-12h30 - The challenge of communicating about complicated statistical models - Session sponsored by ENBIS
Skeletons, flying carpets and ridge gymnastic. Visualizing models with
multiple X and Y
Christian Ritter (Ritter and Danielson Consultin)
C’est une frustration perpétuelle pour les statisticiens et des scientifiques : Des modèles complexes avec des multiples entrées et sorties sont difficiles à visualiser ; et communiquer par rapport
à la signification statistique et l’interprétation scientifique n’est pas du tout évident. Ici nous étudions la transition d’une visualisation qui montre l’effet de plusieurs variables X sur une seule
variable de réponse Y vers deux classes de graphiques à deux réponses, les squelettes et les tapis
volants. Ensuite nous montrons comment l’incertitude par rapport aux données et modèles peut
être intégrée.
78
Jeudi 4 juin 2015
09h15-10h15 - Andrea Montanari
Computational barriers to statistical inference
Andrea Montanari (Stanford University)
Classical statistics aims at developing optimal procedures for estimating probabilistic models
from data. The fundamental limit to this procedures is of information-theoretic nature. Simply, the
data do not contain sufficient information to estimate the unknown object. Modern applications
have brought into the limelight a certain number of statistical problems whereby the fundamental
bottleneck is not statistical, but computational. I will discuss two such problems arising from
graph (or matrix) estimation and an interesting line of attack.
10h20-11h20 - François Beck
Entre invisible et indicible : comment aborder des sujets sensibles telles
que les usages de drogues ou la santé mentale dans les enquêtes en population générale ?
François Beck (INPES)
Entre invisible et indicible : comment aborder des sujets sensibles telles que les usages de
drogues ou la santé mentale dans les enquêtes en population générale ?
10h20-11h20 - Fabrizio Ruggeri
On Bayesian estimation of thermal diffusivity in materials
Fabrizio Ruggeri (IMATI)
Two approaches are presented to estimate the thermal conductivity or diffusivity of a homogeneous material from the temperature evolution acquired in few internal points. Temperature
evolution is described by the classical one-dimensional heat equation, in which the thermal conductivity (or diffusivity) is one of the coefficients. In the first approach noisy measurements lead to a
partial differential equation with stochastic coefficients and, after discretisation in time and space,
to a stochastic differential equation. Euler approximation at sampled points leads to a likelihood
function, used in the Bayesian estimation of the thermal conductivity under different prior densities. An approach for generating latent observations over time in points where the temperature
is not acquired is also included. Finally, the methodology is experimentally validated, considering
a heated piece of polymethyl methacrylate (PMMA) with temperature measurements available
in few points of the material and acquired at high frequency. In the second approach a Bayesian
setting is developed to infer unknown parameters that appear into initial-boundary value problems
for parabolic partial differential equations. The realistic assumption that the boundary data are
noisy is introduced, for a given prescribed initial condition. We show how to derive the global
likelihood function for the forward problem, given some measurements of the solution field subject
to Gaussian noise. Given Gaussian priors for the time-dependent Dirichlet boundary values, we
marginalize out analytically the global likelihood using the linearity of the discretized solution.
This approach is fully implemented in the case of the heat equation where the thermal diffusivity
is the unknown parameter. We assume that the thermal diffusivity parameter can be modeled a
priori through a lognormal random variable or by means of a space-dependent stationary lognormal random field. Synthetic data are used to carry out the inference. We exploit the concentration
of the posterior distribution of the thermal diffusivity, using the Laplace approximation and therefore avoiding costly MCMC computations. Expected information gains and predictive posterior
densities for observable quantities are numerically estimated for different experimental setups.
79
Jeudi 4 juin 2015
11h40-12h40 - Statistique pour le climat
Estimation of multivariate critical layers : applications to rainfall data
Elena Di Bernardino (CNAM), Didier Rullière (ISFA, Lyon 1)
Dans un environnement multivarié, le calcul de zones critiques et de périodes de retour associées
est un problème difficile. Un cadre théorique possible pour le calcul de ces périodes de retour est
essentiellement basé sur la notion de Copule et sur les ensembles de niveau d’une distribution de
probabilité multivariée. Dans ce travail, nous proposons une méthodologie rapide et paramétrique
pour estimer les zones critiques multivariées de distributions et leurs périodes de retour associées.
Le modèle est basé sur des transformations des distributions marginales et sur des transformations
de la structure de dépendance au sein de la classe des copules Archimédiennes. La méthodologie
est illustrée sur des données réelles de précipitation. Sur ce jeu de données, nous développons
également un modèle imbriqué transformé.
A statistical analysis of trends for warm and cold spells by means of
counts
Jesper Rydén (Université d’Uppsala)
Nous nous intéressons à l’analyse des valeur extrêmes dans la climatologie ; plus précisément,
les périodes de températures exceptionnellement chauds ou froid, c’est-à-dire, des hot spells (en
cas des temperatures élevées). Ici, on regarde le nombre anuel des spells en Uppsala, Suéde. Ces
nombres sont vraiment des nombres entiers. Donc, la théorie et la méthodologie statistique de la
régression Poisson est approprié. On examine un trend possible pour la période 1840–2012. Le trend
pour des spells chauds est trouvé positif, plus large que celui des chauds froids, et statistiquement
significatif (α = 0.05). La méthodologie peut être utilisée pour l’analyse des autres indicateurs
climatiques.
Estimation par maximum de vraisemblance par paires de champs gaussiens multivariés spatio-temporels. Application à une fonction de covariance entièrement non séparable
Marc Bourotte (INRA), Denis Allard (INRA)
Lors de l’analyse de données spatio-temporelles, le statisticien cherche à modéliser les liens
directs et croisés entre le temps, l’espace et les différentes variables dans un but d’estimation, de
prédiction, de simulation. Dans un cadre gaussien, cela revient à proposer des modèles pertinents
de covariance qui assurent à toute matrice de covariance issue de ce modèle d’être semi-définie
positive. On construit facilement des modèles valides en utilisant la propriété de séparabilité. Dans
ce cas, une matrice de covariance issue de ce processus est simplement le produit de Kronecker
d’une matrice de covariance temporelle, d’une matrice de covariance spatiale et une matrice de
corrélation. Cependant c’est une hypothèse qui peut être trop simpliste pour certains jeux de
données comme les données climatiques. Nous proposons une famille paramétrique de fonctions
de covariances croisées entièrement non séparables pour les champs aléatoires multivariés spatiotemporels. Néanmoins, proposer un modèle valide de covariance croisée n’est pas la seule difficulté.
En effet, estimer l’ensemble des paramètres de la fonction de covariance croisée est une tâche importante et délicate. L’approche par maximum de vraisemblance classique fonctionne bien mais
devient rapidement inutilisable lorsque le nombre d’observations dépasse quelques milliers de données. Dans ce cas, une stratégie consiste à maximiser la vraisemblance composite et notamment
la vraisemblance par paires. Dans ce travail, nous utilisons la vraisemblance par paires pour inférer les paramètres d’une fonction de covariance entièrement non séparable. Nous présenterons les
difficultés rencontrées dans la procédure d’estimation et les solutions proposées.
80
Jeudi 4 juin 2015
11h40-12h40 - Plan d’expériences 2
Plans en blocs ’pairwise’ partiellement équilibrés résolvables et plans
numériques ’Space filling’ associés
Imane Rezgui (Departement des Mathematiques,), Zebida Gheribi-Aoulmi (Departement des
Mathematiques,)
Les plans d’expérience numériques continuent toujours à susciter la curiosité des scientifiques
dans divers domaines (Médecine : Electrophorèse capillaire (Lee et al. (1997)), Informatique : la
programmation multi-objectifs (Leung et Wang (2000)). etc...). Parmi les différentes méthodes
de construction de ces plans, les plans classiques qui satisfont certaines propriétés combinatoires
peuvent être utilisés comme plans de base (par exemple Fang et al. (2004) et Fang et al. (2005)).
Dans notre papier, une méthode de construction à partir de schémas d’association à m classes
associées est décrite pour obtenir une série de plans ’Pairwise’ Partiellement Equilibrés résolvables
rendant ainsi leur construction très aisée. L’expression des paramètres de ces plans est donnée.
L’application de l’algorithme ’RBIBD-UD’ Fang et al. (2006) permet l’obtention des plans numériques ’Space filling ’ associés. Une illustration de la méthode de construction est effectuée, en
considérant un schéma d’association rectangulaire.
Cages and mice
Nicolas Wicker (Université Lille 1)
Un plan d’expérience est étudié où des souris doivent être placées dans des cages en respectant
certaines contraintes. Trois méthodes différentes sont présentées pour résoudre deux problèmes
différents. Dans le premier, les souris sont placées dans des cages avec la contrainte que les voisins
doivent être évités. Dans le second, une nouvelle contrainte oblige les souris à changer de côté à
chaque étape de telle sorte qu’une moitié des souris ne rencontre que l’autre moitié des souris. Une
méthode est présentée pour le premier problème et deux pour le second, dont l’une exploite les
corps finis d’une manière simple et semblable à ce qui se fait pour les carrés latins mutuellement
orthogonaux.
Méthodologie des surfaces de réponse pour données fonctionnelles
Angelina Roche (Université Paris Descartes)
La méthodologie des surfaces de réponse est aujourd’hui une méthode classique utilisée en
ingénierie pour optimiser une réponse réelle (par exemple un rendement ou la probabilité de
défaillance d’un matériau) dépendant de plusieurs covariables. Issue des travaux de Box et Wilson
(1951), elle a depuis fait l’objet d’un intérêt constant, motivé par la variété des applications
possibles. Nous proposons dans cette contribution une adaptation de cette méthodologie au cadre
fonctionnel c’est-à-dire que nous cherchons à optimiser une variable d’intérêt dépendant d’une ou
plusieurs fonctions. Nous illustrerons le fonctionnement de la méthode sur des données simulées
ainsi que sur une application à la sûreté nucléaire.
11h40-12h40 - Graphes
Inférence de structure de modèle graphique à l’aide d’arbres couvrants
Loïc Schwaller (AgroParisTech/INRA), Stéphane Robin (AgroParisTech/INRA)
On se propose d’apprendre la structure d’un modèle graphique non-orienté (aussi appelé champ
aléatoire de Markov) en calculant la probabilité d’apparition a posteriori de certaines structures
locales telles que les arêtes. Cette tâche serait impossible à réaliser de manière exacte sans restreindre l’espace des graphes explorés. Nous nous limitons ici à celui des arbres couvrants. Les
distributions a priori sur les structures et les distributions sont choisies de telle manière à permettre une inférence rapide et exacte des probabilités a posteriori sur les arêtes, l’intégration sur
81
Jeudi 4 juin 2015
l’espace des arbres étant réalisée à l’aide d’un résultat d’algèbre appelé théorème Arbre-Matrice.
Enfin, on montre que l’hypothèse d’arborescence n’empêche pas notre approche d’exhiber de bon
résultats sur des données simulées selon un modèle non-arborescent ainsi que sur des données de
cytométrie de flux.
Détection de l’indépendance locale entre neurones
Christine Tuleau-Malot (Lab. Jean-Alexandre Dieudonnée, Univ. Nice - Sophia Antipolis), Patricia Reynaud-Bouret (Lab. Jean-Alexandre Dieudonné, Univ. Nice - Sophia Antipolis), Vincent
Rivoirard (CEREMADE, Univ. Paris Dauphine), Thomas Bessaïh (NPA, Univ. Pierre et Marie
Curie), Régis Lambert (NPA, Univ. Pierre et Marie Curie), Nathalie Leresche (NPA, Univ. Pierre
et Marie Curie), Michael Quiquempoix (NPA, Univ. Pierre et Marie Curie)
Dans le domaine des Neurosciences, les avancées technologiques récentes ont permis d’obtenir
une meilleure compréhension de la dynamique de l’activité neuronale. Ainsi, la capacité d’enregistrer l’activité de plusieurs neurones simultanément a permis de mettre en lumière un phénomène
de synchronisation de l’activité neuronale, notamment entre des paires de neurones. Cette synchronisation a d’abord été déterminée d’un point de vue pratique, puis d’un point de vue théorique,
notamment par la méthode des « unitary events » développée par Grün et al. Par ailleurs les
enregistrements simultanés ont également permis de montrer, d’un point de vue pratique, qu’en
réponse à une stimulation, seulement un groupe de neurones intervient et non l’ensemble des neurones. Ainsi, il existe une connectivité fonctionnelle qui diffère de la connectivité biologique. C’est
à cette connectivité fonctionnelle que nous nous sommes intéressés. Ainsi, nous avons proposé une
procédure statistique faisant intervenir une modélisation par un processus de Hawkes et un critère
d’estimation de type Lasso. Cette procédure permet de déterminer des graphes d’indépendance
locale qui ne sont rien d’autres que les graphes de connectivité fonctionnelle recherchés.
Modelling time evolving interactions in networks through a non stationary extension of stochastic block models
Marco Corneli (Université Paris 1), Pierre Latouche (Université Paris 1), Fabrice Rossi (Université Paris 1)
Le modèle à blocs stochastiques (SBM) décrit les interactions entre les sommets d’un graphe
selon une approche probabiliste, basée sur des classes latentes. SBM fait l’hypothèse implicite que
le graphe est stationnaire. Par conséquence, les interactions entre deux classes sont supposées avoir
la même intensité pendant toute la période d’activité. Pour relaxer l’hypothèse de stationnarité,
nous proposons une partition de l’horizon temporel en sous intervalles disjoints, chacun de même
longueur. Ensuite, nous proposons une extension de SBM qui nous permet de classer en même
temps les sommets du graphe et les intervalles de temps où les interactions ont lieu. Le nombre de
classes latentes (K pour les sommets, D pour les intervalles de temps) est enfin obtenu à travers la
maximisation de la vraisemblance intégrée des données complétées (ICL exacte). Après avoir testé
le modèle sur des données simulées, nous traitons un cas réel. Pendant une journée, les interactions
parmi les participants de la conférence HCM Hypertext (Turin, 29 Juin - 1er Juillet 2009) ont
été traitées. Notre méthodologie nous a permis d’obtenir une classifications intéressante des 24
heures : les moments de rencontre tels que les pauses café ou buffets ont bien été détectés. La
complexité de l’algorithme de recherche, linéaire en fonction du nombre initial de clusters (Kmax
et Dmax respectivement), nous oriente vers l’utilisation d’instruments avancés de classification,
pour réduire le nombre attendu de classes latentes et ainsi pouvoir utiliser le modèle pour des
réseaux de grand dimension.
82
Jeudi 4 juin 2015
11h40-12h40 - Statistique d’enquête
L’algorithme CURIOS pour l’optimisation du plan de sondage en fonction de la non-réponse
Thomas Merly-Alpa (INSEE), Antoine Rebecq (INSEE)
La non-réponse est un problème épineux en sondages, car la théorie a été construite sur l’hypothèse d’une participation totale de l’échantillon à l’enquête. Or les mécanismes de réponse sont mal
connus, et les estimateurs corrigés de la non-réponse peuvent présenter de larges biais résiduels.
Usuellement, la non-réponse est traitée en fin de collecte, en utilisant des techniques telles que le
calage. Nous pensons qu’il est souhaitables de tenir compte des mécanismes de réponse de la population enquêtée dès la phase d’échantillonnage. C’est pourquoi nous présentons ici l’algorithme
CURIOS (Curios Uses Representativity Indicators to Optimize Samples) qui vise à construire un
meilleur échantillon en résolvant un problème d’optimisation. Celui-ci consiste en un compromis
entre un indicateur de dispersion minimale des poids corrigés de la non-réponse, et un indicateur
de similarité avec une allocation initiale, qu’on assimilera ici avec l’allocation de Neyman avec
prise en compte de la non-réponse. Nous donnons ici une méthode basée sur l’étude de la variance
d’un estimateur du total d’une variable d’enquête, méthode démontrée analytiquement sous de
bonnes conditions, i.e dans le cas d’un problème classique rencontré par les instituts nationaux
de statistique. Nous indiquons également une méthode numérique empirique permettant de tester
les allocations obtenues sur différents scénarios. Enfin, nous réaliserons de telles simulations dans
le cadre très simple d’un sondage stratifié et d’une non-réponse uniforme par strate afin d’étudier
les résultats obtenus par l’algorithme.
Comment enquêter les familles sans domicile ? L’expérience de l’enquête
ENFAMS
Carme Caum Julio (Observatoire du Samusocial), Candy Jangal (Observatoire du Samusocial)
Menée en 2013 par l’Observatoire du Samusocial de Paris, l’enquête ENFAMS (enfants et familles sans logement) a interrogé 801 familles sans logement hébergées en Ile-de-France en hôtel
social ou en centre d’hébergement et parlant au moins une des 17 langues de l’enquête. Connaitre
davantage une population très peu étudiée mais pourtant en forte augmentation, constituait le principal objectif de l’enquête. Celle-ci se déroulait en deux temps : une enquête sociodémographique
par questionnaire administrée par un binôme enquêteur/ psychologue et une enquête épidémiologique réalisée par des infirmières à partir d’un questionnaire et de relevés anthropométriques.
Si l’enquête a rencontré des obstacles communs des enquêtes auprès les sans domicile, population
dite « difficile à atteindre », elle a également été confrontée à des imprévus. Le recensement des
structures d’hébergement, voie d’accès vers les familles, ainsi que la sensibilisation à l’enquête des
gérants de structures et des familles, ont constitué des obstacles solides dès les premières étapes
de l’enquête. De plus, plusieurs intervenants (enquêteurs, infirmières, parent et enfant) étaient
associés selon un certains nombre de contraintes. Des scénarios variés ont dû être gérés, mobilisant
une équipe pluridisciplinaire réactive. Les temps de transport et d’enquêtes longs et imprévisibles
ont contraint de réduire le nombre de familles à enquêter. En dépit des difficultés rencontrées, l’enquête des familles sans domicile hébergées est possible, dès lors que ses spécificités sont intégrées
au dispositif d’enquête et que l’équipe reste proche du terrain.
L’essaimage statistique, une généralisation du Bootstrap
Alain Morineau (DEENOV), Thi Minh Thao Huynh (MODULAD), Roland Marion-Gallois
(MEDTRONIC)
L’essaimage statistique permet de créer, à partir d’un échantillon observé appelé source, des
pseudo-échantillons appelés essaims (Journées Statistiques, Toulouse, 2013). La procédure transfère dans tout essaim les principales propriétés statistiques de la source : fréquences, moyennes,
dispersions et liaisons entre les variables. Si la source est une image fidèle de la population, tout
83
Jeudi 4 juin 2015
essaim l’est également et peut jouer le rôle d’un nouvel échantillon. Alors que les répliques Bootstrap d’un échantillon-source ont nécessairement la taille de la source, les essaims peuvent avoir
des tailles beaucoup plus grandes. Dans ce sens l’essaimage généralise le Bootstrap, en particulier
pour l’étude des variabilités et pour le calcul des intervalles de confiance : on sait maintenant
évaluer leur amplitude en fonction de la taille de l’échantillon. On distingue deux méthodes pour
construire des intervalles de confiance par essaimage. L’une est plus couteuse que l’autre en calculs. On compare les résultats. On montre que l’essaimage conduit à des intervalles percentiles
en tout point comparables aux intervalles percentiles du Bootstrap (amplitude et bornes) dans le
cas particulier où les deux méthodes sont concurrentes, c’est-à-dire si on se restreint à des essaims
ayant tous la taille de la source. D’une façon plus générale on montre comment la qualité des
intervalles de confiance par essaimage varie en fonction de la qualité de la source représentant la
population, au même titre que pour les intervalles Bootstrap. Dans le cas plus général des intervalles par essaimage, on sait évaluer comment leur amplitude diminue quand la taille de l’essaim
augmente.
11h40-12h40 - Modèles mixtes
Estimation de l’héritabilité dans les modèles linéaires mixtes parcimonieux
Anna Bonnet (AgroParisTech/INRA), Elisabeth Gassiat (Université Paris Sud), Céline LévyLeduc (AgroParisTech)
L’héritabilité d’un caractère biologique est définie comme la part de sa variation au sein d’une
population qui est causée par des facteurs génétiques. Pour de nombreux caractères complexes,
il existe une grande différence entre la variation génétique expliquée par les études de population
et celle expliquée par les variants spécifiques révélés grâce aux études d’association (GWAS).
Nous proposons un estimateur de l’héritabilité dans les modèles linéaires mixtes parcimonieux en
grande dimension, dont nous avons étudié les propriétés théoriques. Nous mettons en évidence que
lorsque la taille des effets aléatoires est trop grande par rapport au nombre d’observations, nous ne
pouvons fournir une estimation précise pour l’héritabilité. Malheureusement, la taille typique des
données que nous étudions vérifie justement la condition N « n, par exemple n=200 et N=500000.
La deuxième partie de notre travail a été de proposer une méthode de sélection de variables
afin de réduire la taille des effets aléatoires, dans le but d’améliorer la précision de l’estimation
de l’héritabilité. Notre méthode fournit également un intervalle de confiance grâce une méthode
de bootstrap non paramétrique adaptée à des observations corrélées. Nous avons appliqué notre
méthode sur des données sur le cerveau : il s’agit d’environ 2000 adolescents qui ont été génotypés
et dont le volume des différentes régions du cerveau a été mesuré grâce à des IRM. Nous trouvons
des résultats cohérents avec ceux trouvés avec des méthodes sans sélection de variable, mais nous
avons des intervalles de confiance plus petits.
Estimation dans les modèles mixtes fonctionnels en présence de déformations individuelles non-linéaires
Gerda Claeskens (KU Leuven), Madison Giacofci (KU Leuven), Gijbels Irène (KU Leuven),
Jansen Maarten (Université Libre de Bruxelles)
Nous nous intéressons à l’étude de données fonctionnelles, mesurées de manière répétée sur
un ensemble d’individus. Dans un contexte multi-individus, les courbes individuelles sont souvent
mesurées sur une discrétisation propre, non régulière, et il est courant d’observer des variations
inter-individuelles aussi bien en amplitude (i.e. taille des principales caractéristiques des courbes)
qu’en phase (i.e. timing des ces caractéristiques). Il existe une vaste littérature concernant l’étude
séparée de chacun de ces types de variations, cependant, leur prise en compte simultanée reste
un sujet relativement peu abordé. Nous proposons une nouvelle procédure basée sur une modélisation fonctionnelle mixte des signaux, intégrant des effets aléatoires fonctionnels modélisant les
84
Jeudi 4 juin 2015
variations en amplitude autour d’un effet fixe fonctionnel moyen, et des fonctions de déformations
(warping) aléatoires individuelles modélisant les variations inter-individuelles en phase. Notre approche consiste alors en une décomposition des effets fixes et aléatoires dans une base d’ondelettes,
permettant la considération de signaux spatialement inhomogènes, tandis que les déformations individuelles sont interpolées à l’aide de splines cubiques monotones d’Hermite, offrant une relation
directe entre leurs noeuds et les caractéristiques des courbes étudiées. L’estimation des paramètres
du modèle est alors réalisée par maximum de vraisemblance, à l’aide de l’algorithme MCEM, une
variante de l’algorithme EM, consistant à remplacer l’étape E, dont le calcul est rendu difficile
par la non-linéarité des fonctions de déformations, par une approximation de Monte-Carlo. Le
comportement général de notre procédure est étudié sur une vaste étude de simulation et nous
illustrons notre méthode sur un jeu de données réelles.
Estimation paramétrique pour des modèles mixtes complexes à l’aide de
méta-modèles
Pierre Barbillon (AgroParisTech), Célia Barthélémy (Inria Saclay), Adeline Leclercq-Samson
(Université Joseph Fourier, Grenoble)
Les processus biologiques sont très souvent mesurés de manière répétée sur un même sujet. Cela
donne naturellement lieu à des données longitudinales. Ces données sont généralement analysées
grâce à des modèles mixtes qui permettent de discriminer la variabilité inter-sujet de la variabilité intra-sujet. Les fonctions de régression utilisées dans ces modèles intègrent des mécanismes
biologiques complexes qui peuvent être des solutions d’équations différentielles ordinaires multidimensionnelles ou d’équations aux dérivées partielles. Lorsque ces solutions n’ont pas de forme
analytique, on fait appel à des méthodes numériques qui se révèlent très coûteuses en temps de
calcul. Les méthodes statistiques couramment utilisées pour estimer les paramètres des modèles
mixtes se fondent sur l’utilisation d’une version stochastique de l’algorithme EM (SAEM) que
l’on couple avec un algorithme MCMC. Cet algorithme demande un grand nombre d’évaluations
des fonctions de régression du modèle ce qui n’est pas praticable si ces fonctions sont coûteuses.
C’est pourquoi nous aurons recours à un méta-modèle fondé sur une approximation par processus
gaussien des fonctions coûteuses. Nous intégrerons la nouvelle source d’incertitude due à cette
approximation dans ce que nous appellerons un méta-modèle mixte. Nous établirons le lien entre
la qualité d’approximation du méta-modèle et la proximité entre les estimations obtenues dans le
modèle mixte exact et dans le “méta-modèle” mixte. Des simulations numériques seront également
proposées pour illustrer la pertinence de cette approche.
14h00-15h00 - Gerhard Tutz
Regularized regression for discrete structure
Gerhard Tutz (Ludwig-Maximilian Uni. München)
Regularization methods are an effective tool to identify relevant structures in regression models.
They are useful in particular when modelling categorical data, because even for a moderate number
of predictors and response categories many parameters are needed to specify the link between
predictors and responses. The focus is on regularization by penalty terms, which are tailored
to the discrete data problem. First categorical predictors in univariate generalized linear models
are considered. Several penalty based methods that enforce variable selection and clustering of
categories are presented and investigated. It is distinguished between ordered predictors where
clustering refers to the fusion of adjacent categories and nominal predictors for which arbitrary
categories can be fused. The methods allow to identify which categories do actually differ with
respect to the dependent variable. In multicategorical response models appropriate penalization
that allows to select predictors instead of single effects uses grouping structures that collect all the
parameters linked to one explanatory variable. Selection of covariates is shown to work well in a
general model which includes global predictors as well as predictors that are specific to the response
85
Jeudi 4 juin 2015
categories. In repeated measurement studies with several measurements taken on a specific unit
one often tries to account for the heterogeneity of units by using random effects models. Fixed effect
models with an appropriate penalization of the subject-effects are presented as an alternative that
avoids some of the problems of random effects models. They allow to model the heterogeneity of the
population and identify clusters of unit that share the same effect. As an alternative to penalization
tree-based estimators are considered to obtain clusters of categories in high dimensional problems.
In the last part mixture models that aim at the modelling of uncertainty of the response and the
response styles are investigated. An adjacent categories model is proposed that simultaneously
models the content related effects and the heterogeneity in response styles. By accounting for
response styles it provides a simple remedy for the bias that occurs if the response style is ignored.
The model allows to include explanatory variables that have a content-related effect as well as an
effect on the response style.
14h00-15h00 - Valérie Monbet
Modèles auto-régressifs à chaîne de Markov cachée pour des séries temporelles multivariées de température de l’air
Valérie Monbet (Université de Rennes 1)
Le climat a un impact direct sur la production agricole, la production d’énergies renouvelables,
l’évolution des paysages (érosion, submersion, ...), certains écosystèmes sensibles, la qualité de l’air,
etc. Une approche classique pour étudier l’impact du climat sur des systèmes consiste à développer
des générateurs aléatoires de conditions météorologiques qui permettent de simuler rapidement un
grand nombre de situations météorologiques. Les séquences simulées sont typiquement utilisées
en entrée de modèles économiques ou écologiques. Dans cet exposé, nous proposons des modèles
auto-régressifs à changement de régime markovien permettant de simuler conjointement des séries temporelles de température de l’air en plusieurs sites répartis en France. Dans ces modèles,
plusieurs modèles autorégressifs multivariés sont utilisés pour décrire l’évolution spatio-temporelle
de la température et les transitions entre les différents régimes sont controlées par une chaine de
Markov cachée qui représente des types de temps. Nous discuterons aussi des extensions dans lesquelles la chaine de Markov est non homogène. Nous verrons que ces modèles sont interprétables
et permettent de reproduire la dynamique spatio-temporelle observée dans les données.
15h05-16h25 - Analyse de données, data mining
Analyse discriminante par noyaux associés pour données mixtes
Sobom Matthieu Somé (Université de Franche-Comté), Célestin C. Kokonendji (Université de
Franche-Comté)
L’objet de ce travail est de proposer une méthode non-paramétrique d’analyse discriminante
pour des variables mixtes : continues, catégorielles et comptages. Après la présentation du modèle
à l’aide des noyaux associés multiples composés, nous proposons deux types de validation croisées
pour la sélection appropriée des matrices des fenêtres à chaque famille de données. En particulier,
la classique est utilisée pour les données homogènes ayant la même mesure de référence ; tandis
qu’une version profilée de validation croisée est introduite pour les données mixtes. Des simulations
pour les cas continu, discret et mixte avec respectivement les noyaux associés multiples bêtaxbêta,
binomialxbinomial et bêtaxbinomial montrent le caractère approprié et efficace de cette méthode.
Une application à des données réelles composée de variables continues, de comptages et catégorielles est finalement présentée.
86
Jeudi 4 juin 2015
Analyse discriminante matricielle descriptive. Application à l’étude de
signaux EEG
Juliette Spinnato (Aix-Marseille Université, I2M), Marie-Christine Roubaud (Aix-Marseille
Université, I2M), Margaux Perrin (Université Lyon 1, CRNL), Emmanuel Maby (Université Lyon
1, CRNL), Jeremie Mattout (Université Lyon 1, CRNL), Boris Burle (Aix-Marseille Université,
LNC), Bruno Torrésani (Aix-Marseille Université, I2M)
Nous nous intéressons à l’approche descriptive de l’analyse discriminante linéaire de données
matricielles dans le cas binaire. Sous l’hypothèse de séparabilité de la variabilité des lignes de
celle des colonnes, les combinaisons linéaires des lignes et des colonnes les plus discriminantes
sont déterminées par la décomposition en valeurs singulières de la différence des moyennes des
deux classes en munissant les espaces des lignes et des colonnes de la métrique de Mahalanobis.
Cette approche permet d’obtenir des représentations des données dans des plans factoriels et de
dégager des composantes discriminantes. Une application à des signaux d’électroencéphalographie
multi-capteurs illustre la pertinence de la méthode.
Comparaison de méthodes multivariées pour la détection d’observations
atypiques
Aurore Archimbaud (Gremaq (TSE) et Ippon Innovation), Klaus Nordhausen (University of
Turku), Anne Ruiz-Gazen (Gremaq (TSE))
Dans cette présentation, nous nous intéressons à la détection d’observations atypiques, comme
par exemple des fraudes ou des produits défectueux, au sein de données numériques multivariées.
Différentes méthodes non-supervisées basées sur l’analyse de matrices de variances-covariances
classiques ou robustes existent dans la littérature statistique. Notre objectif est de comparer trois
de ces méthodes : la distance de Mahalanobis, la méthode ICS (Invariant Coordinate Selection)
et l’ACP robuste avec son diagnostic graphique. Ces méthodes conduisent chacune à des scores
qui sont calculés pour toutes les observations, avec des scores élevés associés aux éventuelles
observations atypiques. Nous montrons en particulier que seule la méthode ICS permet la sélection
de composantes pertinentes pour la détection d’atypiques ce qui constitue un avantage si le nombre
de variables non pertinentes pour caractériser les atypiques est élevé. Les résultats seront illustrés
sur des exemples simulés et sur des exemples réels.
Multiway regularized generalized Canonical Correlation Analysis
Arthur Tenenhaus (L2S, UMR CNRS 8506 - CentraleSupelec,Bioinformatics/Biostatistics Platform IHU-A-ICM,Brain and Spine), Laurent Le Brusquet (L2S, UMR CNRS 8506 - CentraleSupelec,Bioinformatics/Biostatistics Platform IHU-A-ICM,Brain and Spine), Gisela Lechuga (L2S,
UMR CNRS 8506 - CentraleSupelec,Bioinformatics/Biostatistics Platform IHU-A-ICM,Brain and
Spine)
L’Analyse Canonique Généralisée Régularisée (RGCCA) permet l’étude des relations entre
différents blocs de données. Danc ce papier, une version multivoie de RGCCA (MGCCA) est
proposée. MGCCA cherche à décrire et comprendre les relations entre tenseurs.
15h05-16h25 - Statistique spatiale 1
Détection automatique de cibles sous-résolues
Solenne Thivin (Thales Optronique), Erwan Le Pennec (Ecole Polytechnique), Michel Prenat
(Thales Optronique)
Nous cherchons à mettre en place un algorithme de détection de cibles sous-résolues dans des
images de ciel infra-rouges en niveau de gris. Nous souhaitions prendre en compte la covariance
spatiale de l’image pour effectuer la détection. Celle-ci peut être supposée localement stationnaire
et nous avons donc décidé de travailler localement : l’image est donc découpée en patch de taille
87
Jeudi 4 juin 2015
16 × 16 et le test de détection s’effectue patch par patch (les paramètres ne sont estimés que que
le patch traité). Chaque patch est modélisé par un champ gaussien stationnaire caractérisé par
son vecteur moyenne et sa matrice de covariance. Pour prendre en compte l’aspect faible portée
de la covariance spatiale, nous avons supposée que la matrice de covariance avait une structure
parcimonieuse imposée. Nous souhaitions aussi effectuer cette détection tout en garantissant le
taux de fausses alarmes. Nous avons donc décidé d’appliquer un test de rapport de vraisemblance
généralisé. La détection s’effectue alors en plusieurs étapes : estimation de la matrice de covariance
sous la contrainte de structure pour chaque patch, calcul de la statistique de test pour le pixel testé
et seuillage de cette statistique. Pour tenir compte du fait que le modèle est probablement faux
, nous n’utilisons pas comme seuil le quantile de la loi de la statistique de test sous l’hypothèse
nulle mais des seuils estimés à partir d’un échantillon de patchs issus d’images réelles . Enfin, pour
tenir compte des différentes textures présentes dans les patchs, nous avons ajouté une étape de
classification des patchs avant l’estimation des quantiles empiriques classe par classe.
Borne pour l’erreur de discrétisation du maximum d’un champ aléatoire
Malika Chassan (Institut de Math. de Toulouse), Jean-Marc Azaïs (Institut Math Toulouse
(IMT)), Guillaume Buscarlet (TAS France), Norbert Suard (CNES), Sébastien Trilles (TAS France)
Le but de cette étude est de développer des outils pour évaluer l’erreur de discrétisation pour le
maximum d’un champ aléatoire observé sur une grille. Ce travail est financé par le CNES, et Thales
Alenia Space France. En positionnement par satellite, les SBAS (Satellite Based Augmentation
System), comme EGNOS, disposent de données permettant de corriger les positions estimées. Nous
travaillerons avec le GIVDe (Grid Ionospheric Vertical Delay error). Cette variable est fournie pour
une grille virtuelle : la grille des IGPs (Ionospheric Grid Points). Cette grille est grossière (un point
tous les 5 degrés en latitude et longitude, soit env. 500km au niveau de l’équateur). Dans cette
étude, on cherche à évaluer la différence entre le maximum du GIVDe sur la grille et le maximum
non observé du GIVDe sur la zone couverte par cette grille. Pour cela, on applique d’abord un
modèle de Krigeage qui servira de base de comparaison pour notre nouvelle méthode. Cette dernière
est inspirée du modèle de Slepian dans le sens où elle fournit une approximation locale du champ
aléatoire au niveau de son maximum global. Le résultat principal donne la distribution limite de
l’erreur de discrétisation pour un champ gaussien stationnaire.
Spatial dependence in (origin-destination) air passenger flows
Paula Margaretic (Central Bank of Chile), Romain Doucet (Airbus), Christine Thomas-Agnan
(oulouse School of Economics), Quentin Villotta (Airbus)
Nous explorons l’estimation des flux de passagers aériens (origine-destination), par paires de
villes, afin de prendre en compte explicitement l’autocorrélation spatiale. A notre connaissance,
nous sommes les premiers à appliquer des modèles économétriques spatiaux et des approches de
filtrage spatial au transport aérien. S’appuyant sur un échantillon mondial de 279 villes sur la
période de 2010 à 2012, nous trouvons des preuves significatives d’autocorrélation spatiale dans
les flux de passagers aériens. Ainsi, et contrairement à la pratique courante, nous montrons que
nous devons intégrer la structure spatiale existante dans les données lors de l’estimation des flux de
passagers aériens. Il est important de souligner qu’une erreur dans cette démarche peut conduire
à des coefficients estimés inefficaces et des biais dans les prédictions.
Un modèle de mélange pour la segmentation de données spatiales
Allou Samé (IFSTTAR), Jean-Philippe Tarel (IFSTTAR), Nadir Ait Saidi (IFSTTAR)
Cet article décrit une approche basée sur les mélanges de lois, pour la modélisation et la
segmentation de données spatiales. La dépendance spatiale des données y est prise en compte par
le biais des proportions du mélange, qui sont modélisées par des transformations logistiques de
fonctions polynomiales des coordonnées spatiales. Les paramètres du modèle proposé sont estimés
par la méthode du maximum de vraisemblance via un algorithme EM spécifique, qui incorpore
88
Jeudi 4 juin 2015
un algorithme de Newton-Raphson pour l’estimation des coefficients des fonctions logistiques. Les
expérimentations, menées sur des images simulées, donnent des résultats encourageants en termes
de précision de segmentation.
15h05-16h25 - Statistique mathématique 2
Problèmes d’adéquations entre distributions : une approche par un modèle de déformations et la distance de Wasserstein
Hélène Lescornel (Inria Saclay), Eustasio Del Barrio (Université de Valladolid), Jean-Michel
Loubes (Institut de Mathématiques de Toulouse)
Notre objectif est de déterminer si des distributions sont comparables dans le sens où elles
proviennent de différentes déformations d’un profil commun. On suppose disposer de J échantillons
indépendants composés chacun de n réalisations i.i.d. de variables indépendantes Xj de loi µj , pour
j de 1 à J. Le but est de déterminer s’il existe des fonctions φ∗1 , ..., φ∗J dans un certain ensemble G, et
des variables aléatoires indépendantes j suivant une même loi µ telles que Xj = (φ∗j )−1 (j ). Pour
cela, nous cherchons à aligner les distributions des variables φj (Xj ) en faisant varier les fonctions
φj . Nous allons pour cela minimiser la distance de Wasserstein entre ces lois et leur barycentre au
sens de Wasserstein : s’il existe des fonctions φ1 ,. . . , φJ telles que ces variables φj (Xj ) ont même
distribution, le modèle est en effet valide. Nous appliquons cette idée aux distributions empiriques
que nous pouvons déterminer à l’aide des observations. Nous considérons des lois dans R, ce
qui nous permet d’utiliser l’expression de la distance de Wasserstein avec les fonctions quantiles.
Nous obtenons différents résultats de convergence pour une statistique de test, l’un dans ce cadre
général, l’autre en considérant des familles de fonctions paramétriques. Nous les appliquons à la
construction de différentes procédures de tests.
Reconstruction simpliciale de variété via l’estimation d’espace tangent
Eddie Aamari (Université d’Orsay), Clément Levrard (Inria Saclay)
On s’intéresse au problème de reconstruction de variété dans un cadre semi-asymptotique. Sous
ˆ du support
des contraintes géométriques de régularité, nous proposons un estimateur calculable M
D
ˆ
M ⊂ R d’une mesure inconnue dont on observe un n-échantillon i.i.d.. M a la même topologie que
M et on donne une vitesse de convergence pour la distance de Hausdorff. La méthode s’appuie sur
la construction d’un complexe de Delaunay tangentiel. Après avoir réduit la question à l’estimation
des espaces tangents de M, le problème est traité par analyse en composantes principale locale.
Si le temps le permet, nous présenterons une technique de débruitage des données par ACP locale
dans le cadre d’un modèle de mélange.
Éléments spectraux d’une fonction cyclostationnaire
Alain Boudou (Institut de Mathématiques de T), Sylvie Viguier-Pla (Institut de Mathématiques
de T)
Considérons une fonction cyclostationnaire, nous montrons qu’on peut lui associer une et une
seule mesure spectrale. Moyennant une hypothèse de continuité supplémentaire, nous lui associons également une série stationnaire unique, qui peut se prêter à une analyse en composantes
principales dans le domaine des fréquences.
Méthodes statistiques d’identification et de quantification en métabolomique. Application aux spectres RMN
Patrick Tardivel (INRA-ENVT), Rémi Servien (INRA-ENVT), Didier Concordet (ENVT),
Cécile Canlet (INRA), Marie Tremblay-Franco (INRA), Laurent Debrauwer (INRA)
89
Jeudi 4 juin 2015
La métabolomique est une science qui s’intéresse à l’identification et la quantification de métabolites (petites molécules) à partir d’un mélange obtenu dans le sang, l’urine, le plasma, . . . . Une
des techniques les plus employées pour la caractérisation de métabolites est la résonance magnétique nucléaire du proton (RMN). Pour chaque métabolite la RMN produit un spectre spécifique.
De même pour le mélange, la RMN génère un spectre qui est une combinaison convexe des spectres
des métabolites qui le composent. Cependant, tous ces signaux sont observés bruités (variation de
l’amplitude des pics) et déformés (variation de la forme et de la localisation des pics). Ainsi, il est
très délicat de calculer exactement les proportions des métabolites du mélange. Nous proposons
dans un premier temps d’estimer la déformation associée à chaque métabolite. Dans un deuxième
temps, une méthode statistique basée sur une approche par programmation linéaire permet d’obtenir une estimation parcimonieuse des proportions. Enfin, des résultats sur des données réelles
et simulées montrent l’efficacité de notre méthode. Ce projet bénéficie du soutien financier du
Ministère de l’Écologie, du Développement Durable et de l’Énergie dans le cadre du programme
national de recherche Risk’OGM et de l’IDEX Toulouse ’transversalité 2014’.
15h05-16h25 - Tests statistiques 2
Tests d’indépendance entre deux processus ponctuels et application en
neurosciences
Mélisande Albert (Université de Nice, LJAD), Yann Bouret (Univ. de Nice, LPMC), Magalie
Fromont (IRMAR, Université Rennes 2), Patricia Reynaud-Bouret (CNRS Université de Nice
Sophia-Antipolis)
Considérant un échantillon de couples i.i.d. de processus ponctuels, observés sur une plage de
temps donnée, on se pose la question de la détection de dépendances entre les processus marginaux
sous-jacents. Cette question est motivée par l’étude des synchronisations de potentiels d’action en
neurosciences (c.f. Tuleau-Malot et. al (2014), Pipa et Grün (2003) ou Grün et. al (2010)). Devant
le débat actuel sur la modélisation de l’activité neuronale, notre but est de proposer des tests
d’indépendance ne nécessitant aucune hypothèse contraignante sur la distribution des potentiels
d’action. Nos travaux se situent dans la lignée de ceux de Romano (1989) qui a proposé des tests
d’indépendance basés sur des méthodes de bootstrap et de permutation (c.f. Hoeffding (1952)).
Cependant, ici, en raison des motivations biologiques et de la nature de nos variables (à savoir
des processus ponctuels), nos statistiques de test sont plus complexes, et ne peuvent être vues
comme des processus empiriques évalués sur des familles particulières d’événements. Il nous a
donc fallu introduire de nouvelles statistiques de test (à savoir des U -statistiques renormalisées),
et pousser plus loin les arguments de Romano afin de justifier les approches par bootstrap ou
permutation. Après avoir présenté les motivations d’un point de vue biologique, nous validerons
chacune des approches en présentant des résultats généraux de consistance en terme de distance
de Wasserstein sous l’hypothèse d’indépendance, ainsi que sous n’importe quelle alternative. Enfin
nous en déduirons que les tests correspondants sont de taille asymptotique voulue et consistants
contre toute alternative raisonnable.
Influence de la forme de la fenêtre de scan sur la distribution des statistiques de scan bidimensionnelles discrètes
Michaël Genin (Université de Lille 2), Cristian Preda (Laboratoire Paul Painlevé), Alain Duhamel (Université de Lille 2)
Les statistiques de scan bi-dimensionnelles discrètes sont usuellement définies avec une fenêtre
de scan de forme rectangulaire. Cependant, elles peuvent être définies pour toute forme convexe
de fenêtre de scan. Aussi, dans ce travail, nous nous intéressons ‘a l’influence de la forme de
la fenêtre de scan sur la distribution de probabilité des statistiques de scan bidimensionnelles
discrètes.. Nous montrons que la forme de la fenêtre de scan a une influence sur la distribution.
Ceci est réalisé par une adaptation d’une méthode d’approximation de la distribution basée sur les
90
Jeudi 4 juin 2015
propriétés des extremums de suites de variables aléatoires 1-dépendantes aux statistiques de scan
bi-dimensionnelles à fenêtre de forme convexe. Ce résultat est illustré par une étude de simulation
pour les modèles de Poisson et binomiaux, dans laquelle nous avons considéré les cas des formes
carrées, rectangulaires et circulaires (cercle discret).
Détection de motifs de dépendance avec délai
Julien Chevallier (UNSA), Thomas Laloë (UNSA)
La méthode des Unitary Events (UE) est couramment utilisée pour détecter des motifs de
dépendance parmi les trains de spike de plusieurs neurones. Cette méthode a tout d’abord été
introduite pour traiter des données binnées (temps discret) via le calcul du nombre de coïncidence
binné (Grün, 1996). Cette méthode de comptage a récemment été transposée dans le cadre de
données à temps continu (processus ponctuels) dans l’article de Tuleau-Malot et al. (2014). Ils y
introduisent le nombre de coïncidence avec délai pour deux neurones. Le but de notre travail a été
de généralisé cette méthode de comptage à un nombre quelconque de neurones. Sous l’hypothèse
d’indépendance, il est possible de calculer l’espérance et la variance de ce nombre de coïncidence
dans un cadre Poissonien et de dériver un test d’indépendance. Une étude empirique montre qu’il
est possible d’affaiblir l’hypothèse Poissonienne.
Contrôle du taux de faux positifs dans le cas dépendant bilatéral
Marine Roux (Gipsa-Lab)
L’analyse de données volumineuses incite souvent à se poser un grand nombre de questions
simultanément. Il faut alors construire des procédures statistiques capables de répondre pertinemment à ces questions. L’exemple typique se situe en génomique avec les données de puces à ADN,
pour lesquelles il s’agit, le plus souvent, d’identifier les gènes différentiellement exprimés entre
deux conditions (malades/sains par exemple). Une procédure pertinente serait une procédure qui
d’une part sélectionne suffisamment de gènes, et qui d’autre part ne sélectionne pas “trop” de
gènes à tort. A cette fin, une méthode populaire est le contrôle du False Discovery Rate (FDR)
défini comme la moyenne de la proportion d’erreurs parmi les hypothèses rejetées. En pratique, la
méthode la plus utilisée pour contrôler le FDR est la procédure de Benjamini et Hochberg (1995).
Si elle garantit le contrôle du FDR sous une dépendance positive (Benjamini et Yekutieli, 2001),
son comportement reste toujours assez mal compris dans le cas d’une dépendance non positive.
Notre travail apporte des contributions à ce problème en explorant le cas de tests bilatéraux avec
des statistiques de tests gaussiennes ?equi-corrélées. Le résultat principal de notre étude est la
démonstration de la conjecture de Reiner-Benaim (2007), qui fournit une borne du FDR dans le
cas de deux tests. Par suite, nous étudions également le cas d’un nombre supérieur de tests à l’aide
d’une formule exacte.
15h05-16h25 - Statistique bayésienne
Identifier les segments génomiques expliquant les variations de fonctions
de réponse : intérêt des équations différentielles stochastiques dans un
contexte bayésien
Bénédicte Fontez (Montpellier Supagro), Timothée Flutre (Inra), Fabien Campillo (Inria),
Pierre Roumet (Inra)
Tout organisme vivant, quel qu’il soit, se développant au cours du temps, il est nécessaire,
voire primordial, de prendre cette dimension en considération. Grâce à la montée en puissance des
capteurs haut-débit, de plus en plus de caractères d’intérêt sont mesurés sous forme de fonctions
de réponse et de courbes de croissance. Par exemple en agronomie, dans un but de sélection
artificielle, il devient alors pertinent de chercher à identifier les segments génomiques expliquant
les variations de fonctions de réponse au sein d’une population (quantitative trait locus, QTL).
91
Jeudi 4 juin 2015
Habituellement, les individus sont d’abord utilisés séparément les uns des autres pour estimer,
chez chacun, les coefficients d’une fonction de réponse, ceux-ci étant ensuite testés pour association
avec les segments génomiques. Cette méthode ad hoc entraîne une perte importante d’information,
d’autant plus que l’incertitude associée à l’estimation des paramètres est généralement négligée lors
du test. Des auteurs comme Wu et al. (2007) ont proposé des approches fonctionnelles pour tenir
compte de la dynamique sous-jacente à la croissance dans la détection de QTL. Nous proposons
d’étendre cette approche à un modèle plus réaliste où la fonction de réponse est définie comme
un processus aléatoire caractérisé par une équation différentielle stochastique (EDS). L’inférence
est réalisée dans un cadre bayésien qui permet d’estimer l’effet du QTL et, simultanément, de
sélectionner la période de temps durant laquelle le QTL est influent.
Étude des propriétés fréquentistes des estimateurs bayésiens de la différence de deux proportions, du risque relatif et du rapport de cotes
François Lefebvre (GMRC, CHU Strasbourg), Nicolas Meyer (GMRC, CHU Strasbourg)
Les intervalles de confiance d’un estimateur ont des taux de couverture parfois éloignés de la
valeur nominale. Ils restent cependant très utilisés, notamment dans les essais thérapeutiques. D’un
autre côté, alors que les intervalles de crédibilité semblent avoir de bonnes propriétés fréquentistes,
les analyses statistiques des essais thérapeutiques ne se font pas souvent sous inférence bayésienne.
Une étude de simulations a été réalisée afin d’étudier les propriétés fréquentistes des intervalles
de confiance de la différence de deux proportions, du risque relatif et du rapport de cotes estimés
selon différentes méthodes et des intervalles de crédibilité de ces mêmes paramètres estimés avec
trois lois a priori différentes peu ou très peu informatives sur les proportions. Pour cela, les taux de
couverture exacts des intervalles de confiance ont été comparés aux taux de couverture exacts des
intervalles de crédibilité estimés directement d’après les lois a posteriori des paramètres. Les taux
de couverture des intervalles de crédibilité pour la différence de deux proportions, le risque relatif
et le rapport de cotes sont très proches de la valeur nominale, même pour des petits échantillons,
notamment quand la loi a priori est uniforme alors que les taux de couverture des intervalles de
confiance peuvent s’en éloigner fortement. Il est donc recommandé d’utiliser l’inférence bayésienne
dans l’estimation de ces intervalles.
Autour des a prioris peu informatifs dans les modèles bayésiens de régression logistique
Mickaël Schaeffer (GMRC, CHU Strasbourg), François Lefebvre (GMRC, CHU Strasbourg),
Erik Sauleau (Lab. Biostatistiques Université de Strasbourg), Nicolas Meyer (Lab. Biostatistiques
Université de Strasbourg)
L’estimation de la distribution associée au coefficient d’un modèle de régression logistique peut
être effectuée par des méthodes bayésiennes. Dans ce cas, l’utilisation de lois a priori très peu
informatives, comme les distributions Gaussiennes à variance large, peuvent parfois amener à des
estimations biaisées ou à une surestimation de la variance a posteriori. Dans cet article, nous
proposerons une variance à utiliser dans le cas d’un a priori peu informatif, afin d’éviter toute
surestimation a posteriori, et d’améliorer la qualité des prédictions. Nous établirons un lien entre
la paramétrisation de deux distributions Beta a priori pour des proportions et la paramétrisation du
coefficient associé à la comparaison dans un modèle de régression logistique. Cette paramétrisation
est établie en utilisant une des propriétés de la régression logistique, à savoir l’égalité du coefficient
de la régression avec le logarithme d’un rapport de cotes, c’est-à-dire un rapport de distribution
Beta. Nous montrerons à l’aide de simulations que la distribution ainsi définie présente un gain en
terme de variabilité estimée à posteriori
92
Jeudi 4 juin 2015
Bayesian Model Averaging à l’aide d’un échantillonnage préférentiel adaptatif et multiple pour l’estimation du risque de leucémie infantile radioinduite
Sophie Ancelet (IRSN), Merlin Keller (EDF R&D)
En épidémiologie des rayonnements ionisants (RI), plusieurs modèles dose-risque de cancer
radio-induit peuvent s’ajuster de manière équivalente à un même jeu de données. Ces modèles
différent de par le choix d’une relation dose-risque, en excès de risque relatif ou absolu, et des
facteurs de risque susceptibles de modifier cette relation. Cette incertitude de modèle est ignorée
en pratique : un seul modèle est généralement selectionné pour estimer les risques de cancer radioinduit. Une telle approche peut mener à des estimations d’excès de risque biaisées en forçant un
unique modèle à s’ajuster à des données qui n’en vérifient pas nécessairement toutes les caractéristiques et à une sous-estimation de l’incertitude de ces estimations. Walsh et Kaiser (2011) ont
récemment proposé de combiner plusieurs modèles de risque de cancer radio-induit en utilisant une
approche fréquentiste, appelée inférence multi-modèles (MMI), basée sur le calcul de poids AIC.
Nous proposons d’utiliser une approche alternative bayésienne, connue pour ses bonnes propriétés
en termes d’estimation et de prédiction : le Bayesian Model Averaging (BMA). Pour inférer les
modèles en compétition et réaliser le BMA, nous proposons une approche par échantillonnage préférentiel adaptatif et multiple basé sur une fonction d’importance originale : une copule Gaussienne
avec lois marginales de Student décentrées. Nous analysons les forces et faiblesses de l’algorithme
AMIS implémenté dans un cas d’étude réel portant sur l’estimation de l’excès de risque de leucémie
infantile chez les survivants des bombardements d’Hiroshima-Nagasaki. Enfin, nous comparons les
approches BMA et MMI à partir de ce cas d’étude et de simulations.
16h45-18h05 - Environnement 2
Une construction statistique échangeable pour le post-traitement des ensembles de séries météorologiques
Éric Parent (AgroParisTech), Marie Courbariaux (AgroParisTech), Pierre Barbillon (AgroParisTech)
Les techniques de prévisions probabilistes visent à produire une distribution prédictive de la
quantité d’intérêt au lieu d’une seule ’meilleure’ estimation ponctuelle. Pour les prévisions de débits
en rivière qui intéressent les producteurs d’hydroélectricité tels EDF ou Hydro-Québec, les principales sources d’incertitude sont dues (a) à la méconnaissance des pluies et températures futures
(incertitude météorologique), (b) aux erreurs de représentation de la transformation pluie-débit
(incertitude hydrologique). Il faut d’abord modéliser séparément ces sources d’incertitudes avant
de les intégrer pour obtenir une fonction prédictive de densité de probabilité. Cette communication
focalise sur la modélisation de l’incertitude météorologique. (L’ incertitude hydrologique est décrite
dans une autre communication des mêmes auteurs à ces journées.) L’incertitude météorologique
est aujourd’hui décrite grâce à la génération de plusieurs scénarios de l’évolution à plus ou moins
long terme des variables météorologiques généralement localisées, telles la pluie et la température
sur un bassin-versant. Dans le jargon météorologique, ces trajectoires hypothétiques potentielles
sont appelés membres d’une prévision d’ensemble. L’incertitude météorologique semblerait donc
pouvoir être prise en utilisant tour à tour chaque membre d’ensemble comme un intrant pour le
modèle pluie-débit. Cependant les membres du système de prévision d’ensemble constituent un
échantillon souvent biaisé et sous-dispersé d’une prévision probabiliste digne de ce nom. Pour le
post-traitement visant à recalibrer la prévision d’ensemble, nous développons un modèle fondé sur
l’hypothèse d’échangeabilité, une propriété essentielle de tout système de prévision météorologique
à base d’ensemble.
93
Jeudi 4 juin 2015
Construction bayésienne de prévisions probabilistes à partir des sorties
d’un modèle déterministe pluie-débit
Marie Courbariaux (AgroParisTech), Éric Parent (AgroParisTech), Pierre Barbillon (AgroParisTech)
Les techniques de prévisions probabilistes visent à produire une distribution prédictive de la
quantité d’intérêt au lieu d’une seule ’meilleure’ estimation ponctuelle. Pour les prévisions de débits
en rivière qui intéressent les producteurs d’hydroélectricité tels EDF ou Hydro-Québec, les principales sources d’incertitude sont dues (a) à la méconnaissance des pluies et températures futures
(incertitude météorologique), (b) aux erreurs de représentation de la transformation pluie débit
(incertitude hydrologique). Il faut d’abord modéliser séparément ces sources d’incertitudes avant
de les intégrer pour obtenir une fonction prédictive de densité de probabilité. Cette communication
focalise sur la modélisation de l’incertitude hydrologique (l’incertitude météorologique est décrite
dans une autre communication des mêmes auteurs à ces journées). Pour quantifier l’incertitude
hydrologique, un modèle conjoint de la série des débits modélisés à partir de la pluie et des débits
observés est développé. Nous nous appuyons sur une construction bayésienne : après modélisation
(normale sur variables transformées) du comportement a priori du régime naturel des débits, la
prévision est mise à jour en tenant compte de l’information véhiculée par les sorties de la transformation pluie-débit. On cherche ensuite à améliorer la modélisation auto-régressive des erreurs
en introduisant deux régimes de fonctionnement commandés par des variables explicatives selon
un modèle Probit, estimé par l’algorithme EM. Notre travail porte sur des séries de prévisions de
flux de la rivière régulièrement émises par deux producteurs d’hydroélectricité en France et au
Québec. Nous comparons les résultats de nos constructions statistiques à leurs systèmes actuels
empiriques de prévision opérationnelle.
Analyse du comportement multivarié de la réponse hydro-géomorphologique basée sur les statistiques des rangs
Emna Gargouri-Ellouze (ENIT), Rim Chérif (ISSTE,et ENIT), Julie Carreau (Université
Montpellier 2)
L’analyse fréquentielle régionale est proposée pour estimer les quantiles de débits dans les
bassins non jaugés. Pour régionaliser les bassins versants, les méthodes de partitionnement telles
que l’analyse de cluster sont souvent appliquées. La délimitation des régions est basée sur des
distances calculées entre les sites dans l’espace multidimensionnel : hydrologique, physiographique
et géomorphologique. Ce travail vise à construire des courbes de fréquence pluie-débit- régionales
grâce aux copules. La méthode de classification hiérarchique est utilisée pour la délimitation des
bassins hydrologiquement homogènes. Cette méthode utilise la distance modifiée de Mahalanobis,
basée sur les rangs et le tau de Kendall. Nous considérons dans ce travail de petits bassins versants
situés dans la Dorsale tunisienne, suivis depuis 1992. Pour chaque région, le Kendall plot entre
débit maximum et la pluie révèle que la dépendance existe et qu’elle est positive. L’utilisation de la
distance modifiée de Mahalanobis basée sur les rangs et le tau de Kendall, conduit à deux régions
distinctes. Dans chaque région, nous avons construit une courbe de fréquence pluie-débit- régionale
en utilisant la copule de Gumbel bivariée. La détermination des telles courbes régionales permet
l’évaluation des caractéristiques de ruissellement qui représente un enjeu important dans la gestion
des ressources en eau et aide à la prise de décision en matière de protection de l’environnement.
Courbe régionale d’indice de crue basée sur la classification hydro-géomorphologique
Rim Chérif (ISSTE et ENIT), Emna Gargouri-Ellouze (ENIT)
Cette étude consiste en l’élaboration de courbes fréquentielles régionales des débits, à partir de la classification hydro-géomorphologique des bassins versants. la délimitation des régions
homogènes est basée sur les distances calculées entre les sites dans un espace multidimensionnel de variables : hydrologiques, physiques et géomorphologiques. l’homogénéité hydrologique des
94
Jeudi 4 juin 2015
groupes résultants est vérifiée en utilisant le test de hosking et wallis (1997, 2007) reposant sur
les évaluations des l-moments des quantiles des débits spécifiques maximums observés. la courbe
d’indice de crue est construite pour chaque groupe homogène. plusieurs distributions ont été testées (gev, weibull, log-normal...), le meilleur ajustement a été retenu pour modéliser les courbes
régionales fréquentielles d’indice de crue. dans ce travail, on considère vingt (20) bassins tunisiens
placés dans la dorsale tunisienne, contrôlés depuis 1992. l’analyse de classification a été réalisée
après normalisation des diverses variables hydro-géomorphologiques, ce qui a permis de définir
deux classes homogènes. la comparaison des lois de distribution a été réalisée en calculant les
erreurs quadratiques moyennes et les erreurs moyennes. pour la première région homogène, la loi
weibull est définie comme le meilleur ajustement à la courbe régionale des débits spécifiques maximums standardisés. pour la seconde région la loi log-normale est considérée comme le meilleur
ajustement. ce résultat est utile en cas des bassins non jaugés ou faiblement jaugés. il reste une
étude préliminaire, d’autres méthodes pourront être examinées ainsi que d’autres caractéristiques
pourront être intégrées telles que les paramètres de sol.
16h45-18h05 - Enseignement de la statistique
La statistique vue par des étudiants en sciences de l’éducation : formation
inititale versus formation continue
Jean-Marie Marion (UCO), Alain Bihan-Poudec (UCO)
L’apprentissage de la statistique n’arrive pas sur un terrain vierge. Avant même leurs premiers
cours de statistique à l’université, les étudiants en ont une idée préconçue. Nos recherches ont
montré qu’elle dépendait des filières où se trouvaient les étudiants et pouvait s’analyser en termes
de représentations sociales (Bihan-Poudec, 2012, 2013). A notamment été mis en évidence le fait
qu’être en formation initiale ou en formation continue modifiait notablement l’attitude envers la
statistique (Bihan-Poudec et Marion, 2013 ; Marion et Bihan-Poudec, 2014). Un questionnaire issu
des travaux sur la théorie des représentations sociales (Moscovici, 2004) et appliqué à la situation
enseignement/apprentissage de la statistique a été établi (Bihan-Poudec et Marion, 2014) ; ce
questionnaire s’articule autour des trois dimensions de la représentation sociale de la statistique :
conception de la discipline, intérêt pour celle-ci et expérience antérieure. Ce questionnaire a été
soumis à 147 étudiants de Sciences de l’Éducation : la plupart de ceux-ci sont en formation initiale,
les autres sont des adultes en formation continue. À partir de la comparaison de réponses recueillies
auprès de ces deux publics, nos propos visent à présenter certains résultats de cette enquête et
en particulier ceux issus d’une Analyse Factorielle Multiple afin d’affiner, voire de renouveler les
conclusions antérieurement présentées (Marion et Bihan-Poudec, 2014).
Évolution de la moyenne et de l’écart-type chez les étudiants en sciences
humaines et sociales : étude sur des échantillons appariés
Véronique Dubreil (Université Catholique de l’Oue), Noëlle Zendrera (Université Catholique
de l’Oue)
Nous poursuivons notre grande étude sur les notions de moyenne et d’écart-type vues par
les étudiants de sciences humaines et sociales en premier cycle universitaire. Ces derniers sont
interrogés avant et après l’enseignement de statistique descriptive, sur le degré de maîtrise qu’ils
pensent avoir de ces notions ; ils sont aussi invités à donner une définition de chacune d’entre elles.
Jusqu’à présent, nous avons exploité les données globales de l’ensemble des étudiants. Nous avons
ainsi constaté qu’ils ont une meilleure maîtrise de la moyenne comparée à celle de l’écart-type.
Non seulement, la majorité des étudiants pensent maîtriser la conception de la moyenne, alors
qu’ils n’ont qu’une vague idée de l’écart-type avant l’enseignement de statistique, et qu’ils pensent
à peine maîtriser cet indice à l’issue du cours, mais encore, après le cours de statistique, plus des
deux-tiers d’entre eux donnent des définitions correctes de la moyenne, contre à peine un tiers pour
l’écart-type. L’objectif est maintenant d’observer l’évolution des conceptions de ces deux indices,
95
Jeudi 4 juin 2015
étudiant par étudiant. L’étude détaillée des réponses confirme les résultats énoncés précédemment,
tout en montrant une diversité d’évolution chez les étudiants aussi bien pour la moyenne que pour
l’écart-type. Nus développerons ces aspects lors de notre communication.
« J’aime pas les stats ! » Mesure et analyse de l’attitude à l’égard des
statistiques dans une école de management
Nadine Galy (Toulouse Business School), Kevin Carillo (Toulouse Business School), Cameron
Guthrie (Toulouse Business School), Anne Vanhems (Toulouse Business School)
L’enseignement de la statistique s’avère particulièrement difficile auprès des étudiants d’école
de management. En effet, les cours de statistique sont souvent perçus comme secondaires par
rapport à des disciplines telles que la finance ou le marketing, et les étudiants ont des difficultés
à percevoir la pertinence de tels enseignements pour leur carrière future. A cela s’ajoutent des a
priori négatifs envers la statistique : certains n’aiment tout simplement pas la matière ou pensent
qu’ils auront des difficultés à la comprendre, d’autres la jugent inutile ou ne veulent pas faire
l’effort d’investissement nécessaire. L’attitude développée par les élèves va ainsi exercer un impact
sur leur comportement académique, leur façon d’appréhender le cours et au final sur leur réussite
à l’examen. Notre étude nous a permis de mesurer l’attitude des étudiants d’école de management
à l’égard des cours de statistique, de mettre en relation cette attitude avec leurs caractéristiques
personnelles, et de vérifier son impact sur la réussite du module. Pour mesurer l’attitude envers
la statistique, nous avons adapté l’instrument de Schau (Survey of Attitudes Toward Statistics,
SATS 36). Le questionnaire a été traduit et administré à 420 étudiants de première année d’école de
management (niveau L3) durant un cours d’introduction à la statistique. Une analyse confirmatoire
et l’étude des indices de fiabilité et de validité a permis de valider la version française de l’échelle.
Compétitions d’apprentissage automatique avec le package R rchallenge
Adrien Todeschini (Inria Bordeaux), Robin Genuer (ISPED Univ. Bordeaux, Inria SISTM)
En apprentissage automatique, les performances empiriques obtenues sur données réelles sont
déterminantes dans le succès d’une méthode. Ces dernières années ont vu l’apparition d’un grand
nombre de compétitions d’apprentissage automatique. Ces challenges sont motivés par des applications industrielles (prix Netflix) ou académiques (challenge HiggsML) et mettent en compétition chercheurs et data scientists pour obtenir les meilleures performances. Nous avons souhaité
confronter les étudiants à cette réalité en leur soumettant un challenge dans le cadre du cours
d’apprentissage automatique. Leur classement est affiché sur une page web mise à jour automatiquement permettant une émulation parmi les étudiants. L’historique des résultats leur permet également de visualiser leur progression au fil des soumissions. De plus, le challenge peut se poursuivre
en dehors des sessions encadrées favorisant l’autonomie et l’exploration de nouvelles techniques
d’apprentissage et outils informatiques. Le système que nous avons mis en œuvre est disponible
sous forme de package R afin d’être réutilisé par d’autres enseignants. S’appuyant sur les outils
R Markdown et Dropbox, il ne nécessite aucune configuration réseau et peut être déployé très
facilement sur un ordinateur personnel.
16h45-18h05 - Fiabilité et incertitudes
L’utilisation du modèle de Cox-PLS dans la prévision de défaillance des
entreprises
Sami Ben Jabeur (IPAG Business School)
L’objectif de cet article est d’appliquer le modèle Cox-PLS (Partial Least Squares) à la prévision
de la détresse financière d’entreprises françaises afin d’estimer leur risque de défaut et d’élaborer
un indicateur du risque de faillite. Cette recherche est motivée par les insuffisances des modèles de
prévision traditionnels. L’échantillon est composé de 800 petites et moyennes entreprises françaises
96
Jeudi 4 juin 2015
pour lesquelles des données comptables et financières ont été collectées et une batterie de 33 ratios
financiers a été calculée sur la période 2006-2008. Les prévisions issues de l’analyse Cox-PLS
sont comparées à celui de modèle de Cox ; les probabilités de défaut estimées constituent un bon
indicateur en termes de prévision du risque de faillite de un à trois ans avant le dépôt de bilan.
Méthodes de détection d’une rupture dans des échantillons de petite
taille suivant des lois exponentielles
Narayanaswamy Balakrishnan (McMaster University), Laurent Bordes (Université de Pau et
des Pays de l’Adour), Christian Paroissin (Université de Pau et des Pays de l’Adour), JeanChristophe Turlot (Université de Pau)
On s’intéresse au problème de détection d’une rupture dans le taux de défaillance observé sur
une série courte d’observations. Plus précisément, il s’agit de décider si les instants séparant les
défaillances successives sur une série courte de observations consécutives ont un même taux de
défaillance, ou s’il existe un instant tel que ce taux, constant jusqu’à une date inconnue, prenne
à partir de jusqu’à une autre valeur constante correspondant à une augmentation de la fréquence
de rupture. On suppose les observations indépendantes. Les tests statistiques que nous proposons
sont fondés sur le rapport des moyennes empiriques sous l’hypothèse classique de distributions
exponentielles. Ils sont confrontés au test non paramétrique de Wilcoxon-Mann-Whitney qui ne
nécessite aucune hypothèse paramétrique sur la loi du taux de défaillance. La loi des statistiques
proposées ne dépend pas de la distribution inconnue sous l’hypothèse nulle d’homogénéité des dates
de défaillance, ce qui permet de calculer les valeurs critiques des tests suggérés par la méthode de
Monte Carlo pour de petits échantillons. Des études de puissance sont réalisées dans un cadre un
peu plus large, en considérant la famille des lois de Weibull.
Echantillonnage préférentiel et méta-modèles : méthodes bayésiennes optimale et défensive
Julien Bect (L2S), Roman Sueur (EDF R&D), Alexis Gérossier (CentraleSupélec), Loic Mongellaz (CentraleSupélec), Sébastien Petit (CentraleSupélec), Emmanuel Vazquez (L2S)
Cet article considère le problème du choix Rd’une loi instrumentale pour l’estimation par échantillonnage préférentiel d’une intégrale du type h(x)π(x) dx, la fonction h étant coûteuse à évaluer.
Pour construire une telle loi instrumentale, nous adoptons une approche bayésienne consistant à
introduire un a priori sur h, ce qui permet, étant donnés des résultats d’évaluations de h, de
construire une loi instrumentale optimale au sens bayésien. Cette loi instrumentale, bien que
permettant de réduire l’espérance (par rapport à la loi a priori) de la variance fréquentiste d’estimation, peut conduire dans certains cas à une variance supérieure à celle de l’estimateur de Monte
Carlo. Nous proposons une correction, dite « défensive », de la loi optimale bayésienne pour remédier à ce problème. Une application à l’estimation d’une probabilité de défaillance, à partir d’un
code industriel issu du domaine de la fiabilité des structures, illustre l’approche proposée.
Le facteur de Bayes appliqué à la validation des codes de calcul
Guillaume Damblin (EDF R&D/AgroParisTech), Merlin Keller (EDF R&D), Pierre Barbillon
(AgroParisTech), Alberto Pasanisi (EDF Eifer), Eric Parent (AgroParisTech)
Nous présentons dans cet article une nouvelle approche pour la validation d’un code de calcul
simulant un système physique d’intérêt. La validation est appréhendée comme un problème de test
statistique qui confronte l’hypothèse nulle selon laquelle le code prédit parfaitement le système
physique d’intérêt, avec l’hypothèse alternative selon laquelle une erreur systématique subsiste
entre le système physique et les prédictions du code. Lorsque le code dépend d’un paramètre
inconnu, l’hypothèse nulle correspond à l’existence d’une valeur du paramètre permettant un
ajustement parfait du code au système physique, tandis que l’hypothèse alternative correspond à
la situation pour laquelle chaque valeur du paramètre définit une fonction d’erreur non nulle entre
le code et la système physique. En supposant dans un premier temps que le code de calcul est
97
Jeudi 4 juin 2015
linéaire par rapport au paramètre, le facteur de Bayes est calculé à partir des mesures physiques
disponibles afin de discriminer laquelle des deux hypothèses statistiques est la plus probable. Une
attention particulière sera portée au choix des lois a priori pour lesquelles nous proposons plusieurs
techniques de construction.
16h45-18h25 - Trucs et astuces pour Stat Math : la symétrisation
Symétrisation 1
Stephane Boucheron (LPMA Universite-Paris-Diderot)
Quand on s’intéresse aux sommes de variables aléatoires indépendantes, on est amené à considérer des versions symétrisées de ces variables (une variable aléatoire X est symétrique si X et
−X ont même loi. Si X 0 a même loi que X et est indépendante de X, X − X 0 est symétrique). Les
normes de sommes de vecteurs aléatoires symétriques vérifient en effet les inégalités de Lévy, les
probabilités de déviation des normes des sommes partielles sont contrôlées par les probabilités de
déviation de la norme de la somme finale. Ces inégalités donnent des critères simples de convergence pour les séries aléatoires (voir Ledoux et Talagrand (1991), Chapitre 2). En statistiques,
en théorie de l’apprentissage, la symétrisation apparaît dans la démonstration des inégalités de
Vapnik-Chervonenkis. Le classique de Van de Vaart et Wellner (1996) y consacre un chapître. Elle
réduit l’étude de suprema de processus empiriques à des questions combinatoires.
On illustre la
√
simplicité de la technique sur la statistique de Kolmogorov-Smirnov : Dn = n supx |Fn (x) − F (x)|
n2
en montrant facilement P {Dn ≥ } ≤ 4e− 2 perdant donc un facteur devant l’exponentielle, et un
facteur dans l’exposant, par rapport à la borne délicate de Dvoretsky-Kieffer-Wolfovitz-Massart.
Les inégalités de symétrisation justifient des mesures de complexité empiriques utilisées en sélection de modèles comme les moyennes de Rademacher (Koltchinskii, Annals of Statistics, 2006).
Elles permettent même de développer des inégalités de type Bernstein auto-normalisées pour les
suprema de processus empiriques (Panchenko, 2003).
Symétrisation 2
Stephane Boucheron (LPMA Universite-Paris-Diderot)
Quand on s’intéresse aux sommes de variables aléatoires indépendantes, on est amené à considérer des versions symétrisées de ces variables (une variable aléatoire X est symétrique si X et
−X ont même loi. Si X 0 a même loi que X et est indépendante de X, X − X 0 est symétrique). Les
normes de sommes de vecteurs aléatoires symétriques vérifient en effet les inégalités de Lévy, les
probabilités de déviation des normes des sommes partielles sont contrôlées par les probabilités de
déviation de la norme de la somme finale. Ces inégalités donnent des critères simples de convergence pour les séries aléatoires (voir Ledoux et Talagrand (1991), Chapitre 2). En statistiques,
en théorie de l’apprentissage, la symétrisation apparaît dans la démonstration des inégalités de
Vapnik-Chervonenkis. Le classique de Van de Vaart et Wellner (1996) y consacre un chapître. Elle
réduit l’étude de suprema de processus empiriques à des questions combinatoires.
On illustre la
√
simplicité de la technique sur la statistique de Kolmogorov-Smirnov : Dn = n supx |Fn (x) − F (x)|
n2
en montrant facilement P {Dn ≥ } ≤ 4e− 2 perdant donc un facteur devant l’exponentielle, et un
facteur dans l’exposant, par rapport à la borne délicate de Dvoretsky-Kieffer-Wolfovitz-Massart.
Les inégalités de symétrisation justifient des mesures de complexité empiriques utilisées en sélection de modèles comme les moyennes de Rademacher (Koltchinskii, Annals of Statistics, 2006).
Elles permettent même de développer des inégalités de type Bernstein auto-normalisées pour les
suprema de processus empiriques (Panchenko, 2003).
On the restricted eigenvalues condition for Gaussian matrices
Arnak Dalalyan (ENSAE ParisTech)
98
Jeudi 4 juin 2015
Dans cet expose, nous presenterons comment la condition RE (des valeurs propres restreintes)
d’un matrice gaussienne centree est reliee a celle de sa matrice de covariance.
Un test adaptatif fondé sur la symétrisation
Cécile Durot (Université Paris Ouest), Yves Rozenholc (Inria Saclay Ile de France Equipe
Select)
Ayant observé un vecteur aléatoire y de dimension n, et notant f son espérance, nous bâtissons
un test non-asymptotique de l’hypothèse nulle que f = 0 contre l’alternative f 6= 0, sous la seule
hypothèse que les composantes yi de y sont indépendantes entre elles et de loi symétrique autour
de leur espérance. Nous ne supposons pas les composantes yi − fi de même loi. Sans hypothèse
supplémentaire, la loi d’une statistique de test est inconnue même sous l’hypothèse nulle. Nous
proposons donc une calibration fondée sur un principe de symétrisation exploitant l’hypothèse
de symétrie. Le test est non-asymptotique. Sa puissance est décrite dans le cadre du modèle de
régression, où fi = F (xi ) pour une fonction F inconnue et des xi ∈ [0, 1] déterministes : le test
est adaptatif sur des classes de régularité Hölderienne sous des hypothèses de moments générales.
Cette présentation est effectuée pour la session spéciale du groupe statistique mathéma-tique sur
les techniques de symétrisation.
Symétrisation dans les problèmes à deux échantillons : le cas des processus de Poisson
Magalie Fromont (IRMAR, Université Rennes 2), Béatrice Laurent (IMT, INSA Toulouse),
Patricia Reynaud-Bouret (CNRS Université de Nice Sophia-Antipolis)
Nous considérons ici le problème dit ’à deux échantillons’ pour des processus de Poisson, qui
consiste à tester l’hypothèse nulle d’égalité des intensités de deux processus de Poisson indépendants. Plus précisément, nous nous intéressons à l’utilisation d’une astuce de symétrisation pour
construire des tests non paramétriques et non asymptotiques, partant de statistiques de test dont
la loi n’est pas nécessairement libre de la loi - inconnue - des processus sous l’hypothèse nulle.
Cette astuce est appliquée en particulier à des statistiques de test basées sur des noyaux généraux.
Les tests ainsi construits sont alors du niveau voulu et sont optimaux au sens du minimax sur
certaines classes d’alternatives.
18h30-... - Rencontre Jeunes Statisticiens
99
Vendredi 5 juin 2015
08h45-09h45 - Sophie Lambert-Lacroix
Modèles mixtes fonctionnels
Sophie Lambert-Lacroix (UMR 5525 UPMF)
Un nombre croissant de domaines scientifiques collectent de grandes quantités de données
comportant beaucoup de mesures répétées pour chaque individu. Ce type de données peut être
vu comme une extension des données longitudinales en grande dimension. Le cadre naturel pour
modéliser ce type de données est alors celui des modèles mixtes fonctionnels. Nous nous intéressons
aux questions d’estimation et de réduction de dimension au sein des modèles mixtes fonctionnels
et nous présentons deux approches. La première approche se place dans un objectif d’estimation
dans un contexte non-paramétrique. Dans ce cadre, l’estimateur de l’effet fixe fonctionnel basé
sur les techniques de seuillage par ondelettes possède de bonnes propriétés de convergence. Une
deuxième approche concerne une procédure basée sur les techniques de sélection de variables par
maximum de vraisemblance pénalisée. Ces approches sont illustrées via une étude de simulation
et sur données réelles.
08h45-09h45 - Grégory Nuel
Prédiction individuelle du risque de cancer en fonction des antécédents
familiaux
Grégory Nuel (CNRS)
On évoque ici la problématique (clinique) de l’évaluation du risque individuel en fonction des
antécédents familiaux (pédigrés). On commence par introduire le modèle BOADICEA (actuellement utilisé à l’Institut Curie) qui mélange la génétique humaine, les réseaux bayésiens et l’analyse
de survie. Nous insistons ensuite sur le défi que représente l’estimation des paramètres de ce modèle, notamment en raison de l’épineux problème du biais de sélection des familles se présentant
dans les services de génétique du cancer. Nous évoquons ensuite l’interprétation de ce modèle et
des différentes sorties qu’il propose avant de discuter des perspectives de ce travail.
10h00-11h40 - Médecine, épidémiologie
Using a structural Bayesian approach to account for measurement error :
an application to radiation epidemiology
Sabine Hoffmann (IRSN), Sophie Ancelet (IRSN), Chantal Guihenneuc (EA 4064, Paris Descartes), Pierre Laroche (AREVA)
The problem of measurement error affecting predictor variables arises in many research areas,
such as epidemiology, biology and econometrics. Ignoring this measurement error can lead to a
loss of power and biased point and interval estimates of parameters. In this epidemiological study,
conducted on a prospective cohort of uranium miners, we propose a structural Bayesian approach
based on conditional independence models to assess the association between occupational radon
exposure and lung cancer mortality while taking into account Berkson exposure measurement error.
Bayesian inference is conducted via an adaptive Metropolis-Hastings algorithm implemented in
Python. A simulation study suggests that this Bayesian approach leads to a substantial reduction
in the bias caused by exposure measurement error. When the proposed methodology is applied to
the cohort, one observes an increase in the risk estimate for lung cancer mortality associated with
cumulated radon exposure. More research is needed to compare the performance of this structural
Bayesian approach with functional methods and to study the robustness of the proposed method
concerning misspecifications of the distribution of true exposures.
101
Vendredi 5 juin 2015
Application de la cartographie du risque aux données contagieuses
Sylvain Coly (INRA Clermont-Ferrand/Theix), Myriam Charras-Garrido (INRA ClermontFerrand/Theix), David Abrial (INRA Clermont-Ferrand/Theix), Anne-Françoise Yao-Lafourcade
(Laboratoire de Mathématiques UMR 6620)
La cartographie du risque appréhende la répartition du risque associé à une pathologie et le
représente sous la forme de carte suivant un dégradé de couleurs. Depuis son introduction par Besag, la cartographie du risque a connu de nombreuses améliorations et variantes méthodologiques,
pour couvrir un spectre de problématiques de plus en plus large. Cette approche est usuellement
appliquée à des maladies non-contagieuses ; dans ce cas les dépendances spatiales (voire spatiotemporelles) sont liées à des facteurs environnementaux et populationnels. Notre objectif est d’appliquer la cartographie du risque à des maladies infectieuses, pour lesquelles un cas primaire peut
engendrer des cas secondaires. La contagion peut être source de surdispersion et de renforcement
des structures spatiales et temporelles. Nous avons testé 60 modèles aux lois de comptage et aux
structures de risque différentes sur des données simulées (agrégats de cas) et sur des données réelles
(tuberculose bovine). Le mode de sélection de modèle est le critère DIC (Deviance Information
Criterion). Cette étude montre la pertinence d’utiliser la loi binomiale négative par rapport à la
loi de Poisson dans le cas de données surdispersées et/ou présentant des niveaux de risque contrastés. Elle conclut à la nécessité de prendre en compte les dimensions spatiale et temporelle dans ce
type d’étude épidémiologique. Elle permet par ailleurs d’appréhender la répartition du risque de la
tuberculose bovine en France, ainsi que sa structure. Ces conclusions ouvrent des perspectives sur
différents sujets méthodologiques tels que la recherche des modèles les plus adaptés ou la sélection
de modèle.
Comparing t-year absolute risk prediction strategies : the multi-split testing approach
Paul Blanche (University of Copenhagen), Mark van de Wiel (Dep. of Epidemiology & Biostatistics, VU University, Amsterdam), Jonas B. Nielsen (Rigshospitalet, Copenhagen University
Hospital), Thomas A. Gerds (Dep. of Biostatistics, Univ. of Copenhagen)
L’intérêt croissant pour la médecine personnalisée crée une demande importante de modèle prédictifs. De nombreux modèles statistiques et stratégies ont déjà été discutés pour construire des
outils pronostiques. Simultanément, les capacités pronostiques de nombreux facteurs de risques et
nouveaux biomarqueurs sont aujourd’hui évalués. En pratique, ceci complique fortement le choix
d’une stratégie, parmi les nombreuses possibles, pour construire un modèle prédictif. Leur comparaison objective est une tâche délicate. Pour comparer deux stratégies de prédiction, une technique
couramment utilisée consiste à diviser les données en deux : un “échantillon d’apprentissage”, utilisé
pour développer les deux outils de prédiction, et un “échantillon test”, utilisé pour les comparer.
Malheureusement, les conclusions dépendent souvent de la façon dont les données ont été divisées.
Van de Wiel et al. (2009) ont récemment proposé une approche par test basée sur de multiples
scissions des données. Les avantages de l’approche incluent son implémentation aisée et son universalité, qui permettent de comparer des stratégies de prédiction très diverses. Elle est également
générale en ce qui concerne le critère utilisé pour évaluer les capacités pronostiques. Des extensions
aux situations incluant la présence de données censurées et de risques concurrents sont présentées.
Nous discutons aussi de nouveaux résultats concernant les hypothèses de la méthode et le contrôle
de son erreur de type-I. Une application à la prédiction d’événements cardiovasculaires est présentée. L’objectif est de comparer des stratégies de prédiction basées sur des électrocardiogrammes.
Les données d’une cohorte Danoise de grande taille sont analysées (n = 12 877).
Semi-parametric dose finding methods
Matthieu Clertant (LSTA, UPMC), John O’Quigley (LSTA, UPMC)
On décrit un cadre général de méthodes permettant de répondre au problème de positionnement
de dose. Celui-ci revient à localiser la racine d’une fonction de régression. Ces méthodes sont très
102
Vendredi 5 juin 2015
utiles en phase I d’essai clinique car elles respectent les contraintes éthiques inhérentes à ce type
d’étude. Sous des conditions paramétriques de forte dépendance, la classe de méthode envisagée
est équivalente à celle de la CRM. Si, l’on assoupli la structure sous-jacente, on retrouve le mTPI,
la CCD et le BOIN. Ces méthodes sont non-paramétriques par nature tandis que la CRM peut-être
vue comme fortement paramétrique. Le cadre proposé repose sur un principe semi-paramétrique
puisqu’il correspond à la CRM muni d’un paramètre de nuisance. Les performances obtenues sont
bonnes, généralement comparables à celles de la CRM et parfois supérieures. La structure générale
permet d’aborder plus facilement certaines questions théoriques et de mieux comprendre comment
les différentes méthodes sus-citées sont reliées entre elles.
Prix ESSAI-SFdS : Implémentation d’une solution de mesure d’aide à la
décision de bioéquivalence
Maroua Abcha (ESSAI Tunis), Héla Ouaili Mallek (ESSAI Tunis), Asma Hajjem (Business &
Decision Tunisie)
Dans la pratique clinique, il est souvent fait appel aux études de bioéquivalence afin de comparer deux médicaments. L’objectif de ce projet est d’introduire l’aspect pharmacocinétique et
statistique de ce type d’étude, ainsi que de modéliser, programmer et implémenter une solution
de mesure d’aide à la décision de bioéquivalence.
10h00-11h40 - Apprentissage et classification 2
Sélection de variables en classification non-supervisée sans estimation de
paramètres
Matthieu Marbac (INSERM), Mohammed Sedki (Université Paris-Sud et INSERM)
Nous présentons le critère MICL (Maximum Integrated Complete-data Likelihood) qui est
utilisé en classification non supervisée pour la sélection de variables d’un mélange gaussien. Ce
critère est basé sur la forme explicite de la vraisemblance complétée intégrée et permet d’effectuer
la sélection de modèle préalablement à l’estimation des paramètres. Ainsi, il évite les procédures
d’optimisation complexes et chronophages inhérentes aux critères classiques tels que BIC et ICL.
Toutefois, ses propriétés restent similaires à celles du critère ICL. L’apport du critère MICL est
illustré sur différents jeux de données réelles.
Classification non-supervisée de trajectoires
Philippe Besse (UPS Toulouse, IMT), Brendan Guillouet (UPS Toulouse, IMT), Jean-Michel
Loubes (Institut de mathématiques de Toulouse), François Royer (Datasio)
Les trajectoires sont des suites de points du plan indexés par le temps. Pour pouvoir les
comparer il faut prendre en compte non seulement le point de départ et le point d’arrivée, qui
définissent l’itinéraire, mais également leur longueur et leur forme. Ainsi les méthodes de classifications usuelles ne permettent pas de bien différencier les observations. Notre objectif est ici de
fournir une nouvelle méthodologie de classification non supervisée des données de trajectoires se
basant sur l’utilisation d’une distance particulière adaptée à ce type de données. De nombreuses
distances ont déjà été développées en vue de cet objectif, basé sur une re-paramétrisation de l’index
temporel, mais cela ne suffit pas à corriger les distorsions dans le cas des trajectoires localisées.
Nous avons établi une distance adaptée à la structure de nos trajectoires. Celle-ci se base sur les
critères suivants : la distance physique entre deux trajectoires et la forme des trajectoires (orientation, longueur). Elle est donc entièrement indépendante de la dimension temporelle. Cette distance
a été calculée sur 2802 trajectoires de taxis San-Franciscains.Nous avons appliqué l’algorithme de
propagation d’affinité à ces distance pour obtenir des classes de trajectoires groupés par itinéraires. Nous exposerons les différentes résultats obtenus grâce à différentes distance et celle que
103
Vendredi 5 juin 2015
nous avons définis. Nous expliquerons également comment nous comptons exploiter ces résultats
pour aider à la prédiction de trajectoires.
Mélanges de lois de Student à échelles multiples pour la caractérisation
de tumeurs par IRM multiparamétrique
Alexis Arnaud (LJK), Florence Forbes (LJK, Inria), Benjamin Lemasson (INSERM, UJF),
Emmanuel Barbier (INSERM, UJF), Nicolas Coquery (INRA)
Dans cette étude nous développons une méthode statistique pour la classification de données
IRM multiparamétriques permettant de réaliser un contrôle qualité des données (détection de
données atypiques), et de construire un dictionnaire de signatures de tumeurs. Une précédente
étude se base sur le modèle de mélange de lois gaussiennes dans lequel on cherche à rassembler des
observations en groupes (classes) issus de lois gaussiennes. Ce modèle est connu pour sa sensibilité
aux valeurs atypiques qui peuvent sensiblement dégrader la pertinence des groupes obtenus. Nous
proposons donc d’utiliser des lois de Student généralisées qui permettent d’attribuer un poids à
chaque observation dans chaque dimension, de façon à pondérer l’influence des valeurs atypiques
sur la forme des groupes. Il en résulte une plus grande flexibilité dans l’ajustement des classes.
Nous utilisons ainsi un algorithme d’Estimation-Maximisation, ainsi qu’un critère bayésien de
sélection de modèle, que nous appliquons sur un échantillon de 37 rats présentant quatre modèles
de tumeur. Nous arrivons à détecter des animaux atypiques avant de construire un dictionnaire
de tumeurs discriminant fortement les quatre gliomes considéerées.
Méta-algorithme de classement. Application à la sécurité routière
Zaïd Ouni (Université Paris Ouest Nanterre, LAB et Modal’X)
Chaque année, les données BAAC (Bulletin d’Analyse des Accidents Corporels) incluent tous
les accidents de la circulation sur la voie publique française impliquant un ou plusieurs véhicules
légers et blessant au moins un des occupants. Chaque véhicule léger se voit associer une “classe
générationnelle” (CG), qui en donne une description sommaire. A contextes accidentels donnés,
deux véhicules légers de CGs distinctes n’offrent pas nécessairement la même sécurité à leurs
passagers. L’objectif de ce travail est d’évaluer dans quelle mesure les nouvelles générations de
véhicules légers sont plus sûres que les anciennes à partir des données BAAC. Nous procédons par
“scoring” : nous cherchons une fonction de score qui associe à tout contexte et toute CG un nombre
réel ; plus ce nombre est petit, plus la CG est sûre dans le contexte accidentel donné. Une meilleure
fonction de score est apprise à partir des données BAAC par validation croisée, sous la forme d’une
combinaison convexe optimale de fonctions de scores produites par une librairie d’algorithmes de
classement par scoring. Une inégalité oracle illustre les performances du méta-algorithme ainsi
obtenu. Nous implémentons ce méta-algorithme, l’appliquons, et en montrons quelques résultats.
Modélisation statistique de la toxicité de molécules et domaine de validité : application en chémoinformatique
Jonathan Villain (Université de Bretagne Sud), Gilles Durrieu (Université de Bretagne Sud),
Ronan Bureau (Université de Caen)
Dans le domaine de la chimie et plus particulièrement en chémoinformatique, des modèles
d’estimation des propriétés écotoxicologiques de molécules sont de plus en plus étudiés. Les modèles
QSAR (Quantitative Structure Activity Relationship) permettent de prédire le niveau d’activité
d’une nouvelle molécule. Cependant, une erreur de prédiction importante du niveau de toxicité
des molécules est souvent observée pour des molécules avec un comportement atypique. Nous
proposons alors des modèles statistiques robustes permettant de déterminer un domaine de validité
et ainsi de déduire la capacité de prédiction d’un modèle pour une molécule.
104
Vendredi 5 juin 2015
10h00-11h40 - Statistique spatiale 2
Spatial statistics in discrete-choice models
Emad-Aldeen Drwesh (Université de Lille), Sophie Dabo-Niang (Université de Lille), Jêrome
Foncel (Université de Lille)
Spatial binary models are useful in many areas such as in economic and epidemiology where
activities are often located in space. A way that makes the analysis of such spatial activities
possible is to find a kind of correlation between some random variables in one location with others
at neighboring locations, see for instance Pinkse and Slade (1998), Klier and McMillen (2008) and
Wang et al. (2013). We proposed here to describe and analyze the spatial (geographical) variation
in disease (cancer) with respect to some risk factors using spatial binary models containing spatial
latent choice variable and/or spatial autoregressive disturbances in a context of sampling data. This
problem is known as Choice-Based Sampling (CBS) in discrete choice model. Unlike the random
sample where all items in the population have the same probability of being chosen, the ChoiceBased Sampling (CBS) in discrete choice model is a type of sampling where the classification of
the population into subsets to be sampled is based on the choices or outcomes. In this context,
the use of standard Maximum likelihood estimation (MLE) procedure in CBS could lead to an
inconsistent (asymptotically biased) estimation. Thus, in addition to the conditional maximum
likelihood estimator (Manski and McFadden, 1981), we adapt the GMM approach (Imbens, 1992)
in our context of spatial Choice-Based Sampling. We also provide a GMM estimator based on
the generalized residuals (see Gourieroux et al. (1987)). We present a Monte Carlo experiment
to investigate the finite sample performance of these estimation methods. An application to real
cancer data in northern France is also provided.
Asymptotic spectral theory for nonlinear random fields
Karima Kimouche (Département de mathématiques, Université de Skikda)
In this paper, we consider the asymptotic problem in spectral analysis of stationary random
fields. We impose conditions which are easily verifiable for a variety of nonlinear random fields
to obtain the consistency and the asymptotic normality of spectral density estimates. Asymptotic
distribution of maximum deviations of the spectral density estimates is also derived.
Estimation non-paramétrique de la fonction de régression par la méthode
des k-plus proches voisins pour données spatiales
Mohamed Salem Ahmed (Université de Lille), Mohammed Kadi Attouch (Université du Littoral
Côte d’Opale), Sophie Dabo-Niang (Université de Lille), Aliou Diop (Université Gaston Berger)
Nous proposons une généralisation de la méthode des k-plus porches voisins a des données
spatialement dépendantes dans le but d’estimer la fonction de régression à partir de réalisations
d’un processus spatial strictement stationnaire dans une région rectangulaire. L’estimateur de la
fonction de régression proposé est basé sur un double noyau introduit par Dabo-Niang et al. (2014).
Ces auteurs ont propose un estimateur à noyau de la fonction de régression dans le cas de données
spatialement dépendantes en se basant sur deux noyaux : l’un contrôle la structure de dépendance
spatiale et l’autre contrôle la distance entre les observations. Nous adaptons cette méthode dans
le cadre des k-plus porches voisins en utilisant sur le noyau qui contrôle les observations une
fenêtre aléatoire de lissage. Cette fenêtre aléatoire de lissage est denie par la distance entre la
réalisation de la variable explicative au site spatial où on veut estimer la fonction de régression et
le k-ieme plus proche réalisation aux sites voisins. Nous établissons sous des hypothèses générales,
la convergence presque compléte de notre estimateur en précisant la vitesse de convergence. Sur
des données simulées et réelles, nous produisons des résultats numériques tout en comparant notre
estimation a celle obtenue par Dabo-Niang et al. (2014).
105
Vendredi 5 juin 2015
Critères de choix de modèle pour champs de Gibbs cachés
Julien Stoehr (I3M, UMR CNRS 5149, Université de Montpellier), Jean-Michel Marin (I3M,
UMR CNRS 5149, Université de Montpellier), Pierre Pudlo (I3M, UMR CNRS 5149, Université
de Montpellier)
La question du choix de modèle pour un champ de Gibbs caché est difficile. La structure de
dépendance markovienne ne permet pas le calcul explicite de la constante de normalisation de la
vraisemblance et de la somme sur tous les champs latents possibles. Les critères de choix de modèle
de type BIC (Schwartz, 1978) ne sont donc pas estimables directement. Des approximations de
BIC basées sur le principe des champs moyens ont été proposées pour rendre le calcul possible
(Stanford et Raftery, 2002 ; Forbes et Peyrard, 2003). L’approximation consiste à remplacer la loi
du modèle par une loi produit sur un ensemble de variables aléatoires réelles indépendantes. Dans
le cas de la segmentation d’image, cela revient à factoriser la loi sur l’image en un produit de
loi sur les pixels. Nous proposerons une extension de ces approximations lorsque la vraisemblance
est remplacée par une loi produit sur des sous ensembles de variables aléatoires, i.e., des blocs de
l’image.
Prédire l’intensité locale d’un processus ponctuel partiellement observé
Edith Gabriel (Université d’Avignon), Florent Bonneu (Université d’Avignon), Pascal Monestiez (INRA), Joël Chadoeuf (INRA)
Nous considérons un semis de points observé dans une grande fenêtre. Nous supposons que le
processus sous-jacent est stationnaire, isotrope et obtenu par un processus à faible dépendance
dont un paramètre est dirigé par un champ aléatoire stationnaire à une échelle supérieure. Dans
un objectif de prédire l’intensité locale du processus ponctuel dans des zones non-échantillonnées,
notre approche consiste à définir les caractéristiques du champ aléatoire à partir de celles du
processus ponctuel, puis à interpoler l’intensité locale par un krigeage ordinaire revisité. Après avoir
présenté la méthode, nous étudierons ses performances à partir de simulations et l’appliquerons à
l’estimation de la nidification du busard cendré.
10h00-11h40 - Estimation de densité
Approche bayésienne dans l’estimation non-paramétrique de la densité
des données de dénombrement par noyau associé
Smail Adjabi (Laboratoire LAMOS, Université de Bejaia), Nabil Zougab (Laboratoire LAMOS,
Université de Bejaia), Célestin C. Kokonendji (Université de Franche-Comté)
L’approche bayesienne pour la sélection de la fenêtre de lissage dans l’estimation de la fonction
de masse de probabilité discrète par la méthode du noyau associé est une bonne alternative aux
méthodes populaires classiques telles que la méthode plug-in et la technique de validation croisée.
Dans ce travail, nous proposons l’approche bayesienne locale pour estimer le paramètre de lissage
en considérant ce paramètre comme une quantité aléatoire avec une distribution a priori. En
utilisant le critère de l’erreur quadratique intégrée (ISE), l’approche bayesienne est comparée aux
méthodes plug-in et validation croisée sur des simulations de données générées par des fonctions
discrètes connues et sur des données réelles de comptage. Les résultats montrent la supériorité de
l’approche bayesienne sur les méthodes classiques particulièrement pour les échantillons de petite
et moyenne taille.
Estimation rapide non-paramétrique de la densité de la distribution d’entropie maximale pour les statistiques d’ordre
Richard Fischer (EDF R&D), Cristina Butucea (LAMA UPE-MLV), Jean-François Delmas
(CERMICS ENPC), Anne Dutfoy (EDF R&D)
106
Vendredi 5 juin 2015
L’objectif de cette communication est de présenter une méthode pour estimer, d’une façon nonparamétrique, la densité de la distribution d’entropie maximale des statistiques d’ordre ayant des
marginales fixées. Ces densités, dont le support est inclus dans l’ensemble S = {x = (x1 , . . . , xd ) ∈
Rd ; x1 ≤ x2 ≤ . . . , ≤ xd }, admettent une forme produit. On souhaite estimer, à partir d’un échantillon i.i.d., une densité qui appartient à cette famille de lois. Étant donné la forme et le support
spécial, nous proposons un modèle log-additif basé sur des séries de polynômes quasi-orthogonaux
spécialement conçus pour ce problème. L’intérêt de cette méthode est qu’elle nous donne une
véritable fonction de densité de statistiques d’ordre qu’on pourra utiliser lors des simulations de
type Monte-Carlo. Nous démontrons que, si le logarithme de la densité appartient à une classe
de type Sobolev anisotropique, on peut décomposer notre problème d’estimation d’une densité ddimensionnelle à d problèmes univariés, on peut alors retrouver la vitesse de convergence univariée
optimale dans le sens minimax pour une classe Sobolev de log-densités.
Déconvolution adaptative de densité sur R+
Gwennaëlle Mabon (CREST - ENSAE)
On considère le problème d’estimation adaptative de densité dans le modèle de convolution :
Z = X + Y où X et Y sont des variables indépendantes positives. Le but est d’estimer la densité
de X à partir de n observations de Z, en supposant la loi de Y est connue. Ce problème de
déconvolution, classique en statistique non-paramétrique, a été traité en utilisant une approche
Fourier. Cependant dans ce travail les variables aléatoires ont la particularité d’être distribuées
sur R+ . Sachant cela, nous proposons un nouvel angle d’attaque en construisant un estimateur
par projection sur la base de Laguerre. Nous présentons une majoration du risque quadratique
intégré de cet estimateur. Enfin nous décrivons aussi une stratégie d’estimation adaptative pour
sélectionner un espace de projection pertinent.
Comportement asymptotique de l’estimateur à noyau de la densité, avec
données discrétisées, pour des champs aléatoires dépendants et nonstationnaires
Joseph Ngatchou Wandji (EHESP & Université de Lorraine), Michel Harel (ESPE Limoges &
Université Paul Sabatier), Jean-François Lenain (Université de Limoges)
Nous étudions le comportement asymptotique d’estimateurs à noyau de la densité pour des
suites de données spatiales dépendantes discrétisées, localement non-stationnaire et convergent
vers une suite stationnaire de données spatiales. Notre étude porte essentiellement sur le biais et
la normalité asymptotique des estimateurs.
BlockShrink probability density estimator for dependent processes
Mohammed Badaoui (University Hassan 1st, ENSA, Khouribga), Noureddine Rhomari (Université Mohamed Premier, Faculté des sciences)
We study the integrated L2 -risk, of a wavelet BlockShrink density estimator based on dependent
observations. We prove that the BlockShrink estimator is adaptive in class of Sobolev space with
unknown regularity for uniformly mixing processes with arithmetically decreasing coefficients.
10h00-11h40 - Speed meetings - Statisticiennes et lycéennes
13h30-15h30 - YSP Online
107
Liste des participants
1. Eddie Aamari
eddie.aamari@inria.fr
2. Placide Abasabanye
placide.abasabanye@etudiant.univ-lille1.fr
3. Smail Adjabi
adjabi@hotmail.com
4. Ali Ahmad
ali.ahmad@etu.univ-lille3.fr
5. Mohamed Salem Ahmed
ouldyehdih@yahoo.fr
6. Dedah Ahmed Babou
abambad@gmail.com
7. Julien Ah-Pine
julien.ah-pine@univ-lyon2.fr
8. Abdelhakim Aknouche
aknouche_ab@yahoo.com
9. Walid Al Akhras
walid.alakhras@gmail.com
10. Hiba Alawieh
alawieh.hiba@gmail.com
11. Elmokhtar Ezzahdi Alaya
elmokhtar.alaya@upmc.fr
12. Mélisande Albert
melisande.albert@unice.fr
13. Gannoun Ali
ali.gannoun@univ-montp2.fr
14. Abdelkamel Alj
abdelkamel.alj@gmail.com
15. Thibault Allart
thibault.allart@ubisoft.com
16. Flavien Alleaume
falleaume@mediametrie.fr
17. Samuel Ambapour
ambapour_samuel@yahoo.fr
18. Aboubacar Amiri
aboubacar.amiri@univ-lille3.fr
19. Sophie Ancelet
sophie.ancelet@irsn.fr
20. Amélie Anota
aanota@chu-besancon.fr
21. Alexis Arnaud
alexis.arnaud@inria.fr
22. Benjamin Auder
benjamin.auder@math.u-psud.fr
23. Vincent Audigier
audigier@agrocampus-ouest.fr
24. Dario Azzimonti
dario.azzimonti@gmail.com
25. Genia Babykina
genia.babykina@gmail.com
26. Francois Bachoc
francois.bachoc@gmail.com
27. Jean-Noel Bacro
jean-noel.bacro@univ-montp2.fr
28. Mohammed Badaoui
med_badaoui79@yahoo.fr
29. Pierre Barbillon
pierre.barbillon@agroparistech.fr
30. Avner Bar-Hen
avner.bar-hen@mi.parisdescartes.fr
31. Marie-Françoise Barme
marie-francoise.barme@math.univ-lille1.fr
32. Aladji Bassene
aladji.bassene@etu.univ-lille3.fr
33. Paul Bastide
paul.bastide@agroparistech.fr
34. François Beck
francois.beck@ofdt.fr
35. Julien Bect
julien.bect@centralesupelec.fr
36. Anne-Lise Bedenel
albedenel@gmail.com
37. Liliane Bel
liliane.bel@agroparistech.fr
38. Wady Ben Mbarek
wady.mbarek@yahoo.fr
39. Hanen Ben Salah
bensalah_hanen@yahoo.fr
40. Nahla Ben Salah Ep Eloud
bensalahnahla@yahoo.fr
41. Fouad Ben Sudrik
fouad.bensudrik@genfit.com
42. Clément Benoist
clement.benoist@ign.fr
109
Liste des participants
43. Nazih Benoumechiara
nazih.benoumechiara@edf.fr
44. Jérémie Bertrand
jeremie.bertrand@isa-lille.fr
45. Philippe Besse
philippe.besse@math.univ-toulouse.fr
46. David Bessis
db@tinyclues.com
47. Gérard Biau
gerard.biau@upmc.fr
48. Abdelouahab Bibi
abd.bibi@gmail.com
49. Christophe Biernacki
Christophe.Biernacki@math.univ-lille1.fr
50. Guillaume Biessy
guillaume.biessy78@gmail.com
51. Alain Bihan-Poudec
alain.bihan-poudec@uco.fr
52. Benoit Bihin
benoit.bihin@uclouvain.be
53. Carole Binard
binard@unice.fr
54. Mickaël Binois
mickael.binois@mines-stetienne.fr
55. Paul Blanche
pabl@sund.ku.dk
56. Delphine Blanke
delphine.blanke@univ-avignon.fr
57. Mélanie Blazère
melanie.blazere@math.univ-toulouse.fr
58. David Blumenthal
david.blumenthal@agroparistech.fr
59. Anna Bonnet
anna.bonnet@agroparistech.fr
60. Georgi Boshnakov
georgi.boshnakov@manchester.ac.uk
61. Yacouba Boubacar Mainassara
yacouba.boubacar_mainassara@univ-fcomte.fr
62. Stephane Boucheron
stephane.boucheron@univ-paris-diderot.fr
63. Mohamed Yasser Bounnite
medyasser_bounnite@yahoo.fr
64. Marc Bourotte
bourotte@paca.inra.fr
65. Vincent Brault
vincent.brault@agroparistech.fr
66. Maxime Brunin
maxime.brunin@inria.fr
67. Gwénaëlle Castellan
gwenaelle.castellan@univ-lille1.fr
68. Gilles Celeux
Gilles.Celeux@inria.fr
69. Alain Celisse
celisse@math.univ-lille1.fr
70. Benjamin Charlier
benjamin.charlier@um2.fr
71. Arthur Charpentier
arthur.charpentier@univ-rennes1.fr
72. Malika Chassan
malika.chassan@math.univ-toulouse.fr
73. Didier Chauveau
didier.chauveau@univ-orleans.fr
74. Marie Chavent
marie.chavent@inria.fr
75. Rim Chérif
rim_cherif2000@yahoo.fr
76. Clément Chesseboeuf
clement.chesseboeuf@math.univ-poitiers.fr
77. Julien Chevallier
julien.chevallier@unice.fr
78. Achmad Choiruddin
achmadchoy@gmail.com
79. Matthieu Clertant
pr.clertant@gmail.com
80. Pierre Colin
pierre.colin@sanofi.com
81. Sylvain Coly
sylvain.coly@clermont.inra.fr
82. Daniel Commenges
daniel.commenges@isped.u-bordeaux2.fr
83. Marco Corneli
marcogenni@gmail.com
84. Camille Coron
camille.coron@math.u-psud.fr
110
Liste des participants
85. Marie Courbariaux
marie.courbariaux@agroparistech.fr
86. Christophe Crambes
ccrambes@math.univ-montp2.fr
87. Jairo Cugliari
Jairo.Cugliari@univ-lyon2.fr
88. Sophie Dabo-Niang
sophie.dabo@univ-lille3.fr
89. Nejib Dalhoumi
nejib.dalhoumi@math.univ-montp2.fr
90. Matthias De Lozzo
matthias.delozzo@cea.fr
91. Anne De Moliner
anne.de-moliner@edf.fr
92. Arnaud De Myttenaere
ademytt@gmail.com
93. Gaël De Peretti
gael.de-peretti@insee.fr
94. Jéreme Defives
jdefives@ca-cf.fr
95. Sébastien Dejean
sebastien.dejean@math.univ-toulouse.fr
96. Michel Delecroix
michel.delecroix@courriel.upmc.fr
97. Christian Derquenne
christian.derquenne@edf.fr
98. Solène Desmée
solene.desmee@inserm.fr
99. Emilie Devijver
emilie.devijver@math.u-psud.fr
100. Elena Di Bernardino
elena.di_bernardino@cnam.fr
101. Charlotte Dion
charlotte.dion1@gmail.com
102. Sophie Donnet
sophie.donnet@agroparistech.fr
103. Jean-Jacques Droesbeke
jjdroesb@ulb.ac.be
104. Emad-Aldeen Drwesh
emad-aldeen.drwesh@etu.univ-lille3.fr
105. Véronique Dubreil-Frémont
vdubreil@uco.fr
106. Camille Duby
camille.duby@wanadoo.fr
107. Alain Duhamel
alain.duhamel@univ-lille2.fr
108. Thierry Dumont
thierry.dumont@u-paris10.fr
109. Ludovic Duponchel
ludovic.duponchel@univ-lille1.fr
110. Ghislain Durif
ghislain.durif@univ-lyon1.fr
111. Cécile Durot
cecile.durot@gmail.com
112. Roxane Duroux
roxane.duroux@upmc.fr
113. Gilles Durrieu
gilles.durrieu@univ-ubs.fr
114. Christophe Dutang
christophe.dutang@univ-lemans.fr
115. Héloïse Dutrieux
heloise.dutrieux@gmail.com
116. Ahmed El Ghini
aelghini@gmail.com
117. Neska El Haouij
elhaouij.nsk@gmail.com
118. Echarif El Harfaoui
elharfaoui.charif@gmail.com
119. Nicole El Karoui
elkaroui@gmail.com
120. Mathieu Emily
mathieu.emily@agrocampus-ouest.fr
121. Charly Empereur-Mot
charly.empereur@gmail.com
122. Robert Faivre
Robert.Faivre@toulouse.inra.fr
123. Pierre Fernique
pierre.fernique@inria.fr
124. Bernard Fichet
bernard.fichet@univ-amu.fr
125. Laurence Fievet
lfievet@oney.com
126. Aurélie Fischer
aureliem.fischer@gmail.com
111
Liste des participants
127. Richard Fischer
fischerr@cermics.enpc.fr
128. Thomas Fortin
thomas.fortin@cea.fr
129. Christian Francq
christian.francq@univ-lille3.fr
130. Guillaume Frappin
guillaume.frappin@boehringer-ingelheim.com
131. Emmanuel Frénod
emmanuel.frenod@see-d.fr
132. Chloé Friguet
chloe.friguet@univ-ubs.fr
133. Magalie Fromont
magalie.fromont@univ-rennes2.fr
134. Edith Gabriel
edith.gabriel@univ-avignon.fr
135. Mélina Gallopin
melina.gallopin@math.u-psud.fr
136. Nadine Galy
n.galy@tbs-education.fr
137. Elise Gand
magali.gata@chu-poitiers.fr
138. Ali Gannoun
ali.gannoun@math.univ-montp2.fr
139. Emna Gargouri-Ellouze
emna.gargouri@enit.rnu.tn
140. Aurélien Garivier
aurelien.garivier@math.univ-toulouse.fr
141. Jean-Michel Gautier
gautier.jmi@free.fr
142. Sara van de Geer
geer@stat.math.ethz.ch
143. Michaël Genin
michael.genin@univ-lille2.fr
144. Robin Genuer
Robin.Genuer@isped.u-bordeaux2.fr
145. Julia Geronimi
geronimi.julia@gmail.com
146. Zebida Gheribi-Aoulmi
gheribiz@yahoo.fr
147. Joyce Madison Giacofci
joycemadison.giacofci@wis.kuleuven.be
148. Laurent Gilquin
laurent.gilquin@inria.fr
149. David Ginsbourger
ginsbourger@gmail.com
150. Stéphane Girard
stephane.girard@inria.fr
151. Pierre Gloaguen
pierre.gloaguen@ifremer.fr
152. Alexandre Gramfort
alexandre.gramfort@telecom-paristech.fr
153. Florine Greciet
fgreciet@awe.fr
154. Gérard Gregoire
gerard.gregoire@imag.fr
155. Baptiste Gregorutti
baptiste.gregorutti@safety-line.fr
156. Arthur Gretton
arthur.gretton@gmail.com
157. Quentin Grimonprez
quentin.grimonprez@inria.fr
158. Paul-Marie Grollemund
paul-marie.grollemund@univ-montp2.fr
159. Philippe Guarini
philippe.guarini@association-aglae.fr
160. Benjamin Guedj
benjamin.guedj@inria.fr
161. Yann Guédon
guedon@cirad.fr
162. Zohra Guessoum
zguessoum@usthb.dz
163. Chantal Guihenneuc
chantal.guihenneuc@parisdescartes.fr
164. Brendan Guillouet
brendan.guillouet@gmail.com
165. Christiane Guinot
christiane.guinot@fr.netgrs.com
166. Corinne Hahn
hahn@escpeurope.eu
167. Lina Hamadeh
lina.hamadeh@manchester.ac.uk
168. Nelly Hanoune
nelly.hanoune@gmail.com
112
Liste des participants
169. Celine Helbert
celine.helbert@ec-lyon.fr
170. Christelle Hennequet-Antier
christelle.hennequet@tours.inra.fr
171. Fred J. Hickernell
hickernell@iit.edu
172. Vy Thuy Lynh Hoang
hoangvythuylynh@gmail.com
173. Van Ha Hoang
hoangvanha@gmail.com
174. Peter Hoff
pdhoff@uw.edu
175. Sabine Hoffmann
sabine@hoffmannk.de
176. Jendoubi Houda
houda_jen@yahoo.fr
177. Eva-Maria Huessler
eva.huessler@tu-dortmund.de
178. François Husson
husson@agrocampus-ouest.fr
179. Thi Minh Thao Huynh
thiminhthao@gmail.com
180. Jendoubi Imen
jendoubi.imen002@gmail.com
181. Serge Iovleff
Serge.Iovleff@univ-lille1.fr
182. Safae Ismaili
ismaili.safae@gmail.com
183. Jacques Jamart
jacques.jamart@uclouvain.be
184. Corinne Jamroz
corinne.jamroz@inria.fr
185. Candy Jangal
c.jangal@samusocial-75.fr
186. Marine Jeanmougin
marine.jeanmougin@curie.fr
187. Nicolas Jegou
nicolas.jegou@univ-rennes2.fr
188. Julie Josse
josse@agrocampus-ouest.fr
189. Yujin Jung
yujin_cya@hotmail.com
190. Othman Kadmiri
othman.kadmiri@univ-fcomte.fr
191. Merlin Keller
merlin.keller@edf.fr
192. Jérémie Kellner
jeremie.kellner@inria.fr
193. Christine Keribin
christine.keribin@math.u-psud.fr
194. Salah Khardani
khardani_salah@yahoo.fr
195. Karima Kimouche
k.kimouche@gmail.com
196. Célestin Kokonendji
celestin.kokonendji@univ-fcomte.fr
197. Efoévi Angelo Koudou
Efoevi.Koudou@univ-lorraine.fr
198. Bienvenue Kouwaye
kouwaye2000@yahoo.fr
199. Tipaluck Krityakierne
tk338@cornell.edu
200. Vincent Kubicki
vincent.kubicki@inria.fr
201. Ahmed Labbas
a_labbas@hotmail.com
202. Amaury Labenne
amaury.labenne@irstea.fr
203. Tatiana Labopin-Richard
tatiana.labopin@math.univ-toulouse.fr
204. Thomas Laloë
laloe@unice.fr
205. Sophie Lambert-Lacroix
sophie.lambert@imag.fr
206. Christian Lantuéjoul
christian.lantuejoul@mines-paristech.fr
207. Fabien Laporte
fabien.laporte@moulon.inra.fr
208. Pierre Latouche
pierre.latouche@univ-paris1.fr
209. Julie Latreille
Julie.latreille@chanel-corp.com
210. Béatrice Laurent-Bonneau
laurentb@insa-toulouse.fr
113
Liste des participants
211. Christian Lavergne
christian.lavergne@univ-montp3.fr
212. Aurore Lavigne
aurore.lavigne@univ-lille3.fr
213. Laure Le Paih
llepaih@diana-petfood.com
214. Laurent Lebrusquet
laurent.lebrusquet@centralesupelec.fr
215. Gisela Lechuga
gisela.lechuga@centralesupelec.fr
216. Francois Lefebvre
francois.lefebvre@chru-strasbourg.fr
217. Jose Leon
jose.leon@ciens.ucv.ve
218. Hélène Lescornel
helene.lescornel@inria.fr
219. Frédérique Letué
frederique.letue@imag.fr
220. Clément Levrard
clement.levrard@inria.fr
221. Christophe Ley
chrisley@ulb.ac.be
222. Yi Liu
yi.liu0717@gmail.com
223. Fuchen Liu
fuchen.liu@parisdescartes.fr
224. Florence Loingeville
florence.loingeville@gmail.com
225. Aurore Lomet
aurore.lomet@cea.fr
226. Olivier Lopez
olivier.lopez@ensae.fr
227. Gwennaëlle Mabon
gwennaelle.mabon@ensae.fr
228. Jean Valère Mady-Goma
madygoma@yahoo.fr
229. Christine Malot
malot@unice.fr
230. Matthieu Marbac
matthieu.marbac@inserm.fr
231. Mahendra Mariadassou
mahendra.mariadassou@jouy.inra.fr
232. Jean-Marie Marion
jean-marie.marion@uco.fr
233. Roland Marion-Gallois
roland.marion-gallois@medtronic.com
234. Sébastien Marmin
sebmarmin@hotmail.fr
235. Jean-Michel Marin
jean-michel.marin@univ-montp2.fr
236. Guillemette Marot
guillemette.marot@inria.fr
237. Maud Marsot
maud.marsot@anses.fr
238. Gaspar Massiot
gaspar.massiot@gmail.com
239. Marine Masson
marine.masson@agroparistech.fr
240. Pierre-Alexandre Mattei
pierrealex.mattei@gmail.com
241. Corinne Maudet
corinne.maudet@mxns.com
242. Emmanuelle Mauger
emmanuelle.mauger@chanel-corp.com
243. Véronique Maume-Deschamps
veronique.maume@univ-lyon1.fr
244. Guy Mélard
gmelard@ulb.ac.be
245. Coralie Merle
coralie.merle@univ-montp2.fr
246. Thomas Merly-Alpa
thomas.merly-alpa@insee.fr
247. Fatiha Messaci
f_messaci@yahoo.fr
248. Sophie Mézières
sophie.mezieres@univ-lorraine.fr
249. Nathan Minois
nathan.minois@inserm.fr
250. Dominique Moccatti
dominique.moccatti@servier.com
251. Elmi Mohamed
elmiahmed_92006@yahoo.fr
252. Zaher Mohdeb
zaher.mohdeb@umc.edu.dz
114
Liste des participants
253. Valérie Monbet
valerie.monbet@univ-rennes1.fr
254. Jean-Marie Monnez
jean-marie.monnez@univ-lorraine.fr
255. Andrea Montanari
montanar@stanford.edu
256. Laure Montané
laure.montane@fr.netgrs.com
257. Lucie Montuelle
lucie.montuelle@math.u-psud.fr
258. Elisabeth Morand
elisabeth.morand@ined.fr
259. Alain Morineau
alain.morineau.free@free.fr
260. Nawel Mourah
naw21sk@yahoo.com
261. Stephane Mourareau
stephane.mourareau@math.univ-toulouse.fr
262. Aurélie Muller-Gueudin
aurelie.gueudin@univ-lorraine.fr
263. Frédérique Muyl
f.muyl@free.fr
264. Joseph Ngatchou-Wandji
joseph.ngatchou-wandji@univ-lorraine.fr
265. Hicham Nocairi
hnocairi@rd.loreal.com
266. Grégory Nuel
nuel@math.cnrs.fr
267. Oussa Frédéric Oke-Agbo
fredook15@yahoo.fr
268. Hayder Ouiriemmi
oiriemihay@yahoo.fr
269. Zaïd Ouni
zaid.ouni@mpsa.com
270. Davy Paindaveine
dpaindav@ulb.ac.be
271. Fatima Palacios Rodriguez
fpalacios2@us.es
272. Eric Parent
eric.parent@agroparistech.fr
273. Alberto Pasanisi
alberto.pasanisi@eifer.org
274. Emeline Perthame
emeline.perthame@agrocampus-ouest.fr
275. Jean-François Petiot
jean-francois.petiot@univ-ubs.fr
276. Jean Peyhardi
jean.peyhardi@gmail.com
277. Thanh Mai Pham Ngoc
thanh.pham_ngoc@math.u-psud.fr
278. Anne Philippe
anne.philippe@univ-nantes.fr
279. Jean-Michel Poggi
jean-michel.poggi@math.u-psud.fr
280. Cristian Preda
Cristian.Preda@math.univ-lille1.fr
281. Mélanie Prague
mprague@hsph.harvard.edu
282. Clémentine Prieur
clementine.prieur@imag.fr
283. Christelle Pruvot
christelle.pruvot@isa-lille.fr
284. Emmanuel Remy
emmanuel.remy@edf.fr
285. Patricia Reynaud-Bouret
reynaudb@unice.fr
286. Imane Rezgui
rezgui_imane@yahoo.fr
287. Noureddine Rhomari
nrhomari@yahoo.fr
288. Christian Ritter
christian.ritter@ridaco.be
289. Vincent Rivoirard
Vincent.Rivoirard@dauphine.fr
290. Valérie Robert
valerie.robert@math.u-psud.fr
291. Stéphane Robin
stephane.robin@agroparistech.fr
292. Angelina Roche
angelina.roche@parisdescartes.fr
293. Ghislain Rocheleau
ghislain.rocheleau@univ-lille2.fr
294. Julien Rogues
jrogues@diana-petfood.com
115
Liste des participants
295. Antoine Rolland
antoine.rolland@univ-lyon2.fr
296. Marion Romo
marion.romo@univ-lille3.fr
297. Etienne Roquain
etienne.roquain@upmc.fr
298. Marine Roux
marineroux@free.fr
299. Yves Rozenholc
yves.rozenholc@parisdescartes.fr
300. Fabrizio Ruggeri
fabrizio@mi.imati.cnr.it
301. Jesper Rydén
jesper.ryden@math.uu.se
302. Karin Sahmer
karin.sahmer@isa-lille.fr
303. Youssef Saidi
saidiyoussef@hotmail.com
304. Allou Same
allou.same@ifsttar.fr
305. Adeline Samson
adeline.leclercq-samson@imag.fr
306. Laure Sansonnet
laure.sansonnet@agroparistech.fr
307. Gilbert Saporta
gilbert.saporta@cnam.fr
308. Nicolas Savy
Nicolas.Savy@math.univ-toulouse.fr
309. Mickael Schaeffer
mickael.schaeffer@chru-strasbourg.fr
310. Emeline Schmisser
emeline.schmisser@math.univ-lille1.fr
311. Loïc Schwaller
loic.schwaller@agroparistech.fr
312. Erwan Scornet
erwan.scornet@upmc.fr
313. Mohammed Sedki
mohammed.sedki@u-psud.fr
314. Tristan Senga Kiesse
tristan.sengakiesse@univ-nantes.fr
315. Remi Servien
remi.servien@toulouse.inra.fr
316. Sobom Matthieu Somé
sobom.some@univ-fcomte.fr
317. Perrine Soret
Perrine.soret@isped.u-bordeaux2.fr
318. Imen Soula
imen.soula@gmail.com
319. Juliette Spinnato
juliette.spinnato@univ-amu.fr
320. Virginie Stanislas
virginie.stanislas@orange.fr
321. Julien Stoehr
julien.stoehr@um2.fr
322. Radu Stoica
radu.stoica@univ-lille1.fr
323. Roman Sueur
roman.sueur@edf.fr
324. Seydou Nourou Sylla
seydou-nourou.sylla@ird.fr
325. Patrick Tardivel
patrick.tardivel@toulouse.inra.fr
326. Patricia Tencaliec
patricia.tencaliec@imag.fr
327. Camille Ternynck
ternynck.camille@gmail.com
328. Clément Théry
clement.thery@arcelormittal.com
329. Baba Thiam
baba.thiam@univ-lille3.fr
330. Le Quyen Thieu
thieulequyen1411@gmail.com
331. Solenne Thivin
solenne.thivin@math.u-psud.fr
332. Vincent Thouvenot
vincentthouvenot4@gmail.com
333. Adrien Todeschini
adrien.todeschini@inria.fr
334. Nathan Touati
nathan.touati56@gmail.com
335. Nassim Touche
touche.nassim@gmail.com
336. Jean-Marie Tricot
jean-marie.tricot@univ-ubs.fr
116
Liste des participants
337. Catherine Trottier
catherine.trottier@univ-montp3.fr
338. Gerhard Tutz
g.tutz@gmx.net
339. Yann Vasseur
yann.vasseur@math.u-psud.fr
340. Thomas Verdebout
tverdebo@ulb.ac.be
341. Stéphane Verdun
s.verdun@genclis.com
342. Catherine Vermandele
vermande@ulb.ac.be
343. Elodie Vernet
elodie.vernet@math.u-psud.fr
344. Thomas Verron
thomas.verron@fr.imptob.com
345. Nicolas Verzelen
nicolas.verzelen@supagro.inra.fr
346. Vivian Viallon
vivian.viallon@univ-lyon1.fr
347. Marie Vigan
marie.vigan@inserm.fr
348. Sylvie Viguier-Pla
viguier@math.univ-toulouse.fr
349. Jonathan Villain
jonathan.villain@univ-ubs.fr
350. Nathalie Villa-Vialaneix
nathalie.villa@toulouse.inra.fr
351. Xinyu Wang
Xinyu.Wang@univ-lyon2.fr
352. Nicolas Wicker
nicolas.wicker@math.univ-lille1.fr
353. Bry Xavier
xavier.bry@univ-montp2.fr
354. Anne-Françoise Yao
Anne-francoise.Yao@math.univ-bpclermont.fr
355. Qiwei Yao
q.yao@lse.ac.uk
356. Jean-Michel Zakoian
zakoian@ensae.fr
357. Mouna Zitouni
zitounimounaa@yahoo.fr
358. Rawya Zreik
rawyazreik@gmail.com
117
Index des auteurs
Aamari, Eddie, 89
Abcha, Maroua, 103
Abraham, Christophe, 75
Abrial, David, 101
Adjabi, Smail, 106
Ah-Pine, Julien, 54
Ahmad, Ali, 60
Ahmed , Mohamed Salem, 105
Ait Saidi, Nadir, 88
Aknouche, Abdelhakim, 39, 61
Al akhras, Walid, 62
Al Ayoubi, Baydaa, 72
Alawieh, Hiba, 72
Alaya, ElMokhtar EzZahdi, 64
Albert, Mélisande, 90
Aleksovska, Ivana, 66
Ali Ben Alaya, Mohammed, 76
Alj, Abdelkamel, 60
Allard, Denis, 80
Ambroise, Christophe, 68
Ancelet, Sophie, 92, 101
Andrianandraina, Andy, 48
Andrieu, Sandrine, 59
Anota, Amélie, 42
Antoniadis, Anestis, 64
Archimbaud, Aurore, 87
Arnaud, Alexis, 104
Arnaud, Elise, 48
Attouch, Mohammed Kadi, 105
Auder, Benjamin, 51
Audigier, Vincent, 43
Avalos, Marta, 34
Azaïs, Jean-Marc, 40, 88
Azzimonti, Dario, 72
Baragatti, Meïli, 75
Barbier, Emmanuel, 104
Barbillon, Pierre, 85, 93, 97
Barthélémy, Célia, 85
Bassene, Aladji, 63
Bastide, Paul, 51
Beck, François, 79
Bect, Julien, 66, 97
Ben Jabeur , Sami, 96
Ben Salah, Hanen, 53
Bertrand, Jérémie, 53
Bessaïh, Thomas, 82
Besse, Philippe, 73, 103
Bessis, David, 51
Bibi, Abdelouahab, 38
Biernacki, Christophe, 67
Biessy, Guillaume, 42
Bihan-Poudec, Alain, 95
Binard, Carole, 57
Binois, Mickaël, 45
Blanche, Paul, 51, 102
Blazère, Mélanie, 56
Bonnet, Anna, 84
Bonnetain, Franck, 42
Bonneu, Florent, 106
Bordes, Laurent, 97
Boshnakov, Georgi, 60
Boucheron, Stephane, 98
Boudou, Alain, 89
Boukeloua, Mohamed, 33
Bounnite, Mohamed Yasser, 36
Bouret, Yann, 90
Bourotte, Marc, 80
Bouveyron, Charles, 64, 73
Brault, Vincent, 45
Brossat, Xavier, 64
Browne, Thomas, 49
Bry, Xavier, 57
Bureau, Ronan, 104
Burle, Boris, 86
Babykina, Génia, 33
Baccou, Jean, 66
Bachoc, François, 46
Bacro, Jean-noel, 62
Badaoui, Mohammed, 107
Balakrishnan, Narayanaswamy, 97
119
Damblin, Guillaume, 97
de Castro, Yohan, 40
De Lozzo, Matthias, 66
De Moliner, Anne, 74
de Myttenaere, Arnaud, 47
de Peretti, Christian, 53
Debbabi, Nehla, 41
Debrauwer, Laurent, 89
Del Barrio, Eustasio, 89
Delattre, Maud, 45
Delavenne, Xavier, 34
Delille, Gauthier, 66
Delmas, Jean-François, 106
Demouche, Nacer, 61
Derquenne, Christian, 45
Desmée, Solène, 35
Devijver, Emilie, 50
Di Bernardino, Elena, 44, 80
Diallo, Aldiouma, 76
Dion, Charlotte, 36
Diongue, Abdou Ka, 76
Diop, Aliou, 63, 105
Donnet, Sophie, 55
Doucet, Romain, 88
Drwesh, Emad-Aldeen, 105
Dubreil, Véronique, 95
Ducharme, Gilles, 62
Duhamel, Alain, 90
Dumont, Thierry, 46
Durand, Jean-Baptiste, 46
Durif, Ghislain, 69
Durot, Cécile, 99
Duroux, Roxane, 33
Durrieu, Gilles, 63, 104
Dutang, Christophe, 41
Dutfoy, Anne, 106
Dutrieux, Héloïse, 66
Buscarlet, Guillaume, 88
Butucea, Cristina, 106
Calenge, Clément, 52
Campillo, Fabien, 91
Canlet, Cécile, 89
Cardot, Hervé, 74
Carillo, Kevin, 96
Caron, François, 56
Carreau, Julie, 94
Cauchemez, Simon, 33
Caum Julio, Carme, 83
Causeur, David, 49
Celeux, Gilles, 58, 77
Chadoeuf, Joël, 106
Charcosset, Alain, 77
Charlier, Benjamin, 75
Charon, Nicolas, 75
Charpentier, Arthur, 44
Charras-Garrido, Myriam, 101
Chassan, Malika, 88
Chauveau, Didier, 76
Chauvel, Cécile, 33
Chavent, Marie, 54
Chebana, Fateh, 76
Chevalier, Clément, 72
Chevalier, Max, 74
Chevallier, Julien, 91
Chiquet, Julien, 57, 64
Chèze, David, 72
Chérif, Rim, 94
Claeskens, Gerda, 84
Clertant, Matthieu, 102
Clémençon, Stephan, 73
Coly, Sylvain, 101
Commenges, Daniel, 34
Concordet, Didier, 89
Coquery, Nicolas, 104
Corneli, Marco, 82
Cornu, Guillaume, 57
Coron, Camille, 52
Cottone, Francesco, 42
Courbariaux, Marie, 93
Cousin, Areski, 48
Crambes, Christophe, 42
Cuberos, Andrés, 44
Cuenod, Charles-André, 59
Cugliari, Jairo, 54
Cutting, Christine, 61
Célisse, Alain, 40, 55, 57
Efficace, Fabio, 42
El Ghini, Ahmed, 54
El Haouij, Neska, 31
El Harfaoui, Echarif, 38
El Karoui, Nicole, 39
Emily, Mathieu, 49
Empereur-Mot, Charly, 68
Etienne, Marie-Pierre, 52
Fercoq, Olivier, 40
Fernique, Pierre, 46
Fernández Ponce, José María, 44
Ferrigno, Sandie, 47
Fischer, Richard, 106
Flutre, Timothée, 91
Foncel, Jêrome, 105
Dabo-Niang, Sophie, 63, 75, 76, 105
Dalalyan, Arnak, 98
Dalhoumi, Nejib, 62
120
Fontez, Bénédicte, 91
Fonton, Noël, 40
Forbes, Florence, 104
Fort, Jean-Claude, 49
Fourcade, Sandra, 32
Francq, Christian, 38
Franke, Jörg, 63
François, Bruno, 66
Friguet, Chloé, 74
Fromont, Magalie, 90, 99
Fuchs, Mathias, 57
Guilloux, Agathe, 64
Guthrie, Cameron, 96
Guédon, Yann, 46
Gérossier, Alexis, 97
Hajjem, Asma, 103
Hamadeh, Lina, 60
Hamrani, Farida, 34
Harel, Michel, 38, 107
Helbert, Céline, 65
Henchiri, Yousri, 42
Hickernell, Fred, 39
Hoang, Van Ha, 36
Hoff, Peter, 71
Hoffmann, Sabine, 101
Husson, François, 43
Huynh, Thi Minh Thao, 83
Hébrail, Georges, 73
Gabriel, Edith, 106
Gaiffas, Stéphane, 64
Galanaud, Damien, 50
Gallopin, Mélina, 77
Galy, Nadine, 96
Gamboa, Fabrice, 56
Gannoun, Ali, 37, 53
Gargouri-Ellouze, Emna, 94
Garivier, Aurélien, 74
Gassiat, Elisabeth, 84
Geenens, Gery, 44
Genin, Michaël, 90
Genon-Catalot, Valentine, 36
Genuer, Robin, 32, 96
Gerds, Thomas A., 102
Geronimi, Julia, 43
Gheribi-Aoulmi, Zebida, 81
Ghozi, Raja, 31
Giacofci, Madison, 84
Gilquin, Laurent, 48
Ginsbourger, David, 63, 66, 72
GIrard, Stephane, 76
Giraud, Christophe, 52
Gloaguen, Pierre, 52
Goga, Camelia, 74
Goude, Yannig, 54, 64
Grama, Ion, 63
Gramfort, Alexandre, 40
Gregorutti, Baptiste, 31
Gretton, Arthur, 71
Grimonprez, Quentin, 55
Grollemund, Paul-Marie, 75
Grosjean, Martin, 63
Guarini, Philippe, 67
Guedj, Jérémie, 35
Guedj, Mickael, 68
Guessoum, Zohra, 34
Guichard, Ketsia, 32
Guihenneuc, Chantal, 101
Guillas, Serge, 75
Guillemain, Hélène, 68
Guillouet, Brendan, 103
Irène, Gijbels, 84
Jacques, Julien, 67
Jaffrézic, Florence, 77
Jaidane, Mériem, 31
Jangal, Candy, 83
Janon, Alexandre, 48
Jeanmougin, Marine, 68
Jlassi, Ines, 37
Jollois, François-Xavier, 73
Josse, Julie, 43
Julliard, Romain, 52
Keller, Merlin, 92, 97
Kellner, Jérémie, 40
Keribin, Christine, 58, 59, 77
Khardani, Salah, 37
Kim, Peter T., 61
Kimouche, Karima, 105
Klutchnikoff, Nicolas, 37
Kokonendji, Célestin C., 86, 106
Koo, Jae-Yong, 61
Kouwaye, Bienvenue, 40
Kratz, Marie, 41
Krityakierne, Tipaluck, 63
Kuentz-Simonet, Vanessa, 54
Labenne, Amaury, 54
Lacour, Claire, 61
Laloë, Thomas, 91
Lambert, Régis, 82
Lambert-Lacroix, Sophie, 69, 101
Laporte, Fabien, 77
Laroche, Pierre, 101
Latouche, Aurélien, 68
Latouche, Pierre, 64, 82
121
Laurent, Béatrice, 99
Lauwers-Cances, Valérie, 59
Lavigne, Aurore, 55
Le Brusquet, Laurent, 50, 87
Le Corff, Sylvain, 52
Le Grand, Bénédicte, 47
Le Pennec, Erwan, 87
Lebarbier, Emilie, 45
Lechuga, Gisela, 50, 87
Leclercq-Samson, Adeline, 34, 85
Leeb, Hannes, 46
Lefebvre, François, 92
Lemasson, Benjamin, 104
Lenain, Jean-François, 107
Leresche, Nathalie, 82
Lescornel, Hélène, 89
Letué, Frédérique, 65, 74
Levrard, Clément, 89
Ley, Christophe, 60
Liandrat, Jacques, 66
Liu, Fuchen, 59
Liu, Yi, 59
Liverani, Silvia, 55
Loingeville, Florence, 67
Lomet, Aurore, 72
Lopez, Olivier, 41
Loridant, Gaétan, 67
Loubes, Jean-Michel, 56, 89, 103
Louëdec, Jonathan, 74
Lévy-Leduc, Céline, 45, 84
Messaci, Fatiha, 33
Meyer, Nicolas, 92
Michel, Bertrand, 31
Mijoule, Guillaume, 59
Milhaud, Xavier, 41
Minois, Nathan, 59
Mohdeb, Zaher, 61
Molinier, Olivier, 67
Mom, Alain, 49
Monbet, Valérie, 86
Monestiez, Pascal, 106
Mongellaz, Loic, 97
Montanari, Andrea, 79
Montes, Matthieu, 68
Morineau, Alain, 83
Mortier, Frédéric, 57
Mothe, Josiane, 74
Moulinier, Luc, 72
Mourareau, Stephane, 40
Muller-Gueudin, Aurélie, 47
Mélard, Guy, 60
Narroallah, Abdelaziz, 36
Ngatchou Wandji, Joseph, 107
Niang, Ibrahima, 48
Nielsen, Jonas B., 102
Nordhausen, Klaus, 87
Nuel, Grégory, 101
O’Quigley, John, 33, 102
Ollier, Edouard, 34, 64
Ouaili Mallek, Héla, 103
Ouarda, Taha B.M.J., 76
Ouni, Zaïd, 104
Maarten, Jansen, 84
Mabon, Gwennaëlle, 107
Maby, Emmanuel, 86
Marbac, Matthieu, 103
Margaretic, Paula, 88
Mariadassou, Mahendra, 51
Marin, Jean-Michel, 105
Marion, Jean-Marie, 95
Marion-Gallois, Roland, 83
Marmin, Sébastien, 66
Marot, Guillemette, 55
Marrel, Amandine, 66
Martius, Olivia, 63
Mary-Huard, Tristan, 45, 57, 77
Masiello, Esterina, 44
Massiot, Gaspar, 37
Mattei, Pierre-Alexandre, 64
Mattout, Jeremie, 86
Maume-Deschamps, Véronique, 44, 48
Maumy-Bertrand, Myriam, 47
Mentré, France, 35
Merle, Coralie, 35
Merly-Alpa, Thomas, 83
Paindaveine, Davy, 44, 61
Palacios Rodríguez, Fátima, 44
Parent, Eric, 97
Parent, Éric, 93
Paroissin, Christian, 97
Pasanisi, Alberto, 97
Perales, Frédéric, 66
Perlbarg, Vincent, 50
Perrin, Margaux, 86
Perthame, Emeline, 49
Petit, Sébastien, 97
Peyhardi, Jean, 68
Pham Ngoc, Thanh Mai, 61
Pham, Quang-Khoai, 63
Philippe, Anne, 46
Picard, Franck, 69
Plault, Gauthier, 66
Poggi, Jean-Michel, 31, 32, 51, 54, 64, 73
Popova, Tatiana, 59
122
Sevestre Ghalila, Sylvie, 31
Sokhna, Cheikh, 76
Somé, Sobom Matthieu, 86
Soret, Perrine, 34
Spedicato, Giorgio, 41
Spinnato, Juliette, 86
Statnik, Jean-Christophe, 53
Stirnemann, Jérôme, 35
Stoehr, Julien, 105
Suard, Frédéric, 72
Suard, Norbert, 88
Sueur, Roman, 97
Sylla, Seydou Nourou, 76
Portier, Bruno, 51
Portier, François, 47
Prague, Mélanie, 71
Preda, Cristian, 67, 90
Prenat, Michel, 87
Prieur, Clémentine, 48
Pudlo, Pierre, 75, 105
Puybasset, Louis, 50
Pötscher, Benedikt M., 46
Quiquempoix, Michael, 82
Rau, Andrea, 77
Rebecq, Antoine, 83
Reynaud-Bouret, Patricia, 82, 90, 99
Rezgui, Imane, 81
Rhomari, Noureddine, 107
Ribatet, Mathieu, 53
Richet, Yann, 72
Ritter, Christian, 78
Rivoirard, Vincent, 55, 82
Robert, Valérie, 58
Robin, Stéphane, 51, 81
Roche, Angelina, 81
Rodríguez Griñolo, María del Rosario, 44
Rossi, Fabrice, 40, 47, 82
Roubaud, Marie-Christine, 86
Roumet, Pierre, 91
Rousseau, Judith, 55
Roustant, Olivier, 45
Roux, Marine, 91
Royer, François, 103
Rozenholc, Yves, 59, 99
Ruggeri, Fabrizio, 79
Ruiz-Gazen, Anne, 73, 87
Rullière, Didier, 45, 80
Rydén, Jesper, 80
Tardivel, Patrick, 89
Tarel, Jean-Philippe, 88
Tenenhaus, Arthur, 50, 87
Ternynck, Camille, 75, 76
Thiebaut, Rodoplhe, 34
Thieu, Le Quyen, 38
Thivin, Solenne, 87
Thomas-Agnan, Christine, 88
Thouvenot, Vincent, 64
Thérond, Pierre, 41
Théry, Clément, 67
Todeschini, Adrien, 56, 96
Torrésani, Bruno, 86
Touche, Nassim, 61
Toulemonde, Gwladys, 62
Tremblay-Franco, Marie, 89
Tricot, Jean-Marie, 63
Trilles, Sébastien, 88
Trottier, Catherine, 57
Trouvé, Alain, 75
Tuleau-Malot, Christine, 32, 82
Turlot, Jean-Christophe, 97
Tutz, Gerhard, 85
Saidi, Youssef, 53, 54
Saint Pierre, Philippe, 31
Salmon, Joseph, 40
Samé, Allou, 88
Saporta, Gilbert, 43
Saracco, Jérôme, 54
Sauleau, Erik, 92
Savy, Nicolas, 59
Savy, Stéphanie, 59
Schaeffer, Mickaël, 92
Schwaller, Loïc, 81
Scornet, Erwan, 32
Sedki, Mohammed, 103
Senga Kiessé, Tristan, 48
Serdyukova, Nora, 37
Servien, Rémi, 89
V.T.Hoang, Lynh, 76
van de Geer, Sara, 31
van de Wiel, Mark, 102
Vandewalle, Vincent, 74
Vanhems, Anne, 96
Vazquez, Emmanuel, 66, 97
Verdebout, Thomas, 61
Vernet, Elodie, 56
Verron, Thomas, 57
Verzelen, Nicolas, 58
Veyrat-Follet, Christine, 35
Viallon, Vivian, 34, 64, 68
Vichery, Marion, 32
Vigan, Marie, 35
Viguier-Pla, Sylvie, 89
Villa-Vialaneix, Nathalie, 32, 73
123
Villain, Jonathan, 104
Villanova-Oliver, Marlène, 65
Villotta, Quentin, 88
Wang, Xinyu, 54
Welker, Christoph, 63
Wicker, Nicolas, 72, 81
Wittkop, Linda, 34
Yao, Qiwei, 58
Yao-Lafourcade, Anne-Françoise, 101
Zagury, Jean-François, 68
Zakoian, Jean-Michel, 38
Zendrera, Noëlle, 95
Zougab, Nabil, 106
124