Programme

La formation s’articule autour de cours, d’un projet long (obligatoire), du séminaire du M2 (obligatoire) et d’un stage (obligatoire).

Semestre 1

Au premier semestre, chaque étudiant doit valider au minimum 30 ECTS de cours choisis en concertation avec un des responsables du M2, dont le séminaire et le projet qui sont obligatoires.

Séminaire (obligatoire)

Responsables : Christophe Giraud et Pierre Alquier
Crédits : 2,5 ECTS
Agenda du séminaire : https://docs.google.com/document/d/1hHVN...
Le séminaire accueille alternativement des académiques et des industriels qui viennent présenter un de leur domaine de recherche.
La présence est obligatoire.

Projet Machine Learning pour la prévision (obligatoire)

Responsable : Yannig Goude, cours à EDF Lab
Crédits : 7,5 ECTS
page web du cours : https://www.math.u-psud.fr/ goude/Materials/ProjetMLF/intro.html
L’objectif du projet est d’acquérir une expérience de modélisation statistique, de la préparation des données à la réponse au problème posé. Il s’agit de comparer différents modèles et méthodes statistiques pour analyser un jeu de données associé à une problématique de prévision. Nous travaillerons sur des données liées à l’énergie (consommation électrique, production PV et éolien…). Nous étudierons différentes méthodes de régression non-linéaire issues de récents développements en statistiques et machine learning et ayant faits leurs preuves dans ce contexte : generalized additive model, random forest, gradient boosting machine, curve linear regression, agrégation d’experts.

L’objectif du projet est d’aboutir à une modélisation performante des données (réalisant une faible erreur de prévision et pouvant raisonnablement être mise en œuvre). Le cours propose une démarche fréquente dans l’industrie ou lors de la conduite d’un projet de recherche en statistique appliquée. Plusieurs étapes seront menées : data mining exploratoire (analyse descriptive, visualisation, recherche bibliographique sur les données et le phénomène à modéliser), la modélisation proprement dite (choix de modèle, prétraitements/transformation des données, construction d’un code, validation) puis enfin l’évaluation des performances et la restitution des résultats (présentation et rédaction d’un rapport).

Volume Horaire : 36h présentielle + projet long

Modalités de contrôle : Soutenance orale et rapport écrit. Il y a une seule session d’évaluation de projet.

Statistique en grande dimension

Responsables : Christophe Giraud, Tristan Mary-Huart
Crédits : 5 ECTS
Objectifs principaux :

  • comprendre les problèmes posés par la grande dimension ;
  • fournir des bases conceptuelles et méthodologiques solides, indispensables pour développer des analyses statistiques pertinentes et performantes ;
  • acquérir des techniques mathématiques fondamentales en vue d’une thèse.

La principale difficulté du statisticien face aux données du XXIe siècle est de vaincre le fléau de la grande dimension. Ce fléau oppose aux statisticiens deux difficultés : d’une part il rend les méthodes statistiques classiques totalement inopérantes par manque de précision, d’autre part il oblige à développer des approches gardant sous contrôle la complexité algorithmique des procédures d’estimation.

Nous verrons comment vaincre ce fléau dans un contexte général, puis comment rendre opérationnels ces concepts, avec une attention sur les frontières du possible. Les différentes situations sont illustrées à l’aide d’exemples issus des sciences du vivant (cours commun avec MathSV et Proba/Stat).

website : https://www.math.u-psud.fr/ giraud/MSV/stats.html

Apprentissage par renforcement

Responsable : Erwan Le Pennec, cours à Telecom
Crédits : 2.5 ECTS

Ce cours de 20h propose une introduction à l’apprentissage par renforcement. Il est basé sur la nouvelle édition
du livre « Reinforcement Learning : An Introduction » de R. Sutton et A. Barto (disponible en ligne sur la page http://incompleteideas.net/book/the-book-2nd.html).

Plan

  • Introduction à l’apprentissage par renforcement et processus de décision markovien
  • Le cas des bandits
  • Méthodes tabulaires : prédiction par programmation dynamique, méthode de Monte Carlo et TD Learning
  • Planification et apprentissage pour les méthodes tabulaires
  • Méthodes approchées : prédiction, planification et apprentissage

Apprentissage statistique et rééchantillonnage

Responsable : Sylvain Arlot, cours à Orsay
Crédits : 5 ECTS
La première partie du cours présentera les fondements de la théorie statistique de l’apprentissage supervisé, en classification et en régression. Nous établirons des bornes sur l’erreur de prédiction de plusieurs méthodes d’apprentissage parmi les plus classiques : moyennage local (partitions, k plus proches voisins, noyaux) et minimisation du risque empirique. Ces résultats montreront en particulier que certaines de ces méthodes sont « universellement consistantes ». En revanche, nous verrons qu’un apprentissage totalement agnostique n’est possible que dans certaines limites (« on n’a rien sans rien »), ce qui se formalise mathématiquement par plusieurs théorèmes aux énoncés plutôt contre-intuitifs.

La deuxième partie du cours se focalisera sur les méthodes de rééchantillonnage (bootstrap, sous-échantillonnage, validation croisée, etc.) et à leur application en apprentissage. Nous étudierons en particulier leurs propriétés pour l’estimation de l’erreur de prédiction d’une méthode d’apprentissage, et pour la sélection parmi une famille de méthodes d’apprentissage.

Concentration de la mesure

Responsable : Pascal Massart, cours à Orsay
Crédits : 5 ECTS

Les inégalités de concentration jouent un rôle central dans l’analyse non-asymptotique des algorithmes de machine learning et des procédures statistiques. Le prototype de telles inégalités est l’inégalité de Talagrand pour les processus empiriques. La méthode entropique initiée par Michel Ledoux il y a une dizaine d’années sera développée. Cette méthode permet en effet d’accéder à des résultats fins avec une économie de moyens remarquable.

Machine Learning avancé

Responsables : Florence d’Alche Buc et Stephan Clemençon (cours à Telecom)
Crédits : 2.5 ECTS

Advanced optimisation

Responsables : Pascal Bianchi, Olivier Fercoq, cours à Telecom
Crédits : 5 ECTS

Objectifs :

  • Maîtriser les outils mathématiques pour la construction d’algorithmes d’optimisation convexe.
  • Savoir démontrer la convergence des itérées.
  • Savoir résoudre numériquement des problèmes d’optimisation comportant des termes de régularisation non dérivables et structurés.
  • S’initier à l’optimisation distribuée et la programmation sous Hadoop Spark.

Le cours n’a pas vocation à fournir un répertoire d’algorithmes le plus abondant possible. Il s’agit de prendre du recul afin de comprendre les fondements mathématiques pour la construction d’une vaste classe de méthodes itératives. Après une introduction à la théorie de l’analyse convexe, nous verrons les conditions sous lesquelles on peut démontrer la convergence d’un algorithme du point fixe. Cette approche générale permet de d’obtenir, comme corollaire, la convergence de l’emblématique algorithme du gradient proximal. Elle permet également de construire d’autres algorithmes plus généraux : les méthodes primales-duales.
Ces méthodes permettent de résoudre des problèmes d’optimisation comportant des régularisations complexes et structurées, ou des problèmes d’optimisation sous contraintes. De tels problèmes se rencontrent fréquemment en apprentissage statistique, traitement du signal, et traitement de l’image.

Sur le plan pédagogique, un juste compromis entre fondements théoriques et applications est visé. Deux TP permettront de mettre en application les méthodes numériques vues en cours. Ils incluent une initiation à l’optimisation distribuée et grande échelle, sous Hadoop Spark.

Prérequis : pas de prérequis à l’exception des connaissances élémentaires en analyse convexe : fonctions et ensembles convexes, minimiseurs. Le premier cours est consacré à des rappels.

Statistical Learning Theory

Responsable : Arnak Dalalyan, cours à l’ENSAE
Crédits : 2.5 ECTS
The lectures cover three main problems of statistical learning : regression, classification and density estimation.

  • Bayes predictor and links between the three main problems.
  • Empirical risk minimization
  • Density Estimation
  • piecewise-linear estimation
  • bias-variance tradeoff
  • minimax risk over the Holder classes, Adaptive estimation
  • bandwidth selection by minimizing an unbiased risk estimator
  • Lepski’s method
  • thresholding in nonparametric regression

Chaîne de Markov et simulation numérique

Responsable : Eric Moulines, cours à Orsay
Crédits : 5 ECTS
L’objet de ce cours est d’introduire les outils d’analyse de chaînes de Markov sur des espaces généraux. Nous introduirons tout d’abord le formalisme de base (noyau, opérations sur les noyaux, opérateurs) puis étendrons au cas continu des résultats élémentaires (Chapman-Kolmogorov, Markov fort, problèmes de Dirichlet et Poisson). Nous étudierons ensuite l’ergodicité des chaînes et le contrôle de convergence. Nous présenterons tout d’abord l’ergodicité uniforme en variation totale (sous la condition de Doeblin uniforme), que nous étendrons à l’ergodicité non uniforme sous les conditions de Foster-Lyapounov (existence d’un petit ensemble et condition de dérive). Nous illustrerons ces théories avec de nombreux exemples, permettant de comprendre la richesse de cette méthode, mais aussi ses limites.

Nous spécialiserons ensuite ces résultats à des espaces topologiques, en introduisant tout d’abord des résultats généraux sur les chaînes Felleriennes et fortement Felleriennes puis en présentant des méthodes permettant d’obtenir des résultats de convergence plus quantitifs (convergence en distance de Wasserstein, étude des systèmes itératifs). Nous présenterons succinctement les extensions non géométriques. Ce cours permet de découvrir ou de voir en action de nombreuses méthodes de probabilités appliquées : couplage, renouvellement, régénération ; il permet aussi de découvrir des connexions intéressantes entre la théorie des opérateurs et les probabilités. Nous illustrerons les concepts introduits dans ce cours à travers de nombreux exemples de probabilités appliquées, théorie des processus, statistiques numériques, domaines dans lesquels les chaînes de Markov jouent un rôle fondamental.

Références Bibliographiques :
- Topics on Markov Chains, R. Douc, E. Moulines, P. Priouret, P. Soulier (Springer)
- Markov Chains and Stochastic stability, S. Meyn et R. Tweedie, 2009, Cambridge University Press
- Convergence of Markov Processes (notes de cours), M. Hairer

Optimization for Data Science

Responsable : A. Gramfort et R. Gower, cours à Telecom
Crédits : 5 ECTS
Dans de nombreux cas, les algorithmes d’apprentissage statistique utilisent à l’étape d’entraînement des algorithmes d’optimisation. Le but de ce cours est donc de donner les outils nécessaires à l’étude et la construction de tels algorithmes, issus de l’optimisation convexe. Un accent sera mis sur l’interaction entre les algorithmes d’optimisation et le modèle à entrainer, et sur le choix d’un algorithme approprié en fonction du problème et de sa dimension (nombre de données d’entraînement et dimension de l’espace).

En fonction des semaines, séances de 4 heures (cours + TP) alternées avec des séances de 2 heures de cours. Venez toujours avec vos laptops !

Statistique semi-paramétrique

Responsable : Elisabeth Gassiat, cours à Orsay
Crédits : 5 ECTS

Contenu : Le cours est centré sur l’apprentissage semi-paramétrique, c’est à dire l’estimation d’un vecteur de paramètres en situation non paramétrique (lorsque la loi des données n’est pas fixée par un modèle paramétrique).

La théorie de la vraisemblance, introduite par Le Cam dans les années 70, permet de construire les fondements de l’estimation asymptotique efficace. Un des buts de ce cours est de présenter les développements de cette théorie, élaborés dans les 20 dernières années, pour l’estimation semi-paramétrique.

Une question fondamentale posée par l’estimation semi-paramétrique est celle des limites intrinsèques sur les performances attendues, en fonction du nombre d’observations et de la géométrie du modèle sous-jacent. Nous nous attacherons à la question de la construction d’estimateurs efficaces ainsi qu’à l’étude du comportement des méthodes de vraisemblance et des méthodes bayésiennes très populaires en pratique.

Nous étudierons en illustration des problèmes d’apprentissage actuels dans différents modèles de mélanges de population et nous présenterons les méthodes spectrales récentes pour l’analyse de ces modèles.

Références bibliographiques :

  • Asymptotic Statistics (A. Van der Vaart)
    *- Efficient and Adaptive Estimation for Semiparametric Models (P. Bickel, C. Klaassen, Y. Ritov, J. Wellner)
  • Semiparametric Theory and Missing Data (A. Tsiatis)
  • Notes de cours (E. Gassiat).
  • Tensor decompositions for learning latent variable models (A. Anadkumar, R. Ge, D. Hsu, S. Kakade, M. Telgarski), Joural of Machine Learning Research (2014).

Estimation non paramétrique

Responsable : Cristina Butucea
Crédits : 2.5 ECTS

L’objet de ce cours est de présenter quelques méthodes classiques de l’estimation non-paramétrique et d’estimation statistique en grande dimension. Les thèmes suivants seront abordés :
1. Estimateurs à noyaux et par projection d’une densité de probabilité. Vitesses de convergence, inégalités d’oracle et adaptation.
2. Estimation non-paramétrique d’une fonction de régression. Estimateurs par polynômes locaux, par projection et par la méthode de splines. Vitesses de convergence, inégalités d’oracle et adaptation.
3. Procédures de seuillage, BIC et Lasso. Estimation statistique en grande dimension et sparsité.

Références :
A.B.Tsybakov : Introduction to Nonparametric Estimation. Springer, New York, 2009.
A.B.Tsybakov : Apprentissage statistique et estimation non-paramétrique. Polycopié de l’Ecole Polytechnique, 2014.
L. Wasserman : All of Nonparametric Statistics. Springer, New York, 2006.
L. Devroye : A Course in Density Estimation. Birkhauser, Boston, 1987.
A.Nemirovski : Topics in non-parametric statistics. Ecole d’Eté de Probabilités de Saint-Flour XXVIII - 1998. Lecture Notes in Mathematics, v.1738. Springer, 2000.

Méthodes bayésiennes pour l’apprentissage

Responsable : Anne Sabourin, cours à Telecom
Crédits : 2,5 ECTS
This course is an introduction to Bayesian methods for machine learning. As a
first go, the main ingredients of Bayesian thinking are presented and typical situations
where a Bayesian treatment of the learning task is useful are exemplified. Particular
attention is payed to the links between regularization methods and specification of
a prior distribution. The second part of this course concerns the computational
challenges of Bayesian analysis. Major approximation methods such as variational
Bayes, Monte-Carlo-Markov-Chain sampling and sequential sampling schemes are
introduced and implemented in lab session.

webpage : https://perso.telecom-paristech.fr/sabourin/bayes-XT/bayes-course.html

Introduction to Probabilistic Graphical Models

Responsable : Umut Şimşekli, cours à Telecom
Crédits : 2,5 ECTS
In this course, we will cover the basics of probabilistic graphical models and inference techniques. The course will last 6 weeks (20 hours in total) and it will be on Wednesdays at 14:00 to 18:00, starting from the October 5th, 2016. The lectures will be at Télécom ParisTech (46 rue Barrault, 75013) (see the schedule below). The course will be in English.

The content of the course will contain certain subjects that have important practical impact, such as directed and undirected graphical models, learning and inference, Hidden Markov Models (HMM’s), and the Expectation-Maximization algorithm. During the course, we will focus more on the algorithmic aspects and apply the covered methods on real-life problems. The students are expected to have basic probability and coding knowledge.

Modèles graphiques pour l’accès à l’information à grande échelle

Responsable : François Yvon, cours à Orsay
Crédits : 2,5 ECTS
Hier par mail ou par SMS, sur des forums ou via des blogs, aujourd’hui sur Facebook, Whatsapp ou Instagram, nos interactions dans le monde numérique engendrent des monceaux de données qu’il peut être désirable ou rentable d’analyser rapidement et efficacement. Parmi celles-ci, les données langagières (écrites et orales) présentent des difficultés particulières, du fait de leur caractère non-structuré. Pour traiter ces données et les multiples formes de connaissances qui s’y rattachent, les modèles probabilistes offrent une palette d’outils particulièrement appropriés, qui permettent d’appréhender, dans un formalisme élégant, des informations de nature variable. Ces modèles sont ainsi devenus dans les dernières décennies des outils indispensables pour la gestion de l’information multilingue et la prise de décision.

L’objectif de ce cours est de présenter une information aux modèles graphiques probabilistes pour le traitement d’information non-structurées. Il présentera les principales classes de modèles (dirigés, non dirigés), ainsi que les principaux algorithmes d’inférence exacte et approchée, en s’appuyant sur des applications concrètes : analyse linguistique, traduction automatique, catégorisation et clustering de documents, analyse d’opinions, etc.

Modèles à chaîne de Markov cachée et méthodes de Monte Carlo séquentielles

Responsable : Nicolas Chopin, cours à l’ENSAE
Crédits : 2,5 ECTS
Les modèles dits à chaîne de Markov cachée (ou à espace d’état), sont des modèles de séries temporelles faisant intervenir un « signal » (un processus (X_t) markovien décrivant l’état d’un système) observé de façon imparfaite et bruitée sous forme de données, par ex. Y_t=f(X_t)+epsilon_t. Ces modèles sont très utilisés dans de nombreuses disciplines :

  • Finance : volatilité stochastique (X_t est la volatilité non-observée)
  • Ingénierie : pistage de cible (X_t est la position d’un mobile dont on essaie de retrouver la trajectoire ; reconnaissance de la parole (X_t est un phonème)
  • Biostatistique : Ecologie (X_t=taille d’une population) ; Epidémiologie (X_t=nombre d’infectés).

Le but de ce cours est de présenter les méthodes modernes d’analyse séquentielle de tels modèles, basés sur des algorithmes particulaires (Monte Carlo séquentiel). On traitera notamment les problèmes du filtrage, du lissage, de prédiction, et d’estimation des paramètres. A la fin du cours, nous évoquerons aussi rapidement l’extension de tels algorithmes à des problèmes non-séquentiels, notamment en Statistique Bayésienne.

Sélection de modèles

Responsable : Pascal Massart, cours à Orsay
Crédits : 5ECTS

La sélection de modèles est un sujet classique en statistique. L’idée de choisir un modèle à partir d’un critère de type log-vraisemblance pénalisée remonte aux travaux séminaux de Mallows et Akaike au début des années 70. On peut trouver dans la littérature de nombreuses variantes de ces critères ainsi que des résultats asymptotiques précisant les propriétés de ces critères lorsque la liste de modèles est considérée comme fixée et le nombre d’observations tend vers l’inifini. Un des deux buts poursuivis dans ce cours est de donner un aperçu de la théorie non asymptotique pour la sélection de modèles qui s’est construite au cours de ces quinze dernières années. Dans différents contextes d’estimation fonctionnelle, il est possible de construire des critères de type log-vraisemblance pénalisée où la pénalité dépend non seulement du nombre de paramètres définissant des modèles comme dans les critères classiques, mais aussi de la « complexité » de la liste de modèles. Dans cette approche, les dimensions des modèles ainsi que la liste de modèles elle-même sont autorisés à dépendre du nombre d’observations. L’expression des pénalités tout autant que l’analyse des performances de ces procédures pénalisées en terme de risque dépendent de manière essentielle d’inégalités dites de concentration.

Semestre 2

Au second semestre, chaque étudiant doit valider au moins 16 ECTS de cours choisis en concertation avec un des responsables du M2, ainsi que son stage/mémoire.

Optimisation et statistique

Responsable : Francis Bach
Crédits : 4 ECTS
De nombreux problèmes d’estimation en apprentissage statistique sont formulés comme des problèmes d’optimisation. Ces formulations ont permis une separation entre l’analyse des performances de l’estimateur et le développement d’algorithmes de résolution du problème. Face aux grands volumes de données, une telle séparation n’est plus efficace et l’analyse doit mêler statistique et optimisation. Dans ce cours, seront présentés de manière unifiée les résultats statistiques classiques sur la M-estimation et l’optimisation convexe, en montrant les liens entre statistique et optimisation. Un accent sera mis sur l’analyse non-asymptotique de l’approximation stochastique.

Online Learning and Aggregation

Responsable : Pierre Alquier
Crédits : 4 ECTS
Ce cours constitue une introduction à l’apprentissage en-ligne, c’est-à-dire quand les données sont révélées au fur et à mesure du processus d’apprentissage plutôt que sous la forme d’un échantillon donné une fois pour toutes. Après une rapide introduction aux méthodes incontournables (halving, online gradient), on s’intéressera aux méthodes d’agrégation. L’idée de base est, étant donné plusieurs prédicteurs, de les faire voter en leur attribuant des poids spécifiques plutôt que d’en choisir un seul. Ces méthodes permettront des résultats optimaux dans des conditions extrêmement générales.

Dans un second temps, on reviendra au cadre d’apprentissage « batch » ou « off-line » plus classique : on verra que les méthodes d’agrégation proposées précedemment peuvent également s’utiliser dans ce cas. Dans ce cas, on obtient des bornes précises sur l’erreur de généralisation, et des inégalités oracles précises, dans lesquelles la complexité de la famille de prédicteurs est contrôler à l’aide d’une loi de probabilité qui joue un rôle similaire à la loi a priori en statistique bayésienne. Pour cette raison, ces résultats théoriques sont souvent appelés bones « PAC-Bayésiennes ». On discutera également les différents algorithmes possibles pour implémenter ces méthodes : MCMC et méthodes variationnelles.

Les cours alterneront avec des séances d’exercices.

Inférence sur de grands graphes

Responsable : Laurent Massoulié
Crédits : 4 ECTS
Ce cours traite de problèmes d’inférence génériques aux applications nombreuses (en biologie, traitement de la parole, moteurs de recommandation, étude de réseaux sociaux,…) posés dans le contexte de graphes. Il traitera notamment : la détection de communautés (identification de groupes de sommets semblables d’un graphe), l’alignement de graphes (mise en correspondance des sommets de plusieurs graphes), et la reconstruction d’arbres (identification de caractéristiques de « l’ancêtre » d’un arbre généalogique d’après les traits de ses descendants).

Des modèles probabilistes de graphes seront introduits, ainsi que l’analyse d’algorithmes efficaces pour des données échantillonnées selon ces modèles. On s’intéressera notamment à des algorithmes spectraux, dont la compréhension repose sur l’étude de spectres de matrices aléatoires associées aux graphes considérés. On abordera aussi des algorithmes basés sur la programmation semi-définie.

Matrices aléatoires

Responsable : Bertrand Eynard
Crédits : 4 ECTS

Advanced theory for Machine Learning

Responsable : Stéphan Clémençon
Crédits : 4 ECTS
Ce cours vise à présenter des concepts et techniques probabilistes (e.g. mesure de la complexité, inégalités de concentration, linéarisation, découplage, stabilité) permettant d’établir les capacités de généralisation des règles produites par des algorithmes de machine-learning
et de décrire des conditions où celles-ci peuvent s’avérer très performantes, à travers plusieurs problèmes illustratifs : classification, ranking, clustering, prédiction sur des graphes en particulier.

Introduction mathématique au compressed sensing

Responsable : Guillaume Lecué
Crédits : 4 ECTS
Ce cours abordera le paradigme de la statistique en grande dimension principalement autour de trois thématiques :

  1. Compressed sensing : problème de reconstruction exacte et approchée d’un signal de grande dimension à partir d’un petit nombre de mesures linéaires de ce vecteur sachant qu’il a un petit support ;
  2. complétion de matrice / système de recommandation : comment compléter une matrice à partir de l’observation d’un petit nombre de ses entrées sachant que cette matrice est de faible rang ;
  3. détection de communautés dans les graphes : trouver les sous-graphes de forte densité dans des ’grands’ graphes.

Le problème de Compressed Sensing sera utilisé comme le principale vecteur pédagogique pour l’apprentissage.
On y consacrera donc 8 séances divisées comme suit : 5 (ou 4) séances de cours, 2 séances d’exercices et 1 (ou 2) séances de pratiques informatiques. Puis nous consacrerons les 4 dernières séances aux problèmes de complétion de matrices et de détection de communautés : 1 séance de cours/exercices et 1 séance d’informatique pour chacune des deux thématiques.

Analyse topologique des données

Responsables : Frédéric Chazal et Quentin Merigot
Crédits : 4 ECTS

L’estimation des propriétés de nature topologique et géométrique de données souvent représentées par des ensembles de points dans des espaces euclidiens de grande dimension (ou plus généralement des variétés riemanniennes ou des espaces métriques) connait un développement important depuis quelques années.
L’analyse topologique des données est motivée par l’observation que généralement les données, qui ne sont pas distribuées uniformément dans l’espace ambiant mais se concentrent autour de structures géométriques de plus petite dimension qu’il est important de comprendre.
L’objectif de ce cours est de donner une introduction à ce sujet en pleine expansion.
Les notions nécessaires de topologie et de géométrie seront introduite ou rappelée au fil du cours.

Plan du cours :

  1. Introduction et rappels
  2. Fonctions distance et reconstruction d’ensembles compacts.
  3. Application à l’estimation de l’homologie de de sous-variétés à partir d’échantillon i.i.d. Aspects algorithmiques et statistiques.
  4. Homologie persistente : définition, stabilité et applications (clustering, signatures topologiques,...).
  5. Propriétés statistiques de l’homologie persistente.
  6. Inférence géométrique pour les mesures de probabilité.

Apprentissage et optimisation séquentiels

Responsable : Gilles Stoltz (CNRS & HEC Paris)
Crédits : 4 ECTS

Prerequisites :

  1. Martingale theory
  2. Basic notions of statistics

Grading policy :

  1. Based on a final written exam, taking place at the end of March, in unlimited time and without any document
  2. Similar rules for the make-up exam, which will take place in April or May (students will need to come back from their internships and be present at the make-up exam ; no project or homework can replace the written make-up exam)

Language :
English, unless all students are comfortable with the course being given in French

Summary :
We will study two sequential settings, a stochastic one and a non-stochastic one, where in both cases good actions / forecasts are to be picked.

  1. Multi-armed bandit problems
    We consider finitely many arms, each associated with an unknown distribution, or even a continuum of arms, associated with a function f : [0,1] -> R and some noise structure. When pulling an arm we get a reward drawn at random according to the associated distribution. The aim is to maximize the obtained rewards but to do so a tradeoff between exploring the arms (to have an idea of the best arms) and exploiting the obtained information (to pull those best arms) must be performed. On the optimization side, this problem has strong ties with the identification of the maximum of f.
  2. Aggregation of expert advice
    At each round, some base forecasters (experts) provide forecasts for a sequential and quantitative phenomenon (height of an ozone peak, exchange rate, electricity consumption). Instead of selecting one such forecast we will combine and aggregate their values, based on past performance. The aim is to obtain meta-forecasts that are almost as good as the best global convex or linear combination. The latter can only be determined in hindsight while we are subject to a constraint of sequential prediction. This is where the optimization bottleneck lies : performing online almost as well as we would have done in hindsight.

Geometric Methods in Machine Learning

Responsables : Marco Cuturi
Crédits : 4 ECTS

This course will present recent methodological advances in machine learning that all have in common that they rely on geometric principles, and particularly on the idea that data analysis can be carried out using exclusively pairwise comparisons between data points. We will cover in particular the cases where such pairwise comparisons are distances or kernel similarities. The course will answer the following questions : 1. Visualization of metric data : how can we represent and visualize data that is available under the form of a matrix of pairwise distances or similarities ? 2. Learning metrics : Given a task at hand (notably classification), how can we choose a « good » metric or kernel to improve the performance on that task ? 3. Metrics and kernels for exotic data-types (e.g. text, sequences, time-series, shapes, histograms) : which metrics or kernels should be considered when dealing with structured data types ?

Plan
1. (1 lecture) Introduction, reminders on metric spaces, nearest-neighbor classifiers, kernel functions, reproducing kernel hilbert spaces, SVM. 2. (2 lectures + 1 programming session). Visualization techniques for geometric data : kernel-PCA, MDS, isomap, LLE, t-SNE, etc. 3. (2 lectures + 1 programming session). Learning metrics. LMNN, localized FDA and other metric learning algorithms. Learning kernels : multiple kernel learning. 4. (2 lectures + 1 programming session). Metrics and kernels for structured data : Fisher kernels, kernels for strings/sequences/texts, DTW/edit-distances for time-series, Distances/kernels on the simplex, Wasserstein and Gromov-Wasserstein metrics. Note : Lectures will be taught in english if non-french speakers register to the course, french otherwise.

Estimation bayésienne non-paramétique

Responsable : Vincent Rivoirard
Crédits : 4 ECTS
Un grand nombre de domaines scientifiques tels que la biostatistique ou l’apprentissage emploie naturellement le paradigme bayésien (où l’on suppose que le paramètre à inférer est une variable aléatoire). En particulier, en autorisant une grande flexibilité sur la modélisation des paramètres, l’approche non-paramétrique de la statistique bayésienne a connu un essor considérable ces dernières années. L’objectif de ce cours est de proposer un large panorama des méthodes et des résultats théoriques spécifiques à la statistique bayésienne non-paramétrique.

La première partie du cours présentera les principes de l’estimation fonctionnelle propre à l’approche bayésienne. On s’attardera notamment sur la construction des distributions a priori les plus classiques fondées sur les processus gaussiens et de Dirichlet. Dans un second temps, on analysera le comportement asymptotique des distributions a posteriori (consistance et vitesse de convergence). Bien que l’estimation de densité constituera le fil rouge de ce cours, on proposera également quelques extensions dans le cadre de la grande dimension ou pour d’autres modèles statistiques moins classiques.

Des pré-requis sur l’approche bayésienne classique seront utiles mais pas indispensables (une remise à niveau est prévue lors du premier cours)

Extrêmes

Responsables : François Roueff et Anne Sabourin
Crédits : 4 ECTS
Dans de nombreuses applications telles que l’assurance ou, plus généralement, la gestion des risques, on s’intéresse au comportement d’une variable « du côté de ses valeurs extrêmes ». L’inférence statistique est rendu possible si l’on admet que le comportement extrême peut être déduit d’une façon raisonnable à partir du comportement observé, qui lui n’est pas extrême. Nous aborderons les approches principales proposées pour répondre à ce problème de modélisation : comportement des maxima, des excès de seuil ou du processus ponctuel associé. Les aspects probabilistes de ces approches reposent sur les domaines d’attraction des lois max-stables et les mesures à variations régulières. Les cas univariés et multivariés seront abordés ainsi que des applications statistiques telles que le théorème central limite en variance infinie.

Modèles statistiques pour la génomique

Responsables : S. Robin et E. Lebarbier
Crédits : 4 ECTS

La génomique a pour objet de comprendre le développement, l’organisation et le comportement de la cellule et, plus largement, de l’organisme à partir d’informations recueillies au niveau moléculaire. Ces informations sont obtenues par une grande variété de technologies qui ont en commun la grande dimension des données qu’elles produisent.

Méthodes de segmentation :

  • Analyse des variations du nombre de copies d’ADN (CNV)
    Modèles à espaces d’état et inférence par maximum de vraisemblance
  • Rappels sur les modèles à espace d’états
  • Rappels sur les modèles de mélange et algorithme E-M
  • Recherche d’une structure génétique dans une population
    Modélisation de la dépendance des états cachés :
  • Classification de données génomiques et modèles de Markov cachés / algorithme ’forward-backward’
  • Modèles ’Pair-HMM’ et alignement de séquence
    -* Modèle mixte pour une population apparentée / génétique quantitative
    Inférence par maximum de vraisemblance approchée
    -* Introduction aux modèles graphiques Approximation variationnelle : algorithmes VEM et VB-EM
    -* Recherche de structure dans un graphe d’interaction

Statistiques spatiales pour l’environnement

Responsable : L. Bel
Crédits : 4 ECTS

La plupart des processus étudiés en environnement ou climat concernent une zone géographique et les données mesurées sont spatialisées. Que l’on cherche à prédire le processus en des sites non observés ou dans le futur, à le modéliser à l’aide ou non de covariables, la dépendance spatiale induite doit être identifiée et prise en compte. Dans ce cours on abordera les trois composantes classiques de la statistique spatiale : support continu (géostatistique), support discret (modèles sur réseaux) et support aléatoire (processus ponctuels). Les exemples d’application illustrant les différentes approches sont issus de la pollution, du climat, de l’écologie ou encore de l’agronomie.

  • géostatisque : variographie, krigeage, simulations conditionnelles
  • modèles sur réseaux : voisinages, indices de corrélation spatiale, champs de Gibbs-Markov, modélisation AR, modèles avec erreur spatialisée
  • processus ponctuels spatiaux : modèles et tests sur la répartition, processus marqués.

Stage ou mémoire

Référents : Christophe Giraud et Pierre Alquier
Crédits : 14 ECTS
Durée : 4 mois minimum.