Programme

La formation s’articule autour de cours, d’un projet long (obligatoire), du séminaire du M2 (obligatoire) et d’un stage/mémoire (obligatoire).

Semestre 1

Au premier semestre, chaque étudiant doit valider au minimum 30 ECTS de cours choisis en concertation avec un des responsables du M2, dont le séminaire (2.5 ECTS) et le projet (7.5 ECTS) qui sont obligatoires.

Séminaire (obligatoire)

Responsables : Christophe Giraud et Pierre Alquier
Crédits : 2,5 ECTS
Agenda du séminaire : https://docs.google.com/document/d/1hHVN...
Le séminaire accueille alternativement des académiques et des industriels qui viennent présenter un de leur domaine de recherche.
La présence est obligatoire.

Projet Machine Learning pour la prévision (obligatoire)

Responsable : Yannig Goude, cours à EDF Lab
Crédits : 7,5 ECTS
page web du cours : https://www.math.u-psud.fr/ goude/Materials/ProjetMLF/intro.html
L’objectif du projet est d’acquérir une expérience de modélisation statistique, de la préparation des données à la réponse au problème posé. Il s’agit de comparer différents modèles et méthodes statistiques pour analyser un jeu de données associé à une problématique de prévision. Nous travaillerons sur des données liées à l’énergie (consommation électrique, production PV et éolien…). Nous étudierons différentes méthodes de régression non-linéaire issues de récents développements en statistiques et machine learning et ayant faits leurs preuves dans ce contexte : generalized additive model, random forest, gradient boosting machine, curve linear regression, agrégation d’experts.

L’objectif du projet est d’aboutir à une modélisation performante des données (réalisant une faible erreur de prévision et pouvant raisonnablement être mise en œuvre). Le cours propose une démarche fréquente dans l’industrie ou lors de la conduite d’un projet de recherche en statistique appliquée. Plusieurs étapes seront menées : data mining exploratoire (analyse descriptive, visualisation, recherche bibliographique sur les données et le phénomène à modéliser), la modélisation proprement dite (choix de modèle, prétraitements/transformation des données, construction d’un code, validation) puis enfin l’évaluation des performances et la restitution des résultats (présentation et rédaction d’un rapport).

Volume Horaire : 36h présentielle + projet long

Modalités de contrôle : Soutenance orale et rapport écrit. Il y a une seule session d’évaluation de projet.

Apprentissage et optimisation séquentiels

Responsable : Gilles Stoltz (CNRS & HEC Paris)
Crédits : 5 ECTS

Prerequisites :

  1. Martingale theory
  2. Basic notions of statistics

Grading policy :

  1. Based on a final written exam, taking place at the end of March, in unlimited time and without any document
  2. Similar rules for the make-up exam, which will take place in April or May (students will need to come back from their internships and be present at the make-up exam ; no project or homework can replace the written make-up exam)

Language :
English, unless all students are comfortable with the course being given in French

Summary :
We will study two sequential settings, a stochastic one and a non-stochastic one, where in both cases good actions / forecasts are to be picked.

  1. Multi-armed bandit problems
    We consider finitely many arms, each associated with an unknown distribution, or even a continuum of arms, associated with a function f : [0,1] -> R and some noise structure. When pulling an arm we get a reward drawn at random according to the associated distribution. The aim is to maximize the obtained rewards but to do so a tradeoff between exploring the arms (to have an idea of the best arms) and exploiting the obtained information (to pull those best arms) must be performed. On the optimization side, this problem has strong ties with the identification of the maximum of f.
  2. Aggregation of expert advice
    At each round, some base forecasters (experts) provide forecasts for a sequential and quantitative phenomenon (height of an ozone peak, exchange rate, electricity consumption). Instead of selecting one such forecast we will combine and aggregate their values, based on past performance. The aim is to obtain meta-forecasts that are almost as good as the best global convex or linear combination. The latter can only be determined in hindsight while we are subject to a constraint of sequential prediction. This is where the optimization bottleneck lies : performing online almost as well as we would have done in hindsight.

Apprentissage par renforcement

Responsable : Erwan Le Pennec, cours à Telecom
Crédits : 2.5 ECTS

Ce cours de 20h propose une introduction à l’apprentissage par renforcement. Il est basé sur la nouvelle édition
du livre "Reinforcement Learning : An Introduction" de R. Sutton et A. Barto (disponible en ligne sur la page http://incompleteideas.net/book/the-book-2nd.html).

Plan

  • Introduction à l’apprentissage par renforcement et processus de décision markovien
  • Le cas des bandits
  • Méthodes tabulaires : prédiction par programmation dynamique, méthode de Monte Carlo et TD Learning
  • Planification et apprentissage pour les méthodes tabulaires
  • Méthodes approchées : prédiction, planification et apprentissage

Apprentissage statistique et rééchantillonnage

Responsable : Sylvain Arlot, cours à Orsay
Crédits : 5 ECTS
La première partie du cours présentera les fondements de la théorie statistique de l’apprentissage supervisé, en classification et en régression. Nous établirons des bornes sur l’erreur de prédiction de plusieurs méthodes d’apprentissage parmi les plus classiques : moyennage local (partitions, k plus proches voisins, noyaux) et minimisation du risque empirique. Ces résultats montreront en particulier que certaines de ces méthodes sont « universellement consistantes ». En revanche, nous verrons qu’un apprentissage totalement agnostique n’est possible que dans certaines limites (« on n’a rien sans rien »), ce qui se formalise mathématiquement par plusieurs théorèmes aux énoncés plutôt contre-intuitifs.

La deuxième partie du cours se focalisera sur les méthodes de rééchantillonnage (bootstrap, sous-échantillonnage, validation croisée, etc.) et à leur application en apprentissage. Nous étudierons en particulier leurs propriétés pour l’estimation de l’erreur de prédiction d’une méthode d’apprentissage, et pour la sélection parmi une famille de méthodes d’apprentissage.

Concentration de la mesure

Responsable : Pascal Massart, cours à Orsay
Crédits : 5 ECTS

Les inégalités de concentration jouent un rôle central dans l’analyse non-asymptotique des algorithmes de machine learning et des procédures statistiques. Le prototype de telles inégalités est l’inégalité de Talagrand pour les processus empiriques. La méthode entropique initiée par Michel Ledoux il y a une dizaine d’années sera développée. Cette méthode permet en effet d’accéder à des résultats fins avec une économie de moyens remarquable.

Statistique en grande dimension

Responsables : Christophe Giraud, Tristan Mary-Huart
Crédits : 5 ECTS
Objectifs principaux :

  • comprendre les problèmes posés par la grande dimension ;
  • fournir des bases conceptuelles et méthodologiques solides, indispensables pour développer des analyses statistiques pertinentes et performantes ;
  • acquérir des techniques mathématiques fondamentales en vue d’une thèse.

La principale difficulté du statisticien face aux données du XXIe siècle est de vaincre le fléau de la grande dimension. Ce fléau oppose aux statisticiens deux difficultés : d’une part il rend les méthodes statistiques classiques totalement inopérantes par manque de précision, d’autre part il oblige à développer des approches gardant sous contrôle la complexité algorithmique des procédures d’estimation.

Nous verrons comment vaincre ce fléau dans un contexte général, puis comment rendre opérationnels ces concepts, avec une attention sur les frontières du possible. Les différentes situations sont illustrées à l’aide d’exemples issus des sciences du vivant (cours commun avec MathSV et Proba/Stat).

website : https://www.math.u-psud.fr/ giraud/MSV/stats.html

Machine Learning

Responsables : Stephan Clemençon (cours à Telecom)
Crédits : 2.5 ECTS

Le cours de Machine Learning est un cours dédié à la mise en place de projet complet
de Data Science :

Lors de cet UE, vous développerez en groupe des applications de Machine Learning pour répondre à des préoccupations Business des entreprises : cadrage du Business Case, exploration et nettoyage des données, choix de l’approche scientifique, implémentation numérique d’algorithmes d’apprentissage, analyse des performances, interprétation des travaux, pitch des résultats, etc.
L’animation du cours suscite et encourage la participation de tous les étudiants, le travail en équipe et l’intelligence collective.
La validation du cours s’effectuera au travers d'un projet Data Science réalisé en groupe.

Convex analysis and optimisation theory

Responsables : Pascal Bianchi, Olivier Fercoq, cours à Telecom
Crédits : 5 ECTS

Objectifs :

  • Maîtriser les outils mathématiques pour la construction d’algorithmes d’optimisation convexe.
  • Savoir démontrer la convergence des itérées.
  • Savoir résoudre numériquement des problèmes d’optimisation comportant des termes de régularisation non dérivables et structurés.
  • S’initier à l’optimisation distribuée et la programmation sous Hadoop Spark.

Le cours n’a pas vocation à fournir un répertoire d’algorithmes le plus abondant possible. Il s’agit de prendre du recul afin de comprendre les fondements mathématiques pour la construction d’une vaste classe de méthodes itératives. Après une introduction à la théorie de l’analyse convexe, nous verrons les conditions sous lesquelles on peut démontrer la convergence d’un algorithme du point fixe. Cette approche générale permet de d’obtenir, comme corollaire, la convergence de l’emblématique algorithme du gradient proximal. Elle permet également de construire d’autres algorithmes plus généraux : les méthodes primales-duales.
Ces méthodes permettent de résoudre des problèmes d’optimisation comportant des régularisations complexes et structurées, ou des problèmes d’optimisation sous contraintes. De tels problèmes se rencontrent fréquemment en apprentissage statistique, traitement du signal, et traitement de l’image.

Sur le plan pédagogique, un juste compromis entre fondements théoriques et applications est visé. Deux TP permettront de mettre en application les méthodes numériques vues en cours. Ils incluent une initiation à l’optimisation distribuée et grande échelle, sous Hadoop Spark.

Prérequis : pas de prérequis à l’exception des connaissances élémentaires en analyse convexe : fonctions et ensembles convexes, minimiseurs. Le premier cours est consacré à des rappels.

Statistical Learning Theory

Responsable : Arnak Dalalyan, cours à l’ENSAE
Crédits : 2.5 ECTS
The lectures cover three main problems of statistical learning : regression, classification and density estimation.

  • Bayes predictor and links between the three main problems.
  • Empirical risk minimization
  • Density Estimation
  • piecewise-linear estimation
  • bias-variance tradeoff
  • minimax risk over the Holder classes, Adaptive estimation
  • bandwidth selection by minimizing an unbiased risk estimator
  • Lepski’s method
  • thresholding in nonparametric regression

Chaîne de Markov et simulation numérique

Responsable : Eric Moulines, cours à Orsay
Crédits : 5 ECTS
L’objet de ce cours est d’introduire les outils d’analyse de chaînes de Markov sur des espaces généraux. Nous introduirons tout d’abord le formalisme de base (noyau, opérations sur les noyaux, opérateurs) puis étendrons au cas continu des résultats élémentaires (Chapman-Kolmogorov, Markov fort, problèmes de Dirichlet et Poisson). Nous étudierons ensuite l’ergodicité des chaînes et le contrôle de convergence. Nous présenterons tout d’abord l’ergodicité uniforme en variation totale (sous la condition de Doeblin uniforme), que nous étendrons à l’ergodicité non uniforme sous les conditions de Foster-Lyapounov (existence d’un petit ensemble et condition de dérive). Nous illustrerons ces théories avec de nombreux exemples, permettant de comprendre la richesse de cette méthode, mais aussi ses limites.

Nous spécialiserons ensuite ces résultats à des espaces topologiques, en introduisant tout d’abord des résultats généraux sur les chaînes Felleriennes et fortement Felleriennes puis en présentant des méthodes permettant d’obtenir des résultats de convergence plus quantitifs (convergence en distance de Wasserstein, étude des systèmes itératifs). Nous présenterons succinctement les extensions non géométriques. Ce cours permet de découvrir ou de voir en action de nombreuses méthodes de probabilités appliquées : couplage, renouvellement, régénération ; il permet aussi de découvrir des connexions intéressantes entre la théorie des opérateurs et les probabilités. Nous illustrerons les concepts introduits dans ce cours à travers de nombreux exemples de probabilités appliquées, théorie des processus, statistiques numériques, domaines dans lesquels les chaînes de Markov jouent un rôle fondamental.

Références Bibliographiques :
- Topics on Markov Chains, R. Douc, E. Moulines, P. Priouret, P. Soulier (Springer)
- Markov Chains and Stochastic stability, S. Meyn et R. Tweedie, 2009, Cambridge University Press
- Convergence of Markov Processes (notes de cours), M. Hairer

Optimization for Data Science

Responsable : A. Gramfort et R. Gower, cours à Telecom
Crédits : 5 ECTS

Modern machine learning heavily relies on optimization tools, typically to minimize the so called loss functions on training sets. The objective of this course is to cover the necessary theorical results of convex optimization as well as the computational aspects. This course contains a fair amount of programming as all algorithms presented will be implemented and tested on real data. At the end of the course, students shall be able to decide what algorithm is the most adapted to the machine learning problem given the size the data (number of samples, sparsity, dimension of each observation).

Venez toujours avec vos laptops !

Evaluation :
Labs. 2-3 Labs with Jupyter graded (30% of the final grade).

Project. Evaluate jupyter notebooks. 30% of final grade.

Project 2016 : Implement SVM with cvxopt package, derive dual and implement dual solution
(without intercept) with prox grad and coordinate descent (SDCA).

Exam. 3h Exam (40% of the final grade).

Generalisation properties of algorithms in ML

Responsable : Aymeric Dieuleveut, cours à Polytechnique
Crédits : 2.5 ECTS

La majorité des problèmes d’apprentissage sont formulés comme des problèmes d’optimisation, à partir de l’observation d’un échantillon de données (ensemble d’entrainement). L’optimisation d’un objectif défini à partir de cet échantillon permet de proposer un estimateur qui a une bonne performance sur l’ensemble d’apprentissage. Cependant, on s’intéresse généralement à la capacité de généralisation de cet estimateur, c’est à dire sa performance sur une nouvelle observation.

Dans ce cours, on s’intéresse à l’ensemble des résultats tant théoriques qu’heuristiques qui permettent d’aboder de problème.
Plus précisément, on étudiera dans un premier temps les différentes approches qui permettent d’obtenir des garanties théoriques quant à la généralisation des algorithmes, en particulier les approches liées à la complexité, à la stabilité, aux méthodes d’arrêt anticipé (Early stopping). Dans une seconde partie, on étudiera les approches heuristiques et les différences (expliquées ou constatées) dans le cadre du deep learning (non convexe et over-parametrized).

Quelques references :

  • Rademacher and Gaussian Complexities : Risk Bounds and Structural Results, P. Bartlett, S. Mendelson
  • The Tradeoffs of Large Scale Learning, L. Bottou, O. Bousquet
  • Stability and Generalization, O. Bousquet, A. Elisseef
  • Train faster, generalize better : Stability of stochastic gradient descent, M. Hardt, B. Recht, Y. Singer
  • Non-strongly-convex smooth stochastic approximation with convergence rate O(1/n), F. Bach, E. Moulines
  • Understanding deep learning requires rethinking generalization, C. Zhang, S. Bengio, M. Hardt, B. Recht, O. Vinyals
  • On early stopping in gradient descent learning, Y Yao, L. Rosasco, and A. Caponnetto
  • Generalization properties of multiple passes stochastic gradient method, S. Villa
  • Competing with the empirical risk minimizer in a single pass, R. Frostig, R. Ge, S. M. Kakade, A. Sidford
  • Deep Learning and Generalization, O. Bousquet

Modalités de contrôle : Examen + projet

Estimation non paramétrique

Responsable : Cristina Butucea
Crédits : 2.5 ECTS

L’objet de ce cours est de présenter quelques méthodes classiques de l’estimation non-paramétrique et d’estimation statistique en grande dimension. Les thèmes suivants seront abordés :
1. Estimateurs à noyaux et par projection d’une densité de probabilité. Vitesses de convergence, inégalités d’oracle et adaptation.
2. Estimation non-paramétrique d’une fonction de régression. Estimateurs par polynômes locaux, par projection et par la méthode de splines. Vitesses de convergence, inégalités d’oracle et adaptation.
3. Procédures de seuillage, BIC et Lasso. Estimation statistique en grande dimension et sparsité.

Références :
A.B.Tsybakov : Introduction to Nonparametric Estimation. Springer, New York, 2009.
A.B.Tsybakov : Apprentissage statistique et estimation non-paramétrique. Polycopié de l’Ecole Polytechnique, 2014.
L. Wasserman : All of Nonparametric Statistics. Springer, New York, 2006.
L. Devroye : A Course in Density Estimation. Birkhauser, Boston, 1987.
A.Nemirovski : Topics in non-parametric statistics. Ecole d’Eté de Probabilités de Saint-Flour XXVIII - 1998. Lecture Notes in Mathematics, v.1738. Springer, 2000.

Méthodes bayésiennes pour l’apprentissage

Responsable : Anne Sabourin, cours à Telecom
Crédits : 2,5 ECTS
This course is an introduction to Bayesian methods for machine learning. As a
first go, the main ingredients of Bayesian thinking are presented and typical situations
where a Bayesian treatment of the learning task is useful are exemplified. Particular
attention is payed to the links between regularization methods and specification of
a prior distribution. The second part of this course concerns the computational
challenges of Bayesian analysis. Major approximation methods such as variational
Bayes, Monte-Carlo-Markov-Chain sampling and sequential sampling schemes are
introduced and implemented in lab session.

webpage : https://perso.telecom-paristech.fr/sabourin/bayes-XT/bayes-course.html

Introduction to Probabilistic Graphical Models

Responsable : Umut Şimşekli, cours à Telecom
Crédits : 2,5 ECTS
In this course, we will cover the basics of probabilistic graphical models and inference techniques. The course will last 6 weeks (20 hours in total) and it will be on Wednesdays at 14:00 to 18:00, starting from the October 5th, 2016. The lectures will be at Télécom ParisTech (46 rue Barrault, 75013) (see the schedule below). The course will be in English.

The content of the course will contain certain subjects that have important practical impact, such as directed and undirected graphical models, learning and inference, Hidden Markov Models (HMM’s), and the Expectation-Maximization algorithm. During the course, we will focus more on the algorithmic aspects and apply the covered methods on real-life problems. The students are expected to have basic probability and coding knowledge.

Modèles graphiques pour l’accès à l’information à grande échelle

Responsable : François Yvon, cours à Orsay
Crédits : 2,5 ECTS
Hier par mail ou par SMS, sur des forums ou via des blogs, aujourd’hui sur Facebook, Whatsapp ou Instagram, nos interactions dans le monde numérique engendrent des monceaux de données qu’il peut être désirable ou rentable d’analyser rapidement et efficacement. Parmi celles-ci, les données langagières (écrites et orales) présentent des difficultés particulières, du fait de leur caractère non-structuré. Pour traiter ces données et les multiples formes de connaissances qui s’y rattachent, les modèles probabilistes offrent une palette d’outils particulièrement appropriés, qui permettent d’appréhender, dans un formalisme élégant, des informations de nature variable. Ces modèles sont ainsi devenus dans les dernières décennies des outils indispensables pour la gestion de l’information multilingue et la prise de décision.

L’objectif de ce cours est de présenter une information aux modèles graphiques probabilistes pour le traitement d’information non-structurées. Il présentera les principales classes de modèles (dirigés, non dirigés), ainsi que les principaux algorithmes d’inférence exacte et approchée, en s’appuyant sur des applications concrètes : analyse linguistique, traduction automatique, catégorisation et clustering de documents, analyse d’opinions, etc.

Modèles à chaîne de Markov cachée et méthodes de Monte Carlo séquentielles

Responsable : Nicolas Chopin, cours à l’ENSAE
Crédits : 2,5 ECTS
Les modèles dits à chaîne de Markov cachée (ou à espace d’état), sont des modèles de séries temporelles faisant intervenir un "signal" (un processus (X_t) markovien décrivant l’état d’un système) observé de façon imparfaite et bruitée sous forme de données, par ex. Y_t=f(X_t)+epsilon_t. Ces modèles sont très utilisés dans de nombreuses disciplines :

  • Finance : volatilité stochastique (X_t est la volatilité non-observée)
  • Ingénierie : pistage de cible (X_t est la position d’un mobile dont on essaie de retrouver la trajectoire ; reconnaissance de la parole (X_t est un phonème)
  • Biostatistique : Ecologie (X_t=taille d’une population) ; Epidémiologie (X_t=nombre d’infectés).

Le but de ce cours est de présenter les méthodes modernes d’analyse séquentielle de tels modèles, basés sur des algorithmes particulaires (Monte Carlo séquentiel). On traitera notamment les problèmes du filtrage, du lissage, de prédiction, et d’estimation des paramètres. A la fin du cours, nous évoquerons aussi rapidement l’extension de tels algorithmes à des problèmes non-séquentiels, notamment en Statistique Bayésienne.

Sélection de modèles

Responsable : Pascal Massart, cours à Orsay
Crédits : 5ECTS

La sélection de modèles est un sujet classique en statistique. L’idée de choisir un modèle à partir d’un critère de type log-vraisemblance pénalisée remonte aux travaux séminaux de Mallows et Akaike au début des années 70. On peut trouver dans la littérature de nombreuses variantes de ces critères ainsi que des résultats asymptotiques précisant les propriétés de ces critères lorsque la liste de modèles est considérée comme fixée et le nombre d’observations tend vers l’inifini. Un des deux buts poursuivis dans ce cours est de donner un aperçu de la théorie non asymptotique pour la sélection de modèles qui s’est construite au cours de ces quinze dernières années. Dans différents contextes d’estimation fonctionnelle, il est possible de construire des critères de type log-vraisemblance pénalisée où la pénalité dépend non seulement du nombre de paramètres définissant des modèles comme dans les critères classiques, mais aussi de la « complexité » de la liste de modèles. Dans cette approche, les dimensions des modèles ainsi que la liste de modèles elle-même sont autorisés à dépendre du nombre d’observations. L’expression des pénalités tout autant que l’analyse des performances de ces procédures pénalisées en terme de risque dépendent de manière essentielle d’inégalités dites de concentration.

Semestre 2

Au second semestre, chaque étudiant doit valider au moins 16 ECTS de cours choisis en concertation avec un des responsables du M2, ainsi que son stage/mémoire.

Optimisation et statistique

Responsable : Francis Bach
Crédits : 4 ECTS
De nombreux problèmes d’estimation en apprentissage statistique sont formulés comme des problèmes d’optimisation. Ces formulations ont permis une separation entre l’analyse des performances de l’estimateur et le développement d’algorithmes de résolution du problème. Face aux grands volumes de données, une telle séparation n’est plus efficace et l’analyse doit mêler statistique et optimisation. Dans ce cours, seront présentés de manière unifiée les résultats statistiques classiques sur la M-estimation et l’optimisation convexe, en montrant les liens entre statistique et optimisation. Un accent sera mis sur l’analyse non-asymptotique de l’approximation stochastique.

Online Learning and Aggregation

Responsable : Pierre Alquier
Crédits : 4 ECTS
Ce cours constitue une introduction à l’apprentissage en-ligne, c’est-à-dire quand les données sont révélées au fur et à mesure du processus d’apprentissage plutôt que sous la forme d’un échantillon donné une fois pour toutes. Après une rapide introduction aux méthodes incontournables (halving, online gradient), on s’intéressera aux méthodes d’agrégation. L’idée de base est, étant donné plusieurs prédicteurs, de les faire voter en leur attribuant des poids spécifiques plutôt que d’en choisir un seul. Ces méthodes permettront des résultats optimaux dans des conditions extrêmement générales.

Dans un second temps, on reviendra au cadre d’apprentissage "batch" ou "off-line" plus classique : on verra que les méthodes d’agrégation proposées précedemment peuvent également s’utiliser dans ce cas. Dans ce cas, on obtient des bornes précises sur l’erreur de généralisation, et des inégalités oracles précises, dans lesquelles la complexité de la famille de prédicteurs est contrôler à l’aide d’une loi de probabilité qui joue un rôle similaire à la loi a priori en statistique bayésienne. Pour cette raison, ces résultats théoriques sont souvent appelés bones "PAC-Bayésiennes". On discutera également les différents algorithmes possibles pour implémenter ces méthodes : MCMC et méthodes variationnelles.

Les cours alterneront avec des séances d’exercices.

Inférence sur de grands graphes

Responsable : Laurent Massoulié
Crédits : 4 ECTS
Ce cours traite de problèmes d’inférence génériques aux applications nombreuses (en biologie, traitement de la parole, moteurs de recommandation, étude de réseaux sociaux,…) posés dans le contexte de graphes. Il traitera notamment : la détection de communautés (identification de groupes de sommets semblables d’un graphe), l’alignement de graphes (mise en correspondance des sommets de plusieurs graphes), et la reconstruction d’arbres (identification de caractéristiques de « l’ancêtre » d’un arbre généalogique d’après les traits de ses descendants).

Des modèles probabilistes de graphes seront introduits, ainsi que l’analyse d’algorithmes efficaces pour des données échantillonnées selon ces modèles. On s’intéressera notamment à des algorithmes spectraux, dont la compréhension repose sur l’étude de spectres de matrices aléatoires associées aux graphes considérés. On abordera aussi des algorithmes basés sur la programmation semi-définie.

Apprentissage robuste

Responsable : Matthieu Lerasle
Crédits : 4 ECTS
La théorie de la robustesse en statistique a récemment connu un regain d’intérêt en apprentissage. La raison est simple : les grands jeux de données sont facilement corrompus et les algorithmes basiques, notamment ceux utilisant des moyennes empiriques de fonctions non bornées sont très sensibles à ces corruptions. L’enjeu du cours est de présenter quelques alternatives aux algorithmes les plus vulnérables comme les moindres carrés en apprentissage supervisé ou le maximum de vraisemblance en apprentissage non supervisé. Nous discuterons également les différents types de corruptions pouvant apparaître et la robustesse des solutions à ces différentes anomalies. Nous essaierons de dégager quelques principes simples permettant l’analyse théorique des solutions envisagées. Nous discuterons enfin la mise en oeuvre effective de ces solutions.
Le cours est divisé en 7 séances et validé par lecture d’article.

Matrices aléatoires

Responsable : Bertrand Eynard
Crédits : 4 ECTS

Advanced theory for Machine Learning

Responsable : Stéphan Clémençon
Crédits : 4 ECTS
Ce cours vise à présenter des concepts et techniques probabilistes (e.g. mesure de la complexité, inégalités de concentration, linéarisation, découplage, stabilité) permettant d’établir les capacités de généralisation des règles produites par des algorithmes de machine-learning
et de décrire des conditions où celles-ci peuvent s’avérer très performantes, à travers plusieurs problèmes illustratifs : classification, ranking, clustering, prédiction sur des graphes en particulier.

Introduction mathématique au compressed sensing

Responsable : Guillaume Lecué
Crédits : 4 ECTS
Ce cours abordera le paradigme de la statistique en grande dimension principalement autour de trois thématiques :

  1. Compressed sensing : problème de reconstruction exacte et approchée d’un signal de grande dimension à partir d’un petit nombre de mesures linéaires de ce vecteur sachant qu’il a un petit support ;
  2. complétion de matrice / système de recommandation : comment compléter une matrice à partir de l’observation d’un petit nombre de ses entrées sachant que cette matrice est de faible rang ;
  3. détection de communautés dans les graphes : trouver les sous-graphes de forte densité dans des ’grands’ graphes.

Le problème de Compressed Sensing sera utilisé comme le principale vecteur pédagogique pour l’apprentissage.
On y consacrera donc 8 séances divisées comme suit : 5 (ou 4) séances de cours, 2 séances d’exercices et 1 (ou 2) séances de pratiques informatiques. Puis nous consacrerons les 4 dernières séances aux problèmes de complétion de matrices et de détection de communautés : 1 séance de cours/exercices et 1 séance d’informatique pour chacune des deux thématiques.

Analyse topologique des données

Responsables : Frédéric Chazal et Quentin Merigot
Crédits : 4 ECTS

L’estimation des propriétés de nature topologique et géométrique de données souvent représentées par des ensembles de points dans des espaces euclidiens de grande dimension (ou plus généralement des variétés riemanniennes ou des espaces métriques) connait un développement important depuis quelques années.
L’analyse topologique des données est motivée par l’observation que généralement les données, qui ne sont pas distribuées uniformément dans l’espace ambiant mais se concentrent autour de structures géométriques de plus petite dimension qu’il est important de comprendre.
L’objectif de ce cours est de donner une introduction à ce sujet en pleine expansion.
Les notions nécessaires de topologie et de géométrie seront introduite ou rappelée au fil du cours.

Plan du cours :

  1. Introduction et rappels
  2. Fonctions distance et reconstruction d’ensembles compacts.
  3. Application à l’estimation de l’homologie de de sous-variétés à partir d’échantillon i.i.d. Aspects algorithmiques et statistiques.
  4. Homologie persistente : définition, stabilité et applications (clustering, signatures topologiques,...).
  5. Propriétés statistiques de l’homologie persistente.
  6. Inférence géométrique pour les mesures de probabilité.

Stochastic optimization and reinforcement learning

Responsables : Pascal Bianchi, Walid Hachem and François Portier
Crédits : 4 ECTS

The purpose of this course is 1) to lay the foundations of the Stochastic Approximation theory, and 2) to study some typical applications in machine learning such as optimization algorithms in random environments, or reinforcement learning.

We first recall some fundamental results in probability theory (martingales, Markov chains, etc.). Next, we use these results to study the asymptotic behavior of iterative stochastic algorithms i.e., algorithm for which each iteration depends on the realization of a random variable. This covers many applications (stochastic optimization for machine learning, reinforcement learning, game theory, etc.). We especially emphasize two applications : in optimization, we focus on the analysis of the stochastic gradient descent and its variants ; in reinforcement learning, we analyze the convergence of temporal difference learning and Q-learning algorithms.

Prerequisite : Students are expected to have a good background in probability theory. It is strongly advised to follow the course on "Reinforcement learning" prior to this course. Although not mandatory, it is also advised to follow at least one of the following courses :
- Hidden markov chains and sequential Monte-Carlo
- Partially observed Markov chains in signal and image
- Bayesian Learning in partially observed evolving graphical models

Course schedule :
- Applicative context and mathematical foundations.
- The ODE method and almost sure convergence techniques in the decreasing step case.
- Weak convergence techniques and the constant step case.
- Fluctuations and saddle point avoidance.
- Applications : Convex and non-convex optimization, Reinforcement learning, Temporal Difference learning, Q-learning

Geometric Methods in Machine Learning

Responsables : Marco Cuturi
Crédits : 4 ECTS

This course will present recent methodological advances in machine learning that all have in common that they rely on geometric principles, and particularly on the idea that data analysis can be carried out using exclusively pairwise comparisons between data points. We will cover in particular the cases where such pairwise comparisons are distances or kernel similarities. The course will answer the following questions : 1. Visualization of metric data : how can we represent and visualize data that is available under the form of a matrix of pairwise distances or similarities ? 2. Learning metrics : Given a task at hand (notably classification), how can we choose a "good" metric or kernel to improve the performance on that task ? 3. Metrics and kernels for exotic data-types (e.g. text, sequences, time-series, shapes, histograms) : which metrics or kernels should be considered when dealing with structured data types ?

Plan
1. (1 lecture) Introduction, reminders on metric spaces, nearest-neighbor classifiers, kernel functions, reproducing kernel hilbert spaces, SVM. 2. (2 lectures + 1 programming session). Visualization techniques for geometric data : kernel-PCA, MDS, isomap, LLE, t-SNE, etc. 3. (2 lectures + 1 programming session). Learning metrics. LMNN, localized FDA and other metric learning algorithms. Learning kernels : multiple kernel learning. 4. (2 lectures + 1 programming session). Metrics and kernels for structured data : Fisher kernels, kernels for strings/sequences/texts, DTW/edit-distances for time-series, Distances/kernels on the simplex, Wasserstein and Gromov-Wasserstein metrics. Note : Lectures will be taught in english if non-french speakers register to the course, french otherwise.

Estimation bayésienne non-paramétique

Responsable : Vincent Rivoirard
Crédits : 4 ECTS
Un grand nombre de domaines scientifiques tels que la biostatistique ou l’apprentissage emploie naturellement le paradigme bayésien (où l’on suppose que le paramètre à inférer est une variable aléatoire). En particulier, en autorisant une grande flexibilité sur la modélisation des paramètres, l’approche non-paramétrique de la statistique bayésienne a connu un essor considérable ces dernières années. L’objectif de ce cours est de proposer un large panorama des méthodes et des résultats théoriques spécifiques à la statistique bayésienne non-paramétrique.

La première partie du cours présentera les principes de l’estimation fonctionnelle propre à l’approche bayésienne. On s’attardera notamment sur la construction des distributions a priori les plus classiques fondées sur les processus gaussiens et de Dirichlet. Dans un second temps, on analysera le comportement asymptotique des distributions a posteriori (consistance et vitesse de convergence). Bien que l’estimation de densité constituera le fil rouge de ce cours, on proposera également quelques extensions dans le cadre de la grande dimension ou pour d’autres modèles statistiques moins classiques.

Des pré-requis sur l’approche bayésienne classique seront utiles mais pas indispensables (une remise à niveau est prévue lors du premier cours)

Extrêmes

Responsables : François Roueff et Anne Sabourin
Crédits : 4 ECTS
Dans de nombreuses applications telles que l’assurance ou, plus généralement, la gestion des risques, on s’intéresse au comportement d’une variable « du côté de ses valeurs extrêmes ». L’inférence statistique est rendu possible si l’on admet que le comportement extrême peut être déduit d’une façon raisonnable à partir du comportement observé, qui lui n’est pas extrême. Nous aborderons les approches principales proposées pour répondre à ce problème de modélisation : comportement des maxima, des excès de seuil ou du processus ponctuel associé. Les aspects probabilistes de ces approches reposent sur les domaines d’attraction des lois max-stables et les mesures à variations régulières. Les cas univariés et multivariés seront abordés ainsi que des applications statistiques telles que le théorème central limite en variance infinie.

Modèles statistiques pour la génomique

Responsables : S. Robin et E. Lebarbier
Crédits : 4 ECTS

La génomique a pour objet de comprendre le développement, l’organisation et le comportement de la cellule et, plus largement, de l’organisme à partir d’informations recueillies au niveau moléculaire. Ces informations sont obtenues par une grande variété de technologies qui ont en commun la grande dimension des données qu’elles produisent.

Méthodes de segmentation :

  • Analyse des variations du nombre de copies d’ADN (CNV)
    Modèles à espaces d’état et inférence par maximum de vraisemblance
  • Rappels sur les modèles à espace d’états
  • Rappels sur les modèles de mélange et algorithme E-M
  • Recherche d’une structure génétique dans une population
    Modélisation de la dépendance des états cachés :
  • Classification de données génomiques et modèles de Markov cachés / algorithme ’forward-backward’
  • Modèles ’Pair-HMM’ et alignement de séquence
    -* Modèle mixte pour une population apparentée / génétique quantitative
    Inférence par maximum de vraisemblance approchée
    -* Introduction aux modèles graphiques Approximation variationnelle : algorithmes VEM et VB-EM
    -* Recherche de structure dans un graphe d’interaction

Statistiques spatiales pour l’environnement

Responsable : L. Bel
Crédits : 4 ECTS

La plupart des processus étudiés en environnement ou climat concernent une zone géographique et les données mesurées sont spatialisées. Que l’on cherche à prédire le processus en des sites non observés ou dans le futur, à le modéliser à l’aide ou non de covariables, la dépendance spatiale induite doit être identifiée et prise en compte. Dans ce cours on abordera les trois composantes classiques de la statistique spatiale : support continu (géostatistique), support discret (modèles sur réseaux) et support aléatoire (processus ponctuels). Les exemples d’application illustrant les différentes approches sont issus de la pollution, du climat, de l’écologie ou encore de l’agronomie.

  • géostatisque : variographie, krigeage, simulations conditionnelles
  • modèles sur réseaux : voisinages, indices de corrélation spatiale, champs de Gibbs-Markov, modélisation AR, modèles avec erreur spatialisée
  • processus ponctuels spatiaux : modèles et tests sur la répartition, processus marqués.

Stage ou mémoire

Référents : Christophe Giraud et Matthieu Lerasle
Crédits : 14 ECTS
Durée : 4 mois minimum.