Apprentissage par renforcement. Les méthodes d'apprentissage par renforcement sont de toute première importance pour la prise de décision en contexte incertain, avec des applications pour la théorie des jeux (e.g. récents succès des IA au Go), la robotique, ou le domaine financier. D'un point de vue technique, le contenu des cours proposés est le suivant :
- Processus de décision Markoviens : définition, valeur d'un plan, algorithme value-iteration, algorithme policy-iteration, epsilon-greedy. TP MDP Gridworld avec q-values et epsilon greedy policy
- Approximation pour les MDP dont l'espace des state-actions est trop grand: besoin d'une fonction d'approximation, réseaux de neurones pour approximer la q-function (DQN). Implémentation DQN et comparaison avec les méthodes précédentes, améliorations récentes du DQN (Mnih et al 2015): Double DQN, Experience replay.
- Policy methods, Monte Carlo methods, Algo REINFORCE, Actor-Critic. TP Actor-Critic
- Méthodes avancées, gestion du parallélisme et des problèmes continus.
Modèles génératifs. Les méthodes génératives constituent actuellement une thématique très porteuse pour rendre les machines capables de produire artificiellement des données réalistes, comme les images ou l'audio. Ceci offre des applications très nombreuses dans les domaines de la synthèse d'images (films, animation, édition multi-média), la réalité augmentée (robotique, domotique, films, jeux vidéos), ou pour la création de jeux de grandes masses de données synthétiques nécessaires à l'entraînement des modèles de deep learning. Le contenu consiste en une présentation des modèles de l'état de l'art récents :
- Variational Auto-Encoders (VAE). Formulation mathématique variationnelle de l'apprentissage non supervisé, passage au VAE conditionnels. Applications pour générer des images ou des données audio.
- Modèles génératifs adversaires. Présentation de la formulation très différente des approches classiques en machine learning et basée sur la théorie des jeux. Description de l'entraînement avec un générateur et un discriminateur. Intérêt de l'approche de générer des données "sharp" (non floues). Présentation des toutes dernières variantes pour stabiliser l'apprentissage (gradient clipping, Wassersetin-Gans, etc)
Robustesse et incertitude décisionnelle. Cette partie aborde des domaines de recherche récents de l'intelligence artificielle qui visent à rendre les modèle d'IA fiables - une faiblesse connue des modèles état de l'art de deep learning par exemple. L'objectif est d'étudier comment améliorer la fiabilité de ce systèmes de prise de décision, ce qui est absolument primordial pour les faire pénétrer dans des domaines applicatifs hors de portée actuellement : ceci est en particulier crucial lorsque que la prise de décision revêt des enjeux de santé ou de sécurité publique (diagnostic médical, conduite et pilotage autonome, défense et sécurité, etc). Le contenu du cours est le suivant :
- Contexte et importance de la robustesse (incertitude, stabilité, attaques adversaires). Justification de l'absence de robustesse des modèles état de l'art actuel en IA, notamment les modèles de deep learning.
- Incertitude décisionnelle : réseaux de neurones Bayesian et travaux récents (eg dropout as Bayesian approximation)
- Stabilité décisionnelle : fonctions d'influences, scattering operators, capsule networks