Apprentissage par renforcement, M2 Informatique, Université de Lille

Apprentissage par renforcement

M2 Informatique
Université de Lille
2025-2026

Objectifs de ce module
Calendrier
Mise en pratique
Contrôle de connaissances
Pré-requis
Biblio

Objectifs de ce module

Ce module est la suite du module intitulé problèmes de décision de Markov (PDI). Dans le module PDI, on suppose que l'incertitude est connue. Dans le cadre de l'apprentissage par renforcement, on lève cette hypothèse. L'agent doit désormais découvrir par l'expérience (= apprendre) comment son environnement réagit à ses actions afin de déterminer une politique optimale.
Il existe de nombreux algorithmes pour résoudre ce type de problèmes. On étudiera les principales idées et les principaux algorithmes qui permettent de résoudre les problèmes d'apprentissage par renforcement.

Calendrier

Les séances se déroulent les lundis après-midi de 13h30 à 17h45 sauf exception :

24 novembre
1^er décembre
8 décembre
15 décembre
12 janvier exceptionnellement de 8h à 12h15
26 janvier exceptionnellement de 8h à 12h15

Mise en pratique

Méthodes basées sur la différence temporelle. À terminer au plus tôt, avant le 12 décembre.
Le Q-Learning apprend à jouer au 421.
Discrétisation de l'espace d'états.
Neural Fitted Q-Iteration : à faire si vous avez fini le TP précédent.

Contrôle de connaissances

Il y a deux épreuves :

le 15 décembre 2025 de 13h30 à 15h,
le 26 janvier 2026 de 15h30 à 17h30.

Pré-requis

le cours « problème de décision de Markov ».

Biblio

Mon polycopié de cours.