Apprentissage par renforcement
M2 Informatique
Université de Lille
2025-2026

Objectifs de ce module

Ce module est la suite du module intitulé problèmes de décision de Markov (PDI). Dans le module PDI, on suppose que l'incertitude est connue. Dans le cadre de l'apprentissage par renforcement, on lève cette hypothèse. L'agent doit désormais découvrir par l'expérience (= apprendre) comment son environnement réagit à ses actions afin de déterminer une politique optimale.
Il existe de nombreux algorithmes pour résoudre ce type de problèmes. On étudiera les principales idées et les principaux algorithmes qui permettent de résoudre les problèmes d'apprentissage par renforcement.

Calendrier

Les séances se déroulent les lundis après-midi de 13h30 à 17h45 sauf exception :

Mise en pratique

Contrôle de connaissances

Il y a deux épreuves :

Pré-requis

Biblio