Ce module est la suite du module intitulé problèmes de décision de Markov (PDI). Dans le module PDI, on suppose que l'incertitude est connue. Dans le cadre de l'apprentissage par renforcement, on lève cette hypothèse. L'agent doit désormais découvrir par l'expérience (= apprendre) comment son environnement réagit à ses actions afin de déterminer une politique optimale.
Il existe de nombreux algorithmes pour résoudre ce type de problèmes.
On étudiera les principales idées et les principaux algorithmes qui permettent de résoudre les problèmes d'apprentissage par renforcement.
Les séances se déroulent les lundis après-midi de 13h30 à 17h45 sauf exception :
Il y a deux épreuves :