Презентации

Введение.
Задача обучения с подкреплением.
Динамическое программирование.
Метод Монте-Карло.
Метод временных разностей.
Следы преемственности.
Аппроксимация в обучении с подкреплением.

Задания

Задание 1.
Задание 2 - в конце лекции "Динамическое программирование".
Задание 3 - в конце лекции "Аппроксимация в обучении с подкреплением".

Дополнительные материалы

Статья с оптимальным решением задачи о многоруких бандитах