Программирование 1 курс

Презентации

Введение.
Задача обучения с подкреплением.
Динамическое программирование.
Метод Монте-Карло.
Метод временных разностей.

Следы преемственности.

Аппроксимация в обучении с подкреплением.

Планирование в обучении с подкреплением.

Задания

Задание 1.
Задание 2 - в конце лекции "Динамическое программирование".
Задание 3:
Скопируйте ноутбук Google Colaboratory и выполните задания в тексте.
Задание 4 - в конце лекции "Аппроксимация в обучении с подкреплением".

Дополнительные материалы

Статья с оптимальным решением задачи о многоруких бандитах
Использование многоруких бандитов в A/B тестировании