Программирование
Методы машинного обучения
Презентации
Введение.
Задача обучения с подкреплением.
Динамическое программирование.
Метод Монте-Карло.
Метод временных разностей.
Видео - часть 1
Видео - часть 2
Видео - часть 3
Видео - часть 4
Следы преемственности.
Видео - часть 1
Видео - часть 2
Видео - часть 3
Видео - часть 4
Аппроксимация в обучении с подкреплением.
Видео - часть 1
Видео - часть 2
Видео - часть 3
Видео - часть 4
Планирование в обучении с подкреплением.
Видео - часть 1
Видео - часть 2
Видео - часть 3
Видео - часть 4
Задания
Задание 1.
Задание 2 - в конце лекции "Динамическое программирование".
Задание 3:
Скопируйте
ноутбук Google Colaboratory
и выполните задания в тексте.
Задание 4 - в конце лекции "Аппроксимация в обучении с подкреплением".
Дополнительные материалы
Статья с оптимальным решением задачи о многоруких бандитах
Использование многоруких бандитов в A/B тестировании