Презентации

Введение.
Задача обучения с подкреплением.
Динамическое программирование.
Метод Монте-Карло.
Метод временных разностей.
Следы преемственности.
Аппроксимация в обучении с подкреплением.
Планирование в обучении с подкреплением.

Задания

  1. Задание 1.
  2. Задание 2 - в конце лекции "Динамическое программирование".
  3. Задание 3:
    Скопируйте ноутбук Google Colaboratory и выполните задания в тексте.
  4. Задание 4 - в конце лекции "Аппроксимация в обучении с подкреплением".

Дополнительные материалы

Статья с оптимальным решением задачи о многоруких бандитах
Использование многоруких бандитов в A/B тестировании