Alexey Naumov
HDI Lab (HSE University)

Эффективные методы исследования среды в обучении с подкреплением

Обучение с подкреплением — один из видов машинного обучения. Ключевая особенность этого метода, в отличие от классического машинного обучения, — постоянное взаимодействие агента (алгоритма) со средой, от которой он получает обратную связь в виде поощрений и наказаний. Цель агента — максимизировать сумму наград, которые среда дает ему  за «правильное» взаимодействие. Агент должен не просто пытаться понять, какие действия правильные, базируясь на текущих представлениях о среде. Он также должен исследовать эту среду: искать новые возможности, чтобы получить еще большую награду. Таким образом, появляется дилемма: исследование или использование известных данных. Вопрос выбора между исследованием среды и использованием уже имеющихся знаний — один из главных для построения эффективных алгоритмов обучения с подкреплением. В рамках моего доклада мы обсудим эти вопросы и разберем алгоритмы, для которых можно получить оптимальные минимаксные оценки на упущенную выгоду, а также обсудим обучение «без подкрепления». Доклад будет основан на недавних работах автора D. Tiapkin, D. Belomestny, E. Moulines, A. Naumov, S. Samsonov, Y. Tang, M. Valko, P. Menard, From Dirichlet to Rubin: Optimistic Exploration in RL without Bonuses, ICML 2022, long presentation; D. Tiapkin, D. Belomestny, D. Calandriello, E. Moulines, R. Munos, A. Naumov, M. Rowland, M. Valko, P. Ménard, Optimistic Posterior Sampling for Reinforcement Learning with Few Samples and Tight Guarantees, NeurIPS 2022; D. Tiapkin, D. Belomestny, D. Calandriello, E. Moulines, R. Munos, A. Naumov,P. Perrault, Y. Tang, M. Valko, P. Ménard, Fast Rates for Maximum Entropy Exploration, ICML 2023.