Лекции во вторник продолжили обучение с подкреплением, да и закончили его.
Сначала мы обсудили одну из главных тем RL: теорему о градиенте по стратегиям. Есть много преимуществ у того, чтобы параметризовать стратегию, а не функцию значений V или Q, но задача выглядит слишком сложной. И тем не менее в итоге через пару несложных трюков всё получается, и мы рассмотрели и исторически первый алгоритм REINFORCE (
Williams, 1992), представляющий собой Монте-Карло версию policy gradient, и общую схему actor-critic алгоритмов, реализующих здесь TD-обучение.
А затем дошли до самых последних новостей: разработанных в OpenAI алгоритмов policy gradient с ограничениями TRPO (
Schulman et al., 2015) и PPO (
Schulman et al., 2017), который стал фактически стандартом индустрии и для RLHF (да, Джон Шульман был ещё в OpenAI тогда!), и для других современных приложений, а также алгоритм GRPO (
Shao et al., 2024), который DeepSeek придумал, чтобы сократить потребление памяти. Любопытно, кстати, что GPRO - это в некотором смысле возвращение к истокам, actor-critic алгоритм, который отказывается от критика и моделирует его через сэмплирование, то есть в каком-то смысле возвращается к схеме Монте-Карло.
Во второй части лекций поговорили о планировании: и базовом сэмплировании опыта (Dyna, Dyna с приоритетами), и test-time планировании, в том числе rollouts и MCTS. А потом рассказал о громких результатах глубокого обучения с подкреплением, которые было уже несложно объяснить:
AlphaGo,
AlphaZero и
MuZero. О моделях мира (world models) поговорить всерьёз не успел, но MuZero постарался объяснить, насколько это было возможно.
На этом RL мы заканчиваем, и у меня в кои-то веки есть возможность начать deep learning немного заранее, не с осени. Это давно уже хочется делать, потому что одного семестра тут категорически мало, и сэкономленные лекции, думаю, очень помогут.
https://www.youtube.com/watch?v=A5iXUKUv4-M