Автор — исследователь пекинской AI-компании StepFun Сююй Ли — подготовил подборку из 35 вопросов для собеседований по обучению с подкреплением (RL). Он изучил рассказы о собеседованиях на Zhihu, сопоставил их со свежими обсуждениями и своими наблюдениями. Получившийся список можно рассматривать как бенчмарк для подготовки к собеседованиям.
В списке нет жёсткого разделения между RL для LLM/БЯМ и агентным RL — ответ на вопрос может сильно зависеть от постановки задачи. Почти каждый вопрос допускает более глубокое рассмотрение, готовых эталонных ответов нет. На современных позициях в RL от кандидатов всё чаще ждут понимания всего стека: например, специалиста по алгоритмам могут спросить про инфраструктуру, а специалиста по инфраструктуре — про алгоритмы. В списке отсутствуют вопросы про данные: их сложно заучить, и они сильно зависят от реального опыта кандидата. Автор подчёркивает: заучивания вопросов недостаточно, важнее глубокое понимание темы.
Вопросы охватывают разные темы. Среди них — алгоритмы: например, почему используют схему Actor-Critic, а не чистый подход через Critic; как связаны KL-дивергенция, кросс-энтропия и MLE; как проектировать награды в разных сценариях RL; как в RL вписываются importance sampling, rejection sampling и другие методы Монте-Карло; как в PPO и GRPO считается advantage и зачем вычитать baseline. Есть вопросы про механизм clipping в PPO (Proximal Policy Optimization), KL‑штраф в GRPO, обучение больших языковых моделей, функции награды в DPO, проблемы расхождения между обучением и инференсом в моделях типа MoE (mixture of experts) и другие.
Отдельный блок вопросов посвящён инфраструктуре: например, сколько копий модели находится в памяти во время обучения GRPO (без учёта CPU offload); как оптимизировать передачу KV‑cache при распределённом инференсе; в чём компромиссы между INT8 и FP8; что такое проблема длинного хвоста в RL‑роллаутах и как с ней бороться; какие проблемы создаёт continuous batching в RL‑обучении; чем отличаются vLLM и SGLang; как измерять использование ресурсов в этих системах; как устроено обратное распространение ошибки (backpropagation) в крупномасштабном многоузловом RL‑обучении и т. д.
Сююй Ли учился на бакалавриате Китайского университета Жэньминь с 2022 по 2026 год, проходил стажировки в PixVerse, Пекинской академии Чжунгуаньцунь и JD.com. Версию текста на китайском он опубликовал на Zhihu.

