Два подхода к симуляторам в обучении с подкреплением: в чём разница?

Авторы статьи — Мэтью Вандергрифт, Эсраа Элелими и Марта Уайт — указывают на важную проблему в области обучения с подкреплением (RL): исследователи нередко путают два способа использования симуляторов. Первый — решение задач непосредственно в симуляторе, второй — использование симулятора как посредника для обучения агента в реальных условиях развёртывания. Авторы объясняют, чем эти подходы различаются (ограничениями для агента, подходящими алгоритмами и метриками оценки), и приводят примеры ошибок, к которым приводит отсутствие чёткого разграничения. Работа призвана подтолкнуть сообщество к более осознанному использованию симуляторов и обсуждению лучших эмпирических методов для разных случаев.