Авторы статьи — Мэтью Вандергрифт, Эсраа Элелими и Марта Уайт — указывают на важную проблему в области обучения с подкреплением (RL): исследователи нередко путают два способа использования симуляторов. Первый — решение задач непосредственно в симуляторе, второй — использование симулятора как посредника для обучения агента в реальных условиях развёртывания. Авторы объясняют, чем эти подходы различаются (ограничениями для агента, подходящими алгоритмами и метриками оценки), и приводят примеры ошибок, к которым приводит отсутствие чёткого разграничения. Работа призвана подтолкнуть сообщество к более осознанному использованию симуляторов и обсуждению лучших эмпирических методов для разных случаев.
arXiv cs.LG
·
·
~1 мин
Два подхода к симуляторам в обучении с подкреплением: в чём разница?
Авторы статьи разграничивают два способа использования симуляторов в обучении с подкреплением и указывают на риски их смешения.
// оригинал
arXiv cs.LG
↗ Читать оригинал
8 просмотров
// похожие статьи