DeepDigest
arXiv cs.LG · · ~1 мин

Два подхода к симуляторам в обучении с подкреплением: в чём разница?

Авторы статьи разграничивают два способа использования симуляторов в обучении с подкреплением и указывают на риски их смешения.

cs.LG
arXiv
Cornell University Library

Авторы статьи — Мэтью Вандергрифт, Эсраа Элелими и Марта Уайт — указывают на важную проблему в области обучения с подкреплением (RL): исследователи нередко путают два способа использования симуляторов. Первый — решение задач непосредственно в симуляторе, второй — использование симулятора как посредника для обучения агента в реальных условиях развёртывания. Авторы объясняют, чем эти подходы различаются (ограничениями для агента, подходящими алгоритмами и метриками оценки), и приводят примеры ошибок, к которым приводит отсутствие чёткого разграничения. Работа призвана подтолкнуть сообщество к более осознанному использованию симуляторов и обсуждению лучших эмпирических методов для разных случаев.

// оригинал
arXiv cs.LG ↗ Читать оригинал
8 просмотров
// поделиться Telegram VK