Учёные предложили новый метод обучения с подкреплением — Mesh-RL. Он разбивает сложную среду на перекрывающиеся подсети и позволяет эффективнее распространять информацию о вознаграждении. Благодаря этому подход ускоряет обучение в таких алгоритмах, как Q-learning, SARSA и Dyna-Q: повышается скорость сходимости, стабильность обучения и общее вознаграждение. При этом метод не требует менять функцию вознаграждения или добавлять сложные механизмы планирования. Авторы планируют опубликовать исходный код.
arXiv cs.LG
·
·
~1 мин
Mesh-RL: новый способ ускорить обучение нейросетей в сложных средах
Mesh-RL ускоряет обучение с подкреплением за счёт разбиения среды на подсети — повышает скорость сходимости и стабильность в Q-learning, SARSA, Dyna-Q.
1 просмотров
// похожие статьи