Mesh-RL: новый способ ускорить обучение нейросетей в сложных средах

Mesh-RL ускоряет обучение с подкреплением за счёт разбиения среды на подсети — повышает скорость сходимости и стабильность в Q-learning, SARSA, Dyna-Q.

Учёные предложили новый метод обучения с подкреплением — Mesh-RL. Он разбивает сложную среду на перекрывающиеся подсети и позволяет эффективнее распространять информацию о вознаграждении. Благодаря этому подход ускоряет обучение в таких алгоритмах, как Q-learning, SARSA и Dyna-Q: повышается скорость сходимости, стабильность обучения и общее вознаграждение. При этом метод не требует менять функцию вознаграждения или добавлять сложные механизмы планирования. Авторы планируют опубликовать исходный код.