Исследователи разработали алгоритм ATOD (Annealed Turn-aware On-policy Distillation) для обучения автономных агентов, которые выполняют сложные и длительные задачи. Алгоритм объединяет два подхода: оперативную диагностику (OPD), которая помогает на начальном этапе обучения, и обучение с подкреплением (RL), которое стимулирует поиск лучших решений за счёт системы вознаграждений. Кроме того, в ATOD есть механизм повторного взвешивания несогласованности и неопределённости на уровне поворота (T-DUR) — он помогает эффективнее управлять действиями агента на длинных траекториях. В ходе экспериментов с ALFWorld, WebShop и Search-QA алгоритм показал лучшие результаты по сравнению с другими методами: например, он превзошёл OPD по среднему показателю успешности на 3,03 балла, а GRPO — на 23,62 балла.
arXiv cs.AI
·
·
~1 мин
ATOD: новый алгоритм для умных автономных агентов
Алгоритм ATOD объединяет OPD и RL для обучения автономных агентов; показал лучшие результаты в тестах на ALFWorld, WebShop и Search-QA.
// оригинал
arXiv cs.AI
↗ Читать оригинал
1 просмотров
// похожие статьи