ATOD: новый алгоритм для умных автономных агентов

Исследователи разработали алгоритм ATOD (Annealed Turn-aware On-policy Distillation) для обучения автономных агентов, которые выполняют сложные и длительные задачи. Алгоритм объединяет два подхода: оперативную диагностику (OPD), которая помогает на начальном этапе обучения, и обучение с подкреплением (RL), которое стимулирует поиск лучших решений за счёт системы вознаграждений. Кроме того, в ATOD есть механизм повторного взвешивания несогласованности и неопределённости на уровне поворота (T-DUR) — он помогает эффективнее управлять действиями агента на длинных траекториях. В ходе экспериментов с ALFWorld, WebShop и Search-QA алгоритм показал лучшие результаты по сравнению с другими методами: например, он превзошёл OPD по среднему показателю успешности на 3,03 балла, а GRPO — на 23,62 балла.