DeepDigest
arXiv cs.AI · · ~1 мин

ATOD: новый алгоритм для умных автономных агентов

Алгоритм ATOD объединяет OPD и RL для обучения автономных агентов; показал лучшие результаты в тестах на ALFWorld, WebShop и Search-QA.

cs.AI
arXiv
Cornell University Library

Исследователи разработали алгоритм ATOD (Annealed Turn-aware On-policy Distillation) для обучения автономных агентов, которые выполняют сложные и длительные задачи. Алгоритм объединяет два подхода: оперативную диагностику (OPD), которая помогает на начальном этапе обучения, и обучение с подкреплением (RL), которое стимулирует поиск лучших решений за счёт системы вознаграждений. Кроме того, в ATOD есть механизм повторного взвешивания несогласованности и неопределённости на уровне поворота (T-DUR) — он помогает эффективнее управлять действиями агента на длинных траекториях. В ходе экспериментов с ALFWorld, WebShop и Search-QA алгоритм показал лучшие результаты по сравнению с другими методами: например, он превзошёл OPD по среднему показателю успешности на 3,03 балла, а GRPO — на 23,62 балла.

// оригинал
arXiv cs.AI ↗ Читать оригинал
1 просмотров
// поделиться Telegram VK