Исследователи разработали фреймворк EVOM, который автоматизирует создание архитектурных решений для обучения с подкреплением по схеме «актёр-критик». Обычно такие архитектуры разрабатываются вручную — это долго и сложно. EVOM использует двухуровневую оптимизацию: внутренний цикл настраивает параметры с помощью алгоритма PPO, а внешний — с помощью метаэволюции под управлением агента на базе LLM. Агент выступает в роли разработчика архитектуры, не вмешиваясь в выполнение задач и управление средой. В тестах на наборах данных Ant-v4 и HalfCheetah-v4 EVOM показал лучшие результаты по сравнению с ручной разработкой, случайным поиском и другим современным методом MLES. Учёные также доказали, что для успеха важны и метаэволюция, и агент на базе LLM.
arXiv cs.LG
·
·
~1 мин
EVOM: ИИ-агент самостоятельно создаёт эффективные архитектуры для обучения с подкреплением
Фреймворк EVOM автоматически создаёт архитектуры для обучения с подкреплением «актёр-критик», превосходя ручные методы и другие подходы. Тестировался на Ant-v4 и HalfCheetah-v4.
1 просмотров
// похожие статьи