HarnessX от Xiaomi: самоэволюция агентов для повышения производительности

За последние полгода количество полностью автоматических агентов, таких как Claude Code и Manus, резко выросло. Однако их «каркас» по-прежнему приходится создавать вручную — каждый раз при модернизации модели инженерам нужно заново перестраивать систему. Команда Xiaomi Darwin Agent предложила решение — HarnessX. В статье «HarnessX» (https://arxiv.org/abs/2606.14249) описывается подход, основанный на «самоэволюции системы».

HarnessX обеспечивает прирост производительности в среднем на 14,5 %. При этом чем меньше модель, тем сильнее улучшение: например, в сочетании с моделью Qwen 3.5-9B производительность в задачах планирования выросла до 44 %. Система отделяет базовую модель от Harness: один набор «методов работы» можно применять к разным моделям, а одна модель — переключаться между разными методами.

HarnessX разделяет Harness на 9 независимых аспектов: выбор модели, контекстная сборка, управление памятью, экология инструментов, среда выполнения, оценка и вознаграждение, контроль и безопасность, наблюдаемость и обучение. Каждый модуль отвечает за небольшую часть — типизированный процессор. Эти части можно подключать и отключать через единый интерфейс в определённые моменты: перед запуском задачи, перед вызовом модели, после использования инструмента и т. д.

В основе HarnessX — двухслойная конструкция ядра: нижний слой — теория операционного зеркала, верхний — эволюционный движок AEGIS. Система включает четырёхэтапный конвейер эволюции:
1. Digester (переработчик) — сводит процесс выполнения задачи в краткое резюме, выделяя проблемные этапы.
2. Планирование — на основе резюме определяется, что нужно изменить.
3. Evolver — вносятся изменения на уровне кода (например, пишется новый процессор или рефакторится реестр инструментов).
4. Критик + Гейт (судья + врата) — Критик следит за тем, не жульничает ли ИИ, а Гейт имеет право вето: новая версия должна усиливать систему, не ухудшая выполнение старых задач.

Также HarnessX использует механизм «вариантной изоляции»: система поддерживает несколько версий Harness одновременно, и каждая задача автоматически переходит к версии с наилучшей историей выполнения. В тесте GAIA + GPT-5.4 после включения «изоляции вариантов» точность выросла до 87,4 %, при этом удалось сэкономить 25 % токенов.

Ключевая особенность HarnessX — совместная эволюция модели и Harness. Когда ИИ завершает работу, весь процесс выполнения записывается и отправляется одновременно в базовую модель и систему управления, которые улучшаются синхронно. В модели используется алгоритм перекрёстной привязки GRPO — технология интенсивного обучения, которая недавно помогла DeepSeek-R1 продемонстрировать сильные навыки рассуждения.

Команда протестировала HarnessX на Claude 4.6 Sonnet, GPT-5.4 и Qwen 3.5-9B в тестах GAIA, SWE-bench Verified и других. Из 15 групп в сравнительных экспериментах у 14 показатели улучшились в среднем на 14,5 %. Производительность Qwen 3.5-9B в задачах планирования ALFWorld выросла с 53 % до 97 % (на 44 п. п.).

Некоторые эксперты указывают на ограничения HarnessX. Например, все приведённые в статье цифры измерены на тренировочном наборе, а истинная способность модели к обобщению ещё не известна. Кроме того, стоимость вызова модели для одного 15‑раундового процесса разработки составляет около 1519 долларов США. HarnessX пока тестируется только для задач вывода текста (например, написание кода и ответы на вопросы), а задачи, требующие от ИИ выдачи инструкций (например, управление роботом), не проверялись.

Репозиторий HarnessX на GitHub уже собрал 112 звёздочек, а официальный тизерный код обещают опубликовать в будущих обновлениях.