SkyClaw-v1.0: возможности агентской модели от Kunlun Wanwei

Компания Kunlun Wanwei выпустила модель SkyClaw-v1.0 — высокопроизводительную агентскую модель для использования сложных инструментов, нескольких циклов рабочих процессов и выполнения задач в реальном мире. Стоимость составляет 0,5 юаня за миллион входных токенов и 4 юаня за миллион выходных. В отличие от диалоговых моделей вроде ChatGPT и DeepSeek, агентские модели оптимизируют способность постоянно выполнять задачи в среде. Например, если попросить диалоговую модель помочь исправить ошибку, ей придётся прочитать файл, настроить инструмент, ознакомиться с отзывами и принять решение о следующем шаге — каждый результат будет изменять окружающую среду, а каждое изменение станет новым входным сигналом.

Автор статьи провёл ряд тестов SkyClaw-v1.0, подключив модель к Hermes Agent. Были разработаны два теста с нуля: «томатные часы» (цикл из 25 минут работы и 5 минут отдыха с обратным отсчётом, сигналом о выполнении, звуковым эффектом переключения состояния и статистикой завершения) и «местная бухгалтерия» (добавление записей, подсчёт итогов по месяцам, построение круговой диаграммы и графика трендовых линий за 7 дней без использования внешних библиотек диаграмм — все диаграммы нужно было написать в SVG самостоятельно). Модель справилась с задачами: генерировала код мгновенно, обеспечила высокую скорость работы и реализовала нужные функции.

В ходе тестирования выявились и нюансы. Например, при выполнении задач, требующих координации работы с несколькими файлами, процесс заметно замедлялся. На втором уровне сложности (согласование изменений в 6 файлах) выполнение заняло 30 минут. На третьем уровне (устранение проблемы с дрожанием страницы при перемещении по маленькому экрану) модель детально описала причину (связана с -webkit-overflow-scrolling: touch в iOS Safari), объяснила три связанные концепции CSS и предложила исправление.

Также автор проверил показатели SkyClaw-v1.0 в бенчмарках (PinchBench-V2, Claw-Eval, Skywork-Claw-Bench), которые демонстрируют превосходство над DeepSeek V4 Flash, MiniMax 2.7, Qwen 3.6 и близость к DeepSeek V4 Pro, Claude Opus 4.6. Однако модель не предоставила данных по SWE-bench — признанной оценке моделей агента/кодирования, где из реального проекта с открытым исходным кодом на GitHub извлекается ошибка, модель загружает всё хранилище кода, находит проблему, отправляет исправление и запускает набор тестов из первоначального проекта. Это наводит на мысль, что SkyClaw-v1.0 лучше справляется с задачами «вызова инструмента + обработки информации» (как в PinchBench), чем с внесением точных изменений в большую существующую базу кода (как в SWE-bench).

Среди других особенностей модели — колебания времени ответа (от 2,1 до 37,8 секунды при десятикратном вызове одного и того же простого приглашения), склонность излишне часто вызывать инструменты (что ведёт к дополнительным затратам), риск побочных эффектов (например, перезапись блокировки пакетов.json при сборке npm run без восстановления через git checkout).

Подходящие сценарии для SkyClaw-v1.0: создание гаджетов, пользовательского интерфейса и отчётов с нуля, организация задач пакетного агента, одноточечные исправления ошибок, строгий вывод JSON, быстрая трансформация идеи в демонстрационный сценарий. Не подходит для внесения мелких изменений в большую существующую кодовую базу, задач, требующих многократного разъяснения требований, взаимодействия в реальном времени, строгого и гигиеничного рабочего процесса, роли «универсального помощника на все случаи жизни».