DeepDigest
arXiv cs.AI · · ~1 мин

Скрытое влияние: как редактирование одного модуля меняет работу всей агентной системы

Обнаружена проблема в агентных системах: изменение одного модуля может незаметно влиять на другие (CBL). Протестировано на Claude Sonnet 4.6, предложен протокол для выявления сбоев.

Скрытое влияние: как редактирование одного модуля меняет работу всей агентной системы

Исследователи обнаружили проблему в агентных системах: изменение одного модуля подсказок может незаметно влиять на поведение других модулей — даже если между ними нет явной связи. Явление назвали композиционно-поведенческой утечкой (CBL). Авторы протестировали его на системе Claude Sonnet 4.6, используя многоразовый трёхканальный протокол — он воздействовал на модули по объёму, содержанию и форме. Выяснилось, что канал контента даёт заметный эффект. Проблема важна, поскольку такие подпороговые изменения остаются незамеченными при стандартном контроле качества, но могут влиять на тысячи решений, которые принимает агент. Исследователи предложили протокол и набор прогнозов для выявления подобных сбоев.

Источник: arXiv cs.AI
1 просмотров
// поделиться Telegram VK