ILCP для агентов LLM: скрытая память при передаче между агентами

В конвейерах с несколькими агентами LLM при передаче управления от агента A к агенту B получатель отбрасывает скрытое состояние A и заново выстраивает контекст из строки запроса — это похоже на «холодный запуск после передачи» в сетях 5G/6G. Автор предлагает решить проблему с помощью метода индуктивного сохранения скрытого контекста (ILCP).

Суть метода в том, чтобы сжимать повторяющееся состояние отправителя в небольшую скрытую полезную нагрузку, передавать её при переходе и использовать в качестве префикса для программных подсказок вместо повторного заполнения текста. В основе метода — рецензируемая статья, принятая на AI4NextG @ ICML 2026.

На венском драйв‑тесте 4G/5G ILCP показал следующие результаты:
- полностью исключает передачу данных по принципу «пинг‑понга» (0,0 % против 6,5 % без передачи данных, 22,6 % по сравнению с трансформатором);
- восстанавливает точность после передачи данных в среднем на +5,1 п. п., на пике — +13,3 п. п.;
- работает со скоростью 7,7 мс p99 на одной GTX 1080.

Для агентов LLM используется версия протокола ilcp‑for‑agents: компрессор β‑VAE, транспортировка в процессе производства, встроенный MLP‑проектор и жгут проводов Qwen2.5‑7B. Тесты на стороне агента ещё предстоят.

Многопользовательский агент — это не одна модель, а несколько специализированных моделей, которые по очереди выполняют работу: маршрутизатор определяет намерение, планировщик разлагает задачу, ретривер извлекает контекст, логик обдумывает, средство проверки безопасности анализирует выходные данные, а финализатор записывает ответ. При каждом переходе между агентами получатель получает только текст, а не скрытое состояние, кэш KV или векторный текст. Это приводит к повторному заполнению одного и того же материала — например, в конвейере с четырьмя переходами один и тот же исходный материал будет прочитан четыре раза, причём три из этих операций чтения избыточны.

Метод ILCP решает эту проблему: пока агент A ещё активен, его рабочий контекст объединяется в единый сводный вектор фиксированного размера, сжимается с помощью β‑VAE в крошечный скрытый вектор z (например, из 32 чисел с плавающей точкой — 128 байт при fp32), передаётся через границу перехода, а в агенте B расшифровывается и проецируется через закрытый MLP в K векторов памяти в собственном пространстве внедрения B. Затем эти K векторов объединяются перед вложениями токена вопроса, и агент B выполняет жадное декодирование, не перечитывая контекст A как текст.

При реализации метода возникают три проблемы:
1. Что передавать при передаче данных. Самый очевидный ответ — весь кэш KV, но он зависит от множества параметров модели и не может быть просто передан между разными процессами.
2. Насколько малой может быть полезная нагрузка и при этом оставаться полезной. Объединённый скрытый вектор из модели 7B занимает 16 КБ, что дорого для сетевых сообщений. Авторы показывают, что 128‑байтного дифференциального обновления достаточно для сохранения качества прогнозирования.
3. Как получатель использует скрытые данные. В радиопостановке получатель — это базовая станция, в версии для агентов — декодер с замороженными инструкциями Qwen2.5‑7B. Проектор преобразует скрытые векторы в K векторов памяти, которые находятся в том же векторном пространстве, что и реальные вложения токенов, а получатель объединяет их перед вопросом.

Конвейер на стороне агента состоит из шести этапов, проводка размещена в четырёх файлах. На первом этапе агент A считывает рабочий контекст с помощью Qwen2.5‑7B и объединяет скрытые состояния последнего уровня в один вектор. На втором этапе происходит сжатие до скрытой z с помощью β‑VAE.

Репозиторий на GitHub: https://github.com/AnubhabBanerjee/ILCP-for-Agents