Deep Agents: оперативное кэширование для сокращения затрат

Оперативное кэширование — функция, которую предлагают поставщики моделей, — помогает экономично масштабировать агентов и снизить стоимость логического вывода на 41–80 %. Манус АЙ отмечает: если бы ему пришлось выбирать только один показатель, он назвал бы частоту попадания в KV-кэш самым важным для ИИ-агента на стадии разработки. При этом у разных поставщиков различаются стратегии управления кэшированием, и это осложняет задачу создания независимого от поставщика решения. Deep Agents — универсальный инструмент, который поддерживает функции оперативного кэширования у всех основных поставщиков. Он автоматически устанавливает явные точки останова кэширования там, где это возможно, при отсутствии такой поддержки переключается на неявное кэширование на стороне поставщика, а также структурирует подсказки так, чтобы максимально увеличить количество считываний из кэша. Благодаря этому можно сменить провайдера и при этом сохранить экономию токенов. Когда в диалоге появляется новое сообщение, модель вынуждена повторно обрабатывать все предыдущие токены — включая System prompt, Tool descriptions, Loaded skills, Message History. Кэширование подсказок позволяет поставщику сохранить снимок состояния модели после обработки запроса: при следующем запросе модель сначала извлекает данные из этого снимка, а потом обрабатывает новый текст. Однако если загрузить новый навык или инструмент, это может изменить приглашение в начале диалога и привести к сбою кэширования. Некоторые поставщики (например, Anthropic и Gemini) позволяют добавлять явные точки останова кэширования в начале запроса — так сбой происходит только в части приглашения, а не во всём диалоге. Но не все поставщики поддерживают такую возможность (например, OpenAI и AWS Bedrock). Кроме явных точек останова, есть и другие функции оперативного кэширования: настраиваемый TTL, предварительный прогрев кэша, ключ маршрутизации — и их поддержка тоже варьируется у разных поставщиков. Чтобы узнать, какие функции доступны, стоит свериться с документацией поставщика модели.