Оперативное кэширование — функция, которую предлагают поставщики моделей, — помогает экономично масштабировать агентов и снизить стоимость логического вывода на 41–80 %. Манус АЙ отмечает: если бы ему пришлось выбирать только один показатель, он назвал бы частоту попадания в KV-кэш самым важным для ИИ-агента на стадии разработки. При этом у разных поставщиков различаются стратегии управления кэшированием, и это осложняет задачу создания независимого от поставщика решения. Deep Agents — универсальный инструмент, который поддерживает функции оперативного кэширования у всех основных поставщиков. Он автоматически устанавливает явные точки останова кэширования там, где это возможно, при отсутствии такой поддержки переключается на неявное кэширование на стороне поставщика, а также структурирует подсказки так, чтобы максимально увеличить количество считываний из кэша. Благодаря этому можно сменить провайдера и при этом сохранить экономию токенов. Когда в диалоге появляется новое сообщение, модель вынуждена повторно обрабатывать все предыдущие токены — включая System prompt, Tool descriptions, Loaded skills, Message History. Кэширование подсказок позволяет поставщику сохранить снимок состояния модели после обработки запроса: при следующем запросе модель сначала извлекает данные из этого снимка, а потом обрабатывает новый текст. Однако если загрузить новый навык или инструмент, это может изменить приглашение в начале диалога и привести к сбою кэширования. Некоторые поставщики (например, Anthropic и Gemini) позволяют добавлять явные точки останова кэширования в начале запроса — так сбой происходит только в части приглашения, а не во всём диалоге. Но не все поставщики поддерживают такую возможность (например, OpenAI и AWS Bedrock). Кроме явных точек останова, есть и другие функции оперативного кэширования: настраиваемый TTL, предварительный прогрев кэша, ключ маршрутизации — и их поддержка тоже варьируется у разных поставщиков. Чтобы узнать, какие функции доступны, стоит свериться с документацией поставщика модели.
LangChain Blog
·
·
~2 мин
Deep Agents: оперативное кэширование для сокращения затрат
Оперативное кэширование помогает снизить стоимость логического вывода на 41–80 %. Deep Agents — универсальный инструмент для работы с кэшированием у разных поставщиков моделей. Он автоматически подбирает стратегии кэширования, чтобы обеспечить максимальную экономию токенов.
1 просмотров
// похожие статьи