LangSmith: как контролировать расходы на работу с ИИ-агентами

На прошлой неделе ведущий инженер стартапа среднего размера сообщил, что за два квартала доходы программиста его команды выросли в 6 раз — не из‑за усложнения работы, а из‑за отсутствия контроля. Uber полностью профинансировал свой бюджет на 2026 год в области искусственного интеллекта за 4 месяца. Microsoft аннулирует лицензии Claude Code во всех подразделениях. Salesforce ожидает счёт на 300 миллионов долларов.

В начале 2026 года после «tokenmaxxing» использование программных агентов резко возросло, и команды начали замечать рост расходов. Казалось, что больше потраченных токенов означает больше проделанной работы и окупаемость инвестиций в ИИ. Однако вскоре стало ясно: счета растут, а управление затратами критически важно для масштабирования рабочей нагрузки на ИИ.

Одна и та же функция может включать Claude Code для начальной реализации, Cursor для встроенных изменений и чат второго пилота для просмотра коллегами — и каждый из этих инструментов регистрирует свои действия в собственном формате. Большинство команд не могут ответить на вопрос: «Сколько мы на самом деле потратили на создание этой функции и стоило ли оно того?»

Проблема в фрагментации данных: каждый инструмент кодирования предоставляет некоторую информацию о затратах, но единицы измерения разбросаны по разным инструментам, которые не взаимодействуют друг с другом. Copilot выдаёт интервалы OpenTelemetry, в OpenCode есть перехватчики сеанса, у Pi есть расширение, Cursor использует перехватчики. Вызовы инструментов в Claude Code и Cursor записываются по‑разному — их нельзя сопоставить, чтобы понять, какой из них эффективнее.

LangSmith решает эту проблему: он отслеживает сеансы из Claude Code, Codex, Cursor, GitHub Copilot Chat, Pi и OpenCode в одной модели трассировки. Метаданные и синтаксис запроса одинаковы независимо от того, какой инструмент запускал сеанс. Теперь можно задать вопрос «какие сеансы были дорогостоящими» и получить один ответ вместо пяти неполных.

С LangSmith можно:
* стандартизировать стоимость различных инструментов — сопоставив сеансы, можно честно сравнить их: использование токенов, стоимость за сеанс, вызовы инструментов и активность субагентов, нормализованные по инструментам;
* оптимизировать использование — движок анализирует сеансы работы агентов и выявляет конкретные улучшения навыков (например, если агент выполняет избыточные вызовы инструментов для получения одного и того же контекста несколько раз за сеанс, движок рекомендует объединить их);
* контролировать расходы — шлюз LLM Gateway ограничивает расходы и регулирует их на уровне пользователей, команды и организации. Вскоре появится возможность перейти на модели с открытым исходным кодом там, где они подходят — они стали достаточно хороши и дёшевы, чтобы использовать их как опцию в любой системе управления агентами.

Каждый из этих этапов делает возможным следующий: наглядность показывает, где оптимизировать, оптимизация подсказывает, где управление должно быть жёстким, а управление защищает выгоды. Следующий этап анализа показывает реальный прогресс, а не новые потери.

Решение предназначено для команд, работающих с несколькими программистами. Большинство команд внедряют его в течение нескольких месяцев. Если организация уже стандартизировала работу с одним инструментом, возможно, второй уровень контроля пока не нужен. Но как только появляется второй инструмент, встроенные панели мониторинга перестают отвечать на вопрос «на что тратятся деньги?».

Начинать работу с LangSmith можно поэтапно: на ранней стадии внедрения стоит сосредоточиться на обеспечении наблюдаемости — узнать, какие агенты запущены, сколько они тратят и в каких сеансах происходят сбои. Затем можно подключать Engine и LLM Gateway — они работают с теми же данными трассировки.

После настройки сеансы агента кодирования отображаются в LangSmith в виде трассировок. В зависимости от интеграции сеанс может включать:
* вызовы модели TURNS для пользователей и помощников с использованием токенов;
* вызовы costTool и команды командной строки;
* действия MCP и вызовы субагентов.

Данные нормализованы к общей модели (корневая сессия, turns, вызовы инструментов, метаданные) — можно выполнять запросы между агентами, используя одни и те же поля. Есть возможность фильтровать данные по идентификатору потока, модели, поставщику или названию инструмента — находить дорогостоящие сеансы, сбойные вызовы инструмента, сравнивать поведение Cursor и второго пилота без переключения контекстов.

Инструкции по настройке запуска есть для Claude Code, Codex, OpenCode, Cursor, GitHub Copilot, Pi или dcode.