Deep Digest — AI на русском

Почему стоимость использования дорогих LLM существенно выше, чем дешёвых? Ответ кроется в экономике инференса — процесса работы модели над ответом. Пятичасовой лимит, который вы видите в интерфейсе, — это визуализация сложных вычислений, лежащих в основе взаимодействия с моделью. Стоимость запроса можно примерно выразить формулой: стоимость запроса ≈ (2N × токены + attention(контекст) + KV-cache) × нагрузка.

Разберём ключевые составляющие стоимости ответа от LLM:
- Input-токены — те токены, которые вы отправили модели (включают system prompt, инструменты, память и ваше сообщение).
- Output-токены — ответ модели, который вы видите, плюс скрытые reasoning-токены (если они включены).
- VRAM — память видеокарты, которая вычисляет и хранит KV-cache.
- Serving overhead — накладные расходы провайдера на поддержание модели в рабочем состоянии (очереди, маршрутизация, простаивающие между запросами GPU).

Токен — это часть текста, с которым работает модель: иногда это часть слова, иногда — целое слово. Все расчёты и тарификация ведутся именно в токенах.

Важный фактор стоимости — количество параметров модели, измеряемое в миллиардах (например, 8B, 70B, 405B). Чем больше параметров, тем «умнее» модель, но тем мощнее требуется оборудование для её запуска и расчёта ответа. Например:
- Llama 3.1 8B запустится на хорошем ноутбуке с ~16 ГБ видеопамяти;
- Llama 3.1 70B потребует сервер с несколькими видеокартами или флагманский ноутбук (~140 ГБ видеопамяти);
- Llama 3.1 405B нуждается в кластере из примерно 16 H100 (GPU NVIDIA с 80 ГБ VRAM на карту), сотни тысяч долларов оборудования и ~1280 ГБ видеопамяти.

Модель должна целиком находиться в VRAM, поскольку на каждый токен GPU перечитывает все её веса заново. Любая подкачка данных с диска резко замедлит работу. Поэтому когда говорят «нужно 140 ГБ памяти», речь идёт именно о VRAM.

Существует способ сократить объём необходимой памяти — квантизация. Если хранить каждый параметр в 1 байте вместо 2 (формат FP8 вместо BF16), VRAM потребуется вдвое меньше. Крупные модели почти всегда запускают именно так. Например, Llama 405B без квантизации (BF16) потребует ~810 ГБ и около 16 H100, а сжатая до FP8 — уже ~405 ГБ и поместится в один узел из 8 H100.

Модели бывают двух типов: Dense и MoE (Mixture of Experts).
- Dense-модели — классический трансформер, где на расчёт каждого следующего токена задействуются все параметры.
- MoE-модели разделяют параметры на «экспертов», и при расчёте следующего токена активируется только часть параметров. Например, Llama 3.1 — dense, а DeepSeek V3.1 — MoE.

В MoE-моделях есть два числа параметров: total (общее количество) и active (количество параметров, реально участвующих в расчёте на один токен). Active определяет цену и скорость на один токен. Total определяет, сколько модель занимает в памяти. Например, у DeepSeek V3.1 максимальное количество экспертов на токен — 8 из 256, остальные 248 для этого токена выключены. Сложить всех экспертов на всех слоях — это total (671B), сложить только выбранных — active (37B).

Ещё один важный механизм — attention. Он заставляет модель на каждом токене сверяться со всеми остальными токенами контекста. Из-за этого затраты на вычисление attention растут быстрее длины контекста: удвоение контекста увеличивает затраты на вычисление attention примерно в 4 раза.

Современные провайдеры часто делят токены на два класса: input (отправленные пользователем) и output (сгенерированные моделью). Output-токены всегда дороже. Причина в том, что input-токены обрабатываются пачкой (стадия prefill), а output генерируются строго последовательно (стадия decode). На каждый новый токен модель заново «перечитывает» из памяти GPU всё, что уже накопила, и узкое место тут — скорость доступа к памяти (memory-bandwidth-bound). На закрытых флагманах output обычно в 3–5 раз дороже input.

Также стоит упомянуть reasoning-токены — внутренние размышления модели до видимого ответа. Когда этот режим включён, модель сначала тратит токены на размышление (проверяет гипотезы, планирует, разбивает задачу на шаги), а только потом формулирует ответ. Эти токены не видны в финальном тексте, но GPU их всё равно посчитал, и они влияют на расход лимитов или стоимость в API. Например, видимый ответ может составлять 2000 токенов, а внутреннее рассуждение — 10 000 токенов, тогда фактическая output-нагрузка будет 12 000 токенов.

Наконец, контекстное окно (Context Window) тоже влияет на расход лимитов. С большим контекстом есть два аспекта «дороговизны»:
- В прайсе у провайдера ставка за токен обычно не зависит от длины контекстного окна, но бывают исключения. Например, у Gemini Pro (и 2.5, и 3 Pro) запрос длиннее 200k токенов уходит на премиум-ставку, где input вдвое дороже, а output — в полтора раза.
- Инфраструктурно на уровне железа длинный контекст тяжелее всегда — даже там, где цена за токен формально не меняется. Контекст — это не просто текст рядом с моделью. Во время генерации модель держит KV-cache — рабочую память по уже обработанному контексту, чтобы на каждый новый токен не прогонять весь контекст заново.