Tokenminning: как сократить расходы на ИИ с помощью маршрутизации и сжатия контекста

Tokenmaxxing и Tokenminning — два противоположных подхода к использованию токенов в ИИ. Tokenmaxxing предполагает использование большого количества токенов для повышения производительности, тогда как Tokenminning нацелен на минимизацию их использования без потери эффективности. Сэм Блэк, возглавляющий отдел ИИ в биотехнологическом стартапе, делится практическими стратегиями Tokenminning. Одна из них — маршрутизация запросов: вместо того чтобы направлять все запросы к мощным моделям вроде Claude Opus или GPT 5.5, можно распределять их между моделями разного размера. Для этого используется шлюз LLM — облегчённый веб-сервис, который перехватывает запросы, оценивает их сложность и цель, а затем направляет к подходящей модели. Для оценки запросов можно применять, например, NemoCurator от NVIDIA — инструмент, который определяет сложность и тип задачи. Автор собрал более 10 000 запросов и использовал их для обучения модели маршрутизации, добившись точности оценки около 0,94 для класса intent. Вторая стратегия — сжатие контекста: когда агент приближается к пределу контекстного окна, выполняется этап обобщения с использованием модели более низкого порядка. Это позволяет сохранить ключевые детали, хотя и с некоторыми потерями информации. По словам автора, благодаря маршрутизации ему удалось сократить затраты на использование ИИ более чем на 60 %. Среди других проблем Tokenmaxxing — задержки из‑за обработки больших запросов и снижение качества ответов из‑за «контекстной гнили» (когда модели становятся менее эффективными из‑за чрезмерно длинных контекстов). Индустрия постепенно смещает акцент на качество, а не на объём контекста.