В июне в индустрии ИИ произошли заметные изменения. Из-за роста затрат на обработку токенов компании стали массово переходить на китайские модели — например, GLM 5.2, Kimi 2.7 и Deepseek v4. Так, Coinbase, Snowflake и стартап Lindy перевели продакшен на китайские аналоги. В Coinbase внедрили динамический роутинг: балансировщик перед отправкой запроса анализирует параметры и алгоритмически определяет, какая модель справится с задачей с наименьшими затратами. Оптимизация кэширования контекста в компании подняла процент попадания (хит-рейт) с 5 % до 60 %.
Китайская модель GLM-5.2 от Zhipu AI показала хорошие результаты на тесте кодинга SWE-bench Pro — набрала 62,1 балла, опередив GPT-5.5 (58,6 балла) и почти догнав Claude Opus 4.8. Производительность при стоимости инференса почти в шесть раз ниже западных аналогов достигается за счёт оптимизации работы с контекстом: разработчики использовали алгоритм DeepSeek Sparse Attention (DSA) и технологию IndexShare. Проблема медленной генерации длинных ответов решена через спекулятивное декодирование (Multi-Token Prediction).
Microsoft выпустила обновление платформы Foundry Local для Azure Local: в неё добавили vLLM runtime и автоматический планировщик памяти (vLLM Planner). Технология PagedAttention позволяет эффективно управлять KV-кэшем без утечек VRAM, а непрерывный батчинг собирает входящие запросы от разных пользователей и утилизирует GPU на максимум. Платформа оптимизирована под enterprise-чипы вроде NVIDIA RTX Pro 6000.
NVIDIA и Microsoft анонсировали суперчип RTX Spark, который выдаёт 1 петафлопс вычислительной мощности в формате FP4. Его цель — позволить ноутбукам следующего поколения локально запускать модели на 120B+ параметров с контекстным окном до 1 млн токенов. Чип оснащён 128 ГБ унифицированной памяти LPDDR5X и 20‑ядерным ARM‑процессором Grace.
На конференции MLSys 2026 эксперты пришли к выводу, что прогресс больших моделей упирается в физические ограничения инфраструктуры: не хватает пропускной способности памяти, эффективного охлаждения серверных стоек и электроэнергии. Инженеры NVIDIA и Together AI представили технологию BLASST, которая динамически оценивает математические параметры и отбрасывает блоки токенов, не влияющие на контекст, — это позволяет снизить нагрузку на чипы и ускорить обработку длинных текстов в полтора раза без потери качества.
OpenAI совместно с Broadcom представили процессор Jalapeño, спроектированный под инференс больших языковых моделей. Первые лабораторные тесты показали снижение стоимости инференса примерно на 50 % по сравнению с флагманскими GPU от NVIDIA. Первые прототипы начнут разворачивать в дата‑центрах в конце 2026 года.
Китайская лаборатория MiniMax выпустила мультимодальную LLM MiniMax M3 с контекстным окном в 1 млн токенов — она умеет работать с кодом, текстом, картинками и видео. На тесте программирования SWE-bench Pro модель набрала 59,0 баллов, обойдя GPT-5.5. Высоких результатов при скромных затратах на инференс разработчики добились благодаря кастомной архитектуре MiniMax Sparse Attention (MSA).
Также был представлен обновлённый вариант российского законопроекта об ИИ: теперь контроль касается только создателей больших фундаментальных моделей (с 1 млрд параметров и более). Закон вводит два статуса для тяжеловесов рынка: «суверенная» и «национальная» модель — обе обязаны хранить данные и обрабатывать запросы на серверах в России.
Итоги премии AI Breakthrough Awards 2026 показали, что в индустрии побеждают компании, создающие удобную инфраструктуру для работы с данными. Главную статуэтку в номинации «Лучшая ИИ‑компания года» получила Snowflake, а Anyscale признали лучшей ИИ‑платформой года. В номинации Agentic AI победу присудили SoundHound AI.