Ускорение Gemini Nano на Pixel с мультитокеновым прогнозированием

26 июня 2026 года Эден Коэн (менеджер по исследовательским продуктам) и Мишель Раманович (менеджер по исследованиям Google Platforms and Devices) представили метод ускорения моделей Gemini Nano на устройствах Pixel. Суть подхода — адаптация прогнозирования с использованием нескольких токенов (MTP) к «замороженным» моделям Gemini Nano v3. Стандартные языковые модели генерируют текст авторегрессивно — по одному токену за раз, что создаёт «узкое место» и замедляет работу устройства. Новая архитектура устраняет этот недостаток: вместо обучения отдельной небольшой языковой модели разработчики добавляют облегчённую головку-трансформер (MTP head) к конечным слоям основной модели. MTP head использует уже выполненные основной моделью вычисления — принимает её многомерные активации и на их основе прогнозирует последовательность будущих токенов. Ключевая особенность подхода — архитектура с нулевым копированием: MTP head напрямую взаимодействует с замороженным кэшем KV основной модели, не создавая собственной истории. Это позволяет избежать избыточности в использовании оперативной памяти. В экспериментах на устройствах Pixel 9 применение MTP ускорило работу на 50 % и более (в зависимости от задачи) по сравнению с автономными разработчиками с сопоставимым числом параметров. Например, в задачах с высокой структурной предсказуемостью (например, для умных ответов) приём токенов вырос до 55 %. При выполнении реальных задач (например, при составлении сводок уведомлений ИИ и корректуре текста) MTP в среднем корректно прогнозирует около двух дополнительных токенов за каждый этап вывода. В будущем команда планирует интегрировать MTP на новых устройствах Pixel и изучить альтернативные архитектуры — например, параллельное декодирование и парадигмы без вспомогательных головок.