Prism Transformer: новый подход к обработке внимания в ИИ

Prism Transformer — новая архитектура для обработки внимания: прогрессивное распределение «головок» улучшает эффективность модели без дополнительных затрат.

Исследователь Шубхам Аггарвал представил новую архитектуру — Prism Transformer. В отличие от традиционных систем Multi-head attention, где ресурсы распределяются равномерно между всеми «головками» на каждом уровне модели, Prism Transformer использует прогрессивное распределение: на ранних слоях применяется меньше широких «головок» для выявления локальных паттернов, а на глубоких — множество узких «головок» для анализа специализированных лингвистических элементов. При этом модель не требует дополнительных затрат на обучение или вывод и сохраняет привычные параметры. Тесты на моделях разного масштаба (124 млн, 354 млн и 757 млн параметров) показали, что Prism Transformer превосходит стандартные решения — снижает потери при валидации и улучшает результаты в тестах с нулевым результатом (PIQA, HellaSwag, ARC-Easy и WinoGrande).