Исследователь Шубхам Аггарвал представил новую архитектуру — Prism Transformer. В отличие от традиционных систем Multi-head attention, где ресурсы распределяются равномерно между всеми «головками» на каждом уровне модели, Prism Transformer использует прогрессивное распределение: на ранних слоях применяется меньше широких «головок» для выявления локальных паттернов, а на глубоких — множество узких «головок» для анализа специализированных лингвистических элементов. При этом модель не требует дополнительных затрат на обучение или вывод и сохраняет привычные параметры. Тесты на моделях разного масштаба (124 млн, 354 млн и 757 млн параметров) показали, что Prism Transformer превосходит стандартные решения — снижает потери при валидации и улучшает результаты в тестах с нулевым результатом (PIQA, HellaSwag, ARC-Easy и WinoGrande).
arXiv cs.LG
·
·
~1 мин
Prism Transformer: новый подход к обработке внимания в ИИ
Prism Transformer — новая архитектура для обработки внимания: прогрессивное распределение «головок» улучшает эффективность модели без дополнительных затрат.
// оригинал
arXiv cs.LG
↗ Читать оригинал
5 просмотров
// похожие статьи