Исследователь Чад А. Кэппс предложил новый способ настройки разреженного внимания в языковых моделях — с использованием интервала Фибоначчи в шахматном порядке. В ходе экспериментов с 21 языковой моделью сравнивались разные методы настройки параметра альфа, отвечающего за сжатие или расширение интервала. Выяснилось, что статическое смещение для каждого слоя даёт лучшие результаты по сравнению с фиксированным или изучаемым подходом. При этом разреженные варианты требуют в четыре раза больше времени на тренировку, но не ухудшают качество работы модели, в отличие от плотной базовой линии. Метод позволяет эффективнее обрабатывать данные там, где обычное плотное внимание даёт сбои.
arXiv cs.CL
·
·
~1 мин
Новый подход к разреженному вниманию: интервал Фибоначчи даёт преимущество
Предложен новый метод разреженного внимания с интервалом Фибоначчи: статическое смещение слоя эффективнее других подходов, хотя и требует больше времени на тренировку.
// оригинал
arXiv cs.CL
↗ Читать оригинал
13 просмотров
// похожие статьи