DeepDigest
arXiv cs.CL · · ~1 мин

Новый подход к разреженному вниманию: интервал Фибоначчи даёт преимущество

Предложен новый метод разреженного внимания с интервалом Фибоначчи: статическое смещение слоя эффективнее других подходов, хотя и требует больше времени на тренировку.

cs.CL
arXiv
Cornell University Library

Исследователь Чад А. Кэппс предложил новый способ настройки разреженного внимания в языковых моделях — с использованием интервала Фибоначчи в шахматном порядке. В ходе экспериментов с 21 языковой моделью сравнивались разные методы настройки параметра альфа, отвечающего за сжатие или расширение интервала. Выяснилось, что статическое смещение для каждого слоя даёт лучшие результаты по сравнению с фиксированным или изучаемым подходом. При этом разреженные варианты требуют в четыре раза больше времени на тренировку, но не ухудшают качество работы модели, в отличие от плотной базовой линии. Метод позволяет эффективнее обрабатывать данные там, где обычное плотное внимание даёт сбои.

// оригинал
arXiv cs.CL ↗ Читать оригинал
13 просмотров
// поделиться Telegram VK