Учёные исследовали, как устроено обучение глубоких нейронных сетей с особыми функциями активации — мономиальными. Они выяснили, что в процессе обучения модели склонны упрощаться: в них появляются участки, где некоторые нейроны становятся ненужными или неактивными. Это связано с особыми точками в архитектуре сети, которые влияют на то, как модель подстраивается под данные. Такой подход помогает лучше понять, почему нейросети часто отдают предпочтение более простым решениям.
arXiv cs.LG
·
·
~1 мин
Новый взгляд на обучение нейросетей: как модели выбирают простые решения
Исследователи объяснили, почему глубокие нейросети с мономиальными активациями склонны упрощаться в процессе обучения — за счёт появления неактивных нейронов.
// оригинал
arXiv cs.LG
↗ Читать оригинал
11 просмотров
// похожие статьи