DeepDigest
arXiv cs.LG · · ~1 мин

Новый взгляд на обучение нейросетей: как модели выбирают простые решения

Исследователи объяснили, почему глубокие нейросети с мономиальными активациями склонны упрощаться в процессе обучения — за счёт появления неактивных нейронов.

cs.LG
arXiv
Cornell University Library

Учёные исследовали, как устроено обучение глубоких нейронных сетей с особыми функциями активации — мономиальными. Они выяснили, что в процессе обучения модели склонны упрощаться: в них появляются участки, где некоторые нейроны становятся ненужными или неактивными. Это связано с особыми точками в архитектуре сети, которые влияют на то, как модель подстраивается под данные. Такой подход помогает лучше понять, почему нейросети часто отдают предпочтение более простым решениям.

// оригинал
arXiv cs.LG ↗ Читать оригинал
11 просмотров
// поделиться Telegram VK