Как нейросети осваивают язык: неожиданные открытия о работе трансформаторов

Учёные выяснили, что трансформеры сначала усваивают общие языковые правила, а затем — локальные зависимости; предложена новая концепция обучения NLM.

Исследователи изучили, как нейронные языковые модели (NLM) осваивают языковые закономерности. Они обучали ряд моделей‑трансформеров на синтетической грамматике и отслеживали, как меняются их внутренние представления на разных этапах обучения. Выяснилось, что сначала модели усваивают самые общие, абстрактные статистические правила, а потом — более локальные зависимости. При этом на старте обучения модели часто делают избыточные обобщения, которые потом корректируются. Авторы предложили новую концепцию, которая объясняет, как NLM осваивают язык и воспринимают его.