Гибридная модель против трансформера: какие слова предсказываются лучше?

В ходе исследования сравнивались две модели — мощный трансформатор Olmo 3 и гибридная модель Olmo Hybrid. Цель — выяснить, какие типы токенов (единиц информации, подаваемых на вход языковой модели) каждая из них предсказывает лучше. Модели были созданы с похожими параметрами (данные, токенизатор, рецепт обучения), поэтому различия в прогнозах в основном обусловлены архитектурой.

Эксперименты показали, что гибридная модель эффективнее предсказывает содержательные слова — существительные, глаголы, прилагательные, а также такие лексемы, для предсказания которых нужно учитывать контекст (например, к какому человеку относится местоимение). В то же время преимущество гибрида практически исчезает, когда нужно воспроизвести слово или фразу, уже встречавшуюся во входных данных — здесь сильнее оказывается трансформатор.

В ходе анализа использовались разные типы текстов: статьи, записи в Википедии, книги, научные работы, а также структурированный текст (код на Python, HTML, LaTeX). Модели оценивали по тому, насколько точно они предсказывали следующий токен на основе предыдущих. Разницу в точности предсказаний измеряли через разрыв в потерях: положительный разрыв означал, что гибрид лучше предсказал следующий токен, отрицательный — что лучше справился трансформатор.

Оказалось, что в прозе гибрид лучше предсказывает содержательные слова (разрыв в потерях около 0,04), чем функциональные (разрыв около 0,02). При этом в некоторых случаях преимущество гибридной модели исчезает. Например, при предсказании закрывающих скобок (внимание хорошо справляется с представлением соответствия скобок) или при воспроизведении повторяющихся фрагментов текста (чем длиннее повторяющийся фрагмент, тем меньше преимущество гибрида).

Также в ходе исследования сравнивались три модели с параметром 1B: трансформатор, гибрид и чисто рекуррентная модель. По значимым признакам (не являющимся повторами) гибридная и рекуррентная модели превосходят трансформатор, причём гибрид работает лучше всего. В случае повторяющихся символов рекуррентная модель отстаёт и от гибрида, и от трансформера.

Исследование позволяет лучше понять различия между архитектурами моделей и выявить их сильные и слабые стороны на ранних этапах обучения. Авторы считают, что понимание работы отдельных компонентов модели поможет создать более эффективные гибридные архитектуры и продвинуть развитие ИИ.