Новый трансформатор: быстрее и эффективнее стандартных моделей

Представлена новая архитектура нейронной сети context-ready transformer, которая быстрее и эффективнее стандартных трансформаторов за счёт предварительной контекстуализации токенов. Модель хорошо работает с длинными текстами.

Махеш Годаварти представил новую архитектуру нейронной сети — context-ready transformer. В отличие от стандартных трансформаторов, эта модель предварительно контекстуализирует каждый элемент текста (токен) перед его обработкой. Во время генерации текста сеть объединяет данные о прошлом контексте с текущим токеном — благодаря этому токен попадает в блок уже «подготовленным». Модель показывает лучшие результаты по сравнению со стандартными трансформаторами: например, однослойная модель (D=1) при K=10 превосходит 6‑слойный трансформатор, ускоряя вывод в 2,6 раза. При этом архитектура особенно хорошо работает с длинными текстами и широким представлением данных.