DeepDigest
arXiv cs.LG · · ~1 мин

Новый адаптер HRM превзошёл LoRa в задачах с длинным контекстом

Представлен адаптер HRM для SSM-моделей — он эффективнее LoRa в задачах с длительным контекстом, показал рост точности на 34,8–71,6% в тестах на Mistral-7B.

Новый адаптер HRM превзошёл LoRa в задачах с длинным контекстом

Исследователь Оманшу Таплиял представил новый адаптер Hankel Reduced order Model (HRM) для моделей пространства состояний (SSM). Он помогает эффективнее настраивать параметры (PEFT) в задачах, где нужно последовательно накапливать состояние. В тестах на модели Mistral-7B HRM показал лучшие результаты по сравнению с LoRa: например, качество улучшилось на 34,8% относительно точности, а в задаче QMSum — на 71,6% по метрике ROUGE-1. Кроме того, HRM успешно прошёл тесты на искусственное отслеживание состояния и моделирование языка на уровне символов. Адаптер позволяет эффективно модулировать повторяемость и может стать надёжной альтернативой существующим методам адаптации моделей для работы с длинными последовательностями.

Источник: arXiv cs.LG
1 просмотров
// поделиться Telegram VK