DeepDigest
arXiv cs.CL · · ~1 мин

Kara: новый способ ускорить работу языковых моделей

Метод Kara оптимизирует работу LLM за счёт сжатия кэша KV в режиме скользящего окна, повышая пропускную способность и снижая задержки.

cs.CL
arXiv
Cornell University Library

Исследователи Шен Хан и Юйян Ву представили метод Kara для оптимизации работы больших языковых моделей (LLM). Проблема в том, что при генерации длинных цепочек рассуждений модели накапливают большой объём данных в кэш‑памяти KV — это замедляет работу. Kara решает эту проблему с помощью сжатия кэша в режиме скользящего окна: она анализирует только недавно сгенерированный контекст и выбирает наиболее важные данные, отбрасывая лишнее. Для этого используется двунаправленное внимание и специальный модуль Token2Chunk, который разбивает выбранные данные на блоки. Также авторы создали платформу KvLLM на основе vLLM — она снижает нагрузку на память и повышает пропускную способность вывода. Эксперименты показали, что Kara и KvLLM улучшают производительность.

// оригинал
arXiv cs.CL ↗ Читать оригинал
5 просмотров
// поделиться Telegram VK