Kara: новый способ ускорить работу языковых моделей

Исследователи Шен Хан и Юйян Ву представили метод Kara для оптимизации работы больших языковых моделей (LLM). Проблема в том, что при генерации длинных цепочек рассуждений модели накапливают большой объём данных в кэш‑памяти KV — это замедляет работу. Kara решает эту проблему с помощью сжатия кэша в режиме скользящего окна: она анализирует только недавно сгенерированный контекст и выбирает наиболее важные данные, отбрасывая лишнее. Для этого используется двунаправленное внимание и специальный модуль Token2Chunk, который разбивает выбранные данные на блоки. Также авторы создали платформу KvLLM на основе vLLM — она снижает нагрузку на память и повышает пропускную способность вывода. Эксперименты показали, что Kara и KvLLM улучшают производительность.