EntMTP: новый способ ускорить работу больших языковых моделей

EntMTP — метод ускорения работы LLM за счёт адаптивного многотокенного прогнозирования с учётом энтропии; даёт ускорение в 1,15–1,36 раза в ряде тестов.

Кэрри Чен предложила метод EntMTP для ускорения логического вывода в больших языковых моделях (LLM). Суть метода — в использовании многотокенного прогнозирования с учётом энтропии: планировщик автоматически переключается между разными схемами работы (топологиями внимания) в зависимости от того, насколько предсказуем текущий фрагмент текста. В тестах Humaneval, ShareGPT, GSM8k и Litbench EntMTP показал ускорение в 1,15–1,36 раза по сравнению с другими подходами (Hydra и Medusa).