DeepDigest
arXiv cs.CL · · ~1 мин

EntMTP: новый способ ускорить работу больших языковых моделей

EntMTP — метод ускорения работы LLM за счёт адаптивного многотокенного прогнозирования с учётом энтропии; даёт ускорение в 1,15–1,36 раза в ряде тестов.

cs.CL
arXiv
Cornell University Library

Кэрри Чен предложила метод EntMTP для ускорения логического вывода в больших языковых моделях (LLM). Суть метода — в использовании многотокенного прогнозирования с учётом энтропии: планировщик автоматически переключается между разными схемами работы (топологиями внимания) в зависимости от того, насколько предсказуем текущий фрагмент текста. В тестах Humaneval, ShareGPT, GSM8k и Litbench EntMTP показал ускорение в 1,15–1,36 раза по сравнению с другими подходами (Hydra и Medusa).

// оригинал
arXiv cs.CL ↗ Читать оригинал
11 просмотров
// поделиться Telegram VK