Кэрри Чен предложила метод EntMTP для ускорения логического вывода в больших языковых моделях (LLM). Суть метода — в использовании многотокенного прогнозирования с учётом энтропии: планировщик автоматически переключается между разными схемами работы (топологиями внимания) в зависимости от того, насколько предсказуем текущий фрагмент текста. В тестах Humaneval, ShareGPT, GSM8k и Litbench EntMTP показал ускорение в 1,15–1,36 раза по сравнению с другими подходами (Hydra и Medusa).
arXiv cs.CL
·
·
~1 мин
EntMTP: новый способ ускорить работу больших языковых моделей
EntMTP — метод ускорения работы LLM за счёт адаптивного многотокенного прогнозирования с учётом энтропии; даёт ускорение в 1,15–1,36 раза в ряде тестов.
// оригинал
arXiv cs.CL
↗ Читать оригинал
11 просмотров
// похожие статьи