Исследователи представили платформу Dynamic-dLLM, которая позволяет значительно ускорить работу диффузионных моделей больших языков (DLLM) без дополнительного обучения. Платформа включает два ключевых компонента: динамическое обновление кэша (DCU) — оно адаптивно распределяет ресурсы для обновления кэша в зависимости от особенностей данных, и адаптивное параллельное декодирование (APD) — оно настраивает параметры декодирования, чтобы найти баланс между качеством генерируемого текста и скоростью работы. В ходе тестов на моделях LLaDA-8B-Instruct, LLaDA-1.5 и Dream-v0-7B-Instruct в системах MMLU, GSM8K и HumanEval Dynamic-dLLM показала ускорение работы более чем в 3 раза при сохранении качества. Это решение легко внедрить — оно работает по принципу plug-and-play.
arXiv cs.CL
·
·
~1 мин
Dynamic-dLLM: в 3 раза быстрее — новый способ ускорить работу диффузионных LLM
Dynamic-dLLM ускоряет работу диффузионных LLM более чем в 3 раза за счёт динамического обновления кэша и адаптивного декодирования. Протестировано на LLaDA и Dream, в системах MMLU, GSM8K, HumanEval.
1 просмотров
// похожие статьи