DeepDigest
arXiv cs.CL · · ~1 мин

Dynamic-dLLM: в 3 раза быстрее — новый способ ускорить работу диффузионных LLM

Dynamic-dLLM ускоряет работу диффузионных LLM более чем в 3 раза за счёт динамического обновления кэша и адаптивного декодирования. Протестировано на LLaDA и Dream, в системах MMLU, GSM8K, HumanEval.

Dynamic-dLLM: в 3 раза быстрее — новый способ ускорить работу диффузионных LLM

Исследователи представили платформу Dynamic-dLLM, которая позволяет значительно ускорить работу диффузионных моделей больших языков (DLLM) без дополнительного обучения. Платформа включает два ключевых компонента: динамическое обновление кэша (DCU) — оно адаптивно распределяет ресурсы для обновления кэша в зависимости от особенностей данных, и адаптивное параллельное декодирование (APD) — оно настраивает параметры декодирования, чтобы найти баланс между качеством генерируемого текста и скоростью работы. В ходе тестов на моделях LLaDA-8B-Instruct, LLaDA-1.5 и Dream-v0-7B-Instruct в системах MMLU, GSM8K и HumanEval Dynamic-dLLM показала ускорение работы более чем в 3 раза при сохранении качества. Это решение легко внедрить — оно работает по принципу plug-and-play.

Источник: arXiv cs.CL
1 просмотров
// поделиться Telegram VK