DeepSeek и Пекинский университет: DSpark ускоряет работу с пользователем на 60–85%

27 июня 2026 года The AI circle сообщил о выпуске платформы для ускорения логического вывода DSpark и платформы для спекулятивного декодирования DeepSpec от DeepSeek и Пекинского университета. Это первое новое достижение с открытым исходным кодом от DeepSeek после получения финансирования в размере 50 млрд юаней. В моделях DeepSeek-V4-Pro-DSpark и DeepSeek-V4-Flash-DSpark DSpark увеличил скорость генерации данных одним пользователем на 60–85%.

Спекулятивное декодирование решает проблему медленного реагирования диалоговых систем ИИ: сначала облегчённая модель быстро генерирует несколько токенов-кандидатов, затем крупномасштабная модель пакетно проверяет их. DSpark устранил два ключевых узких места в реализации этого подхода.

Первая проблема — в ранних черновых моделях, основанных на саморегрессии, маленькой модели требовалось много времени на угадывание слов. Вторая — в параллельных черновиках не учитывалась зависимость между словами, что приводило к накоплению ошибок («ослаблению суффикса»).

DSpark предложил два решения: архитектуру генерации с полуавтоматической регрессией и проверку достоверности планирования. Архитектура позволяет компенсировать зависимость токенов в блоке без ущерба для скорости генерации. Проверка достоверности включает прогнозирование вероятности принятия токена и динамическое планирование с учётом аппаратных возможностей.

Команда провела автономную контрольную оценку: были отобраны 9 наборов данных в трёх областях (математическое мышление, генерация кода и ежедневный диалог) и проведено сравнение на моделях Qwen3-4B/8B/14B и Gemma4-12B. Результаты показали, что средняя продолжительность приёма DSpark превышает текущие отраслевые стандарты, а теоретическая задержка одного токена ниже, чем у Eagle3 и DFlash.

Сейчас DSpark полностью внедрён в онлайн‑сервис DeepSeek-V4. В конфигурации с аналогичной общей пропускной способностью системы скорость создания однопользовательского текста в V4-Flash увеличена на 60–85%, а в V4-Pro — на 57–78%. DSpark также позволяет поддерживать значительную пропускную способность сервиса при строгих требованиях к интерактивности (например, для Flash требуется 120 токенов в секунду, для Pro — 50 токенов в секунду).

Документы, базы кода и модели опубликованы с открытым исходным кодом. Документы доступны по ссылке: https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf. Код — по ссылке: https://github.com/deepseek-ai/DeepSpec. Модели можно скачать по ссылке: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark.