DeepDigest
← все источники

Hugging Face Blog

// статей переведено
2
// просмотров всего
2177
// приоритет
Стартап/Корпорация
// последний фетч
28 Jun, 22:00

Ускорение обучения моделей MoE: как автомодель NVIDIA NeMo меняет правила игры

Автомодель NVIDIA NeMo позволяет значительно ускорить обучение моделей MoE по сравнению с Transformers v5 — производительность вырастает в 3,4–3,7 раза, а объём используемой памяти графического процессора снижается на 29–32 %. Решение сохраняет совместимость с API HuggingFace Transformers и предлагает ряд оптимизаций, включая экспертный параллелизм и диспетчеризацию DeepEP. Тестирование на моделях Qwen3-30B-A3B и Nemotron 3 Nano 30B A3B подтвердило эффективность подхода.

читать →
~3 мин 642 просмотра

Гибридная модель против трансформера: какие слова предсказываются лучше?

Исследование сравнивает трансформатор Olmo 3 и гибридную модель Olmo Hybrid, выясняя, какие токены каждая из них предсказывает лучше. Гибридная модель эффективнее работает с содержательными словами и контекстно-зависимыми лексемами, тогда как трансформатор сильнее в воспроизведении повторяющихся фрагментов текста. Результаты помогут лучше понять различия между архитектурами и создать более эффективные модели.

читать →
~2 мин 1535 просмотра