Ускорение обучения моделей MoE: как автомодель NVIDIA NeMo меняет правила игры
Автомодель NVIDIA NeMo позволяет значительно ускорить обучение моделей MoE по сравнению с Transformers v5 — производительность вырастает в 3,4–3,7 раза, а объём используемой памяти графического процессора снижается на 29–32 %. Решение сохраняет совместимость с API HuggingFace Transformers и предлагает ряд оптимизаций, включая экспертный параллелизм и диспетчеризацию DeepEP. Тестирование на моделях Qwen3-30B-A3B и Nemotron 3 Nano 30B A3B подтвердило эффективность подхода.