Hugging Face Blog ↗ сайт источника

Hugging Face Blog

// статей переведено

// просмотров всего

2177

// приоритет

Стартап/Корпорация

// последний фетч

28 Jun, 22:00

Hugging Face Blog 25 Jun 2026

Ускорение обучения моделей MoE: как автомодель NVIDIA NeMo меняет правила игры

Автомодель NVIDIA NeMo позволяет значительно ускорить обучение моделей MoE по сравнению с Transformers v5 — производительность вырастает в 3,4–3,7 раза, а объём используемой памяти графического процессора снижается на 29–32 %. Решение сохраняет совместимость с API HuggingFace Transformers и предлагает ряд оптимизаций, включая экспертный параллелизм и диспетчеризацию DeepEP. Тестирование на моделях Qwen3-30B-A3B и Nemotron 3 Nano 30B A3B подтвердило эффективность подхода.

читать →

~3 мин 642 просмотра

Hugging Face Blog 25 Jun 2026

Гибридная модель против трансформера: какие слова предсказываются лучше?

Исследование сравнивает трансформатор Olmo 3 и гибридную модель Olmo Hybrid, выясняя, какие токены каждая из них предсказывает лучше. Гибридная модель эффективнее работает с содержательными словами и контекстно-зависимыми лексемами, тогда как трансформатор сильнее в воспроизведении повторяющихся фрагментов текста. Результаты помогут лучше понять различия между архитектурами и создать более эффективные модели.

читать →

~2 мин 1535 просмотра