>> deep digest // AI на русском

// AI-дайджест с западных источников

Главное об ИИ —
уже на русском

▸ LIVE: Математика в эпоху ИИ: останется ли место для человека?
@deepdigest
Статьи об ИИ в Telegram — подпишитесь, чтобы читать первым
Подписаться →
Hugging Face Blog

Ускорение обучения моделей MoE: как автомодель NVIDIA NeMo меняет правила игры

Автомодель NVIDIA NeMo позволяет значительно ускорить обучение моделей MoE по сравнению с Transformers v5 — производительность вырастает в 3,4–3,7 раза, а объём используемой памяти графического процессора снижается на 29–32 %. Решение сохраняет совместимость с API HuggingFace Transformers и предлагает ряд оптимизаций, включая экспертный параллелизм и диспетчеризацию DeepEP. Тестирование на моделях Qwen3-30B-A3B и Nemotron 3 Nano 30B A3B подтвердило эффективность подхода.

читать → 8 просмотра
Hugging Face Blog

Гибридная модель против трансформера: какие слова предсказываются лучше?

Исследование сравнивает трансформатор Olmo 3 и гибридную модель Olmo Hybrid, выясняя, какие токены каждая из них предсказывает лучше. Гибридная модель эффективнее работает с содержательными словами и контекстно-зависимыми лексемами, тогда как трансформатор сильнее в воспроизведении повторяющихся фрагментов текста. Результаты помогут лучше понять различия между архитектурами и создать более эффективные модели.

читать → 6 просмотра