NebulaExp-8B: новый способ дообучения больших языковых моделей

Разработан конвейер постобучения NebulaExp для LLM на базе Qwen3-8B: он улучшает показатели модели за счёт детальной обработки данных и оптимизации настроек.

Авторы представили конвейер постобучения NebulaExp для больших языковых моделей на базе Qwen3-8B. Он включает в себя обработку большого массива данных (3,84 млн образцов SFT и 200 тыс. кандидатов на RL), отбор ответов, фильтрацию, оценку сложности задач и другие этапы. Подход позволяет улучшить показатели модели: например, после трёхэтапной настройки NebulaExp-Ins-SFT средний балл по тесту Qwen3-8B-nothink вырос с 55,01 до 60,99, а после обучения с подкреплением GRPO — до 61,85. Также авторы исследовали методы OPD и MOPD — они помогают снизить зависимость RL от средств проверки заданий и повысить эффективность модели. В отчёте проанализированы возможности модели в соблюдении инструкций, математическом мышлении, генерации кода и общих знаниях.