BV-Blend: новый способ сделать обучение ИИ более стабильным

BV-Blend — платформа для стабильного обучения с подкреплением: объединяет текущие и исторические данные, учитывает неопределённость, повышает эффективность тренировок ИИ.

Исследователи Юпенг Чанг, Юань Ву и Йи Чанг представили платформу BV-Blend для обучения с подкреплением (RL) без использования функции значения (critic). Проблема существующих методов (например, GRPO) в том, что они могут быть нестабильны — особенно в сложных режимах работы, например при холодном запуске с бинарными верификаторами. BV-Blend решает эту проблему: она объединяет текущие данные с историческими, учитывая неопределённость и семантические кластеры. Платформа отслеживает ключевые показатели вознаграждений для каждого кластера, вычисляет доверительный вес и объединяет данные в стандартизированное преимущество — это позволяет эффективнее проводить обновления в стиле PPO. Тесты показали, что BV-Blend повышает стабильность и производительность тренировок.