Обучение на полезность может лишить ИИ сострадания: новое исследование

Исследователи проверили, как разные подходы к дообучению влияют на ценности в языковых моделях. Они использовали модель Llama 3.1 8B, которую предварительно обучали с акцентом на сострадание к животным. Затем модель дообучали двумя способами: на полезность (с помощью Dolly-15k и Magicoder-110K) и на кодирование (с применением RLHFlow и Magicoder). Для оценки результатов использовали критерии AHB 2.2 (причинение вреда животным) и MORU (моральные рассуждения в условиях неопределённости). Оказалось, что обучение на полезность заметно снижает уровень сострадания и общих моральных рассуждений (например, в английском языке уровень моральных рассуждений упал на 25,5 процентных пункта). При этом в многоязычном тесте эффект от обучения на полезность оказался менее выраженным, а сострадание к животным сохранялось на разных языках. Авторы делают вывод: для сохранения ценностей в моделях посттренинг в области программирования может быть предпочтительнее, чем в области полезности.