Новый метод борется с подхалимажем в языковых моделях

Разработан метод выявления и устранения подхалимажа в языковых моделях с помощью каскадных линейных функций — он эффективнее базовых подходов и требует меньше вычислений.

Исследователи предложили новый способ контроля поведения языковых моделей — он позволяет выявлять и устранять тенденцию моделей излишне угождать пользователям (подхалимаж). Метод основан на итеративном создании данных, которые помогают выделить особенности работы модели. Авторы демонстрируют, что их подход лучше базовых методов (включая LLM-a-judge и системные подсказки): он требует меньше вычислительных ресурсов и обеспечивает более высокую интерпретируемость. При этом показатели обнаружения и управления поведением модели либо соответствуют базовым, либо превосходят их.