VirtueMap: как оценить этические принципы больших языковых моделей

VirtueMap — структура для оценки LLM через призму аристотелевской этики: оценка ответов на этические дилеммы и формирование профилей моделей по добродетелям. Есть интерактивный сайт.

Исследователи разработали структуру VirtueMap, которая позволяет оценить большие языковые модели (LLM) с точки зрения аристотелевской этики добродетели. Вместо того чтобы выбирать один «правильный» ответ, система предлагает оценить пять вариантов ответов на семь этических дилемм (они не связаны с политикой и религией). Авторы собрали более 100 оценок от респондентов и на их основе сформировали профили LLM по таким добродетелям, как практическая мудрость, справедливость, правдивость, мужество и сдержанность. Также они запустили интерактивный сайт — он позволяет в браузере вычислить профили и сравнить респондентов с профилями LLM. В ходе тестов выявлена высокая согласованность средних оценок (90,3 %), при этом наибольшие различия обнаружены по мужеству, сдержанности и справедливости.