Непредсказуемость оценок безопасности: почему LLM могут ошибаться

Исследование показало нестабильность оценок безопасности с помощью LLM-as-judge даже при настройках для детерминированности; предложены рекомендации по улучшению воспроизводимости результатов.

Исследователь Хироки Тамба выяснил, что распространённое мнение о детерминированности оценок безопасности с помощью LLM-as-judge (систем, которые выносят вердикт «годен»/«не годен») не соответствует реальности. Даже при установке параметра «температура» на 0 результаты могут быть нестабильными: расхождения в оценках отдельных элементов достигают 50% за 20 прогонов. Кроме того, в новых версиях моделей (например, Claude Opus 4.7/4.8) температурный режим вообще отменён — привычные способы контроля качества оценок перестают работать. Автор проанализировал 690 вызовов API с разными моделями и настройками и обнаружил, что часть граничных случаев остаётся невоспроизводимой даже при жёстких ограничениях. Тамба предлагает учитывать несогласие оценок как важный показатель надёжности системы, а не игнорировать его.