ConflictScore: новый способ оценить, как языковые модели справляются с противоречиями

Исследователи представили новую метрику ConflictScore — она позволяет понять, насколько хорошо языковые модели обрабатывают данные, в которых есть противоречия. Система анализирует ответы моделей: разбивает их на утверждения, сопоставляет с документами, на которые они опираются, и выявляет конфликты. В результате получаются два показателя: количество конфликтов (CS-C) и соотношение конфликтов (CS-R) — баланс между подтверждающими и противоречащими доказательствами. Также авторы создали тест ConflictBench, который охватывает разные виды конфликтов — от двусмысленности до расхождений во мнениях. Эксперименты показали, что ConflictScore помогает находить излишне самоуверенные заявления и может улучшить достоверность TruthfulQA.