Как понять мысли ИИ: новый подход к интерпретируемости

Авторы предложили метод интерпретации ИИ как агентов, разработав критерии и тесты для понимания «убеждений» и «желаний» моделей с учётом их взаимосвязи.

Исследователи Дэниел А. Херрманн и Бенджамин А. Левинштейн предложили новый способ интерпретации систем искусственного интеллекта. Они рассматривают ИИ как агентов и используют философскую традицию радикальной интерпретации и механистическую интерпретацию, чтобы понять, какие «убеждения», «желания» и ценности лежат в основе работы модели. Авторы разработали критерии для разных подходов к интерпретации и привязали их к тестам, которые можно провести с помощью современных методов. Главное новшество — учёт того, что все элементы системы (убеждения, желания и т. д.) связаны между собой и их нельзя анализировать изолированно. Это поможет повысить доверие к ИИ-системам и научиться вовремя выявлять их обманные действия.