DeepDigest
arXiv cs.AI · · ~1 мин

Как понять мысли ИИ: новый подход к интерпретируемости

Авторы предложили метод интерпретации ИИ как агентов, разработав критерии и тесты для понимания «убеждений» и «желаний» моделей с учётом их взаимосвязи.

cs.AI
arXiv
Cornell University Library

Исследователи Дэниел А. Херрманн и Бенджамин А. Левинштейн предложили новый способ интерпретации систем искусственного интеллекта. Они рассматривают ИИ как агентов и используют философскую традицию радикальной интерпретации и механистическую интерпретацию, чтобы понять, какие «убеждения», «желания» и ценности лежат в основе работы модели. Авторы разработали критерии для разных подходов к интерпретации и привязали их к тестам, которые можно провести с помощью современных методов. Главное новшество — учёт того, что все элементы системы (убеждения, желания и т. д.) связаны между собой и их нельзя анализировать изолированно. Это поможет повысить доверие к ИИ-системам и научиться вовремя выявлять их обманные действия.

// оригинал
arXiv cs.AI ↗ Читать оригинал
1347 просмотров
// поделиться Telegram VK