Как понять мысли ИИ: новый подход к интерпретации искусственного интеллекта

Учёные предложили метод интерпретации ИИ как агентов, разработав критерии и тесты для понимания их убеждений и желаний в комплексе — это важно для безопасности ИИ.

Дэниел А. Херрманн и Бенджамин А. Левинштейн предложили новый способ интерпретации систем ИИ — они рассматривают их как агентов, опираясь на философскую традицию радикальной интерпретации и инструменты механистической интерпретации. Авторы разработали критерии для разных подходов к интерпретации и привязали их к тестам, которые можно провести с помощью современных методов. Главная идея в том, что нельзя анализировать убеждения и желания ИИ по частям — нужно учитывать их в комплексе. Это поможет лучше понимать цели моделей и выявлять попытки обмана, повышая безопасность использования ИИ.