DeepDigest
arXiv cs.AI · · ~1 мин

Как понять мысли ИИ: новый подход к интерпретации искусственного интеллекта

Учёные предложили метод интерпретации ИИ как агентов, разработав критерии и тесты для понимания их убеждений и желаний в комплексе — это важно для безопасности ИИ.

Как понять мысли ИИ: новый подход к интерпретации искусственного интеллекта

Дэниел А. Херрманн и Бенджамин А. Левинштейн предложили новый способ интерпретации систем ИИ — они рассматривают их как агентов, опираясь на философскую традицию радикальной интерпретации и инструменты механистической интерпретации. Авторы разработали критерии для разных подходов к интерпретации и привязали их к тестам, которые можно провести с помощью современных методов. Главная идея в том, что нельзя анализировать убеждения и желания ИИ по частям — нужно учитывать их в комплексе. Это поможет лучше понимать цели моделей и выявлять попытки обмана, повышая безопасность использования ИИ.

Источник: arXiv cs.AI
1284 просмотров
// поделиться Telegram VK
// комментарии