Два подхода к ИИ: какой победит в конкурентной борьбе?

Учёные с помощью теории игр изучили конкуренцию между двумя типами ИИ-агентов (минимизирующим вред и ориентированным на одобрение) и определили условия, при которых первый может победить.

Исследователи изучили, при каких условиях агент, который стремится минимизировать вред, сможет вытеснить на рынке агента, ориентированного на получение одобрения (RLHF). Для анализа они использовали эволюционную теорию игр. Учёные определили, что успех агента, минимизирующего вред, зависит от того, насколько его аудит соответствует ценностям сообщества и как быстро можно оценить нанесённый ущерб. Также выяснилось, что самоаудиторствующий агент с реестром сообщества не всегда способен предотвратить вред — многое зависит от согласованности ценностей и временных рамок оценки.