Новый подход к управлению ИИ: как контролировать автономные системы без слежки за их рассуждениями

Предложена модель управления ИИ-агентами: агенты автономны в рассуждениях, но рискованные действия требуют подтверждений от независимых источников и фиксируются в защищённом журнале.

Исследователь Якоб Зальфельд-Небген предложил модель управления автономными системами искусственного интеллекта. Суть в том, что ИИ-агенты сохраняют полную автономию в планировании и рассуждениях, но не могут выполнять рискованные действия без подтверждения от независимых источников. Каждое предварительное условие для выполнения действия должно быть подтверждено отдельным авторитетным источником — такие подтверждения криптографически привязываются к намерению агента и оцениваются по строгим правилам. Все решения записываются в защищённый журнал, который можно независимо проверить. Модель уже проиллюстрирована на примерах внедрения ПО и назначения лекарств в клиниках.