Google: дорожная карта управления ИИ для безопасности агентов

18 июня 2026 года Рохин Шах и Фор Флинн рассказали о том, как компания защищает внутренние системы от растущих возможностей и несовершенства взаимодействия ИИ‑агентов. Эти системы, способные автономно выполнять сложные задачи — от киберзащиты до научных открытий и разработки продуктов, — открывают новую эру производительности. К 2030 году в США ИИ‑агенты могут принести экономике 2,9 трлн долларов прибыли.

Чтобы обезопасить агентов по мере роста их возможностей, Google разработала дорожную карту управления ИИ. Подход «глубокой защиты» выходит за рамки традиционного согласования моделей: он добавляет системный уровень безопасности, который обеспечивает надёжность даже при неполном согласовании. Основа подхода — традиционные средства защиты («песочница», защита конечных точек, устойчивость к быстрому внедрению), а также согласование моделей — обучение ИИ быть безопасным и полезным.

Система управления ИИ работает по принципу инструктора по вождению с двойным управлением: она доверяет агенту, но готова вмешаться в случае ошибки. План действий компании сосредоточен на трёх направлениях. Во‑первых, разработана новая система моделирования угроз для ИИ: ненадёжные агенты рассматриваются как потенциальные «инсайдерские угрозы». Для этого используется платформа MITRE ATT&CK — глобальная база знаний о тактике и приёмах противника. Во‑вторых, внедряются средства контроля ИИ: другие надёжные системы ИИ выступают в роли «контролёров», анализируя рассуждения, действия и планы агентов. Если агент пытается совершить вредное действие, его можно заблокировать до того, как будет нанесён ущерб. В‑третьих, постоянно измеряется производительность по трём показателям: охват (доля отслеживаемого трафика), отзыв (доля выявленных случаев несогласованного поведения) и время реагирования.

Дорожная карта сопоставляет протоколы безопасности с достижениями в области возможностей ИИ. Уровень обнаружения (D1–D4) зависит от способности модели уклоняться от обнаружения, а уровень предотвращения и реагирования (R1–R3) — от способности выполнять атаки. Команда создала внутренний прототип асинхронной системы мониторинга, которая отслеживает траектории кодирующих агентов и предоставляет результаты для проверки людьми. Уже проанализирован миллион задач coding agent — это позволило перейти от фильтрации по ключевым словам к выявлению высокорисковых поведенческих моделей. Например, результаты исследования помогли создать систему мониторинга в реальном времени для агента Gemini Spark — теперь компания может оперативно реагировать на проблемы вроде непреднамеренного удаления данных.

Большинство отмеченных событий не связаны с враждебными намерениями: чаще всего они вызваны неправильным толкованием действий агента или его чрезмерным стремлением достичь цели пользователя. Понимание этих нюансов важно для совершенствования протоколов безопасности.

Google также публикует техническое руководство для разработчиков политики «Три уровня безопасности агентов». В нём описано, как повысить безопасность на уровне отдельных агентов и в мультиагентных системах, а также как расширить возможности киберзащитников и повысить устойчивость экосистемы. Компания считает, что защита экосистемы агентов — общая ответственность, и многоуровневый подход к безопасности должен стать приоритетом для промышленности, политиков и научных кругов.