Как выявить скомпрометированных агентов ИИ: признаки и методы

Безопасность Agentic AI больше не сводится только к вопросам архитектуры. В июне 2025 года британский разработчик ПО Саймон Уиллисон в своём блоге предупредил о так называемой «смертельной тройке» — комбинации из трёх факторов, которая с почти стопроцентной вероятностью позволяет скомпрометировать агента ИИ с помощью косвенной быстрой инъекции. В «смертельную тройку» входят:

доступ к личным данным;
взаимодействие с ненадёжным контентом;
возможность внешнего общения.

Злоумышленник может внедрить вредоносные инструкции на любом этапе этого конвейера контента и незаметно отфильтровать данные. Уиллисон привёл в посте длинный список реальных эксплойтов в производственных средах.

Сегодня агенты ИИ выполняют гораздо больше функций: например, собирают историю заявок и данные клиентов, работают с пользовательскими сообщениями и прикреплёнными файлами, обращаются к CRM, API-интерфейсам возврата или системам продажи билетов. Они читают электронную почту, управляют календарями и сообщениями. Такие агенты — цель для компаний и домашних пользователей, и над ними активно работают поставщики.

Росс МаКкерчар, CISO в Sophos, в своём блоге отмечает: возможности, которые необходимы специалистам, неизбежно создают опасные ситуации — это архитектурная цена за полезность. Если убрать хотя бы один из трёх компонентов «смертельной тройки», агент утратит функциональность и превратится в панель поиска. Поэтому «смертельная тройка» теперь фактически стала конфигурацией по умолчанию, а не индикатором повышенного риска.

Команда безопасности Meta в октябре 2025 года выпустила структуру «Правило двух»: агенты ИИ должны иметь не более двух из трёх компонентов «смертельной тройки», а при наличии всех трёх требуется одобрение человека. Саймон Уиллисон в ноябре 2025 года назвал мета-фреймворк лучшим практическим руководством по созданию безопасных агентских систем на основе LLM.

При этом Meta признаёт ограничения своей структуры: некоторые популярные варианты использования не вписываются в рамки «Правила двух», и проекты, основанные на нём, всё ещё подвержены ошибкам. Исследование Google выявило различные атаки с помощью быстрых инъекций на общедоступные веб-сайты: по данным компании, количество таких попыток выросло на 32 % в период с ноября 2025 года по февраль 2026 года.

Когда почти каждый агент ИИ обладает характеристиками «смертельной тройки», практикам нужны подсказки, чтобы отличить скомпрометированное поведение от нормальной работы. В январе 2026 года за пять дней раскрыли четыре эксплойта против популярных инструментов повышения производительности ИИ — пострадали IBM Боб, Superhuman AI, Notion AI и Клод Коворк. Злоумышленники использовали косвенную инъекцию Promp для извлечения данных через каналы, к которым агенты имели законный доступ. Например, в случае Клода Коворка скрытая подсказка в загруженном документе позволяла агенту извлекать файлы через домен API, внесённый в белый список Anthropic.

Вот пять сигналов, которые могут помочь обнаружить скомпрометированные агенты ИИ:

Аномалии в следовании инструкциям: действия агента, не связанные с задачей, инициированной пользователем, должны вызывать тревогу. Например, если агенту поручили составить квартальный отчёт, а он отправил DNS-запрос в неизвестный домен.
Последовательности вызовов инструментов, нарушающие ожидаемую топологию. В хорошо спроектированной системе последовательность вызовов должна быть предсказуемой. Если агент выходит за пределы ожидаемого рабочего процесса — такие последовательности стоит помечать как подозрительные.
Извлечение данных по каналам с низкой пропускной способностью. Классическая атака вытеснения с помощью быстрой инъекции перенаправляет украденные данные через механизм, к которому агент имеет законный доступ: например, через URL-адрес изображения с зашифрованными параметрами запроса или вызов API с данными в параметре. Чтобы обнаружить эксфильтрацию, нужно проверить, к каким данным имел доступ агент и что он встроил в свой вывод.
Доступ к учётным данным и секретам за пределами области действия задачи. Если агент получает доступ к хранилищу секретов или ключей, не связанных с текущей задачей, это тревожный сигнал. Например, агенту, который должен устранить ошибку рендеринга React, не нужны учётные данные AWS.
Аномалии в операциях записи в память. Обработанная запись в памяти, которая выглядит как законный пользовательский контекст, может содержать скрытые «инструкции по запуску», сохраняющиеся в течение всего сеанса и запускающиеся спустя долгое время после оперативного внедрения. Операции записи в память нужно отслеживать на предмет командоподобного содержимого, а записи в рамках сеансов с ненадёжным контентом — подвергать критическому анализу.

Для специалистов по безопасности, управляющих агентской инфраструктурой ИИ в производственных условиях, переход «смертельной тройки» в разряд стандарта подтверждает: агенты ИИ по‑прежнему под угрозой. Решать эту проблему нужно на уровне среды выполнения, а не архитектуры. Агентам ИИ требуется особый набор инструментов, который пока не применялся к большинству развёртываний.