ProvenanceGuard: новый способ защитить LLM-агентов от ошибок

Разработана система ProvenanceGuard для защиты LLM-агентов от несоответствий с запросами пользователя; тесты показали значительное снижение частоты ошибок.

Исследователи предложили систему ProvenanceGuard, которая помогает защитить LLM-агентов от несоответствий между их действиями и намерениями пользователя. Система анализирует действия агента и проверяет, подтверждаются ли они достоверными данными в контексте задачи. ProvenanceGuard работает в несколько этапов: прежде чем запустить инструмент, он выявляет три типа несоответствий и разрешает действие только в том случае, если оно согласуется с запросом пользователя. Авторы протестировали систему на 10 основных LLM с помощью тестов Agent-SafetyBench и WorkBench. Результаты показали, что ProvenanceGuard существенно снижает частоту ошибок — например, на Agent-SafetyBench показатель упал с 42,9% до 1,8%.