DeepDigest
arXiv cs.CL · · ~1 мин

ProvenanceGuard: новый способ защитить LLM-агентов от ошибок

Разработана система ProvenanceGuard для защиты LLM-агентов от несоответствий с запросами пользователя; тесты показали значительное снижение частоты ошибок.

cs.CL
arXiv
Cornell University Library

Исследователи предложили систему ProvenanceGuard, которая помогает защитить LLM-агентов от несоответствий между их действиями и намерениями пользователя. Система анализирует действия агента и проверяет, подтверждаются ли они достоверными данными в контексте задачи. ProvenanceGuard работает в несколько этапов: прежде чем запустить инструмент, он выявляет три типа несоответствий и разрешает действие только в том случае, если оно согласуется с запросом пользователя. Авторы протестировали систему на 10 основных LLM с помощью тестов Agent-SafetyBench и WorkBench. Результаты показали, что ProvenanceGuard существенно снижает частоту ошибок — например, на Agent-SafetyBench показатель упал с 42,9% до 1,8%.

// оригинал
arXiv cs.CL ↗ Читать оригинал
5 просмотров
// поделиться Telegram VK