Новый подход к управлению памятью в LLM: как избежать ошибок в диалогах

Выявлена проблема использования устаревшей информации агентами LLM в диалогах. Создана среда Supersede для обучения моделей работать с актуальными данными — точность ответов выросла почти вдвое.

Исследователь Ведант Патель выявил серьёзную проблему в работе агентов больших языковых моделей (LLM): они нередко используют устаревшие данные в длительных диалогах, из‑за чего их ответы становятся неточными. Например, в подмножестве LongMemEval точность работы модели GPT-5.4 упала с 92% до 77% из‑за ограничений памяти. Автор разработал открытую среду обучения Supersede: в ней агенты получают вознаграждение за использование актуальных данных и наказание — за применение устаревших. После обучения на этой среде модель Qwen2.5-3B смогла почти вдвое увеличить точность (с 9,0% до 16,7%) в новых диалогах. Это первое решение, которое не только выявляет, но и позволяет обучить модель избегать ошибок из‑за устаревшей информации.