DeepDigest
arXiv cs.CL · · ~1 мин

Новый подход к управлению памятью в LLM: как избежать ошибок в диалогах

Выявлена проблема использования устаревшей информации агентами LLM в диалогах. Создана среда Supersede для обучения моделей работать с актуальными данными — точность ответов выросла почти вдвое.

cs.CL
arXiv
Cornell University Library

Исследователь Ведант Патель выявил серьёзную проблему в работе агентов больших языковых моделей (LLM): они нередко используют устаревшие данные в длительных диалогах, из‑за чего их ответы становятся неточными. Например, в подмножестве LongMemEval точность работы модели GPT-5.4 упала с 92% до 77% из‑за ограничений памяти. Автор разработал открытую среду обучения Supersede: в ней агенты получают вознаграждение за использование актуальных данных и наказание — за применение устаревших. После обучения на этой среде модель Qwen2.5-3B смогла почти вдвое увеличить точность (с 9,0% до 16,7%) в новых диалогах. Это первое решение, которое не только выявляет, но и позволяет обучить модель избегать ошибок из‑за устаревшей информации.

// оригинал
arXiv cs.CL ↗ Читать оригинал
1 просмотров
// поделиться Telegram VK