DeepDigest
arXiv cs.CV · · ~1 мин

Новый тест DMV-Bench: как проверить зрительную память ИИ-агентов

DMV-Bench — тест для оценки зрительной памяти ИИ-агентов на основе каталога товаров; архитектура DualMem превзошла другие мультимодальные системы.

cs.CV
arXiv
Cornell University Library

Исследователи разработали DMV-Bench — первый интерактивный тест для оценки зрительной памяти мультимодальных агентов. Тест работает на основе каталога из 1000 товаров для дома: агент посещает изображения товаров, запоминает уникальную информацию и позже должен вспомнить конкретный товар и перейти по его URL. Авторы также предложили архитектуру памяти DualMem, которая параллельно обрабатывает визуальную и текстовую информацию. В тестах DualMem показала лучшие результаты по сравнению с другими мультимодальными системами (Gemini 2.5 Flash и Qwen2.5-VL-7B) при разной длине цепочки действий (5, 10, 15, 50 шагов).

// оригинал
arXiv cs.CV ↗ Читать оригинал
6 просмотров
// поделиться Telegram VK