OVSegDT: навигация робота по текстовым описаниям объектов

Татьяна Земскова, аспирантка МФТИ и научный сотрудник команды Embodied Agents лаборатории Cognitive AI Systems AIRI, рассказала о разработке модели OVSegDT. Модель представляет собой лёгкую трансформерную архитектуру (около 130 млн параметров) и решает задачу навигации с открытым словарём (open‑vocabulary object‑goal navigation) — позволяет роботу в незнакомой среде по текстовому описанию находить объекты произвольной категории. Например, робот может найти зарядку, коробку с инструментами или кружку с кухни. В бенчмарке HM3D‑OVON OVSegDT достигает SOTA‑результатов: 44,7 % SR и 20,6 % SPL — без глубины, одометрии и больших визуально‑языковых моделей. Главная идея архитектуры — связать навигацию с семантическим пониманием сцены через сегментацию целевого объекта. Для этого используются два механизма: особенности строения модели и обучающие сигналы. На уровне архитектуры бинарная маска целевого объекта кодируется как часть наблюдения агента — так стратегия получает подсказку, где в кадре находится нужный объект. На уровне обучения OVSegDT дополнительно решает задачу сегментации: вспомогательная функция потерь считается между восстановленной бинарной маской цели и истинной маской целевого объекта в текущем кадре. В OVSegDT применяется техника EALM (Entropy‑Adaptive Loss Modulation) — она плавно смешивает функции потерь клонирования поведения (BC) и Proximal Policy Optimization (PPO), автоматически определяя, когда нужно переходить от подражания эксперту к самостоятельному поиску решений. Это повышает эффективность использования данных на 33 %: OVSegDT достигает целевого качества за 200 млн шагов среды, тогда как базовым моделям нужно 300 млн. Модель также адаптирована для работы с шумными масками от модели сегментации YOLOE — для этого пороги уверенности сегментатора калибруются отдельно для разных категорий объектов, а семантически избыточные категории удаляются из словаря сегментации. Эксперименты на реальном роботе iRobot Create 3 (оснащён камерой ZED X, лидаром Livox MID 360 и вычислительным модулем Nvidia Jetson Orin) подтвердили работоспособность подхода: робот успешно находил объекты, обходил препятствия и сохранял ориентацию на цель. Следующий шаг — перейти от навигации по названиям категорий («книга», «посудомоечная машина») к общим текстовым инструкциям («найди предмет, которым можно записать заметку»). Авторы работы: Татьяна Земскова (AIRI, МФТИ), Алексей Староверов (AIRI, МФТИ, НИТУ МИСИС), Дмитрий Юдин (AIRI, МФТИ) и Александр Панов (AIRI, МФТИ). На веб‑странице проекта можно найти открытый исходный код, инструкции по запуску и предварительно обученные веса модели.