Пробелы в оценке мультимодальных ИИ: что мешает оценить реальные возможности моделей?

Исследование выявило пробелы в оценке мультимодальных ИИ-моделей (MLLM): нынешние методы не показывают, как модели объединяют данные из разных источников (текст, фото, аудио и др.).

Авторы исследования изучили, как сейчас оценивают мультимодальные модели больших языков (MLLM) — те, что могут работать с текстом, изображениями, аудио и видео. Выяснилось, что существующие методы оценки слишком узки: они проверяют отдельные задачи, но не показывают, насколько хорошо модель объединяет данные из разных источников. Исследователи выявили ключевые пробелы — например, в оценке того, насколько модель понимает физический мир, обеспечивает согласованность данных из разных модальностей и умеет концентрироваться на важном. Устранение этих пробелов поможет точнее оценивать прогресс в мультимодальном ИИ и понимать, где лежат границы возможностей моделей.