Новый взгляд на взаимодействие зрения и языка в ИИ: систематизированный обзор мультимодальных моделей

Авторы представили систематический обзор объединения зрительного восприятия и языкового мышления в MLLM, ввели пятиэтапную таксономию и обозначили перспективы создания унифицированного мультимодального интеллекта.

Авторы статьи — Хаосян Сун и его коллеги — представили первый систематический обзор того, как мультимодальные модели большого языка (MLLM) объединяют зрительное восприятие и языковое мышление. Они рассматривают видение и язык как единую модальность — подобно тому, как это происходит у человека. В работе введена пятиэтапная таксономия, которая показывает, как развивалась парадигма восприятия в MLLM. Также исследователи обозначили нерешённые проблемы и наметили перспективные направления для создания унифицированного мультимодального интеллекта. Это важный шаг на пути к общему искусственному интеллекту (AGI). Для практиков и индустрии работа ценна тем, что даёт чёткое понимание текущих достижений и будущих возможностей в области мультимодального ИИ — это поможет эффективнее планировать разработки и внедрять новые решения.