DiCoBench: новый тест для проверки восприятия изображений мультимодальными моделями

DiCoBench — тест из 765 сэмплов для оценки восприятия деталей на изображениях у MLLM; выявил разрыв в производительности моделей и человека (98,3%).

Гэн Ли и Юйсинь Пэн представили DiCoBench — тест для оценки способности мультимодальных моделей большого языка (MLLM) воспринимать детали на нескольких изображениях высокого разрешения (близкого к 2K). В DiCoBench 765 сэмплов, разделённых на две группы: с дифференциальными и общими визуальными подсказками. Тест включает 8 задач восприятия и сформулирован в виде вопросов с несколькими вариантами ответов. Оценка 18 MLLM показала значительный разрыв в их производительности по сравнению с точностью человека (98,3%) — даже продвинутые модели плохо справляются с передачей микродеталей. DiCoBench станет полезным инструментом для будущих исследований в сфере компьютерного зрения.