Новый метод борьбы с ошибками в мультимодальных ИИ-моделях

Учёные предложили систему VIGIL для мультимодальных моделей больших языков (MLLM), которая помогает им точнее соотносить текст и изображения. Проблема существующих моделей в том, что они часто «игнорируют» визуальные данные и опираются в основном на языковые шаблоны — из‑за этого могут выдавать ответы, противоречащие тому, что изображено на картинке. VIGIL использует обучение с подкреплением и вводит геометрические ограничения: она усиливает связь между визуальным вводом и ответом, наказывая модель за «слепую уверенность» — ситуации, когда она даёт ответ, не учитывая визуальные данные. Эксперименты показали, что VIGIL лучше справляется с галлюцинациями и логическими рассуждениями, чем другие методы, при этом не теряя способности работать с текстом. При этом система требует всего 25% данных по сравнению с современными аналогами.