Учёные предложили систему VIGIL для мультимодальных моделей больших языков (MLLM), которая помогает им точнее соотносить текст и изображения. Проблема существующих моделей в том, что они часто «игнорируют» визуальные данные и опираются в основном на языковые шаблоны — из‑за этого могут выдавать ответы, противоречащие тому, что изображено на картинке. VIGIL использует обучение с подкреплением и вводит геометрические ограничения: она усиливает связь между визуальным вводом и ответом, наказывая модель за «слепую уверенность» — ситуации, когда она даёт ответ, не учитывая визуальные данные. Эксперименты показали, что VIGIL лучше справляется с галлюцинациями и логическими рассуждениями, чем другие методы, при этом не теряя способности работать с текстом. При этом система требует всего 25% данных по сравнению с современными аналогами.
arXiv cs.CV
·
·
~1 мин
Новый метод борьбы с ошибками в мультимодальных ИИ-моделях
Система VIGIL улучшает связь между текстом и изображениями в мультимодальных ИИ-моделях, снижая число ошибок и галлюцинаций. Требует меньше данных, чем аналоги.
1 просмотров
// похожие статьи