DeepDigest
arXiv cs.CV · · ~1 мин

Новый метод борьбы с ошибками в мультимодальных ИИ-моделях

Система VIGIL улучшает связь между текстом и изображениями в мультимодальных ИИ-моделях, снижая число ошибок и галлюцинаций. Требует меньше данных, чем аналоги.

Новый метод борьбы с ошибками в мультимодальных ИИ-моделях

Учёные предложили систему VIGIL для мультимодальных моделей больших языков (MLLM), которая помогает им точнее соотносить текст и изображения. Проблема существующих моделей в том, что они часто «игнорируют» визуальные данные и опираются в основном на языковые шаблоны — из‑за этого могут выдавать ответы, противоречащие тому, что изображено на картинке. VIGIL использует обучение с подкреплением и вводит геометрические ограничения: она усиливает связь между визуальным вводом и ответом, наказывая модель за «слепую уверенность» — ситуации, когда она даёт ответ, не учитывая визуальные данные. Эксперименты показали, что VIGIL лучше справляется с галлюцинациями и логическими рассуждениями, чем другие методы, при этом не теряя способности работать с текстом. При этом система требует всего 25% данных по сравнению с современными аналогами.

Источник: arXiv cs.CV
1 просмотров
// поделиться Telegram VK