Учёные разработали платформу LaViD, которая позволяет передавать концептуальные знания от большой языковой модели (LLM) к модели, ориентированной на обработку изображений. Вместо использования парных мультимодальных данных LaViD генерирует с помощью LLM вопросы с множественным выбором — они помогают выявить семантические различия между визуальными классами. Платформа показала лучшие результаты по сравнению с существующими методами (MaKD, DKD, MLKD) и улучшила точность определения объектов в наборе данных о водоплавающих птицах. Это открытие может ускорить разработку систем компьютерного зрения и сделать их более устойчивыми к ошибкам.
arXiv cs.CV
·
·
~1 мин
LaViD: как языковая модель учит компьютер «видеть»
LaViD — платформа для передачи знаний от LLM к моделям компьютерного зрения. Превосходит существующие методы, повышает точность распознавания объектов.
// оригинал
arXiv cs.CV
↗ Читать оригинал
1 просмотров
// похожие статьи