DeepDigest
arXiv cs.CV · · ~1 мин

LaViD: как языковая модель учит компьютер «видеть»

LaViD — платформа для передачи знаний от LLM к моделям компьютерного зрения. Превосходит существующие методы, повышает точность распознавания объектов.

cs.CV
arXiv
Cornell University Library

Учёные разработали платформу LaViD, которая позволяет передавать концептуальные знания от большой языковой модели (LLM) к модели, ориентированной на обработку изображений. Вместо использования парных мультимодальных данных LaViD генерирует с помощью LLM вопросы с множественным выбором — они помогают выявить семантические различия между визуальными классами. Платформа показала лучшие результаты по сравнению с существующими методами (MaKD, DKD, MLKD) и улучшила точность определения объектов в наборе данных о водоплавающих птицах. Это открытие может ускорить разработку систем компьютерного зрения и сделать их более устойчивыми к ошибкам.

// оригинал
arXiv cs.CV ↗ Читать оригинал
1 просмотров
// поделиться Telegram VK