Deep Digest — AI на русском

LaViD: как языковая модель учит компьютер «видеть»

LaViD — платформа для передачи знаний от LLM к моделям компьютерного зрения. Превосходит существующие методы, повышает точность распознавания объектов.

Учёные разработали платформу LaViD, которая позволяет передавать концептуальные знания от большой языковой модели (LLM) к модели, ориентированной на обработку изображений. Вместо использования парных мультимодальных данных LaViD генерирует с помощью LLM вопросы с множественным выбором — они помогают выявить семантические различия между визуальными классами. Платформа показала лучшие результаты по сравнению с существующими методами (MaKD, DKD, MLKD) и улучшила точность определения объектов в наборе данных о водоплавающих птицах. Это открытие может ускорить разработку систем компьютерного зрения и сделать их более устойчивыми к ошибкам.