Учёные разработали платформу LCG (Long-Context Generation) для генерации серий изображений на основе текста. Она решает проблему несогласованности при создании нескольких изображений подряд — например, в комиксах или раскадровках. В LCG используется механизм разреженного реляционного внимания (SRA), который помогает учитывать ключевые детали в длинных визуальных последовательностях. Также в платформе есть ограничение согласованности маршрутизации (RCC): оно выравнивает структурные шаблоны в процессе генерации, устраняя различия во внешнем виде объектов даже в сложных сценах. Для обучения и тестирования LCG создан большой набор данных LCCD — он включает 600 тысяч обучающих последовательностей (от 6 до 20 изображений в каждой) и 1 тысячу тестовых. Эксперименты показали, что LCG лучше других моделей справляется с созданием согласованных серий изображений.
arXiv cs.CV
·
·
~1 мин
LCG: новая платформа для создания согласованных серий изображений
Платформа LCG позволяет создавать согласованные серии изображений из текста, используя SRA и RCC. Для обучения создан набор данных LCCD (600 тыс. последовательностей).
1 просмотров
// похожие статьи