DeepDigest
arXiv cs.CV · · ~1 мин

LCG: новая платформа для создания согласованных серий изображений

Платформа LCG позволяет создавать согласованные серии изображений из текста, используя SRA и RCC. Для обучения создан набор данных LCCD (600 тыс. последовательностей).

LCG: новая платформа для создания согласованных серий изображений

Учёные разработали платформу LCG (Long-Context Generation) для генерации серий изображений на основе текста. Она решает проблему несогласованности при создании нескольких изображений подряд — например, в комиксах или раскадровках. В LCG используется механизм разреженного реляционного внимания (SRA), который помогает учитывать ключевые детали в длинных визуальных последовательностях. Также в платформе есть ограничение согласованности маршрутизации (RCC): оно выравнивает структурные шаблоны в процессе генерации, устраняя различия во внешнем виде объектов даже в сложных сценах. Для обучения и тестирования LCG создан большой набор данных LCCD — он включает 600 тысяч обучающих последовательностей (от 6 до 20 изображений в каждой) и 1 тысячу тестовых. Эксперименты показали, что LCG лучше других моделей справляется с созданием согласованных серий изображений.

Источник: arXiv cs.CV
1 просмотров
// поделиться Telegram VK