Несколько работ технической команды Kuaishou успешно отобраны для представления на 43-й Международной конференции по машинному обучению ICML 2026. Одна из работ попадёт в категорию spotlight papers. Конференция пройдёт с 6 по 11 июля в конгрессно-выставочном центре COEX в Сеуле (Южная Корея).
Работы охватывают такие направления, как большие языковые модели, обучение с подкреплением, поиск информации и компьютерное зрение. Среди представленных исследований:
MetaphorVU — первый систематический бенчмарк для понимания метафорического видео. В ходе экспериментов выяснилось, что современные мультимодальные LLM неэффективно понимают метафорические видео — есть значительный разрыв с уровнем человека. Разработчики предложили метафорические карты знаний и расширенную рамку рассуждений MetaphorBoost, чтобы улучшить возможности моделей.
ReTimeCausal — метод для причинного обнаружения нерегулярных временных рядов. Он решает проблему взаимозависимости интерполяции данных и восстановления причинно-следственной структуры. Эксперименты показали, что метод эффективнее существующих подходов в условиях сложных нарушений отбора данных и недостающих сведений.
ASASR — фреймворк для генерации изображений со сверхвысоким разрешением. Он преодолевает геометрический разрыв, имитируя природное спектральное затухание. Эксперименты подтвердили эффективность подхода в поддержании спектральной и структурной верности изображений.
BUOPLR — двухэтапный метод распространения уведомлений. На первом этапе метод изучает многоцелевое повышение эффективности на уровне пакета, на втором — сжимает допустимую область и применяет лагранжеву релаксацию для масштабируемого распределения. Автономные эксперименты показали превосходство BUOPLR над передовыми методами. Метод уже внедрён в систему PMOS Kuaishou.
FOB — оценка полного порядка для задачи обучающей сортировки. Метод улучшает индекс сортировки по полному списку и сохраняет конкурентоспособность на NDCG. Эксперименты с синтетической сортировкой и крупномасштабными тестами подтвердили эффективность FOB.
OneSearch — фреймворк для сквозного генеративного поиска в электронной коммерции. Он включает три нововведения: иерархическое кодирование с расширением ключевых слов, учёт поведения пользователей и систему поощрений с адаптивным взвешиванием. А/Б-эксперименты показали рост CTR на +1,67%, числа покупателей на +2,40%, объёма заказов на +3,22%. Также снижены операционные расходы на 75,40%, а коэффициент использования вычислительных мощностей модели вырос с 3,26% до 27,32%.
PA-MoE — гибридная архитектура эксперта для обучения с подкреплением. Метод оснащается лёгким этапом маршрутизатора, который равномерно распределяет функции между экспертами. Эксперименты подтвердили эффективность подхода.
SpatialReward — система вознаграждения для редактирования изображений. Она интегрирует явное пространственное мышление в поэтапную оценку. Система включает механизм «Мышления с помощью блоков», конвейер построения пространственных данных и двухэтапную стратегию обучения SFT + GRPO. Эксперименты показали, что SpatialReward превосходит базовые показатели в EditReward-Bench и MMRB2 (+11,3% и +9,1% соответственно).
SWE-Compass — система оценки агентного кодирования для LLM. Включает трёхмерную оценочную матрицу, набор данных из 2000 высокоточных примеров и единый протокол оценки агентов. Эксперимент выявил три ключевых факта: способность модели выполнять сложные задачи резко снижается, одна и та же модель ведёт себя по-разному в разных агентных платформах, в новых языках (например, Rust) есть значительный разрыв в многоязычной надёжности.
VideoTemp-О3 — платформа, объединяющая видеовопрос-ответ и сроки размещения в единой модели. Содержит «холодный старт» СФТ с единой маской, механизм наказания за восприятие долга и газопровод на основе Близнецы-2.5-Pro. Эксперименты показали высокую производительность в задачах понимания длинных видео, позиционирования и видео на основе вопросов и ответов.
Архитектура дискретного трансформатора для извлечения интерпретируемых алгоритмов. Метод позволяет восстанавливать исполняемые и читаемые алгоритмические программы из обученных весов трансформатора. Эксперименты показали производительность, близкую к методу MIPS на основе RNN, и возможность поддерживать динамические задачи с непрерывными переменными.
Техническая команда Kuaishou отправится в Сеул для участия в конференции. Номер стенда — B101. Подробнее с работами можно ознакомиться по ссылкам в описаниях статей.