Прогнозирование событий: новый подход на основе методов детектирования объектов

Андрей Савченко (директор по науке) и Иван Карпухин (senior researcher в Sber AI Lab) представили на конференции AAAI 2026 исследование о применении методов детектирования объектов в задаче долгосрочного прогнозирования событий. Авторы показывают, что подходы из компьютерного зрения можно адаптировать для прогнозирования последовательностей событий — например, покупок клиента банка, медицинских процедур или активности в соцсетях. В компьютерном зрении модель отвечает на вопросы «что находится на изображении» и «где расположен объект». В прогнозировании событий задача похожа: нужно определить, какое событие произойдёт и когда. Аналогия между этими задачами позволила перенести целый класс методов из object detection в моделирование последовательностей.Последовательности событий отличаются от временных рядов: интервал между событиями заранее неизвестен, а сами события имеют множество дополнительных атрибутов (тип, категорию, числовые и текстовые признаки и пр.). Исторически для моделирования таких данных использовали теорию временных точечных процессов (TPP): от простого процесса Пуассона (где события независимы) до процессов Хоукса (где произошедшее событие повышает вероятность новых событий) и нейросетевых моделей (рекуррентные сети, трансформеры). Возникло направление Marked Temporal Point Processes (MTPP).Большинство существующих моделей обучают так: им показывают историю событий и просят предсказать только следующее событие (его время и тип). Чтобы спрогнозировать на неделю или месяц вперёд, модель запускают многократно — это называется авторегрессионным прогнозированием. Проблема в том, что ошибка на раннем этапе накапливается и последовательность всё сильнее отклоняется от реальности. Кроме того, традиционные метрики оценки качества прогнозов имеют недостатки: они часто оценивают фиксированное количество событий, игнорируют распределение вероятностей и предполагают единственно верный порядок событий.Авторы предложили новую метрику — Temporal mean Average Precision (T-mAP). Она адаптирована под временные последовательности: оценивает весь заданный временной горизонт и использует полное распределение вероятностей, а не только наиболее вероятный класс. Это позволяет объективно оценивать качество прогнозирования как популярных, так и редких событий.Также авторы разработали новый подход к прогнозированию — Detection-based Event Forecasting (DEF). Нейросеть анализирует историю пользователя и передаёт представление сразу в несколько независимых выходных «голов», каждая из которых отвечает за возможный кандидат в будущем. Модель прогнозирует в несколько раз больше событий, чем в среднем происходит в рассматриваемом временном горизонте. Каждый кандидат содержит: вероятность того, что событие произойдёт; распределение вероятностей по типам событий; предполагаемое время возникновения события относительно последнего наблюдаемого момента. В DEF нет фиксированного соответствия между предсказаниями и реальными событиями: для каждого реального события ищут самый подходящий прогноз, минимизируя суммарную ошибку. Это делает обучение устойчивее и повышает разнообразие предсказываемых последовательностей.Для сравнения методов авторы создали бенчмарк HoTPP (Horizon Temporal Point Processes) — открытую платформу для долгосрочного прогнозирования событий. Она включает единые датасеты, общий процесс обучения, воспроизводимые настройки экспериментов и набор метрик (в том числе T-mAP). Эксперименты показали, что задачи «что произойдёт следующим?» и «что произойдёт в течение следующего месяца?» требуют разных подходов. Также оказалось, что в ряде задач простые статистические модели демонстрируют качество, сравнимое с глубокими нейронными сетями, — но сложные архитектуры выигрывают там, где есть сложные взаимосвязи между событиями, длинные зависимости и необходимость моделировать редкие сценарии. Ещё одна проблема, выявленная в ходе экспериментов, — коллапс мод (mode collapse): по мере удаления горизонта предсказания последовательности становятся всё менее разнообразными. Авторы измеряли энтропию распределения предсказываемых событий — и обнаружили, что большинство современных авторегрессионных моделей дают крайне низкое разнообразие прогнозов. В этом плане архитектура DEF выглядит предпочтительнее.