Логистическая регрессия превзошла XGBoost в прогнозировании результатов матчей

Ари Джури, доктор философии, сравнил несколько моделей машинного обучения — логистическую регрессию, случайный лес, KNN, небольшую нейронную сеть и XGBoost — для прогнозирования результатов международных футбольных матчей (победа хозяев, ничья или победа гостей). В эксперименте использовались данные о 358 матчах — чемпионатах мира 2010–2022 годов, Евро-2020 и Евро-2024. Для оценки моделей применялась 5‑кратная перекрёстная проверка, а основной метрикой стала логарифмическая потеря (а не точность).

Логистическая регрессия показала лучшие результаты по логарифму потерь, а XGBoost, который обычно хорошо проявляет себя на соревнованиях вроде Kaggle, занял последнее место. Более того, XGBoost набрал более 1,099 баллов — это базовый показатель для равномерного угадывания. Результаты получились такие:
- логистическая регрессия — 1,001 (54 %);
- случайный лес — 1,011 (56 %);
- KNN — 1,013 (53 %);
- нейронная сеть — 1,115 (52 %);
- XGBoost — 1,169 (48 %).

Причина победы простой модели кроется в балансе смещения и дисперсии. Смещение — это ошибка из‑за неправильных предположений (слишком жёсткая модель не учитывает реальную структуру данных), а дисперсия — ошибка из‑за чувствительности к конкретной обучающей выборке (слишком гибкая модель соответствует шуму, который не повторится в следующий раз). XGBoost, будучи гибким алгоритмом, в условиях ограниченного количества данных (примерно 120 матчей на класс) начал «цепляться» за случайные закономерности, которые не воспроизводятся в других выборках. Это привело к неверной калибровке — модель слишком уверенно делала ошибочные прогнозы.

Логистическая регрессия же оказалась подходящим инструментом для этой задачи по двум причинам. Во‑первых, истинная зависимость логарифмических коэффициентов близка к линейной: вероятность победы плавно и монотонно растёт с увеличением разницы в силе команд. Во‑вторых, в задаче всего три признака с незначительными взаимодействиями между ними — деревьям и сетям здесь нечего «искать».

Автор подчёркивает: сложность модели должна соответствовать данным, а не трендам. В больших и сложных задачах обычно выигрывают градиентное усиление и глубокие сети, но в небольших и понятных задачах лучше начинать с простого инструмента, установить чёткую основу, измерять результаты с помощью корректной метрики и усложнять модель только тогда, когда данные это оправдывают.