Пространственные ловушки в машинном обучении: проблемы и решения

В статье рассматриваются проблемы, из‑за которых модели машинного обучения могут выглядеть более обобщаемыми, чем они есть на самом деле, — особенно в задачах пространственного прогнозирования (например, в сфере недвижимости).

Речь идёт не только о временной утечке данных, но и о пространственной зависимости, повторяющихся структурах активов и неравномерном региональном охвате. Даже если учесть временной аспект, модели могут демонстрировать завышенную эффективность, если не принимать во внимание особенности пространственных данных — геометрию, близость, смежность и зависимость между объектами. Как гласит первый закон географии Тоблера, всё связано со всем, но близкие объекты более взаимосвязаны, чем удалённые.

Автор выделяет несколько ключевых ловушек:
- ловушка близости и постоянства: модель может казаться эффективной за счёт использования пространственной близости, временной устойчивости или знакомых рыночных условий;
- иллюзия охвата: общая эффективность определяется данными из плотно покрытых областей, тогда как малопокрытые регионы остаются плохо изученными;
- иллюзия границ: качество модели зависит от того, как география разделена и закодирована, причём границы часто являются административным, а не экономическим выбором;
- географическая предвзятость: пространственные переменные могут маскировать неравенство, сегрегацию и другие социальные проблемы;
- гедонистическое упрощение: видимые атрибуты недвижимости рассматриваются как достаточные для определения стоимости, хотя на цену влияют и другие факторы (дефицит, регулирование, условия кредитования и т. д.);
- скрытый налог на техническое обслуживание: привлекательность модели может скрывать долгосрочные затраты на её мониторинг, проверку и обновление в реальных условиях.

Для корректной оценки моделей в пространственных задачах требуются специальные стратегии проверки — например, пространственная перекрёстная проверка и пространственно-временная повторная выборка. Они позволяют разделить наблюдения с учётом географии и времени, избегая искажений при оценке производительности и настройке гиперпараметров.

В качестве примера рассматривается набор данных для прогнозирования цен на жильё в Лондоне от Kaggle. Сравниваются разные стратегии проверки (случайное разбиение и пространственно-временное отклонение) и различные модели — CatBoost, GPBoost, а также базовые линии (постоянство и KNN). Результаты показывают, что интерпретация эффективности моделей сильно зависит от выбранной схемы проверки.

Также подчёркивается важность учёта географического контекста при оценке справедливости моделей. Например, модели прогнозирования цен на жильё могут демонстрировать расовую и этническую предвзятость, даже если защищённые атрибуты не включены в качестве предикторов. Исследование Алмаджеда и др. (2025) демонстрирует, что некоторые алгоритмы (например, Random Forest) более чувствительны к предвзятости, а смягчение последствий в процессе обучения может быть эффективнее предварительной обработки данных.

Наконец, отмечается, что модель должна не только хорошо работать в процессе разработки, но и быть способной адаптироваться к реальным рыночным условиям. Её нужно отслеживать при изменении данных, обновлять при изменениях на рынке, интерпретировать, когда пользователи оспаривают её, и защищать, когда её результаты влияют на экономические решения. Модель — это не замена экспертным знаниям, а система раннего предупреждения, которая помогает сосредоточить внимание на ключевых изменениях.