TabFM от Google: модель для работы с табличными данными

30 июня 2026 года учёные-исследователи из Google Research — Вэйхао Конг и Абхиманью Дас — представили модель TabFM. Она предназначена для работы с табличными данными и упрощает процессы классификации и регрессии.

Табличные данные лежат в основе инфраструктуры корпоративных данных и активно применяются в критически важных приложениях машинного обучения — от прогнозирования оттока клиентов до выявления финансовых махинаций. Долгое время в этой сфере преобладали алгоритмы на основе контролируемого дерева (AdaBoost, XGBoost, random forests). Однако их развёртывание сопряжено с трудностями: чтобы подогнать модель XGBoost под новый набор данных, требуется немало ручной работы — например, тщательная оптимизация гиперпараметров и разработка специфичных для предметной области функций.

TabFM использует подход контекстного обучения (ICL), который позволяет предварительно обученной модели осваивать новую задачу, получая примеры и инструкции во входном контексте, без изменения весовых коэффициентов базовой модели. Таким образом модель избавляет пользователей от необходимости вручную обучать её, настраивать гиперпараметры и разрабатывать сложные функции. С помощью TabFM можно генерировать качественные прогнозы для ранее не встречавшихся таблиц за один проход. Модель уже доступна в репозиториях Hugging Face и GitHub.

Принцип работы TabFM отличается от традиционной парадигмы машинного обучения. Вместо обновления параметров модели, специфичных для распределения конкретного набора данных, TabFM использует весь набор данных (включая исторические обучающие примеры и целевые тестовые строки) как единый запрос. Модель анализирует взаимосвязи между столбцами и строками прямо в процессе вывода.

Обработка табличных данных с помощью ICL имеет свои сложности: в отличие от обработки естественного языка, таблицы двумерны и не упорядочены — перестановка строк или столбцов не меняет смысла данных. Чтобы эффективно работать с такими структурами, TabFM объединяет преимущества архитектур TabPFN и TabICL. В основе модели — три ключевых механизма:
* Чередующееся внимание к строкам и столбцам: на первом этапе многоуровневый модуль внимания обрабатывает необработанную таблицу, уделяя внимание и столбцам (объектам), и строкам (примерам). Так модель формирует представления, отражающие сложные взаимодействия и зависимости объектов.
* Сжатие строк: после контекстуализации информация о каждой строке сжимается в единое плотное векторное представление.
* Обучение в контексте (ICL): специальный преобразователь работает с последовательностью сжатых вложений. Подход TabICL, который оперирует сжатыми векторами строк, а не исходной сеткой данных, существенно сокращает вычислительные затраты и повышает эффективность прогнозирования даже на больших наборах данных.

Одна из сложностей при создании базовых моделей для табличных данных — нехватка качественных и разнообразных наборов данных, особенно масштабных, которые нужны для анализа промышленных данных. В открытом доступе таких данных мало: промышленные таблицы часто содержат конфиденциальную информацию и собственные схемы. Поэтому для обучения TabFM использовали синтетические данные — их можно создавать в любом объёме. Модель обучили на сотнях миллионов синтетических наборов данных, сгенерированных с помощью структурных причинно-следственных моделей (SCM). Эти данные охватывают широкий спектр случайных функций, распределений и сложных взаимосвязей признаков, которые встречаются в реальных табличных данных. Благодаря этому TabFM хорошо подходит для работы с невидимыми таблицами из реального мира.

Чтобы проверить эффективность TabFM, её протестировали в TabArena — живой тестовой системе, которая рассчитывает баллы Elo на основе коэффициента выигрыша в личных встречах. Оценка охватила 38 наборов классификационных данных и 13 наборов регрессионных данных (от 700 до 150 000 выборок). Были протестированы две конфигурации модели:
* TabFM — стандартные возможности: прогнозы генерируются за один проход без настройки или перекрёстной проверки.
* TabFM-Ensemble — повышенная производительность за счёт включения перекрёстных функций и функций SVD (разложения по сингулярным значениям). Для 32‑полосного ансамбля вычисляют оптимальные веса с помощью неотрицательного метода наименьших квадратов. Для задач классификации дополнительно применяют масштабирование по Платту как шаг калибровки.

Подробные результаты тестирования TabArena (в том числе показатели по кратности и коэффициенты выигрыша в сравнении с базовыми моделями) можно найти на странице GitHub.

TabFM интегрируется в Google BigQuery. В ближайшие недели пользователи смогут выполнять расширенную регрессию и классификацию с помощью простой SQL‑команды AI.PREDICT в BigQuery — без специальных знаний в области машинного обучения.

Проект реализован при участии Эреза Луидора Илана, Тамана Нараяна, Шусина Не, Раджата Сена, Иченя Чжоу, Джо Тота, Дэцина Фу и Самета Оймака. За графику отвечает Кимберли Шведе.