Новый метод раскроет, какие данные использовали для обучения ИИ

Предложен метод оценки доли данных, использованных для обучения ИИ-модели, без сложных дополнительных моделей и скрытых данных. Протестирован на моделях генерации изображений.

Учёные разработали новый способ выяснить, какая часть набора данных пошла на обучение модели машинного обучения. Существующие методы требовали создания дополнительных сложных моделей и доступа к определённым данным — это делало их практически неприменимыми. Новый подход обходится без этого: он создаёт синтетические данные, анализирует признаки и определяет долю использованных данных. Метод успешно протестирован на моделях генерации изображений и может стать полезным инструментом для владельцев данных — они смогут контролировать, как используются их данные при обучении ИИ.