Конфиденциальные данные в эпоху ИИ: как классифицировать активы на практике

Системы контроля конфиденциальности требуют глубокого понимания данных, чтобы эффективно соблюдать политики хранения, доступа, использования и анонимизации. Проблема в том, что входные данные часто зашумлены и неоднозначны — например, поле «возраст» может обозначать как персональные данные человека, так и время жизни кэша (TTL) в инфраструктуре. Продукты на базе ИИ усложняют задачу: они ускоряют обработку данных, используют сложные функции и мультимодальные входные данные. В Meta применяют гибридный подход к классификации активов: сначала формируют богатый контекст, затем используют большие языковые модели (LLM) для разрешения неоднозначности, при этом отделяя человеческие метки от рекомендаций модели. Конечная цель — создать систему, которая учится на неоднозначных сигналах, но при этом применяет логику с низкой задержкой и возможностью аудита. LLM используют целенаправленно — для интерпретации новых или неоднозначных ресурсов, а полученные знания преобразуют в проверяемые человеком детерминированные правила. Со временем роль LLM в производственных процессах снижается, а люди продолжают контролировать ключевые процессы: оценивают проверенные данные и одобряют новые правила защиты. Классификация активов — фундамент для всех последующих задач по обеспечению конфиденциальности: она позволяет понять, какие данные есть, как ими управлять, какие потоки данных связаны с политиками и как продемонстрировать соответствие требованиям. Среди ключевых сложностей — зашумлённые сигналы, разрозненный контекст, меняющиеся требования и риск ложных срабатываний (как положительных, так и отрицательных). Подход Meta строится на трёх принципах: сначала формировать контекст, затем отделять оценку от оптимизации и преобразовывать стабильные шаблоны в детерминированные правила. Процесс включает семь этапов — от определения стабильного классификационного контракта до обеспечения безопасности цикла обучения с помощью независимой оценки и проверенных меток.