Обучение ИИ: как сайты ограничивают доступ для сканеров

Открытый интернет долгое время служил дешёвым источником данных для обучения языковых моделей (LLM) — от новостных сайтов и блогов до архивов свободного доступа. Материалы, которые были в открытом доступе, превращали в наборы данных для чат-ботов, генераторов изображений и поисковых помощников. Но ситуация меняется: всё больше операторов сайтов блокируют поисковые роботы, которые извлекают контент для обучения ИИ. Издатели, операторы форумов, дистрибьюторы и блогеры больше не хотят бесплатно предоставлять материалы, которые компании используют для создания новых продуктов.

Кроме того, в сети растёт доля синтетического контента. Это вызывает опасения, что будущие модели будут меньше опираться на данные, созданные людьми, и больше — на результаты предыдущих моделей. В долгосрочной перспективе это может привести к ухудшению качества ИИ: редкие данные, языковое разнообразие и точность будут утрачиваться, а модели начнут учиться на собственных ошибках и упрощениях.

Изменения уже заметны в экономике разработки ИИ: данные для обучения становятся дороже и эксклюзивнее, доступ к качественным наборам получают те, кто может за них заплатить. Особенно сложно мелким поставщикам и проектам с открытыми моделями.

Исследования подтверждают эту тенденцию. Например, в работе «Согласие в кризис» (PDF) за период с апреля 2023 года по апрель 2024 года выяснили, что за год более 25 % токенов из важных веб-источников оказались ограничены правилами. В корпусах C4, Refinedweb и Dolma доля новых токенов с ограниченным доступом превысила 5 %.

Ещё одно исследование — «Is More Open Deception?» — проанализировало 3369 авторитетных новостных сайтов и 710 сайтов с дезинформацией. Используя шесть снимков из интернет-архива за период с сентября 2023 года по май 2025 года, учёные выяснили, что доля авторитетных новостных сайтов, полностью блокирующих хотя бы одного сканера ИИ, выросла с 23 % в сентябре 2023 года до почти 60 % в мае 2025 года. При этом сайты с дезинформацией оставались значительно более открытыми — там соответствующая доля была менее 10 %.

Сканеры разных компаний тоже сталкиваются с блокировками. По оценке Buzzstream, 75 % опрошенных издателей крупных новостных сайтов США и Великобритании заблокировали CCBot от Common Crawl (его данные используют многие открытые модели). Сканеры Anthropic блокируются в 69–72 % случаев (в зависимости от пользовательского агента), GPTBot от OpenAI — в 62 %, расширенный Google от Alphabet — в 46 %, OAI-поисковый робот OpenAI — в 49 %. При этом классический робот Googlebot для обычного веб-поиска в большинстве случаев остаётся одобренным. Издатели, как правило, не против ботов, которые привлекают посетителей на страницы, но блокируют тех, кто просто поглощает контент без возврата сопоставимого трафика.