Датасеты: как спрятать от ИИ контент своего сайта?

Оказывается, нельзя просто так «скомандовать» ChatGPT (равно как и другим LLM) не использовать для обучения контент со своего сайта. Кое-какие способы, конечно, есть, но они далеко не стопроцентные.

Так называемые большие языковые модели (или LLM), как известно, обучаются на массивах данных из нескольких источников (датасетов). Для начального обучения LLM энтузиасты задействуют открытые источники, к примеру:

Wikipedia
онлайн-архивы (государственные, судебные и пр)
книги
переписки в электронной почте
открытый контент сайтов.

Существуют также специализированные порталы с каталогами датасетов самого разнообразного содержания и направленности — для профи.

Такой есть у Amazon (Registry of Open Data на AWS), еще есть Google Dataset, Hugging Face и др (список из 28 таких порталов можно глянуть в Википедии — [ССЫЛКА]).

Кроме того, есть и еще более специализированные датасеты, в частности:

WebText и OpenWebText

WebText — это закрытый датасет компании OpenAI, созданный путем сканирования ссылок на Reddit-е, которые одобрили минимум три раза. Т.е. идея в том, что контент на страницах по этим ссылкам не только качественный, но и заслуживает доверия.

OpenWebText — открытый датасет, созданный с применением аналогичных шаблонов сканирования и, вероятно, с той же базой ссылок.

Так что, если кто-то оставил на Reddit-е ссылку на ваш сайт или сайты и читатели «лайкнули» ее трижды, то, очень вероятно, сайт тоже попал в базу WebText и/или OpenWebText.

Common Crawl и другие

А это целая некоммерческая организация, которая целенаправленно занимается созданием открытых датасетов. Специальный бот Common Crawl собирает данные по всей Сети, затем они очищаются от спама и прочего мусора, и далее с ними работают разные компании и организации, обучающие свои LLM.

Так вот, бот этот называется CCBot. Он подчиняется протоколу robots.txt, а значит, его можно просто не пускать на сайт (в теории).

Не пропустите: ИИ-БОТ CHATGPT В WHATSAPP: КАК ЭТО ДЕЛАЕТСЯ

Впрочем, надо понимать, что если CCBot сайт уже просканировал (а скорее всего, так оно и есть), то ваш контент уже содержится минимум в нескольких датасетах.

Более того, кроме CCbot Сеть на предмет свежих данных активно сканит еще великое множество самых разных ботов. Из наиболее известных и любопытных (и тех, которые владельцы от нас не прячут):

Claude-Web — официальный веб-краулер компании Anthropic (а anthropic-ai — это её user agent);
FacebookBot — сканер Meta, который собирает данные «с целью улучшения языковых моделей для технологии распознавания речи Facebook»;
GPTBot — user agent сканера OpenAI (также содержит сервис ChatGPT-User, который отображает сайты в выдаче писквика OpenAI);
Google-Extended — собирает данные для обучения Gemini и прочих ИИ-сервисов Google;
PiplBot — собирает данные «для индексации в поиске.

Как спрятать свой контент от ИИ?

По сути, НИКАК!. Но чтобы новый контент сайта утекал реже и в меньших объемах, можно попробовать заблокировать доступ к нему CCBot и некоторых других программ через файл robots.

К примеру, т.н. идентификационная строка клиентского приложения (User-Agent) для «блокировки» CCBot должна иметь следующий вид: CCBot/2.0.

Следовательно:

в файле robots.txt прописываем:

User-agent: CCBot
Disallow: /

а так как CCBot подчиняется еще и директивам метатег nofollow, то добавляем в файл также:

<meta name="robots" content="nofollow">

Ну а ежели имеется желание аналогичным образом воспрепятствовать самодеятельности всех перечисленных ИИ-краулеров оптом, то тогда в файле robots.txt прописываем следующее:

User-agent: anthropic-ai
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: CCbot
Disallow: /
User-agent: FacebookBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: GPTBot
Disallow: /
User-agent: PiplBot
Disallow: /

Вот как-то так. Но, повторимся, ботам (также как и ботам поисковиков) можно запретить сканировать новый контент сайта и/или совсем новый сайт. Старый контент они уже забрали, и удалить его из существующих датасетов не получится.

Не пропустите: OPENAI S SERVICES ARE NOT AVAILABLE — КАК ОБОЙТИ И ЗАРЕГИСТРИРОВАТЬСЯ В CHATGPT

Более того, спрятать сайт от других ботов тоже нельзя. Общественность, конечно, активно обсуждает тему, насколько это «этично» брать контент с чужих сайтов без разрешения (и даже без уведомления) его владельцев.

Но хозяевам LLM сие обсуждение пока «по барабану».

Есть даже мнение, что разработчиков ChatGPT и других ИИ-сервисов максимум, может быть, когда-то обяжут предоставлять хоть какую-то инфу о том, контент каких сайтов и где именно они используют. На большее рассчитывать «издателям» уже не приходится.