Как спасти свои фотографии, рисунки и картины от ИИ-генераторов?

DALL-E 2, Midjourney и все прочие нейросети-генераторы изображений учатся на датасетах. Куда разработчики собирают огромное количество уже нарисованных кем-то картин и рисунков. Как правило, не особо заморачиваясь получением разрешений на то у настоящих авторов…

Конечно, когда ИИ-генератор мастырит картинку в стиле давно умершего художника, тот вряд ли предъявит претензии владельцам сервиса.

А вот для живущих ныне художников (а также для людей, которые умеют рисовать), которые выставляют свои работы ArtStation, DeviantArt, Behance, на своих собственных сайтах, в Instagram и в Facebook, такая самодеятельность собирателей датасетов является теперь очень серьезной проблемой. Если не сказать больше.

Не пропустите: ГЕНЕРАТОРЫ ТЕКСТА: НАШ TOP5 ИИ-ПИСАТЕЛЕЙ НА ЭТОТ ГОД

В онлайне теперь свои оригинальные рисунки, равно как и тексты, видео и вообще любой оригинальный контент, надо учиться беречь от чужого внимания. Ведь если цифровая картина, рисунок или просто фотка попадает в датасет, то любой ИИ сгенерит свой «аналог» буквально за полсекунды.

Как спрятать свои рисунки от ИИ? Сразу скажем, сегодня это уже очень непросто. Практически невозможно. Но кое-что сделать еще можно. А именно…

Спрятать фотку или рисунок от самых шустрых ботов

В теории, можно как бы запретить ботам LAION-400M и LAION-5B сканировать картинку. Делается это на сайте HaveIBeenTrained.com, но очень не быстро и подозрительно.

LAION-400M и LAION-5B — это, напомним, на сегодняшний день два крупнейших в Сети открытых датасета, на которых учатся самые популярные нейросети-генераторы, а частности Stable Diffusion и Google Imagen. Но так как оба датасеты открытые, то юзают их все, кто умеет.

Не пропустите: ЛУЧШИЙ СТИЛУС И СЕНСОРНАЯ КИСТЬ ДЛЯ РИСОВАНИЯ НА IPAD — ЖИВОПИСЬ, СКЕТЧИ, ЧЕРТЕЖИ…

В общем, если хотим добавить изображение в список исключений этих двух датасетов, то идем на указанный сайт, регистрируемся и активируем учетку, после чего:

ищем похожие изображения через систему поиска или сразу загружаем свою картинку на сайт (!);
после этого кликаем правой кнопкой мыши по картинке в браузере
жмем кнопку «Add to My Opt-Outs» и добавляем её в список изображений, сканировать которые вы не разрешаете (точно так же, к слову, картинку можно внести в базу разрешенных для сканирования — кнопка «Add to My Opt-Ins«).

Вот как-то так. Но фишка в том, что «запрещать» таким образом на данном конкретном сайте надо каждое свое изображение по отдельности. Так что, если в базе их уже много (или их много на вашем сайте и в соцсеях), то придется поработать (если сочтете сие занятие целесообразным).

Опять же, речь только о двух пусть и самых больших, но точно не единственных датасета графики в мире. Есть еще множество других, боты которых активно изучают Сеть и собирают новые данные. Плюс, некоторые компании-разрабтчики, в том числе и знаменитая OpenAI вообще не рассказывают о том, на каких датасетах обучают своих ботов.

Не пропустите: ДАТАСЕТЫ: КАК СПРЯТАТЬ ОТ CHATGPT И ДРУГИХ ИИ КОНТЕНТ СВОЕГО САЙТА?

Настроить Robots.txt

Это, конечно, тоже никакая не защита (о чем и официально и неоднократно сообщал саппорт Google), но считается, что контент сайта от ботов (краулеров или пауков) некоторых систем с помощью данного инструмента еще можно спрятать.

К примеру, от CCBot-а, бота системы Common Crawl, данные которой используются для создания датасетов LAION (LAION-400M, в частности, согласно официальному описанию, был создан «из случайных веб-страниц, просканированных в период с 2014 по 2021 год«).

Владельцы Common Crawl регулярно отмечают, что бот системы блюдет правила robots.txt и не сканирует (либо сканирует через указанное время) контент, закрытый администраторами сайтов.

Подробная инструкция, как обращаться с файлом robots.txt, вложена на сайте «Центра Google Поиска» — [ССЫЛКА]. Также быстренько сделать Robots.txt для сайта можно с помощью бесплатных онлайн-инструментов вроде Ryte’s Robots.txt Generator.

В целом ничего сложного. Скажем, чтобы запретить CCBot-у сканить картинки на сайте надо в файле robots.txt прописать следующее:

User-agent: CCbot
Disallow: /images/
User-agent: *
Allow: /
Sitemap: https://www.example.com/sitemap.xml

Но, опять же, должным образом реагируют на такой запрет только те «пауки», которые поддерживают правила robots.txt, это во-первых.

А во-вторых, тот контент, который они уже успели отсканировать, у них теперь никак не отобрать.

Не пропустите: ЧЕМ И КАК ОПРЕДЕЛИТЬ, ЧТО ТЕКСТ НАПИСАН ИИ: ОБЗОР ИНСТРУМЕНТОВ

Оформить копирайт

Если есть, что защищать, и в будущем будет вдохновение и возможность отстаивать свои права в международных судах, то почему нет? Например, можно зарегистрировав свои работы на госсайте copyright.gov. Система принимает до 10 ранее неопубликованных работ одним комплектом, но процедура регистрации не мгновенная и длиться может до 1 года.

Не так давно, к слову, несколько художников, чьи работы были зарегистрированы в базе copyright.gov, подали коллективный иск против компаний Stability AI (разработчик сервисов Stable Diffusion и DreamStudio и спонсора датасета LAION) и Midjourney.

По мнению американских юристов, грамотная и своевременная регистрация работ именно на этом сайте, а также в Бюро регистрации авторских прав США является серьезным подспорьем в будущих судебных баталиях.

Наставить водяных знаков, МНОГО!

Боты еще не умеют их стирать. Следовательно, если на сайт или в соцсеть выставить превьюшку рисунка, сплошь залепленный персональными метками, то в таком виде он и попадет в датасет (если попадает).

Следовательно, надо хорошо подумать, прежде чем публиковать рисунок онлайн. Если он — не для денег, а сугубо для просто так, то с водяными знаками можно не заморачиваться.

Ну а если это превью настоящей (или цифровой) картины, которая демонстрируется в Сети с целью продажи, то придется придумывать, как разместить на ней защиту, чтобы она не мешали потенциальным покупателям правильно оценить произведение.

Не пропустите: СКОЛЬКО СТОИТ И СКОЛЬКО МОЖЕТ СТОИТЬ NFT?

Не выкладывать в интернет вообще ничего своего

Вот так, да. Ведь если изображение (фотка, рисунок, картина и пр) хранится в компе, а не онлайн, и уж тем более, когда оно существует только на бумаге (на холсте и на любом другом не цифровом носителе), то и в датасеты не попадет.

Другое дело, что современному художнику фактически никак не заработать на своем творчестве без Интернета. Мало того, где гарантия, что новую красивую картину кто-то не сфоткает на смартфон и не похвастается потом ею у себя на Instagram?

Могут ли ИИ-генераторы «учиться» на чужих работах без разрешения авторов?

Говорят, что нынче остается не спрашивать, «могут ли», а безучастно наблюдать, как они уже учатся? И все равно, лучше привыкать к мысли, что раз изображение попало в Сеть, то оно уже точно есть в разных датасетах, как открытых, так и закрытых. И без разницы, защищено ли оно авторским правом, или еще нет.

Для успокоения души можно поискать изображение в открытых датасетах, к примеру, на том же HaveIBeenTrained.com. Если картинка есть в базе сайта, значит, она ею уже пользуется сервисом Stable Diffusion и другими тоже.

OpenAI, как мы уже отметили, не раскрывает информацию о своих датасетах. Но в качестве эксперимента можете попробовать запросить DALL-E сваять картинку в вашем стиле. То бишь, пишем запрос вроде «artwork in the style of + свою фамилию (имя, ник и пр)» на английском и наблюдаем результат. Если видим знакомые мотивы, делаем выводы…

Не пропустите: КАК ИСПРАВИТЬ ФОТОГРАФИЮ: ПЛОХОЙ СНИМОК — В ФОТОШЕДЕВР!

Ну и ждем новые средства защиты контента

Сразу скажем: на момент публикации этого поста таких средств, то есть, в достаточной степени эффективных программных инструментов для защиты цифрового контента от несанкционированного включения в датасеты, никто еще не предложил, ни платных, ни бесплатных.

Но работы ведутся. Например, специалисты Чикагского университета в рамках проекта Glaze разрабатывают программку, которая «вносит очень незначительные изменения» в изображение.

Разработчики называют технологию «маскировкой стиля». Изображение, обработанное приложением Glaze, для человеческого глаза ничем не отличается от оригинала, а ИИ воспринимает её как совсем другую картинку. Сейчас прога еще тестируется, но её обещают выпустить совсем скоро (в виде приложения для Windows и macOS) и вроде как бесплатно.

Альтернативное программное решение разрабатывается в Университете Мельбурна. Программа, согласно описанию, просто добавляет в изображение немного так называемого «цифрового шума«, меняя «ровно столько пикселей, сколько требуется для того, чтобы ввести ИИ в заблуждение» и сделать копию полностью непригодной для обучения ИИ. Однако проект тоже пока экспериментальный, и когда ждать релиза, разработчики не уточняют.

Ну вот пока как-то так…