DALL-E 2, Midjourney и все прочие нейросети-генераторы изображений учатся на датасетах. Куда разработчики собирают огромное количество уже нарисованных кем-то картин и рисунков. Как правило, не особо заморачиваясь получением разрешений на то у настоящих авторов…
Конечно, когда ИИ-генератор мастырит картинку в стиле давно умершего художника, тот вряд ли предъявит претензии владельцам сервиса.
А вот для живущих ныне художников (а также для людей, которые умеют рисовать), которые выставляют свои работы ArtStation, DeviantArt, Behance, на своих собственных сайтах, в Instagram и в Facebook, такая самодеятельность собирателей датасетов является теперь очень серьезной проблемой. Если не сказать больше.
Не пропустите: ГЕНЕРАТОРЫ ТЕКСТА: НАШ TOP5 ИИ-ПИСАТЕЛЕЙ НА ЭТОТ ГОД
В онлайне теперь свои оригинальные рисунки, равно как и тексты, видео и вообще любой оригинальный контент, надо учиться беречь от чужого внимания. Ведь если цифровая картина, рисунок или просто фотка попадает в датасет, то любой ИИ сгенерит свой «аналог» буквально за полсекунды.
Как спрятать свои рисунки от ИИ? Сразу скажем, сегодня это уже очень непросто. Практически невозможно. Но кое-что сделать еще можно. А именно…
Спрятать фотку или рисунок от самых шустрых ботов
В теории, можно как бы запретить ботам LAION-400M и LAION-5B сканировать картинку. Делается это на сайте HaveIBeenTrained.com, но очень не быстро и подозрительно.
LAION-400M и LAION-5B — это, напомним, на сегодняшний день два крупнейших в Сети открытых датасета, на которых учатся самые популярные нейросети-генераторы, а частности Stable Diffusion и Google Imagen. Но так как оба датасеты открытые, то юзают их все, кто умеет.
Не пропустите: ЛУЧШИЙ СТИЛУС И СЕНСОРНАЯ КИСТЬ ДЛЯ РИСОВАНИЯ НА IPAD — ЖИВОПИСЬ, СКЕТЧИ, ЧЕРТЕЖИ…
В общем, если хотим добавить изображение в список исключений этих двух датасетов, то идем на указанный сайт, регистрируемся и активируем учетку, после чего:
- ищем похожие изображения через систему поиска или сразу загружаем свою картинку на сайт (!);
- после этого кликаем правой кнопкой мыши по картинке в браузере
- жмем кнопку «Add to My Opt-Outs» и добавляем её в список изображений, сканировать которые вы не разрешаете (точно так же, к слову, картинку можно внести в базу разрешенных для сканирования — кнопка «Add to My Opt-Ins«).
Вот как-то так. Но фишка в том, что «запрещать» таким образом на данном конкретном сайте надо каждое свое изображение по отдельности. Так что, если в базе их уже много (или их много на вашем сайте и в соцсеях), то придется поработать (если сочтете сие занятие целесообразным).
Опять же, речь только о двух пусть и самых больших, но точно не единственных датасета графики в мире. Есть еще множество других, боты которых активно изучают Сеть и собирают новые данные. Плюс, некоторые компании-разрабтчики, в том числе и знаменитая OpenAI вообще не рассказывают о том, на каких датасетах обучают своих ботов.
Не пропустите: ДАТАСЕТЫ: КАК СПРЯТАТЬ ОТ CHATGPT И ДРУГИХ ИИ КОНТЕНТ СВОЕГО САЙТА?
Настроить Robots.txt
Это, конечно, тоже никакая не защита (о чем и официально и неоднократно сообщал саппорт Google), но считается, что контент сайта от ботов (краулеров или пауков) некоторых систем с помощью данного инструмента еще можно спрятать.
К примеру, от CCBot-а, бота системы Common Crawl, данные которой используются для создания датасетов LAION (LAION-400M, в частности, согласно официальному описанию, был создан «из случайных веб-страниц, просканированных в период с 2014 по 2021 год«).
Владельцы Common Crawl регулярно отмечают, что бот системы блюдет правила robots.txt и не сканирует (либо сканирует через указанное время) контент, закрытый администраторами сайтов.
Подробная инструкция, как обращаться с файлом robots.txt, вложена на сайте «Центра Google Поиска» — [ССЫЛКА]. Также быстренько сделать Robots.txt для сайта можно с помощью бесплатных онлайн-инструментов вроде Ryte’s Robots.txt Generator.
В целом ничего сложного. Скажем, чтобы запретить CCBot-у сканить картинки на сайте надо в файле robots.txt прописать следующее:
User-agent: CCbot Disallow: /images/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml
Но, опять же, должным образом реагируют на такой запрет только те «пауки», которые поддерживают правила robots.txt, это во-первых.
А во-вторых, тот контент, который они уже успели отсканировать, у них теперь никак не отобрать.
Не пропустите: ЧЕМ И КАК ОПРЕДЕЛИТЬ, ЧТО ТЕКСТ НАПИСАН ИИ: ОБЗОР ИНСТРУМЕНТОВ
Оформить копирайт
Если есть, что защищать, и в будущем будет вдохновение и возможность отстаивать свои права в международных судах, то почему нет? Например, можно зарегистрировав свои работы на госсайте copyright.gov. Система принимает до 10 ранее неопубликованных работ одним комплектом, но процедура регистрации не мгновенная и длиться может до 1 года.
Не так давно, к слову, несколько художников, чьи работы были зарегистрированы в базе copyright.gov, подали коллективный иск против компаний Stability AI (разработчик сервисов Stable Diffusion и DreamStudio и спонсора датасета LAION) и Midjourney.
По мнению американских юристов, грамотная и своевременная регистрация работ именно на этом сайте, а также в Бюро регистрации авторских прав США является серьезным подспорьем в будущих судебных баталиях.
Наставить водяных знаков, МНОГО!
Боты еще не умеют их стирать. Следовательно, если на сайт или в соцсеть выставить превьюшку рисунка, сплошь залепленный персональными метками, то в таком виде он и попадет в датасет (если попадает).
Следовательно, надо хорошо подумать, прежде чем публиковать рисунок онлайн. Если он — не для денег, а сугубо для просто так, то с водяными знаками можно не заморачиваться.
Ну а если это превью настоящей (или цифровой) картины, которая демонстрируется в Сети с целью продажи, то придется придумывать, как разместить на ней защиту, чтобы она не мешали потенциальным покупателям правильно оценить произведение.
Не пропустите: СКОЛЬКО СТОИТ И СКОЛЬКО МОЖЕТ СТОИТЬ NFT?
Не выкладывать в интернет вообще ничего своего
Вот так, да. Ведь если изображение (фотка, рисунок, картина и пр) хранится в компе, а не онлайн, и уж тем более, когда оно существует только на бумаге (на холсте и на любом другом не цифровом носителе), то и в датасеты не попадет.
Другое дело, что современному художнику фактически никак не заработать на своем творчестве без Интернета. Мало того, где гарантия, что новую красивую картину кто-то не сфоткает на смартфон и не похвастается потом ею у себя на Instagram?
Могут ли ИИ-генераторы «учиться» на чужих работах без разрешения авторов?
Говорят, что нынче остается не спрашивать, «могут ли», а безучастно наблюдать, как они уже учатся? И все равно, лучше привыкать к мысли, что раз изображение попало в Сеть, то оно уже точно есть в разных датасетах, как открытых, так и закрытых. И без разницы, защищено ли оно авторским правом, или еще нет.
Для успокоения души можно поискать изображение в открытых датасетах, к примеру, на том же HaveIBeenTrained.com. Если картинка есть в базе сайта, значит, она ею уже пользуется сервисом Stable Diffusion и другими тоже.
OpenAI, как мы уже отметили, не раскрывает информацию о своих датасетах. Но в качестве эксперимента можете попробовать запросить DALL-E сваять картинку в вашем стиле. То бишь, пишем запрос вроде «artwork in the style of + свою фамилию (имя, ник и пр)» на английском и наблюдаем результат. Если видим знакомые мотивы, делаем выводы…
Не пропустите: КАК ИСПРАВИТЬ ФОТОГРАФИЮ: ПЛОХОЙ СНИМОК — В ФОТОШЕДЕВР!
Ну и ждем новые средства защиты контента
Сразу скажем: на момент публикации этого поста таких средств, то есть, в достаточной степени эффективных программных инструментов для защиты цифрового контента от несанкционированного включения в датасеты, никто еще не предложил, ни платных, ни бесплатных.
Но работы ведутся. Например, специалисты Чикагского университета в рамках проекта Glaze разрабатывают программку, которая «вносит очень незначительные изменения» в изображение.
Разработчики называют технологию «маскировкой стиля». Изображение, обработанное приложением Glaze, для человеческого глаза ничем не отличается от оригинала, а ИИ воспринимает её как совсем другую картинку. Сейчас прога еще тестируется, но её обещают выпустить совсем скоро (в виде приложения для Windows и macOS) и вроде как бесплатно.
Альтернативное программное решение разрабатывается в Университете Мельбурна. Программа, согласно описанию, просто добавляет в изображение немного так называемого «цифрового шума«, меняя «ровно столько пикселей, сколько требуется для того, чтобы ввести ИИ в заблуждение» и сделать копию полностью непригодной для обучения ИИ. Однако проект тоже пока экспериментальный, и когда ждать релиза, разработчики не уточняют.
Ну вот пока как-то так…