Исходный размер 756x1009

Обучение генеративной нейросети технике бумажного коллажа

Описание идеи

Всю свою сознательную жизнь мне нравилось прикладное искусство и всё, что с ним связано. Поэтому мне захотелось обучить генеративную нейросеть Stable Diffusion собственной технике бумажного коллажирования с простой газетой.

big
Исходный размер 5262x1403

Проект «Моя бабушка курит трубку»

В качестве референсов для обучения своей модели я взяла несколько сканов коллажей, которые я делала для проекта в рамках курса по арт-практике. Все изображения связывает единый стиль, ограниченная палитра цветов, минимализм и акцентный красный цвет.

Поскольку исходные работы состоят из достаточно простых и понятных форм, я решила ограничиться небольшим количеством референсов, которые все заранее поместила в отдельную папку на диске.

0

Изображения из датасета, проект «Моя бабушка курит трубку»

При работе над проектом главной задачей было понять, по какому принципу работает обучение нейросетевой модели, так как я только новичок в сфере генеративно-нейросетевых технологий.

Список использованных инструментов:

· Hugging Face — аутентификация, получение токена для обучения, загрузка модели на сайт:

· Stable Diffusion — обучение генеративной нейросетевой модели под стиль коллажа;

· Google Colab — среда для написания кода;

· Photoshop — оформление всего проекта.

Описание процесса обучения

Сначала я загрузила все необходимые библиотеки: Diffusers, DreamBooth и др., на которых строилось дальнейшее обучение моей генеративной модели.

Исходный размер 1826x1603

Установка необходимых для обучения библиотек

Исходный размер 2459x606

Скачивание обучающего скрипта DreamBoth для диффузоров SDXL

Далее необходимо было выгрузить все мои изображения-референсы в Google Colab, для дальнейшего обучения нейронки стилю по ним.

Исходный размер 2052x1539

Загрузка изображений-референсов в среду Google Colab

После того, как я проверила, что все изображения открываются, я воспользовалась мультимедийной моделью BLIP от Hugging Face, которая помогла мне сгенерировать автоматические подписи.

Исходный размер 2340x1306

Проверка видимости изображений, превью нескольких референсов

Исходный размер 2334x1348

Генерация подписей к изображениям при помощи модели BLIP

После этого я обратилась к папке и настроила префикс для каждой подписи. Таким образом у меня получились полноценные промпты.

Исходный размер 2464x1284

Настройка префикса для промптов к изображениям

Для дальнейшей работы с моделью я создала личный аккаунт на Hugging Face, получила токен с доступом на запись и внесла его в Google Colab.

Исходный размер 1983x762

Учётная запись в Hugging Face

Исходный размер 1982x932

Передача токена с Hugging Face в среду Google Colab

Наконец, можно было приступить к основному этапу. Обучение генеративной модели длилось около 40  минут. В результате вышла полностью обученная модель, которую в дальнейшем легко можно использовать для дальнейших генераций новых изображений в стиле бумажного коллажа.

Исходный размер 2288x1040

Основной этап обучения генеративной модели

В конце работы я задала необходимые параметры для выхода на директорий Hugging Face, а также сохранила обученную модель в репозиторий.

Исходный размер 2414x1557

Выход на директорий Hugging Face, сохранение модели в репозиторий

Исходный размер 2384x434

Успешное сохранение обученной модели в репозиторий

Исходный размер 2068x1203

Карта сохранённой модели на Hugging Face

После завершения работы над кодом я приступила к генерации новых изображений в стиле коллажа. Для этого вводила промпты в отдельную строку.

Исходный размер 2334x849

Генерация изображений по промпту

Серия сгенерированных изображений

Для того, чтобы попробовать модель в действии, я решила сначала взять простые промпты, чтобы понять насколько хорошо сработало всё обучение. Первые два изображения получились достаточно запутанными и хаотичными, такой результат меня не полностью устроил, поэтому я начала думать, как улучшить принцип составления промптов.

0

Первые попытки генераций изображений. Промпты: «photo in COLLAGE style, black cat on the window with curtains», «photo in COLLAGE style, old man with short hair»

Сначала попробовала писать промпт без префикса «photo in  COLLAGE style». В некоторых случаях это действительно срабатывало, в итоге изображение становилось лучше. Но иногда без этой приставки нейросеть уходила слишком далеко от стилистики референсов, поэтому дальше я решила оставить префикс, но делать промпты более детальными.

Исходный размер 2103x1024

Генерация изображений через один промпт с использованием префикса / без него: «photo in COLLAGE style, still life with dishes and fruits» / «still life with dishes and fruits»

Для сравнения делала две генерации по одному промпту: первое изображение с использованием префикса «photo in  COLLAGE style» , второе — без.

Исходный размер 2103x1024

Генерация изображений через один промпт с использованием префикса / без него: «photo in COLLAGE style, table with a lamp and books» / «table with a lamp and books»

Исходный размер 2103x1024

Генерация изображений через один промпт с использованием префикса / без него: «photo in COLLAGE style, urban landscape with the sun» / «urban landscape with the sun»

Завершающими генерациями стали также простые сюжеты, в основе которых лежит один конкретный объект. Поскольку стиль сам по себе интересный и сложный, думаю, что для моей модели больше подойдут простые и несложные промпты, чтобы картинка не получалась очень перегруженной.

Исходный размер 1024x1024

Промпт: «photo in COLLAGE style, cup of tea, tea time»

Исходный размер 1024x1024

Промпт: «photo in COLLAGE style, big tree with leaves»

Исходный размер 1024x1024

Промпт: «photo in COLLAGE style, grandma smokes a pipe»

Это был классный опыт работы с нейросетями, и я рада, что у меня получился хороший результат, который полностью передаёт мой стиль коллажа.

В результате работы над проектом получилась серия изображений в едином стиле бумажного коллажа. Мне очень понравилось, что в итоговых генерациях возникает интересный оптический эффект: чем больше смотришь, тем больше видишь и замечаешь разных деталей.

Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную...
Показать больше