Обучение генеративной нейросети по художественный стиль Тулуза Лотрека на HSE Design

КОНЦЕПЦИЯ

Недавно мне попалась фотосессия модного дома Dolce & Gabbana в стиле Пауля Рубенса. Тогда я подумала, что было бы здорово создать что-то похожее, но в эстетике импрессионизма. Именно поэтому в качестве темы для проекта я выбрала сочетание моды и постимпрессионистического искусства.

Я решила, что наиболее подходящими для моего датасета будут работы французского художника Тулуза Лотрека. Они довольно яркие и динамичные, среди них есть как одиночные, так и групповые портреты, а главное, много бытовых сцен, которые можно положить в основу для сюжетов генераций.

Главная идея проекта — совместить стиль и динамику работ Лотрека с модной индустрией: погрузить фэшн-фотосессии и показы в новую эстетику.

Исходный размер 1280x330

картины Тулуза Лотрека

ПРИМЕНЕНИЕ ГЕНЕРАТИВНОЙ МОДЕЛИ

При создании проекта были использованы следующие инструменты:

— Google Colab — для написания кода и создания изображений; — Stable Diffusion — для обучения генеративной нейросети под выбранный стиль; — Hugging Face — чтобы получить токен для обучения нейросети; — Procreate — для создания коллажей.

В начале я загрузила все необходимые для обучения библиотеки.

Затем, загрузила собранный датасет и проверила их выгрузку.

загрузка картинок

Исходный размер 1280x256

картины Тулуза Лотрека из датасета

После проверки корректности выгрузки изображений я создала для каждого подписи с помощью нейросети.

Исходный размер 1280x255

создание описательных подписей для каждого изображения

Затем в Hugging Face я сгенерировала API-ключ, с помощью которого загрузила ресурсы, необходимые для обучения модели.

После всех этапов я наконец смогла приступить к обучению модели. Процесс занял примерно 45 минут.

После завершения обучения оставалось только сохранить модель на Hugging Face, и можно было приступать к генерации.

Исходный размер 1280x462

сохранение модели

Генерации занимали около 1 минуты. Для одного промта я генерировала сразу 10 изображений, а потом выбирала понравившееся.

первая генерация

ГЕНЕРАЦИИ

Для первой генерации я использовала простой короткий промт: «photo collage in CHAYCHUK style, A fashion show». Нейросеть выдала изображение с большим количеством людей, но я решила, что не хватает конкретики, и стала усложнять промты.

промт: photo collage in CHAYCHUK style, A fashion show

Я увеличила размер промта, добавив подробностей: «photo collage in CHAYCHUK style, the model is on the podium, the audience is sitting in the hall». Но результат снова получился слишком шумным и не очень понятным, хотя некая композиция начала прорисовываться.

Для следующей генерации я решила запросить только модель, идущую по подиуму: «photo collage in CHAYCHUK style, A fashion model walks alone on the catwalk in a dark hall, bright colors». Также я добавила параметр „bright colors» , поскольку все изображения получились примерно в одной цветовой палитре, а мне хотелось разнообразия, как в исходных картинах.

промт: photo collage in CHAYCHUK style, A fashion model walks alone on the catwalk in a dark hall, bright colors

Результат мне понравился, но цвета опять стали генериться одни и те же. Тогда я решила добавить еще один параметр с уточнением главного цвета: «photo collage in CHAYCHUK style, A fashion model walks alone on the podium in a dark hall, bright colors, red».

Последующие промты я писала по той же схеме: мой стиль + сюжет изображения + bright colors + главный цвет (при необходимости).

Я решила попробовать сгенерировать разные сюжеты. Но в последних генерациях я повторила запрос про модный показ.

промт: photo collage in CHAYCHUK style, Two models walk down the catwalk alone in an empty hall, bright colors, red/yellow

модели на фотосессии в студии

Сначала я попробовала снова задать промт без уточнений по цветам, но, как и ожидала, получила первую палитру.

Промт: photo collage in CHAYCHUK style, a model on the fashion photo shoot in the studio

промт: photo collage in CHAYCHUK style, Three models at a photo shoot in the studio, one wearing a full skirt, the model dancing

промт: photo collage in CHAYCHUK style, A fashion The model is sitting alone in the studio on a fashion photo shoot, bright colors, yellow/pink/blue

В последней картинке этой серии я решила запросить двух моделей, сидящих в студии. Эта генерация нравится мне больше всех.

Промт: photo collage in CHAYCHUK style, two fashion models are sitting alone in the studio on a fashion photo shoot, bright colors, blue

модели в кафе

Здесь я запрашивала группы моделей в кофейнях, чтобы посмотреть, считала ли модель фоновые особенности исходных картин.

промт: photo collage in CHAYCHUK style, Three fashion models in a cafe, sitting at a table, bright colors

промт: photo collage in CHAYCHUK style, Two fashion models are sitting in a cafe at a fashion photo shoot, bright colors, blue

модели танцуют

Поскольку Тулуз Лотрек во многом известен благодаря работам, написанным в кабаре, я решила сделать серию картинок, на которых модели танцуют в пышных юбках.

промт: photo collage in CHAYCHUK style, One fashion model is dancing in the middle of the stage alone, bright colors, blue/red

Модель считала основные элементы картин, с танцующими женщинами, кроме юбок. Поэтому в следующие промты я добавила уточнение.

промт: A fashion model is dancing alone in a cafe hall, wearing a wide skirt, bright colors, red/yellow

ВЫВОДЫ

Модель вполне считала технику художника — рисование прямыми прерывистыми линиями.

Без уточнения цветов нейросеть делает изображения розовыми. Если сравнить с оригинальными работами, можно заметить, что сам художник довольно часто уводил цветовую гамму фона и одежды именно в этот цвет.

В целом, модель неплохо считывает цветовые сочетания и проецирует их на генерации.

Картины Лотрека | промт: photo collage in CHAYCHUK style, One fashion model is dancing in the middle of the stage

картина Лотрека | генерация

С танцевальных картин нейросеть считала динамику движений и общую композицию.

картины Лотрека | генерация

Самые удачные генерации, на мой взгляд, картин на тематику кофеин. Нейросеть смогла повторить композицию, стиль и фоны.

картины Лотрека | генерация

Сейчас на сгенерированных изображениях довольно много артефактов, поэтому утверждать, что она в точности соответствует манере художника, нельзя. Возможно, если создавать изображения на более мощной видеокарте, увеличивать датасет, усложнять код и промты, результат будет лучше.

Тем не менее, мне кажется, что результат можно считать вполне успешным. Нейросеть способна сгенерировать изображения в стиле, приближенном к оригинальным картинам. Она переняла определенные черты работ Тулуза Лотрека, такие как цвета, композиция, манера письма.

БЛОКНОТ / ДАТАСЕТ