Original size 2480x3500

А когда весна?

PROTECT STATUS: not protected

Концепция

Я решила обучить модель именно такому стилю, потому что в преддверии Нового года душа особенно остро начинает скучать по весне. Эта модель — мой способ сбежать от зимней монохромности.

Я обучаю модель генерировать весенние изображения, потому что после относительно близких новогодних праздников у многих наступает зимняя хандра, и люди ищут способы визуально «перезагрузиться». Моя модель отвечает на этот запрос — она дает возможность быстро создать картинку, которая напоминает о скором тепле и помогает бороться с сезонной усталостью от серости и холода.

Это исследование контраста — искусственный интеллект, вдохновленный самым естественным и жизнеутверждающим из сезонов.

Исходные изображения для составления датасета также были сгенерированы с помощью нейросети, поскольку мне было интересно узнать, как разные ИИ модели представляют весну. Для этого я воспользовалась сервисом Krea.

big
Original size 1920x1080

Изображения сгенерированы с помощью нейросети Krea

big
Original size 1920x920

Изображения сгенерированы с помощью нейросети Krea

В нейросети Krea я сгенерировала несколько изображений по промту, после чего использовала их как референс, чтобы последующее обучение моей модели происходило на похожих изображениях.

promt

Generate a spring image, a blue background, and use bright accent colors: red, pink, white, and green. The image should be a 2D illustration with gradient shadows, and it should look minimalistic and organic. Use the following scenarios in your images: flowers, hands, rabbits, and cats.

Original size 1920x1080

Изображения сгенерированы с помощью нейросети Krea

Обучение

Итоговый датасет для обучения модели составил 74 изображения.

Original size 4942x947

В своем проекте я обучала урезанную версию Stable Diffusion 1.5, так как полная SDXL версия требовала слишком много видеопамяти и не запускалась даже на Коллабе с применением оптимизаций вроде градиентного чекпоинтинга.

Для обучения использовался датасет из квадратных центрированных изображений. Модель обучалась 700 итераций с пониженной скоростью обучения, чтобы избежать переобучения на небольшом датасете. Ключевой элемент — специальное триггерное слово, которое активирует изученный стиль в промптах.

Original size 3239x1360

Для тестирования я использую итоговую ячейку с промптом: применяю триггерное слово и экспериментирую, добавляя свои описания.

Original size 3239x1304

Итоговые генерации

Изначально я рассчитывала на то, что модель в точности повторит изображения из датасета.

Original size 2048x2048

К сожалению, мне не удалось достичь повторения стиля из-за ограничения бесплатных генераций в Krea, в следствии чего датасет получился небольшим. Однако, поразмышляв над своей темой еще раз, я поняла, что полученные изображения — видение весны именно моей модели. В своем проекте я использую разные нейросети, чтобы продемонстрировать контраст четкого ИИ и воодушевляющей весны.

Разные нейросети — разная весна.

Я не стала дожидаться дополнительных бесплатных генераций, чтобы дообучить модель, так как ощущение прихода весны она сумела перенять из датасета. Именно оно и было моей целью.

Original size 3239x1420
Original size 1920x1080

В итоговой серии изображений представлены ощущения от долгожданного потепления и прихода того самого любимого сезона года — весны. С помощью слова-триггера и дополнительного промта я смогла сгенерировать сразу целую серию из нескольких тем: цветы, весна, кролик, руки, солнце, жуки и бабочки. Я подобрала именно такие промты, так как для меня они наиболее тесно ассоциируются с весной.

Моя модель видит весну именно таким образом.

Original size 1920x919
Original size 1920x919

В созданных генерациях удалось воспроизвести чувство прихода весны, примерную цветовую гамму и атмосферу. Из-за ограничений в количестве фото датасета не удалось повторить четкую форму и композицию. Однако, я считаю, что первоначальная идея взглянуть на весну глазами ИИ все же воплотилась в реальность.

Иногда технические ограничения открывают новые пути для творчества. Невозможность точно воспроизвести композицию заставила алгоритм сосредоточиться на самом главном — на эмоции.

Original size 1920x1080

Основные инструменты

Stable Diffusion — обучение генеративной нейросети под свой стиль

Google Colab — выполнение кода и генераций

Krea — создание изображений для датасета

Дополнительные инструменты

ILoveIMG — нейросеть для улучшения изображений

А когда весна?
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more