Исходный размер 430x592

Илюстрации ткани

Проект принимает участие в конкурсе

Идея проекта

Мне всегда нравились африканские ткани китенге — яркие, графичные, с узнаваемыми орнаментами. Мне стало интересно: можно ли обучить нейросеть этому стилю? Получится ли у модели уловить характерную эстетику этих тканей и воспроизвести её в новых изображениях?

Исходные изображения для обучения

Исходный размер 3983x2349

Описание процесса обучения

Для обучения использовались следующие инструменты:

Stable Diffusion XL — обучение генеративной нейросети DreamBooth + LoRA — метод дообучения модели Google Colab — выполнение кода и генераций Hugging Face — получение токена и загрузка готовой модели BLIP — автоматическая генерация подписей к изображениям датасета

Изображения были загружены напрямую в Google Colab. С помощью модели BLIP к каждому изображению автоматически создавались подписи с префиксом «illustration in KITENGE style».

Результирующая серия изображений

Исходный размер 1222x124
Исходный размер 1222x127
Исходный размер 2465x1149
Исходный размер 1316x121
Исходный размер 3698x1686
Исходный размер 1313x127
Исходный размер 3698x1536
Исходный размер 1307x123
Исходный размер 3698x1536
Исходный размер 1313x199
Исходный размер 3698x1536
Исходный размер 1313x202
Исходный размер 1315x197
Исходный размер 3698x1536
Исходный размер 1317x86
Исходный размер 3698x1536
Исходный размер 1315x83
Исходный размер 1320x87
Исходный размер 3698x1536
Исходный размер 1315x86
Исходный размер 3698x1536

Заключения

Результаты генерации получились интересными. Модель хорошо усвоила цветовую палитру датасета — насыщенные красный, жёлтый, оранжевый, зелёный и синий цвета, характерные для тканей китенге, чётко прослеживаются в каждой генерации. Общий стиль также передан достаточно точно. Однако модель показала разные результаты в зависимости от сложности запроса. Когда промпт был конкретным и простым — «цветок», «солнце», «камера», «кисть» — результат получался узнаваемым и стилистически целостным. Но когда запрос становился более сложным — «пригласительная карточка», «навигационные иконки», «постер» — модель уходила в абстракцию, и изображение становилось сложночитаемым. Скорее всего, это связано с размером датасета — 30 изображений недостаточно для того, чтобы модель научилась справляться со сложными композиционными задачами. С бо́льшим количеством референсов результаты были бы значительно точнее. Вывод: эта модель работает лучше всего тогда, когда запрос максимально прямолинеен. Один объект — один чёткий результат. Если дать ей больше свободы в интерпретации, она уходит в сторону абстрактного орнамента. Это не недостаток, а скорее особенность — при правильном подходе и более объёмном датасете потенциал у этого стиля очень большой.

0
Илюстрации ткани
Проект создан 22.03.2026
Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную...
Показать больше