Илюстрации ткани на HSE Design

Идея проекта

Мне всегда нравились африканские ткани китенге — яркие, графичные, с узнаваемыми орнаментами. Мне стало интересно: можно ли обучить нейросеть этому стилю? Получится ли у модели уловить характерную эстетику этих тканей и воспроизвести её в новых изображениях?

Исходные изображения для обучения

Исходный размер 3983x2349

Описание процесса обучения

Для обучения использовались следующие инструменты:

Stable Diffusion XL — обучение генеративной нейросети DreamBooth + LoRA — метод дообучения модели Google Colab — выполнение кода и генераций Hugging Face — получение токена и загрузка готовой модели BLIP — автоматическая генерация подписей к изображениям датасета

Изображения были загружены напрямую в Google Colab. С помощью модели BLIP к каждому изображению автоматически создавались подписи с префиксом «illustration in KITENGE style».

Результирующая серия изображений

Исходный размер 1222x124

Исходный размер 1222x127

Исходный размер 2465x1149

Исходный размер 1316x121

Исходный размер 3698x1686

Исходный размер 1313x127

Исходный размер 3698x1536

Исходный размер 1307x123

Исходный размер 3698x1536

Исходный размер 1313x199

Исходный размер 3698x1536

Исходный размер 1313x202

Исходный размер 1315x197

Исходный размер 3698x1536

Исходный размер 1317x86

Исходный размер 3698x1536

Исходный размер 1315x83

Исходный размер 1320x87

Исходный размер 3698x1536

Исходный размер 1315x86

Исходный размер 3698x1536

Заключения

Результаты генерации получились интересными. Модель хорошо усвоила цветовую палитру датасета — насыщенные красный, жёлтый, оранжевый, зелёный и синий цвета, характерные для тканей китенге, чётко прослеживаются в каждой генерации. Общий стиль также передан достаточно точно. Однако модель показала разные результаты в зависимости от сложности запроса. Когда промпт был конкретным и простым — «цветок», «солнце», «камера», «кисть» — результат получался узнаваемым и стилистически целостным. Но когда запрос становился более сложным — «пригласительная карточка», «навигационные иконки», «постер» — модель уходила в абстракцию, и изображение становилось сложночитаемым. Скорее всего, это связано с размером датасета — 30 изображений недостаточно для того, чтобы модель научилась справляться со сложными композиционными задачами. С бо́льшим количеством референсов результаты были бы значительно точнее. Вывод: эта модель работает лучше всего тогда, когда запрос максимально прямолинеен. Один объект — один чёткий результат. Если дать ей больше свободы в интерпретации, она уходит в сторону абстрактного орнамента. Это не недостаток, а скорее особенность — при правильном подходе и более объёмном датасете потенциал у этого стиля очень большой.

Ссылка на блакнот