Исходный размер 1140x1600

Кошка Ника

Проект принимает участие в конкурсе

Одно из требований для генерации изображений хорошего качества — достаточного объема датасет. Чьих фотографий у меня больше всего? Конечно, моей кошки Ники. Ей и посвящен проект.

Исходный размер 2196x539

Исходные изображения

В основе проекта лежит идея исследования того, как генеративная модель может интерпретировать конкретного персонажа, мою кошку Нику, в разных художественных стилях. Например, японская живопись, ар-нуво, барокко.

Исходный размер 2000x197

Процесс

Для обучения был собран датасет из 44 изображений квадратного формата. Изображения включали разные ракурсы, освещение и позы. Датасет состоял из фотографий. Отсутствие стилизации позволило модели сфокусироваться на изучении внешности кошки, чтобы сохранить ключевые черты в последующих генерациях.

Использовался подход DreamBooth с LoRA на базе Stable Diffusion XL.

Модель обучалась на уникальном токене «NIKATOK cat». Это позволило встроить нового персонажа в модель без полного переобучения.

После обучения модель хорошо запомнила форму головы, глаза и пропорции кошки. Ожидаемо, но генерации были фотореалистичными, без стилизации, не все подходило.

Исходный размер 1024x1024

Изображение 1

Промпт к изображению 1: «NIKATOK cat painted as a renaissance portrait, soft sfumato, muted earth colors, detailed painted fur, old master painting, museum artwork».

Решение и итоги

  1. Ослабление LoRA (lora_scale ок. 0.65–0.7), чтобы уменьшить влияние реализма;
  2. Переписывание промптов с добавлением художественных описаний;
  3. Добавление характеристик внешности (dark brown cat, yellow-green eyes и др.);
  4. Использование негативных промптов для подавления фотореализма;
  5. Увеличение шагов генерации и guidance_scale.
Исходный размер 1024x1024

Изображение 2

Исходный размер 879x473

Фрагмент кода к изображению 2

В финальной серии сохранены ключевые черты персонажа (окрас, глаза, форма тела), а также представлены разные художественные стили.

Стили варьируются от реалистичных до абстрактных. Например, ар-нуво, барокко, классицизм, японская живопись и другие. При этом в более экстремальных стилях узнаваемость отчасти теряется. Например, нейросеть может исказить особенности окраса.

Исходный размер 1024x1024

Изображение 3

Промпт к изображению 3: «an oil painting of NIKATOK cat, baroque portrait, dramatic chiaroscuro, dark background, rich brown and gold palette, visible brushstrokes, textured canvas».

Исходный размер 1024x1024

Изображение 4

Промпт к изображению 4: «NIKATOK cat in ukiyo-e style, japanese woodblock print, flat colors, decorative linework, patterned background, stylized shapes».

Исходный размер 1024x1024

Изображение 5

Промпт к изображению 5: «NIKATOK cat in surrealist style, dreamlike space, strange symbolism, unexpected colors, painterly composition, uncanny atmosphere».

Исходный размер 1024x1024

Изображение 6

Промпт к изображению 6: «NIKATOK cat in art nouveau poster style, flowing lines, ornamental frame, elegant decorative composition, stylized fur, muted vintage colors».

Изображения 7-8

Промпт к изображениям 7-8: «„NIKATOK cat in expressionist painting style, distorted form, emotional color, rough brushwork, intense contrast, bold painted texture“.

0

Изображения 9-10

Промпт к изображениям 9-10: «NIKATOK cat painted as a renaissance portrait, soft sfumato, muted earth colors, detailed painted fur, old master painting, museum artwork».

Исходный размер 1070x197

В рамках работы использовалась модель ChatGPT (OpenAI, GPT-5.3) для помощи с кодингом и работой с промтами.

Согласие кошки на использование материалов: «кеапнгрошщш76754444444444444кенпротьлллллыдвраоыаввввввввввв. 544444444енПХХХХХХХХЫВ».

Исходный размер 2000x255
Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную...
Показать больше