Исходный размер 1140x1600

MULTI Вселенная

Проект принимает участие в конкурсе

ЗАДАЧА

Главная цель заключалась в обучении генеративной нейросети под свой стиль или объект. Далее, требовалось использовать пример кода, чтобы обучить генеративную нейросеть Stable Diffusion: Рисованию картин в каком-то специфическом стиле; — для рисования специфического объекта/персонажа.

1. КОНЦЕПЦИЯ

В своих прошлых проектах я вручную отрисовывала забавных 2Д персонажей для разработки концепции мерча с героями программы городских квестов для родителей и детей «Играй в Москву!», которые вновь стали главными основоположниками, уже данного проекта. Мне хотелось обучить нейросеть рисовать подобных забавных и интересных мультипликационных персонажей. Ссылка на проект: https://portfolio.hse.ru/Project/201830

Исходный размер 1282x766

Персонажи-основоположники

Исходные изображения для обучения

Исходные изображения для обучения

2. РЕЗУЛЬТАТИРУЮЩАЯ СЕРИЯ ИЗОБРАЖЕНИЙ

Исходный размер 1024x1024

3. РАЗВЕРНУТЫЙ КОММЕНТАРИЙ

Базовая SDXL хорошо делает фотореализм, но плохо держит чистые линии и мультяшную эстетику. Датасет состоял из 50 изображений персонажей в мультяшном стиле. Для каждого изображения с помощью BLIP были сгенерированы текстовые описания. Было сгенерировано 5 изображений на разные промпты для проверки усвоения стиля. Результаты: модели удалось зацепить стиль, но качество изображений отстает от оригинала. Чтобы решить эту проблему, требовалось выделить больше времени на обучение модели, однако мне его немного не хватило, но считаю текущий результат успешным в рамках задания.

В итоговой серии видно, что были успешно переданы ключевые элементы стиля: чистые контуры, упрощенные формы, большие выразительные глаза. Модель не переобучилась — она генерирует разных персонажей и сцены, которых не было в обучающей выборке, сохраняя единую стилистику. Использование VAE fix позволило избежать цветовых искажений. Генерации различаются по сюжету, композиции и текстурам, но стиль остается стабильным, что подтверждает успешность обучения.

post

Для наглядности, раньше до обучения по такому же промпту выдавалось такое изображение:

А после обучения явно виден перенос стиля

5. СТОРОННИЕ УЛУЧШЕНИЯ

Да, использовались. BLIP — для автоматической генерации описаний при подготовке датасета.

MULTI Вселенная
Проект создан 24.03.2026
Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную...
Показать больше