Обучение нейросети Stable Diffusion XL: genshin studies на HSE Design

Исходный размер 1290x739

Официальная иллюстрация с сайта URL: https://www.hoyolab.com/

Концепция

Genshin Impact — компьютерная гача-игра в жанре action-adventure с открытым миром и элементами RPG. «Гача» здесь говорит о фокусе на механике случайного получения каких-то игровых сущностей и их коллекционировании.

Появление нового персонажа является большим событием в сообществе. Бесчисленное количество лайков на новых анонсах, поминутные отсчеты до релизов и, конечно, «сливы» — неофициальная и часто низкокачественная съемка материалов, еще не дошедших до социальных сетей.

Может ли нейросеть достоверно сгенерировать фейковый «слив» персонажа? *

Благодаря понятной задаче были выделены четкие критерии датасета:

— визуальный стиль должен как можно больше ассоциироваться с игрой и ни с чем иным (так, например, отпадают «аниме» иллюстрации); — предпочтительны внутриигровые кадры; — изображение должно выглядеть так, как будто его получили случайно, не слишком стараясь или слишком торопясь; — для упрощения обучения модели необходимы однотипные изображения с соотношением сторон 1:1

Использованный датасет: genshin impact heads

Исходный размер 1346x942

Часть дасета «genshin-impact-heads»

Исходный размер 2190x297

Финальная выборка — 190 изображений

Процесс обучения (SDXL)

Базовая настройка: проверка GPU, установка зависимостей, вход в HF для ускорения обращений к нему, сетап локальной директории.
Импорт датасета genshin-impact-heads без локальной загрузки через kagglehub.
Пост-обработка датасета под цели обучения: отборнужных материалов в кол-ве 190 файлов в одну папку, приведение изображений к единому разрешению 256×256, проверка файлов.
Генерация сопровождающих источники промптов через BLIP, подготовка json файлов для нейросети.
До-обучение модели c помощью LoRA через DreamBooth: 700 шагов тренировки, чекпоинт на 400, разрешение вывода изображения 512, выдача по одной тренировочной картинке за раз.
Передача полученных весов на Hugging Face и дальнейшая работа с генерацией через библиотеку Diffusers.

Исходный размер 2221x282

Трудности BLIP с определением гендера персонажей на изображениях

Исходный размер 1592x829

Финальная конфигурация обучения модели

Генерации

Модель достаточно успешно справилась с задачей. Ей удается сымитировать нюансы игрового освещения и специфические «небрежные» ракурсы геймплейной камеры.

Исходный размер 1024x256

Промпты: «3D head model in GENSHIN style, " + «a boy with green hair», «a boy with black coat in a field», «a man with white hair looking up at the sky», «a boy with red hair looking at us»

Удачно также играет детализированность оригинальных персонажей — издали нейросети удается получить общий уровень визуального шума этих деталей. Те же детали, однако, и выдают генерацию в ближайшем рассмотрении.

Слева — персонаж Genshin Impact, кадр из датасета genshin-impact-heads; справа — генерация дообученной модели по промпту «3D head model in GENSHIN style, a boy with green hair on a rock»

Попимо освещения нейросеть также хорошо справляется с объемом волос и бликов, а также формой лица и теми «недогруженными» пейзажами заднего плана.

Исходный размер 1024x256

Промпты: «3D head model in GENSHIN style, " + «a man with red hair», «a person with red hair», «a woman with red hair», «a girl with red hair»

Использование генеративной модели в проекте

Stable Diffusion XL — основная модель для обучения (URL: https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0)
DreamBooth — дополнительный метод дообучения диффузий (URL: https://huggingface.co/docs/diffusers/training/dreambooth)
LoRA (Low-Rank adaptation) — способ дообучения большой модели (URL: https://huggingface.co/docs/diffusers/training/lora)
BLIP (Bootstrapping Language-Image Pre-training) — автоматизированная генерация описательного текста изображениям входного датасета (URL: https://huggingface.co/Salesforce/blip-image-captioning-base)

Гугл-папка: -Черновой исходник -Чистовик -Сгенерированные изображения

*Дисклеймер: исследование не ставит перед собой цель ввести кого-либо в заблуждение и в первую очередь проводилось для отработки приобретенных за курс навыков.