Original size 1140x1600

Пейзажи в стиле Хаяо Миядзаки: Обучение Stable Diffusion

PROTECT STATUS: not protected

Концепция:

Идея проекта заключается в дообучении модели Stable Diffusion 2.1 на базе датасета, включающего кадры из мультфильма Хаяо Миядзаки «Ветер крепчает». Цель проекта — создать нейросеть, способную генерировать изображения в стиле этого мультфильма, сохраняя его визуальные особенности, атмосферу и художественные элементы. Для обучения использовались изображения с характерными сценами и стилем анимации из фильма.

Тренировочная выборка включала 1753 изображений: кадры из фильма Миядзаки «Ветер крепчает». Это дома, поля, персонажи с характерной мягкой палитрой и вниманием к мелочам. Несколько примеров таких кадров:

0

Кадр 1. Случайный пейзаж из датасета Кадр 2. Одежда персонажей Кадр 3. Стиль зданий

Результат

После завершения обучения нейросеть была использована для генерации новой серии изображений. В этой серии представлены как динамичные сцены, так и статичные изображения, стилизованные под «Ветер крепчает»

0

Изображение 1. Волшебный лес, наполненный гигантскими грибами и вековыми деревьями Изображение 2. Величественный замок в стиле стимпанк Изображение 3. Персонажи в стиле Хаяо Миядзаки

Развернутый комментарий

Итоговая серия изображений, сгенерированных моделью, отражает основные стилистические особенности мультфильма «Ветер крепчает». На картинках можно увидеть детализированные фоны, мягкие контуры и насыщенную цветовую палитру, которая характерна для произведений Хаяо Миядзаки. Модель успешно передала элементы ретро-стиля, присущие как архитектурным объектам, так и одежде персонажей. Например, на изображениях легко заметить, как здания и растущие вокруг них двери сливаются с окружающим ландшафтом, создавая органичную связь между природой и искусственными объектами. Это является одной из отличительных черт стиля Миядзаки, где элементы природы, архитектуры и технологий гармонично переплетаются друг с другом. Подобная детализация была достигнута благодаря вниманию модели к мелким элементам, таким как текстуры поверхности, форма и линия.

Важным элементом этого процесса было применение LoRA (Low-Rank Adaptation), что сыграло ключевую роль в успешном дообучении модели. LoRA — это метод, позволяющий эффективно адаптировать большую модель, такую как Stable Diffusion, к новой задаче без необходимости кардинального изменения всей её структуры. Вместо того чтобы обучать модель с нуля, LoRA позволяет использовать предварительно обученную модель и дообучить её на специфическом датасете, добавляя только дополнительные параметры для специфической задачи. Это значительно снижает вычислительные расходы и сокращает время обучения.

В контексте этого проекта, LoRA позволил адаптировать модель под стиль мультфильма «Ветер крепчает», улучшив результаты при минимальных вычислительных затратах. В частности, этот метод позволил нейросети выделить важные характеристики стиля, такие как цвета, формы и текстуры, которые отличают произведения Миядзаки, и точно передать их в сгенерированных изображениях

Original size 1280x193

Загрузка датасета

Original size 1280x69

Промт к изображению

Использование ГенИИ в проекте

В рамках проекта я использовал ChatGPT для создания промптов, которые затем были использованы для генерации изображений с помощью модели. ChatGPT помог с формулировкой точных и детализированных запросов, отражающих особенности стиля и атмосферы мультфильма «Ветер крепчает». Эти промпты учитывали такие важные элементы, как цветовую палитру, характер линий, композицию сцен и детали персонажей, чтобы нейросеть могла более точно воспроизвести визуальные особенности фильма.

Ссылка на код

Пейзажи в стиле Хаяо Миядзаки: Обучение Stable Diffusion
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more