Обучение генеративной модели на стиле винтажных ботанических карточек на HSE Design

Концепция

Выбор данной темы обусловлен интересом к эстетике винтажной ботанической иллюстрации — визуальному языку, который соединяет научную точность, декоративность и историческую печатную культуру. В отличие от современной цифровой графики, старинные ботанические карточки обладают устойчивым набором характерных признаков: центральной композицией с одним растением, вертикальным форматом, состаренной фактурой бумаги, декоративной рамкой и мягкой приглушённой палитрой.

Цель проекта — обучить генеративную модель Stable Diffusion XL воспроизводить визуальный стиль винтажных ботанических карточек и затем использовать её для создания новых, несуществующих цветочных изображений в том же художественном языке. В рамках проекта важно было проверить, насколько модель способна перенять не конкретные изображения, а именно устойчивые стилевые признаки: композицию, цветовую гамму, фактуру и общий характер старинной печатной иллюстрации.

Примеры изображений, использованных для обучения генеративной модели

Выбранная тема удобна для обучения модели даже на небольшом датасете, поскольку все изображения имеют высокую визуальную согласованность. Их объединяют схожая композиционная схема, однотипная подача объекта, рамочная структура, историческая печатная фактура и ретро-палитра. Благодаря этому даже ограниченный набор примеров позволяет модели уловить общий стиль и воспроизводить его в новых генерациях.

Датасет

Для обучения модели был собран компактный датасет из 12 изображений винтажных ботанических карточек. В качестве визуального источника использовались исторические изображения цветов из коллекции The Metropolitan Museum of Art.

Примеры изображений, использованных для обучения генеративной модели

На этапе подготовки датасета изображения были приведены к единому формату. Нижняя часть карточек с подписями была частично удалена, чтобы модель не начинала воспроизводить случайный текст и псевдобуквы. После этого изображения были кадрированы по центру и приведены к квадратному формату 1:1 с разрешением 512 × 512 пикселей.

Исходный размер 2076x2812

Источник: https://www.metmuseum.org/ru/art/collection/search?q=flowers&offset=1080

При отборе изображений особое внимание уделялось не ботанической точности конкретных видов, а именно повторяемости визуального языка. А именно: вертикальная подача объекта, ограниченная цветовая палитра, декоративная рамка, винтажная бумажная фактура и изолированное расположение растения в центре изображения.

В датасет включались карточки, на которых хорошо считываются основные признаки стиля

Примеры изображений, использованных для обучения генеративной модели

Процесс обучения модели

Работа выполнялась в среде Google Colab с использованием GPU. В качестве базовой модели была выбрана Stable Diffusion XL 1.0, а дообучение осуществлялось методом DreamBooth + LoRA. Такой подход позволяет не переобучать модель полностью, а адаптировать её под конкретный визуальный стиль с помощью относительно небольшого датасета.

Примеры изображений, использованных для обучения генеративной модели

На первом этапе в среду Colab были загружены исходные изображения, после чего выполнена их предварительная обработка: распаковка архива, кадрирование, удаление нижней части с подписями и приведение файлов к единому разрешению 512 × 512 пикселей. Подготовленные изображения были сохранены в отдельную папку и использованы как обучающий набор.

Далее были заданы основные параметры обучения: путь к датасету, директория сохранения результатов, текстовое описание обучаемого стиля и число шагов обучения. В качестве основного промпта использовалась формулировка «a botanicardstyle vintage botanical card», где уникальный токен botanicardstyle обозначал новый стилевой признак, который модель должна была усвоить.

Исходный размер 1778x305

Обучение производилось на базе скрипта train_dreambooth_lora_sdxl.py. В процессе были выбраны облегчённые настройки, позволяющие выполнить обучение в условиях ограниченного времени и ресурсов: разрешение 512 пикселей, небольшое число шагов, использование смешанной точности вычислений и оптимизаций памяти. Это позволило успешно получить веса LoRA и затем подключить их к базовой модели для генерации итоговой серии изображений.

Исходный размер 1246x607

После завершения обучения была загружена базовая модель Stable Diffusion XL, к которой были подключены полученные веса LoRA. Далее модель использовалась для генерации новых изображений по текстовым промптам. Все промпты были построены вокруг общей структуры винтажной ботанической карточки, но различались типом вымышленного цветка, цветовой характеристикой и атмосферой.

Ссылка на блокнот: Открыть Google Colab

Результирующие изображения и их анализ

Результирующие изображения

В результате обучения была получена серия новых изображений, выполненных в стилистике винтажных ботанических карточек. Несмотря на то, что итоговые цветы являются вымышленными, в большинстве работ хорошо сохраняются ключевые признаки обучающего датасета: центральная композиция, изолированный объект, мягкая ретро-палитра, ощущение старой бумаги и характерная декоративная подача.

Исходный размер 1024x1024

Результирующие изображения

Наиболее удачно модель воспроизводит общий формат карточки и характер цветочного объекта. Особенно хорошо считываются вытянутые формы стеблей, лепестков и соцветий, а также общая стилистика старинной печатной иллюстрации. Благодаря этому изображения воспринимаются как элементы одного условного ботанического атласа, даже если сами цветы не существуют в реальности.

При этом результаты различаются по степени точности. В наиболее удачных генерациях хорошо сохраняются и структура цветка, и общая композиционная логика карточки. В менее стабильных примерах возможны отдельные артефакты: неточности в форме лепестков, неестественные изгибы стеблей, неравномерная детализация или условность рамки. Однако эти отклонения не разрушают общую стилевую цельность серии.

Результирующие изображения

Можно сделать вывод, что модель сумела усвоить не просто внешний вид нескольких конкретных карточек, а совокупность их основных визуальных признаков. Даже при небольшом датасете и ограниченном времени обучения удалось получить узнаваемую серию изображений, в которой историческая ботаническая стилистика переносится на новые, вымышленные цветочные формы.

Результирующие изображения

Исходный размер 1024x1024

Результирующие изображения

Таким образом, генеративные модели в данном проекте использовались не только как инструмент автоматического создания изображений, но и как средство исследования того, насколько нейросеть способна перенимать и воспроизводить исторически узнаваемый художественный стиль на основе ограниченного датасета.

Описание применения генеративных моделей

В проекте использовалась генеративная модель Stable Diffusion XL 1.0 (https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0). Она выступала в качестве базовой text-to-image модели, на основе которой выполнялось дальнейшее дообучение под выбранный визуальный стиль.
Для адаптации модели применялся подход DreamBooth + LoRA (https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0). DreamBooth использовался как способ дообучения модели на небольшом наборе изображений, а LoRA — как более лёгкий способ сохранить результат обучения в виде отдельных весов без необходимости изменять всю базовую модель.
Генеративный ИИ (https://chatgpt.com/) применялся в проекте на двух этапах: во-первых, для обучения модели на выбранном стиле винтажных ботанических карточек; во-вторых, для генерации новой серии изображений, которые не копируют исходные образцы напрямую, а развивают усвоенный визуальный язык.