Original size 1950x2759

Генерация изображений альпак на основе Stable Diffusion

PROTECT STATUS: not protected

ТЕМА ПРОЕКТА

Обучение модели Stable Diffusion (через LoRA-адаптацию) на реальных изображениях альпак для генерации фотореалистичных сцен и портретов животных в различных условиях освещения и окружения.

КОНЦЕПЦИЯ

Идея проекта — научить нейросеть формировать изображения, максимально приближённые к фотографиям альпак, сохранив при этом естественную фактуру шерсти, пропорции тела и реалистичные выражения морды. Основная цель — показать, как дообучение модели позволяет не просто воспроизводить форму объекта, но и имитировать особенности реальной съёмки: глубину резкости, свет, перспективу и цветовой баланс.

ИСХОДНЫЕ ИЗОБРАЖЕНИЯ ДЛЯ ОБУЧЕНИЯ

0

РЕЗУЛЬТИРУЮЩАЯ СЕРИЯ ИЗОБРАЖЕНИЙ

0

Описание серии: Каждое изображение было сгенерировано на основе промптов, описывающих реалистичные сцены:

«a realistic portrait of an alpaca in sunlight, ultra-detailed fur, shallow depth of field» «two alpacas standing in a mountain field, natural lighting, realistic colors, 8k photo» «close-up photo of an alpaca with blurred background, cinematic light

РАЗВЕРНУТЫЙ КОММЕНТАРИЙ И ВИЗУАЛЬНЫЙ АНАЛИЗ

Анализ результатов:

Модель точно воспроизводит структуру шерсти: переданы как мягкие, так и жёсткие участки волосков. Свет проработан естественно — особенно при боковом и рассеянном освещении. Отдельные изображения демонстрируют «глубину кадра» и размытый фон (эффект боке), что усиливает реализм. Цветовая температура варьируется от холодных утренних до тёплых вечерних тонов.

Стилистические особенности:

- Реалистичная фактура шерсти и мягкие переходы цвета. - Чистые естественные оттенки — белый, кремовый, бежевый, серый. - Естественная анатомия и мимика животных. - Отсутствие цифровых артефактов и признаков генеративного искажения.

Неудачные генерации:

В отдельных случаях нейросеть допускала артефакты: искажённые пропорции головы, неестественно вытянутая морда или асимметричные глаза.

Иногда текстура шерсти выглядела чрезмерно «пластиковой» или с повторяющимися паттернами, что выдавало синтетическое происхождение изображения. Были зафиксированы случаи неправильного формирования ушей или рта, особенно при сложном освещении или наклонённой позе.

Соответствие концепции: Цель проекта достигнута — обученная модель создаёт изображения, неотличимые от реальных фотографий в большинстве случаев. Иногда нейросеть даже усиливает визуальные качества (чёткость деталей, баланс цвета), формируя эстетически выразительные «фото», которых не существовало в исходной выборке.

JUPYTER/COLAB НОУТБУК

Включает: - датасет с изображениями альпак - обучение LoRA и сохранение промежуточных чекпоинтов; - генерацию итоговой серии изображений. - датасет сгенерированых изображений

ИСПОЛЬЗОВАНИЕ GENAI

В проекте дополнительно использовался ChatGPT (GPT-5) для:

- составления промптов для генерации; - формулировки текстовых описаний для caption-пар;

Генерация изображений альпак на основе Stable Diffusion
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more