Анализ и прогнозирование стоимости автомобилей на HSE Design

Цель исследования:

Исследовать ключевые факторы, влияющие на цену автомобилей.
Создать нейронную сеть для прогнозирования стоимости.

Основные задачи:

Провести предварительный анализ данных. Исследовать распределение цены и выявить основные зависимости. Определить ключевые факторы, влияющие на стоимость автомобиля. Построить сводные таблицы и корреляционный анализ. Визуализировать зависимости с помощью графиков. Обучить нейронную сеть, оценить ее качество и визуализировать результаты. На базе нейронной сети сделать функцию для предсказания стоимости автомобиля по его параметрам.

Обработка данных:

Для начала я импортировала необходимые мне библиотеки: warnings, pandas as pd, seaborn as sns, matplotlib.pyplot as Далее я приступила к подготовке данных для тепловой карты. Для соотношения переменных между собой:

Распределение цен автомобилей

Здесь я выясняю какие марки или качества в машине самые дорогие, а также как классификация авто по виду топлива, которое ей подходит влияет на цену

Исходный размер 1870x662

Визулизация: цена | год выпуска | пробег | число владельцев

Здесь я провизуализировала в 3 плоскостях соотношение показателей, важных при покупке автомобиля

Исходный размер 1970x972

Визуализация данных:

Исходный размер 1798x1052

Влияние переменных друг на друга:

Год выпуска (Year):

Сильно коррелирует с ценой: чем новее автомобиль, тем он дороже. Имеет отрицательную корреляцию с пробегом: чем новее авто, тем, как правило, меньше его пробег. Пробег (Mileage):

Обратно пропорционален цене, что логично: чем больше пробег, тем ниже цена. Сильно связан с годом выпуска, так как старые автомобили имеют больший пробег. Объем двигателя (Engine_Size):

Имеет слабую положительную связь с ценой, что говорит о том, что дорогие автомобили чаще имеют более мощный двигатель. Количество владельцев (Owner_Count):

Слабо обратно коррелирует с ценой: чем больше владельцев, тем ниже цена, так как это может указывать на активную эксплуатацию или проблемы с автомобилем. Количество дверей (Doors):

Почти не влияет на цену, что подтверждает низкая корреляция. Основные выводы:

Главные факторы, влияющие на цену — это год выпуска, пробег и объем двигателя. Более новые автомобили с меньшим пробегом стоят дороже. Количество владельцев также оказывает влияние, но менее значительное. Объем двигателя влияет, но не критично — есть как мощные бюджетные авто, так и компактные дорогие модели.

Исходный размер 2032x928

Вывод:

Электромобили и гибридные авто имеют наибольший разброс цен, что говорит о высокой вариативности моделей. Бензиновые автомобили в среднем дешевле всех остальных типов.

Исходный размер 2084x820

Обучение нейронной сети для предсказания стоимости авто

Исходный размер 2026x1338

Как настроена нейронная сеть?

Данная модель — это глубокая многослойная нейронная сеть (DNN), состоящая из:

Входного слоя: принимает параметры авто. Нескольких скрытых слоев: анализируют данные и выявляют зависимости. Выходного слоя: выдает предсказанную цену. 1️⃣ Входной слой

Получает входные характеристики автомобиля: Brand, Model, Year, Engine_Size, Fuel_Type, Transmission, Mileage, Doors, Owner_Count Входные данные предварительно обрабатываются: Числовые признаки (год, пробег, объем двигателя) нормализуются с помощью StandardScaler, чтобы привести их к одному масштабу. Категориальные признаки (марка, модель, топливо) кодируются в числовой вид с OneHotEncoder. 2️⃣ Скрытые слои

5 скрытых слоев с разным количеством нейронов: 512 → 256 → 128 → 64 → 32 Активационная функция ReLU используется во всех скрытых слоях, потому что она: Помогает нейросети лучше обучаться. Избавляет от проблемы исчезающего градиента. 3️⃣ Выходной слой

Один нейрон, который предсказывает цену автомобиля. Не использует активацию (линейная регрессия), потому что нам нужно получать реальные числа.

Как проходит процесс обучения?

1️⃣ Прямой проход

Входные данные передаются в первый слой. Нейросеть умножает входные данные на веса. В каждом слое применяется ReLU, чтобы выделить важные признаки. На выходе получаем предсказание цены. 2️⃣ Функция ошибки

Используется MSE (Среднеквадратичная ошибка):

𝑀𝑆𝐸=1𝑁∑(𝑦истинное−𝑦предсказанное)2.

Чем меньше MSE, тем точнее предсказания.

3️⃣ Обратное распространение ошибки

Вычисляем градиент ошибки — насколько сильно ошиблась модель. Обновляем веса нейросети с помощью Adam-оптимизатора: Это умный градиентный спуск, который автоматически регулирует скорость обучения. Процесс повторяется до 2000 итераций, пока модель не достигнет R² ≈ 0.95.

График оценки точности обучения нейронной сети

Вывод:

Большинство точек расположены близко к диагонали, что подтверждает точность предсказаний модели. Есть небольшие выбросы, которые могут быть связаны с редкими моделями автомобилей.

Предсказание стоимости автомобиля по его параметрам

Исходный размер 2700x954

Общий вывод по анализу данных и нейронной сети

Анализ данных о ценах автомобилей

Проведенный анализ позволил выявить ключевые факторы, влияющие на стоимость автомобилей.

Основные выводы:

Основные факторы, влияющие на цену: год выпуска, пробег, объем двигателя. Тип топлива также играет роль: электромобили и гибридные автомобили в среднем дороже бензиновых и дизельных. Количество владельцев влияет на цену: автомобили с одним владельцем ценятся выше. Нейронная сеть для предсказания цены

Для прогнозирования стоимости автомобиля была разработана многослойная нейронная сеть (MLPRegressor). Она обучена на данных и использует архитектуру 512 → 256 → 128 → 64 → 32 нейрона в скрытых слоях.

Оценка модели:

Среднеквадратичная ошибка (MSE): 1382.84 — низкая ошибка предсказания. Коэффициент детерминации (R²): 0.9998 — модель практически идеально предсказывает цены. Выводы по модели:

Высокая точность предсказаний. Способность анализировать сложные зависимости в данных. Возможность использования для автоматической оценки стоимости автомобилей.

Итог

Проведенный анализ показал, что многослойные нейронные сети способны эффективно предсказывать цены автомобилей. Разработанная модель может быть применена автодилерами, страховыми компаниями, платформами по продаже автомобилей для оценки рыночной стоимости транспортных средств с высокой точностью.

Материалы:

https://drive.google.com/drive/folders/1sZzjTattI00bRUW1KsF5Bd1iydB1PNpr?usp=share_link