Original size 1140x1600

Анализ данных о пассажирах Титаника

PROTECT STATUS: not protected

Концепция

Для данного проекта я выбрала датасет о пассажирах Титаника, размещённый на платформе Kaggle. Таблица содержит информацию о 891 человеке: их возрасте, поле, классе, цене билета, семейных связях и факте выживания. Данные представлены в формате CSV и подходят для анализа с помощью Pandas и визуализации в Python

big
Original size 4500x938

Меня очень зацепила эта тема не за счет известности катастрофы, а счет структуры. Титаник — это модель социума, записанная в числах. Формально — таблица, неформально — портрет выживания: кто спасся и почем, какую роль сыграла удача.

Зантересовала не реконструкция трагедии, а попытка рассказать историю через данные. Не документальность, а атмосфера. Не факт, а глубина

big
Original size 4653x2327

мудборд

big
Original size 1080x225

палитра

Проект опирается на метафору океанской глубины — каждый график соответствует определённой «глубине анализа». Графики в этом проекте — это отсылка к затонувшему судну. Каждый цвет — как новая глубина. Я хотела показать, как внутри одной трагедии можно выстроить визуальные уровни — от поверхностного считывания к более глубоким смысловым слоям.Основой визуального оформления стала метафора океанской глубины.

Вдохновением послужили подводные и ночные сцены — холодный свет, синий шум, мерцающие сигналы. Цветовая палитра проекта отсылает к морской глубине: тёмный фон #010817, оттенки бирюзового и графитового, минимальные акценты

Типографика: DejaVu Serif Все подписи и элементы унифицированы по стилю: единый размер шрифта, мягкие обводки, отсутствие сетки, атмосферная подача.

Для генерации обложки мной была использована нейросеть ideogram

Визуальный стиль не просто украшает данные — он поддерживает нарратив

Использование библиотек

В проекте были использованы три основные библиотеки: Pandas — для загрузки и обработки табличных данных, Matplotlib — для базовой настройки графиков, Seaborn — для визуализации с более сложной стилизацией. Также была настроена цветовая палитра и шрифт для единого визуального стиля

Original size 900x506

Обработка данных

Сначала были импортированы основные библиотеки: Pandas — для анализа, Seaborn и Matplotlib — для визуализации. Файл загружен в формате CSV, структура — табличная

Original size 900x506

Были обработаны пропуски в трёх ключевых колонках. Возраст и стоимость билета заполнялись медианой, порт посадки — модой (наиболее частым значением)

Original size 900x506

Из имени был извлечён титул пассажира (Mr, Mrs, Miss и т. д.), чтобы проанализировать роли

Original size 900x506

Для одного из графиков я использовала цифры из номеров билетов. Из каждого билета были извлечены только цифры, после чего для выживших подсчитано, какие из них встречались чаще

Original size 900x506

Цветовая палитра и шрифт были заданы вручную по референсам из мудборда. Фон всех графиков — тёмный (#010817), цвета — сдержанные, вдохновлённые морской глубиной

Original size 900x506

Визуализация данных

На первом уровне я исследовала распределение возрастов всех пассажиров. График помогает увидеть, что большинство людей на борту были молодыми взрослыми — от 20 до 35 лет. Это логично: именно эта возрастная категория чаще всего путешествовала, особенно в третьем классе. Также на корабле находились дети и пожилые, но значительно меньше.

Катастрофа затронула в первую очередь молодое трудоспособное население

0

Глубина 1. Поверхность: Возраст пассажира— от младенцев до стариков. Гистограмма

Я сравнила выживаемость по полу. График показывает, что женщины спасались значительно чаще — вероятно, по принципу «женщины и дети первыми». Мужчины, напротив, остались на палубе и стали жертвами катастрофы Использован barplot с поворотом подписей на -45 градусов, как отсылка к накренившемуся кораблю

0

Глубина 2. Кто спасся? Женщины — чаще. Мужчины — чаще оставались на палубе. Barplot

Построен линейный график выживаемости в зависимости от класса. График отсылает к структурной иерархии на борту: чем выше палуба и класс — тем выше шансы

Наблюдается явная зависимость между классом билета и шансами на спасение: пассажиры первого класса выживали чаще, чем второго, а тем более — третьего. Это говорит о неравенстве доступа к спасательным шлюпкам, физической близости к палубе и социальном статусе

0

Глубина 3. Цена билета и класс — путь к спасению. Линейный график

Из имён были извлечены обращения, отражающие роли и социальный статус. Диаграмма показывает, что большинство пассажиров были «Mr», за ним следуют «Miss» и «Mrs», а более редкие звания собраны в категорию «другие»

0

Глубина 4. Каждое имя — роль. Каждый титул — билет. Круговая диаграмма

На этом уровне я исследовала цифры в номерах билетов пассажиров, которые выжили. Выяснилось, что определённые цифры встречались чаще: например, 3, 1 и 7

0

Глубина 5. Цифры билета. Радиальная диаграмма

Описание применения генеративной модели

Для своей работы я использовала Chat-GPT версии 4.0. Он помог мне подготовить датасет, составить графики, а также проверить работу.

Для генерации обложки была использована нейросеть ideogram

Посмотреть промпты: https://docs.google.com/document/d/1DQVpgD5CN6wuZUWt0c5E7DkfcUjnu0DqyIgmB_biot0/edit?usp=sharing

Ссылка на Chat-GPT: https://openai.com/index/gpt-4/ Ссылка на ideogram: https://ideogram.ai/t/my-images/public

Анализ данных о пассажирах Титаника
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more