Original size 620x875

Создание стилизованных графиков по датасету

PROTECT STATUS: not protected

РУБРИКАТОР

1. Вводная часть 2. Обработка данных 3. Стилизация графиков 4. Графики 5. Описание применения генеративной модели 6. Ссылки 7. Источники информации

ВВОДНАЯ ЧАСТЬ

Для работы я выбрала датасет Coffee Taste Test из открытых данных сайта Kaggle.

Я выбрала этот датасет, потому что очень люблю кофе и обязательно выпиваю как минимум одну чашку каждый день. Мне стало интересно проанализировать какие-нибудь данные, связанные с кофе.

В своей работе я использовала четыре вида графиков: круговая диаграмма, столбчатая диаграмма, горизонтальная столбчатая диаграмма и коробочная диаграмма. Я подумала, что эти четыре больше всего подходят для стилизации под кофейную тему, поскольку круговая напоминает вид сверху на чашку, столбчатая — вид сбоку, горизонтальная — стол, а коробочная навивает мысли о коробках для кофе.

ОБРАБОТКА ДАННЫХ

Процесс обработки данных начался с подключения необходимых библиотек: pandas, matplotlib.pyplot, seaborn, numpy. Затем, я добавила датасет и вырезала из него только те колонки, которые буду анализировать.

big
Original size 999x540

Список колонок из таблицы, которые понадобятся

Дальше я прошлась по всем выбранным колонкам и посчитала сколько пропусков в каждой колонке.

Original size 755x558

Выявление пустых ячеек

Получив результат подсчета, я сформировала гипотезу: в данных есть люди, про которых мало что известно, и большинство пропусков относятся к ним. Чтобы ее проверить я посчитала количество людей с пропусками.

Original size 588x268

Количество людей с пропусками в данных

Оказалось, что строк с пропусками примерно 13% от общего числа. Я решила убрать проблемные строчки, поскольку еще останется 87% данных, по которым будет удобнее строить графики.

Original size 749x72

Убираем пустые строки

Далее я убрала лишние данные в строке «Пол», оставив только «Male» и «Female», а остальные объединила под названием «Other».

Original size 1370x286

Обработка данных колонки «Пол»

После этого я приступила к построению графиков по данным. Сначала я анализировала где и по какой причине люди пьют кофе. Результат представлялся в виде круговых диаграмм.

Original size 733x522

Выявление места и причины для питья кофе

Следующий график отражает любимые напитки и топпинги. Результат представлялся в виде столбчатых диаграмм.

Original size 760x729

Любимые напитки и топпинги

Следующая диаграмма отражает сколько чашек кофе пьют люди разных возрастов. Ширина полосы показывает процент людей по количеству чашек из 100%. Результат представлялся в виде горизонтальных диаграмм.

Original size 1239x233

Чашки кофе на возраст

После нее созданы подобные диаграммы с анализом предпочтений по крепости и прожарке среди людей разных возрастов.

Крепкость / Прожарка

Последние четыре диаграммы посвящены оценке четырех кофейных напитков у групп разных возрастов и с показателями по полу. Результат представлялся в виде коробочных диаграмм.

Original size 1650x472

Оценка напитков 1

Original size 1663x472

Оценка напитков 2

Original size 1659x462

Оценка напитков 3

Original size 1650x469

Оценка напитков 4

СТИЛИЗАЦИЯ ГРАФИКОВ

У меня не было конкретного референса для стилизации, я хотела придумать ее сама. Поэтому нашла только названия цвето, создала график-палитру с оттенками кофейных напитков и использовала эти цвета для окрашивания диаграмм. Также я прочитала, что можно создать паттерны из знаков ’’-’’, ’’/’’, ’’.’’, ’’*’’ и ’’||’’, поэтому некоторые графики дополнила паттернами.

Original size 572x401

Цветовая палитра

ГРАФИКИ

В данном случае, круговые диаграммы наилучшим образом показывают отношение наиболее популярных ответов.

Можно заметить, что самое популярное место — дома, а причина — он вкусный.

Original size 2390x1190

Круговые диаграммы: где люди пьют кофе и почему

Здесь больше категорий, поэтому нагляднее показать их столбчатой диаграммой.

Мы видим, что самые популярные типы напитков — пуровер (особый метод заваривания) и латте, а менее популярные — взбитый (как фраппе) и колд-брю.

Среди топпингов лидирует показатель кофе без топпинга (просто черный), а самый низкий у других вариантов, не вошедших в большие категории. Одинаковые показатели у молока, растительного молока и сливок.

Original size 1489x1190

Столбчатые диаграммы: любимые типы напитков и топпингов

Данные по возрастным группам было удобнее оформлять горизонтальными диаграммами, на которых видно процентное соотношения показателя (чашек кофе / крепкость / прожарка) по группе.

Original size 989x593

Количество чашек кофе на людей разных возрастов

Original size 989x593

Предпочтения по крепости кофе

Original size 989x593

Предпочтения по обжарке

Данные с результатами предпочтений после дегустации удобно показывать с помощью коробочных диаграмм. Они удачно презентуют распределение значений колонки, когда нужно сравнить несколько показателей (в данном случае: возраст, пол и результаты опроса).

Отзывы о напитках

Отзывы о напитках

ОПИСАНИЕ ПРИМЕНЕНИЯ ГЕНЕРАТИВНОЙ МОДЕЛИ

При создании графиков не использовались нейросети. Единственный элемент проекта, созданный с помощью нейросети — обложка. Она создана в нейросети Кандинский (Fusion Brain) по промту: «три прозрачные чашки с латте, капучино и сладким кофе стоят на столе рядом друг с другом, фон размытый с гирляндой».

ССЫЛКИ

ИСТОЧНИКИ

1. Датасет — Kaggle: https://www.kaggle.com/datasets/joebeachcapital/coffee-taste-test 2. Обложка — Fusion Brain: https://fusionbrain.ai/

Создание стилизованных графиков по датасету
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more