Original size 587x782

Удивительный изюм: анализ разновидностей изюма

PROTECT STATUS: not protected

Концепция

big
Original size 1340x249

В этом проекте я проанализировала данные морфологических характеристик изюма для классификации сортов, а именно — Кечимен и Бесни — для их дальнейшей классификации и дифференциации.

big
Original size 961x170

Изначально причина этого исследования несла в себе исключительно юмористический характер, так как, увидев этот набор данных на сайте Kaggle (kaggle.com), мне стало забавно, что кто-то потратил время и силы на формирование датасета про изюм.

Поэтому я решила потратить свои время и силы на визуальный анализ данных про этот самый изюм, так как мне стало интересно сделать графики и подобрать взаимосвязи не самых очевидных признаков.

big
Original size 676x108

Набор данных включает 7 морфологических характеристик каждого зерна, рассчитанных на основе их изображений: - площадь (количество пикселей в пределах границы изюминки) - длина главной и малой оси - эксцентриситет (показатель того, насколько вытянут изюм по сравнению с идеальным кругом) - выпуклая область - масштаб - периметр - класс

big
Original size 961x170

Для исследования были выбраны следующие виды графиков: - сложенная столбчатая диаграмма (наглядно показать средние значения морфологических характеристик для сортов) - диаграмма рассеяния (исследовать взаимосвязь между характеристиками, так как этот вид диаграмм дает возможность визуализировать корреляции и закономерности данных) - тепловая карта корреляций (выбрать наиболее значимые для дальнейшего анализа признаки) - гистограммы распределений (дает представление о вариациях и схожести характеристик между сортами)

Original size 1340x249

Использованные библиотеки

В данном коде используются следующие библиотеки: pandas (pd) для работы с файлами, matplotlib.pyplot (plt) для создания основной визуализации, seaborn (sns) для стилизации графиков, а также numpy (np) для выполнения вычислений и работы с массивами данных.

Original size 1284x380

Обработка данных

Original size 1340x249

Я начала свой анализ данных с автоматической классификации столбцов в датафрейме df, чтобы разделить их три группы: числовые столбцы, категориальные столбцы и категориальные столбцы с высокой кардинальностью (большим количеством уникальных значений)

Original size 906x193
Original size 676x108

Визуализацию данных я прописывала с настройки стиля и создания фигуры, после чего задавала цветовую палитру.

Палитра выбрана в коричневых оттенках с акцентным желтым цветом, потому что она ассоциируется с разновидностями сортов изюма.

Original size 883x123
Original size 961x170

Дальше построение основы графика вместе с настройкой визуальных элементов.

Original size 935x142

Последний шаг — корректирование компоновки графика (регулирование отступов и размера), отображение графика и вызов функции передачей датафрейма.

Original size 688x91
Original size 1340x249

Визуализация данных

Original size 1340x249
Original size 2172x1557

Эта гистограмма предоставляет визуальную информацию о распределении значений числовых характеристик изюма, таких как Area, Perimeter, Convex Area, и других, помогая понять, как эти параметры варьируются и где сосредоточены основные значения.

Так, даже в столь не стандартных признаках мы можем сделать вывод их этого графика, например:

Из плотных распределений для разных классов можно указать метрики, чтобы использовать их для классификации сортов изюма.

Из гистограммы можно найти редкие значения, которые могут быть ошибками в данных или уникальными объектами (изюминками).

Original size 1340x249
Original size 1332x706

Эти гистограммы отображают распределение числовых характеристик, таких как площади, периметры, эксцентриситет и другие морфологические параметры зерен изюма.

Визуализация этих данных, может дать лучше понять, как распределены различные признаки и выявить потенциальные аномалии или паттерны сортов.

Original size 1340x249
Original size 2174x1421

Этот график представляет собой диаграмму рассеяния, где отображена зависимость между площадью зёрен изюма и длиной выпуклой оболочки.

Отсюда мы видим, что классы сильно пересекаются, скорее всего это свидетельствует о том, что для различения сортов изюма нам нужны другие признаки.

Original size 1340x249
Original size 2699x2418

Этот график я считаю главной изюминкой проекта. Он был выбрал для измерения степени линейной зависимости между переменными, насколько они связаны или противоположны.

Например, темно-красный цвет указывает на отрицательную корреляцию, а значит мы можем проследить какие данные изменяются противоположно друг другу. Например, «Eccentricity» и «Extent», с увеличением эксцентриситета (объект становится более вытянутым), площадь объекта относительно ограничения уменьшается.

Ярко-желтый же показывает какие переменные изменяются в одну сторону. Например, «Perimeter» и «Area», то есть более крупные зерна имеют больший периметр.

Удивительный изюм: анализ разновидностей изюма
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more