Original size 373x540

Визуализация и анализ данных IMDB Top 1000

PROTECT STATUS: not protected

Описание

С сайта Kaggle я скачала датасет, содержащий топ 1000 фильмов IMDB за все время с некоторыми характеристиками, такими как жанры фильма, год выпуска, его рейтинг, его бюджет и так далее. Мне было интересно взять для анализа что-то связанное с кино, потому что я слежу за развитием этой индустрии, а также много его смотрю. Мною были проанализированы в основном характеристики, связанные с жанрами фильмов, были построены следующие графики: — линейные; — столбчатые; — круговая диаграмма. Эти типы графиков лучше всего подходили для решения нужных мне задач. В качестве основы для оформления я брала цветовую палитру Pyton Set3, все цвета были взяты из нее. Я постаралась визуализировать не слишком нагроможденные и удобные для понимания графики.

Анализ и визуализация

Изначально мне хотелось узнать самые часто встречающиеся жанры среди тысячи лучших фильмов, поэтому я построила столбчатый график, оставив на нем только 5 самых популярных жанров.

big
Original size 2705x909

Код 1

big
Original size 989x590

Получившийся график

На графике наглядно видно, что фильмов с жанром «Drama» больше всего. Меня заинтересовал жанр комедии, и я захотела посмотреть, как менялось количество лучших фильмов этого жанра по годам.

Original size 2717x1065

Код 2

Original size 630x470

График 2

После этого я решила сравнить получившийся результат с самым популярным жанром — драмой. Для этого на предыдущий график я добавила еще одну кривую, а также легенду, чтобы различить жанры.

Original size 2700x557

Код 3

Original size 630x470

График 3

После этого мне стало интересно, как жанры соотносятся с рейтингом фильма. Так как в датасете собраны лучшие фильмы, то и рейтинг у всех них был высокий, поэтому я решила определить соотношение жанров, получивших оценку больше 8.5. Итак, я построила круговую диаграмму, показывающее распределение фильмов, имеющих рейтинг более 8.5, по жанрам.

Original size 2706x893

Код 4

Original size 794x658

График 4

Я предполагала, что наиболее популярный жанр — драма — и будет получать наивысшие оценки, однако оказалось, что жанр «Western» имеет более высокий процент рейтинга больше 8.5. Возможно, это связано с количеством фильмов этих жанров, несмотря на то, что я считала долю именно в процентах.

Описание применения генеративной модели

В работе я иногда пользовалась ChatGPT для правильного синтаксиса при написании кода. Я указывала в промпте четкие указания пошагово, с помощью этого получая четкий и решающий мою задачу результат.

Промпты

Также при помощи Bing Copilot GPT была сгенерирована обложка для данного проекта.

Original size 1939x705

Промпт

Визуализация и анализ данных IMDB Top 1000
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more