
Концепция
Кино — это не просто развлечение, это отражение культуры, истории и ценностей общества. Фильмы, которые становятся популярными и получают высокие оценки, часто говорят о том, что волнует людей в определенный период времени. Мне было интересно исследовать, как менялись предпочтения зрителей, какие жанры и темы становились популярными в разные годы, и какие факторы влияют на успех фильма.

Prompt: Create a film image that seamlessly transitions from yellow to orange and red. The film should be minimalistic, with small perforations at the edges. The background is neutral.
Какие данные я выбрала и где их нашла?
Я выбрала датасет IMDb Top 1000, который содержит информацию о 1000 самых популярных фильмах по версии IMDb. Данные включают:
— Название фильма — Год выпуска — Жанр — Рейтинг IMDb — Мета-оценка — Режиссер — Актеры — Длительность фильма — Кассовые сборы — Краткое описание
Этот датасет я нашла на платформе Kaggle, где он был доступен для свободного использования.

Prompt: Create an abstract image of graphs and diagrams in a warm YlOrRd palette (yellow, orange, red). Graphs should be stylized, without text, with smooth lines and transitions.
Почему мне было интересно проанализировать именно эти данные?
Эти данные имеют особую ценность, потому что:
1. Историческая ценность: IMDb Top 1000 охватывает фильмы за несколько десятилетий, что позволяет проследить, как менялись кинематографические тренды.
2. Культурное значение: Фильмы из этого списка — это не просто развлечение, а часть мировой культуры. Их анализ помогает понять, какие истории и темы находят отклик у зрителей.
3. Практическая польза: Анализ данных может быть полезен для кинокомпаний, режиссеров и сценаристов, чтобы понять, какие факторы влияют на успех фильма.
4. Визуальная привлекательность: Данные позволяют создавать красивые и информативные визуализации, которые делают анализ увлекательным и понятным для широкой аудитории.
Prompt: Create a stylized image of a glass of popcorn, made in a gradient from yellow to red. Popcorn should be abstract, with accents on warm colors. The background is neutral.
Какие виды графиков я решила сделать и почему?
1. Топ-10 фильмов по кассовым сборам: Горизонтальная столбчатая диаграмма — для наглядного сравнения кассовых сборов. 2. Распределение рейтингов IMDB по топ-10 жанрам: Гистограмма или Box Plot — для анализа распределения рейтингов по жанрам. 3. Топ-10 режиссеров по количеству фильмов: Столбчатая диаграмма — для сравнения количества фильмов у режиссеров. 4. Распределение фильмов по сертификатам: Круговая диаграмма — для отображения пропорций возрастных рейтингов. 5. Связь между длительностью фильма и рейтингом: Точечная диаграмма — для выявления корреляции между длительностью и рейтингом. 6. Тепловая карта среднего рейтинга по годам и жанрам: Тепловая карта — для анализа многомерных данных (год, жанр, рейтинг). 7. Распределение фильмов по сертификатам: Круговая диаграмма — для визуализации долей возрастных категорий.
Почему я выбрала палитру YlOrRd для визуализации данных?
Палитра YlOrRd
Палитра YlOrRd была выбрана мной, потому что она:
Эффективна: Помогает выделить ключевые данные и закономерности.
Универсальна: Подходит для всех типов графиков.
Эмоционально привлекательна: Теплые тона создают позитивное впечатление и привлекают внимание.
Контрастна: Позволяет легко различать значения, что особенно важно для анализа данных.
Процесс работы и графики
Перед началом работы над графиками я установила необходимые библиотеки и импортировала инструменты для анализа и визуализации данных. Затем загрузила набор данных IMDb через kagglehub, настроила шрифт для графиков и проверила структуру данных в DataFrame.
1. Столбчатая диаграмма
Для создания графика я очистила данные о кассовых сборах, преобразовав их в числовой формат, выбрала топ-10 фильмов по сборам и построила столбчатую диаграмму с помощью seaborn. На графике видно, что Star Wars: Episode VII — The Force Awakens лидирует по кассовым сборам, за ним следуют Avengers: Endgame и Avatar. Такая диаграмма позволяет мне легко сравнить успешность фильмов и выделить лидеров.
2. Гистрограмма
Я анализирую распределение рейтингов IMDB по топ-10 жанрам. Сначала я проверяю наличие столбцов 'Genre' и 'IMDB_Rating' в DataFrame и удаляю строки с отсутствующими значениями. Затем я определяю топ-10 жанров по количеству фильмов и фильтрую данные, оставляя только эти жанры. После этого я создаю violin plot для визуализации распределения рейтингов IMDB по выбранным жанрам, добавляю заголовок и подписи к осям, чтобы график был понятным и информативным. График позволяет мне увидеть, как рейтинги распределены внутри каждого жанра и сравнить их между собой.
3. Столбчатая диаграмма
Тут я анализирую топ-10 режиссеров по количеству фильмов в списке топ-1000 IMDb. Сначала я подготавливаю данные, создавая DataFrame с именами режиссеров и количеством их фильмов. Затем я настраиваю стиль графиков с помощью seaborn и создаю bar chart (столбчатую диаграмму), чтобы визуализировать эту информацию. На графике я добавляю заголовок, подписи осей и значения на столбцы для улучшения читаемости. Данный график позволяет мне наглядно увидеть, какие режиссеры чаще всего представлены в топ-1000, и сравнить их между собой.
4. Круговая диаграмма
Для создания круговой диаграммы я анализирую распределение фильмов по сертификатам в IMDb. Заменяю пропуски на 'Not Rated', объединяю похожие сертификаты и группирую редкие в «Другие». Создаю круговую диаграмму с цветовой палитрой 'YlOrRd', добавляю легенду и заголовок. Это помогает мне визуализировать, какие сертификаты наиболее распространены.
5. Точечная диаграмма
Тут я анализирую связь между длительностью фильмов и их рейтингом IMDB. Сначала я проверяю наличие столбцов 'Runtime' и 'IMDB_Rating', преобразую их в числовой формат и удаляю строки с пропущенными значениями. Затем я создаю scatter plot (точечный график), чтобы визуализировать зависимость между длительностью фильма и его рейтингом. На графике я добавляю заголовок, подписи осей, сетку и настраиваю внешний вид ёдля улучшения читаемости. Данный график позволяет мне увидеть, есть ли связь между продолжительностью фильма и его оценкой.
6. Тепловая карта
Для создания тепловой карты я анализирую средний рейтинг фильмов по годам и жанрам. Проверяю данные, преобразую год выпуска в числовой формат и удаляю пропуски. Группирую данные по году и жанру, рассчитываю средний рейтинг и создаю тепловую карту с палитрой 'YlOrRd'. Добавляю заголовок и подписи для наглядности. Тепловая карта помогает увидеть, как рейтинги меняются в зависимости от года и жанра.
7. Круговая диаграмма
Тут я анализирую распределение фильмов по десятилетиям выпуска. Сначала я преобразую столбец 'Released_Year' в числовой формат и удаляю строки с пропущенными значениями. Затем я создаю диапазоны лет (десятилетия) и группирую данные по ним, чтобы посчитать количество фильмов в каждом десятилетии. После этого я создаю круговую диаграмму с использованием цветовой палитры 'YlOrRd', добавляю легенду, заголовок и настраиваю отображение процентов для улучшения читаемости. Круговая диаграмма позволяет мне наглядно увидеть, как количество фильмов распределено по десятилетиям.
Описание применения генеративной модели
Я использовала ChatGPT и DeepSeek для оптимизации и улучшения кода, чтобы сделать его более эффективным и читаемым. Эти инструменты помогли мне исправить ошибки, упростить сложные конструкции. Также я обращалась к ним за помощью в написании промтов для генерации изображений, чтобы визуализации были более наглядными и соответствовали моим требованиям.
Я использовала Leonardo Ai и Ideogram Ai для генерации обложки и картинок для презентации. Эти инструменты помогли мне создать визуально привлекательные и тематически соответствующие изображения
Промпт для генерации обложки: Create a minimalist and modern cover for an IMDb Top 1000 data analysis project. The cover should feature elements related to cinema: film reels, a movie camera, graphs, or charts. Use a warm YlOrRd palette (yellow, orange, and red tones) to create a vibrant and appealing design.
Заключение
В своем проекте я проанализировала данные IMDb о топ-1000 фильмов, чтобы выявить ключевые закономерности. Я изучила кассовые сборы, рейтинги, жанры, режиссеров, сертификаты и распределение фильмов по десятилетиям. Мои графики показали, что такие фильмы, как Star Wars: Episode VII и Avengers: Endgame, лидируют по сборам, а драмы и криминальные фильмы чаще получают высокие рейтинги. Также я обнаружила, что Альфред Хичкок и Стивен Спилберг чаще других попадают в топ-1000. Большинство фильмов имеют сертификаты «R» и «PG-13», а наибольшее количество фильмов из списка было выпущено в последние десятилетия. Данные выводы помогают лучше понять тенденции в киноиндустрии и популярность различных категорий фильмов.