Для анализа я выбрала набор данных о фильмах Disney, который был найден в открытом доступе. Данные содержат информацию о более чем 400 фильмах, выпущенных компанией Disney, включая такие параметры, как название фильма, год выпуска, продолжительность, бюджет, кассовые сборы, рейтинги IMDb и другие ключевые характеристики. Это делает данный набор достаточно полным и интересным для проведения различных видов анализа.
Принципы выбора этих данных:
- Культурное значение: Disney является одним из крупнейших конгломератов в индустрии развлечений, и его продукция на протяжении десятилетий оказывает влияние на киноиндустрию и массовую культуру.
- Широкий спектр возможностей анализа: Набор данных позволяет исследовать как финансовую эффективность фильмов (бюджет и кассовые сборы), так и творческие аспекты (продолжительность фильмов, рейтинг).
- Личное любопытство: Мне было интересно узнать, как менялись фильмы Disney с течением времени, какой у них был бюджет, а также насколько успешно они были приняты аудиторией по кассовым сборам и оценкам.
Для представления данных я решила использовать несколько типов графиков:
- Гистограмма для анализа распределения (например, продолжительности фильмов). Выбор гистограммы обусловлен тем, что данный тип графиков позволяет наглядно увидеть структуру распределения численных данных, таких как продолжительность или бюджет.
- Интерактивный график (Scatter Plot) с помощью Plotly для сравнения двух показателей, таких как бюджет и кассовые сборы. Данный подход удобен для более глубокого анализа взаимосвязей между переменными.
- Линейный график для исследования изменений во времени (например, динамики среднего бюджета фильмов с течением лет).


Для анализа данных о фильмах Disney я последовательно провела этапы обработки данных, чтобы подготовить их для визуализации и анализа. На каждом этапе я использовала Python-библиотеки для работы с данными и построения графиков. Дополнительно, я использовала AI-ассистента (Merlin) для подсказок по коду, оптимизации визуализаций и улучшения структуры работы.
«Описание применения генеративной модели»
Во время работы над проектом я использовала AI-ассистента (Merlin), чтобы:
- Оптимизировать код — я уточняла синтаксис и структуру Python, задавала промпты вроде «Как сделать гистограмму с градиентом цветов?».
- Улучшить визуализации — я спрашивала промпты вроде «Как лучше стилизовать график под шаблон viridis?» или «Как добавить интерактивный график со связями между бюджетом и сборами на основе Plotly». Это помогало достичь лучших результатов.
- Научиться разбирать ошибки — нейросеть помогла диагностировать ошибки кода, например, когда я неправильно вызывала ось для colorbar.
В результате анализа данных о фильмах Disney, получилось выявить ключевые тенденции. Распределение продолжительности фильмов показало, что большинство из них имеют длительность около 90–100 минут, что соответствует стандартам индустрии. Также было замечено, что данные о бюджете и кассовых сборах позволяют глубже изучить финансовую эффективность фильмов, несмотря на наличие пропусков в этих значениях. Построенные визуализации помогли наглядно представить распределение данных и выявить некоторые взаимосвязи, такие как зависимость между бюджетом и прибыльностью. Этот анализ подчеркивает как культурную, так и коммерческую значимость фильмов компании Disney.



