Введение
В рамках проекта я проанализировала датасет с информацией о документальных фильмах, выпущенных на платформе Netflix в 2022 году. Данные представлены в формате CSV и содержат такую информацию как: название фильма, дата премьеры, длительность и язык оригинала.
Для исследования был использован датасет с информацией о документальных фильмах от Netflix, найденный на сайте kaggle: названия, даты релиза, продолжительность, а также оригинальный язык произведения. Данные представлены в формате CSV и включают около 60 фильмов, выпущенных студией за 2022 год. Данный датасет был выбран благодаря своей структурированности и тематике: он отражает особенности контента одного из крупнейших стриминговых сервисов и позволяет проследить культурные и временные закономерности в выпуске документальных фильмов.
Мне было интересно проанализировать документальные фильмы как отдельный тип медиа-контента, поскольку документалистика находится на стыке культуры, журналистики и визуального повествования. Netflix в последние годы активно инвестирует в документальные проекты, что делает этот тип контента особенно показательным для анализа: он отражает не только вкусы аудитории, но и редакционную политику платформы. Ценность этих данных заключается в возможности исследовать языковое разнообразие контента, предпочтительную длительность документальных фильмов, сезонность релизов, связь между временем выхода и характеристиками фильмов.
Для визуализации данных были выбраны разные типы графиков, каждый из которых решает конкретную аналитическую задачу: Столбчатые диаграммы — для сравнения категориальных данных (язык, месяцы). Гистограмма — для анализа распределения длительности фильмов. Линейный график — для отображения динамики релизов во времени. Такой набор позволяет рассмотреть данные с разных сторон и создать объясняющую визуализацию, а не просто набор иллюстраций.
Обработка данных
Для анализа данных использовалась библиотека pandas, позволяющая работать с табличными данными в формате CSV. На первом этапе были изучены структура датасета, типы данных и наличие пропущенных значений.
Используемые статистические методы
В проекте применялись методы описательной статистики. Для изучения категориальных данных использовался подсчёт частот, что позволило выявить наиболее распространённые языки документальных фильмов. С помощью группировки данных рассчитывалось количество фильмов по месяцам и средняя длительность фильмов. Анализ распределения длительности был выполнен с помощью гистограммы, что позволило определить типичный диапазон значений. Для анализа временной структуры данных применялось преобразование дат в формат datetime и извлечение временных признаков. Также были выполнены преобразования данных (перевод длительности в минуты), необходимые для корректного статистического анализа и визуализации.
Стилизация
Для стилизации визуализаций была использована единая цветовая палитра и библиотека Seaborn, что позволило добиться визуальной консистентности. Были настроены подписи осей, заголовки и размеры графиков для улучшения читаемости.
Этапы работы
На первом этапе была подготовлена рабочая среда: импортированы все необходимые библиотеки для анализа данных и визуализации.
После подготовки среды был загружен датасет в формате CSV, содержащий информацию о документальных фильмах Netflix.
На этом этапе я изучила общую информацию о датасете: количество строк, названия столбцов и типы данных.
Для возможности временного анализа дата премьеры была преобразована в формат datetime. Также были добавлены столбцы с номером и названием месяца.
Изначально длительность фильмов была представлена в строковом формате (часы и минуты). Для статистического анализа я перевела эти значения в минуты.
В качестве базового цвета был выбран оттенок #008080 (teal). Этот цвет часто используется в аналитических и информационных визуализациях, так как он не перегружает зрение, хорошо читается и ассоциируется с исследовательским контекстом.
Вместо использования большого количества разных цветов я выбрала монохромную систему на основе одного базового оттенка. Цветовая система проекта включает: светлые оттенки teal — для фона и второстепенных элементов, основной цвет #008080 — для ключевых данных, тёмные оттенки teal — для контуров и акцентов. Для этого была создана кастомная градиентная цветовая карта с помощью библиотеки matplotlib.colors.
Чтобы все графики выглядели как части одного проекта, я задала глобальные параметры оформления с помощью seaborn и matplotlib.
График 1. Языки документальных фильмов Netflix
Столбчатая диаграмма отображает количество документальных фильмов Netflix, выпущенных в 2022 году, в разрезе языков оригинала. Высота каждого столбца соответствует числу фильмов на конкретном языке. Использование одного цвета позволяет сосредоточиться на сравнении величин, а не на цветовых различиях.
Английский язык значительно доминирует над остальными. Это говорит о том, что Netflix ориентируется прежде всего на глобальную англоязычную аудиторию. При этом наличие фильмов на испанском, французском и других языках указывает на стремление платформы к культурному разнообразию и локализации контента. Netflix использует документальные фильмы как инструмент международного охвата, при этом сохраняя фокус на англоязычном рынке.
График 2. Распределение длительности документальных фильмов
Гистограмма демонстрирует распределение длительности документальных фильмов в минутах. Каждый столбец показывает количество фильмов, попадающих в определённый диапазон длительности. Основная масса фильмов сосредоточена в диапазоне от примерно 80 до 100 минут. Короткие документальные фильмы встречаются значительно реже. Netflix делает ставку на полнометражный формат документалистики, близкий по структуре к художественному кино, а не на короткие репортажные формы.
График 3. Количество релизов по месяцам
Линейный график отображает динамику выхода документальных фильмов в течение 2022 года. Каждая точка соответствует количеству фильмов, выпущенных в определённом месяце. Линия и заливка под ней помогают визуально отследить рост и спад активности релизов. Релизы распределены неравномерно. Наибольшее количество документальных фильмов выходит в начале года, после чего наблюдается постепенный спад. Документальные фильмы часто выпускаются в периоды повышенного интереса аудитории, что может быть связано с контентной стратегией Netflix и сезонными предпочтениями зрителей.
График 4. Средняя длительность фильмов по месяцам
Столбчатая диаграмма отражает среднюю длительность документальных фильмов в зависимости от месяца их выхода. Каждый столбец показывает среднее арифметическое длительности фильмов, выпущенных в конкретный месяц. Самый высокий столбец дополнительно выделен визуальным акцентом. Средняя длительность фильмов меняется в течение года. В некоторые месяцы Netflix выпускает более длинные документальные фильмы, в другие — более компактные по формату.
Использование ИИ
В процессе выполнения проекта использовалась генеративная модель ChatGPT для помощи в формулировке текстовых описаний, визуализации, создания обложки и структурирования презентации.



