Исходный размер 853x1280

Анализ и визуализация документальных фильмов Netflix (2022)

PROTECT STATUS: not protected

Введение

В рамках проекта я проанализировала датасет с информацией о документальных фильмах, выпущенных на платформе Netflix в 2022 году. Данные представлены в формате CSV и содержат такую информацию как: название фильма, дата премьеры, длительность и язык оригинала.

Для исследования был использован датасет с информацией о документальных фильмах от Netflix, найденный на сайте kaggle: названия, даты релиза, продолжительность, а также оригинальный язык произведения. Данные представлены в формате CSV и включают около 60 фильмов, выпущенных студией за 2022 год. Данный датасет был выбран благодаря своей структурированности и тематике: он отражает особенности контента одного из крупнейших стриминговых сервисов и позволяет проследить культурные и временные закономерности в выпуске документальных фильмов.

Мне было интересно проанализировать документальные фильмы как отдельный тип медиа-контента, поскольку документалистика находится на стыке культуры, журналистики и визуального повествования. Netflix в последние годы активно инвестирует в документальные проекты, что делает этот тип контента особенно показательным для анализа: он отражает не только вкусы аудитории, но и редакционную политику платформы. Ценность этих данных заключается в возможности исследовать языковое разнообразие контента, предпочтительную длительность документальных фильмов, сезонность релизов, связь между временем выхода и характеристиками фильмов.

Для визуализации данных были выбраны разные типы графиков, каждый из которых решает конкретную аналитическую задачу: Столбчатые диаграммы — для сравнения категориальных данных (язык, месяцы). Гистограмма — для анализа распределения длительности фильмов. Линейный график — для отображения динамики релизов во времени. Такой набор позволяет рассмотреть данные с разных сторон и создать объясняющую визуализацию, а не просто набор иллюстраций.

Обработка данных

Для анализа данных использовалась библиотека pandas, позволяющая работать с табличными данными в формате CSV. На первом этапе были изучены структура датасета, типы данных и наличие пропущенных значений.

Используемые статистические методы

В проекте применялись методы описательной статистики. Для изучения категориальных данных использовался подсчёт частот, что позволило выявить наиболее распространённые языки документальных фильмов. С помощью группировки данных рассчитывалось количество фильмов по месяцам и средняя длительность фильмов. Анализ распределения длительности был выполнен с помощью гистограммы, что позволило определить типичный диапазон значений. Для анализа временной структуры данных применялось преобразование дат в формат datetime и извлечение временных признаков. Также были выполнены преобразования данных (перевод длительности в минуты), необходимые для корректного статистического анализа и визуализации.

Стилизация

Для стилизации визуализаций была использована единая цветовая палитра и библиотека Seaborn, что позволило добиться визуальной консистентности. Были настроены подписи осей, заголовки и размеры графиков для улучшения читаемости.

Этапы работы

На первом этапе была подготовлена рабочая среда: импортированы все необходимые библиотеки для анализа данных и визуализации.

Исходный размер 1280x86

После подготовки среды был загружен датасет в формате CSV, содержащий информацию о документальных фильмах Netflix.

Исходный размер 1280x69
Исходный размер 1280x189

На этом этапе я изучила общую информацию о датасете: количество строк, названия столбцов и типы данных.

Для возможности временного анализа дата премьеры была преобразована в формат datetime. Также были добавлены столбцы с номером и названием месяца.

Исходный размер 1280x72

Изначально длительность фильмов была представлена в строковом формате (часы и минуты). Для статистического анализа я перевела эти значения в минуты.

Исходный размер 1280x291

В качестве базового цвета был выбран оттенок #008080 (teal). Этот цвет часто используется в аналитических и информационных визуализациях, так как он не перегружает зрение, хорошо читается и ассоциируется с исследовательским контекстом.

Исходный размер 1076x129

Вместо использования большого количества разных цветов я выбрала монохромную систему на основе одного базового оттенка. Цветовая система проекта включает: светлые оттенки teal — для фона и второстепенных элементов, основной цвет #008080 — для ключевых данных, тёмные оттенки teal — для контуров и акцентов. Для этого была создана кастомная градиентная цветовая карта с помощью библиотеки matplotlib.colors.

Исходный размер 1280x81

Чтобы все графики выглядели как части одного проекта, я задала глобальные параметры оформления с помощью seaborn и matplotlib.

Исходный размер 1280x395

График 1. Языки документальных фильмов Netflix

Столбчатая диаграмма отображает количество документальных фильмов Netflix, выпущенных в 2022 году, в разрезе языков оригинала. Высота каждого столбца соответствует числу фильмов на конкретном языке. Использование одного цвета позволяет сосредоточиться на сравнении величин, а не на цветовых различиях.

Английский язык значительно доминирует над остальными. Это говорит о том, что Netflix ориентируется прежде всего на глобальную англоязычную аудиторию. При этом наличие фильмов на испанском, французском и других языках указывает на стремление платформы к культурному разнообразию и локализации контента. Netflix использует документальные фильмы как инструмент международного охвата, при этом сохраняя фокус на англоязычном рынке.

Исходный размер 1280x278
Исходный размер 773x492

График 2. Распределение длительности документальных фильмов

Гистограмма демонстрирует распределение длительности документальных фильмов в минутах. Каждый столбец показывает количество фильмов, попадающих в определённый диапазон длительности. Основная масса фильмов сосредоточена в диапазоне от примерно 80 до 100 минут. Короткие документальные фильмы встречаются значительно реже. Netflix делает ставку на полнометражный формат документалистики, близкий по структуре к художественному кино, а не на короткие репортажные формы.

Исходный размер 1280x337
Исходный размер 784x492

График 3. Количество релизов по месяцам

Линейный график отображает динамику выхода документальных фильмов в течение 2022 года. Каждая точка соответствует количеству фильмов, выпущенных в определённом месяце. Линия и заливка под ней помогают визуально отследить рост и спад активности релизов. Релизы распределены неравномерно. Наибольшее количество документальных фильмов выходит в начале года, после чего наблюдается постепенный спад. Документальные фильмы часто выпускаются в периоды повышенного интереса аудитории, что может быть связано с контентной стратегией Netflix и сезонными предпочтениями зрителей.

Исходный размер 1280x479
Исходный размер 775x548

График 4. Средняя длительность фильмов по месяцам

Столбчатая диаграмма отражает среднюю длительность документальных фильмов в зависимости от месяца их выхода. Каждый столбец показывает среднее арифметическое длительности фильмов, выпущенных в конкретный месяц. Самый высокий столбец дополнительно выделен визуальным акцентом. Средняя длительность фильмов меняется в течение года. В некоторые месяцы Netflix выпускает более длинные документальные фильмы, в другие — более компактные по формату.

Исходный размер 1280x428
Исходный размер 787x548

Использование ИИ

В процессе выполнения проекта использовалась генеративная модель ChatGPT для помощи в формулировке текстовых описаний, визуализации, создания обложки и структурирования презентации.

Анализ и визуализация документальных фильмов Netflix (2022)
Проект создан 16.01.2026
Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную...
Показать больше