Original size 960x1200

Анализ данных из мужского тенниса: игроки, турниры, статистика

PROTECT STATUS: not protected

Концепция

Этот проект предлагает новый взгляд на то, как можно использовать данные для анализа профессионального тенниса. Он не только полезен для тех, кто интересуется аналитикой или спортивным маркетингом, но и показывает, как с помощью Python можно превратить статистику матчей и турниров в ценные инсайты.

Теннис — это один из самых популярных видов спорта в мире, и мне всегда было интересно изучить, как различные факторы, такие как рейтинги игроков, типы покрытий кортов и статистика матчей, влияют на их результаты. Этот набор данных предоставляет уникальную возможность визуализировать эти взаимосвязи, что делает его ценным и интересным для анализа. К тому же данные можно применять для прогнозов и выявления закономерностей в игре.

В рамках анализа я сосредоточусь на исследовании данных о мужском теннисе, включая рейтинги игроков, особенности покрытий кортов, распределение турниров и их динамику. Для работы я буду использовать популярные инструменты Python, такие как Pandas для обработки данных, Seaborn для построения графиков и Matplotlib для визуализации.

Данные были собраны с платформы Kaggle и охватывают важнейшие аспекты тенниса. Проект включает несколько ключевых этапов:

- Очистка и подготовка данных - Проведение исследовательского анализа (EDA) - Создание визуализаций, которые помогут выявить важные тенденции

Этот проект не просто превращает сложные массивы данных в удобные для восприятия графики. Он позволяет лучше понять закономерности в игре, что может быть полезно для прогнозирования результатов матчей, улучшения стратегии игроков или даже создания маркетинговых кампаний, основанных на фактах.

big
Original size 1350x156

Вид графиков

Для представления данных я решил использовать различные типы графиков, чтобы наглядно отразить интересующие аспекты:

Горизонтальная столбчатая диаграмма: Для отображения топ-игроков по количеству сыгранных матчей. Градиентные цвета добавляют визуальную глубину.

Линейный график: Для анализа числа сыгранных турниров по годам. Линия помогает отследить тренды в развитии тенниса.

Точечная диаграмма: Для изучения взаимосвязи между рейтингами игроков и их соперников. Это позволяет оценить, насколько равными были матчи по уровню.

Столбчатая диаграмма с группировкой: Для отображения распределения матчей по типам покрытий (травяные, грунтовые и хардовые корты) среди топ-турниров. Группировка помогает сравнивать популярность каждого типа покрытия в рамках турниров.

Визуальная концепция

Прежде чем приступить к анализу данных, я настроил цветовую палитру и стиль, вдохновившись основными атрибутами тенниса. Цвета покрытий кортов — травяных, грунтовых и хардовых — легли в основу палитры, а ключевой элемент тенниса, яркий теннисный мяч, стал главным акцентом для визуализаций.

Original size 1734x356
Original size 1352x492

Загрузка набора данных

В этом блоке кода я загружаю набор данных, посвященный мужскому теннису, напрямую с платформы Kaggle с помощью библиотеки KaggleHub. Данные включают несколько ключевых файлов:

players (man).csv — содержит информацию об игроках, включая их имена, количество сыгранных матчей и годы участия. players_tournament (man).csv — данные о турнирах, таких как их названия, годы проведения и раунды, сыгранные игроками. raw_kaggle.csv — общий файл с данными о матчах, включая результаты, рейтинги игроков и типы покрытий кортов. serve_kaggle.csv — содержит статистику подач игроков, например, соотношение выигранных и проигранных очков на подаче.

После загрузки файлов я использую библиотеку Pandas для преобразования этих данных в DataFrame. Это позволяет удобно работать с таблицами, выполнять фильтрацию, группировку и анализ информации на последующих этапах.

Original size 1346x414

Обработка данных и создание графиков

График 1: Топ-10 игроков по количеству сыгранных матчей»

На данном графике представлено распределение топ-10 игроков по количеству сыгранных матчей. Горизонтальная столбчатая диаграмма визуализирует имена игроков (по оси Y) и количество их матчей (по оси X). Для более наглядного представления данных используется градиентная цветовая палитра: светло-зеленый оттенок подчеркивает столбцы с наибольшими значениями.

0

Что мы рассматриваем:

Имена игроков: Каждый столбец соответствует конкретному игроку. Количество матчей: Значения подписаны справа от каждого столбца, чтобы обеспечить ясность. Цель графика:

Этот график позволяет выявить игроков с наибольшим игровым опытом (по количеству матчей). Это важно для анализа, поскольку большое количество матчей может свидетельствовать о стабильности, опыте или высокой активности игрока в профессиональных турнирах.

Чем это полезно:

Для тренеров и аналитиков: Помогает оценить, какие игроки имеют максимальный соревновательный опыт. Для маркетологов: Позволяет определить наиболее популярных или активных игроков, что может быть полезно для спонсорских решений. Для теннисных фанатов: Дает возможность сравнить карьерный объем игр у их любимых спортсменов.

График 2: Число сыгранных турниров по годам

График показывает, как менялось число сыгранных турниров по годам. Линия графика демонстрирует динамику, а точки на ней указывают на конкретные значения. Для выделения трендов использована светло-зеленая линия и черные точки с зеленой обводкой.

Что мы видим:

Годы: Расположены по оси X. Количество турниров: По оси Y и в виде числовых подписей над точками.

0

Цель графика:

Показать динамику участия в турнирах, чтобы выявить пики и спады активности.

Польза:

Для аналитиков: Отслеживание роста или снижения числа турниров. Для организаторов: Определение успешных периодов для планирования.

График 3: Распределение матчей по типам покрытий кортов (Топ-10 турниров)

Этот график отображает распределение матчей по типам покрытий кортов (грунт, трава, хард) для топ-10 турниров с наибольшим числом игр. Используется составная столбчатая диаграмма, где каждая часть столбца соответствует определенному типу покрытия.

Что мы видим:

Турниры: Указаны по оси X. Количество матчей: Указано по оси Y. Типы покрытий: Обозначены цветами (синий — хард, зеленый — трава, оранжевый — грунт) и представлены в легенде.

0

Цель графика:

График позволяет сравнить популярность и распределение матчей на различных покрытиях в рамках крупнейших турниров. Это помогает понять, какие покрытия преобладают в разных турнирах.

Польза:

Для аналитиков: Помогает оценить частоту использования каждого типа покрытия в популярных турнирах. Для игроков: Указывает, на каких покрытиях им предстоит играть чаще всего. Для организаторов: Демонстрирует, какие покрытия привлекают больше участников и зрителей.

График 4: Сравнение рейтинга игрока и его соперника (топ-50)

Этот график отображает взаимосвязь между рейтингами игроков и их соперников в матчах для топ-50 теннисистов. Каждая точка на графике представляет один матч, где по оси X указан рейтинг игрока, а по оси Y — рейтинг его соперника. Добавлена диагональная линия (y = x) для выделения матчей с одинаковыми рейтингами.

Что мы видим:

Игроки с высоким рейтингом: Расположены ближе к началу координат. Игроки с низким рейтингом: Находятся ближе к правой и верхней части графика. Диагональная линия: Подчеркивает матчи, где рейтинги игрока и соперника равны.

0

Цель графика:

Выявить, как часто игроки с близкими или равными рейтингами встречаются друг с другом в матчах. Это помогает анализировать конкурентоспособность и динамику турниров.

Польза:

Для аналитиков: Оценка уровня равенства в матчах. Для тренеров: Анализ того, как игроки справляются с соперниками с близкими рейтингами. Для организаторов: Определение уровня конкуренции в турнирах.

Выводы

В ходе анализа данных из набора Men’s Tennis Dataset были изучены ключевые аспекты, влияющие на результаты и динамику мужского профессионального тенниса. Работа позволила выявить и визуализировать следующие важные моменты:

Игровой опыт игроков: Горизонтальная диаграмма показала, что топ-игроки отличаются значительным количеством сыгранных матчей, что подчеркивает их стабильность и активность в карьере. Динамика турниров: Линейный график продемонстрировал, как число турниров менялось по годам, позволяя определить периоды роста и спада в теннисном календаре. Покрытия кортов: Составная диаграмма помогла оценить популярность различных типов покрытий в крупнейших турнирах, что может быть полезным для игроков и организаторов. Рейтинги игроков и их соперников: Точечный график показал распределение матчей в зависимости от рейтингов участников, подчеркнув частоту встреч между соперниками с близкими или равными уровнями.

Практическая ценность работы:

Для тренеров: Анализ данных помогает выявить сильные и слабые стороны игроков, а также оптимизировать тренировочные программы. Для организаторов: Результаты могут использоваться для планирования турниров и выбора покрытий, которые наиболее востребованы. Для маркетологов: Информация о популярных игроках и турнирах позволяет принимать более взвешенные решения по спонсорству и рекламе.

Источники

Google Colab — файл, содержащий полный код, пояснения и текст проекта.

Датасет — набор данных с платформы Kaggle, содержащий информацию о теннисистах, турнирах, покрытиях кортов и результатах матчей.

Adobe Color — инструмент для создания и настройки цветовой палитры, основанной на загруженном изображении.

Midjourney — сервис для генерации и разработки визуальной обложки проекта.

Анализ данных из мужского тенниса: игроки, турниры, статистика
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more