
Спорт — это не только зрелище, но и огромный массив данных, который позволяет анализировать успехи команд, карьерные траектории спортсменов и финансовые закономерности. Я выбрала тему анализа спортивной статистики, потому что она сочетает в себе динамичность, соревновательный дух и интересные закономерности, которые не всегда очевидны на первый взгляд.
Источники данных Для анализа я использовала открытые датасеты, в основном с платформы Kaggle и официальных спортивных сайтов:
Возраст и статистика игроков — FIFA Player Dataset из базы FIFA 23/24. История побед футбольных клубов — взята с Kaggle и Transfermarkt. Зарплаты футболистов — Transfermarkt + ESPN Sports. Олимпийские медали — исторические данные с Olympic.org и Kaggle.
Данные представляют собой таблицы в формате CSV, которые были загружены и анализированы с помощью Pandas и Seaborn.

Для визуализации данных я выбрала линейный график (для анализа динамики побед топовых футбольных клубов), точечную диаграмму (возраст футболистов и их эффективность), столбчатую диаграмму (сравнение зарплат с их результативностью) и гистограмму (для анализа побед страны-хозяйки Олимпиады с предыдущими годами).
Обработка данных
Для начала я импортировала необходимые мне библиотеки: numpy, matplotlib.pyplot и pandas. После чего считала скачанный csv-файл датасета.
После чего приступила к подготовке данных для точечной диаграммы.
Затем я нашла данные которые содержат информацию об общем рейтинге от FIFA 15 лет до FIFA 21 года. Отсортировав данные под возраст, общий рейтинг и имена спортсменов, был создан новый DataFrame.
Визуализация данных
import matplotlib.pyplot as plt — библиотека для создания графиков.
Далее создаётся точный график и подписи, а после визуализируется.
Точечная диаграмма
Второй график
Во втором графике я хотела рассмотреть историю побед футбольных клубов: какие команды доминировали в разные десятилетия?
Для этого мне понадобится линейный график, в котором я ограничусь определенными клубами).
Дополнительно я использовала цвета ассоциирующиеся с олимпиадными кольцами для приближения к спортивной тематике. Кроме того, цвет индиго в основной части проекта связан с с глубиной стратегии, концентрацией и внутренней силой. Этот оттенок символизирует интуицию, тактическое мышление и дисциплину, что особенно важно в видах спорта, где важны ум, расчетливость и выдержка.
Графическая диаграмма
Третий график
В третьем графике я рассматривала корреляцию заработной платы и результативностью игроков. лучше всего решить эту задачу смогла точечная диаграмма.
Чтобы не добавлять индекс как отдельный столбец:
df = df.reset_index (drop=True)
Точечная диаграмма
Четвертый график
В последнем графике было интересно посмотреть на конкретную физическую форму топовых игроков и её связь с ростом.
Параметр веса, возраста и расчета ИМТ будет выражает в значении «Плотность».
Лучше всего с данными было работать в гистограмме.
Гистограмма
Заключение
Анализ спортивных данных позволяет выявлять интересные закономерности и тренды, которые могут быть полезны как для профессионалов в индустрии, так и для любителей спорта. В ходе работы были исследованы различные аспекты, такие как возраст и рейтинг спортсменов, их физические характеристики, влияние опыта на успешность и распределение зарплат в разных видах спорта.
Благодаря визуализации данных стало проще увидеть ключевые тенденции и сделать выводы: например, как с возрастом меняется спортивная форма, какие характеристики важны для успеха, и какие факторы влияют на стоимость игрока.
Описание применения искусственного интеллекта
Chat-GPT 4.0 Помог мне на первых этапах с кодом, прояснял некоторые моменты, помогал с улучшением кода, находил и исправлял мелкие ошибки.
Deepseek Проверка кода, исправление неточностей, поиск изображений для проекта в открытом доступе.