Original size 891x1374

Почему люди умирают?

PROTECT STATUS: not protected
The project is taking part in the competition
big
Original size 2400x500
big
Original size 400x220

Для визуализации данных и анализа был выбран датасет датасет с причинами смерти по странам и годам. Датасет был найден на сайте Kaggle, где в окне предварительного просмотра моно было заметить, что данные хорошо структурированы и достаточно объемны, поэтому в них будет легко искать интересные закономерности и тенденции.

Данные о причинах смерти интересны тем, что они показывают не только статистику, но и отражают состояние общества, уровень развития медицины и даже влияние политики на здоровье населения. Такой анализ позволяет понять, какие проблемы остаются актуальными, а где наблюдается прогресс (например, в развитии медицины и лечении инфекционных заболеваний).

Для визуализации используются разные типы графиков: линейные — для динамики изменений, столбчатые и гистограммы — для сравнения стран, круговые диаграммы для наглядного отображения процентного соотношения различных причин смерти. Каждый вид графика раскрывает что-то своё: динамику, распределение или соотношения, — поэтому вместе они дают более полную картину происходящего.

big
Original size 2400x500

Источником визуального вдохновения стал мультфильм Уолта Диснея «Танец скелетов» 1929 года. Кадры из него добавлены в исследование в качестве перебивок. Шрифт BrokgauzeEfron имитирует текст, напечатанный на печатной машинке, поддерживая общую концепцию. Цветовая гамма изначально была монохромной, но это делало графики плохо читаемыми, поэтому стандартные цвета были заменены на более приглушенные, отсылающие к плакатной графике 1930-х.

Original size 2400x500
Original size 576x326

Датасет был построен в формате, где каждая причина смерти — это отдельный столбец, а строки — это страна + год. Такой формат называется wide-format. Для анализа и визуализации часто удобнее работать в long-format, где есть три колонки:

Country | Year | Cause | Deaths

То есть одна строка = одна причина смерти в конкретной стране и году. Такой формат позволяет легко строить графики: barplot, lineplot, heatmap и т. д. Поэтому в начале был написан код для перевода данных в long-format.

Original size 2507x1342

Также датасет построен на английском языке. Было решено не менять структуру файла, поэтому здесь приведен перевод причин смерти, указанных в датасете.

1. Acute Hepatitis — Острый гепатит 2. Alcohol Use Disorders — Злоупотребление алкоголем 3. Alzheimer’s Disease and Other Dementias — Болезнь Альцгеймера и другие виды деменции 4. Cardiovascular Diseases — Сердечно-сосудистые заболевания 5. Chronic Kidney Disease — Хронические заболевания почек 6. Chronic Respiratory Diseases — Хронические респираторные заболевания 7. Cirrhosis and Other Chronic Liver Diseases — Цирроз и другие хронические заболевания печени 8. Conflict and Terrorism — Конфликты и терроризм 9. Diabetes Mellitus — Сахарный диабет 10. Diarrheal Diseases — Диарейные заболевания 11. Digestive Diseases — Заболевания органов ЖКТ 12. Drowning — Утопление 13. Drug Use Disorders — Расстройства, связанные с употреблением наркотиков 14. Environmental Heat and Cold Exposure — Переохлаждение и тепловой удар 15. Exposure to Forces of Nature — Воздействие природных факторов 16. Fire, Heat, and Hot Substances — Огонь, высокая температура и горящие вещества 17. HIV/AIDS — ВИЧ/СПИД Interpersonal Violence — Межличностное насилие 18. Lower Respiratory Infections — Инфекции нижних дыхательных путей 19. Malaria — Малярия 20. Maternal Disorders — Материнская смертность 21. Meningitis — Менингит 22. Neonatal Disorders — Неонатальные расстройства 23. Neoplasms — Новообразования Nutritional Deficiencies — Дефицит питательных веществ 24. Parkinson’s Disease — Болезнь Паркинсона 25. Poisonings — Отравление 26. Protein-Energy Malnutrition — Белково-энергетическая недостаточность 27. Road Injuries — Дорожно-транспортные происшествия 28. Self-harm — Селфхарм 29. Tuberculosis — Туберкулез

В начале, конечно, было интересно проследить, какая причина смерти была самой популярной в каждом году. В коде были прописаны строчки, ищущую главную причину для каждого года. После построения графика код был перепроверен на наличие ошибок. К сожалению, оказалось, что код правильны, и сердечно-сосудистые заболевания действительно лидируют по количеству уносимых жизней из года в год.

Original size 2656x1514
Original size 1386x690

Тогда был построен график с 10 самыми популярными причинами смерти за все года, приведенные в датасете. Для наглядности процентных соотношений погибших была построена именно круговая диаграмма. Как и ожидалось, главной причиной стали сердечно-сосудистые заболевания. На втором месте оказались новообразования. Топ-5 замыкают неонатальные заболевания, что свидетельствует о высокой младенческой смертности.

Original size 2626x1052
Original size 1013x761

Помимо лидирующих причин, было интересно выявить сильно выросшие и снизившиеся за последние 20 лет. Для этого нужно было из ранжированного списка не просто выбрать первые пять самых распространенных (или наоборот — редких), а посчитать рост каждой отдельной причины и сравнить уже эти данные.

0
Original size 1187x690
Original size 1187x690

На графиках видно, что смертность от инфекционных заболеваний снижается, в то время как смертность от хронических заболеваний растет. Это подтверждают и данные Всемирной организации здравоохранения (ВОЗ).

Это отражает глобальный феномен «эпидемиологический сдвиг» — переход от инфекционных заболеваний, характерных для бедных / развивающихся обществ, к хроническим, связанным со стилем жизни, возрастом и урбанизацией. Этот переход описан как ключевой тренд современного здравоохранения.

Так же можно отметить, что все растущие причины: (сердечно-сосудистые заболевания, рак, диабет, деменции (Альцгеймер), хронические респираторные заболевания) очень частно связаны с возрастом. Это может говорить о старении населения и увеличении доли людей 60+. Следовательно, даже если медицина улучшится, абсолютные значения смертности от этих болезней в мире всё равно будут расти.

Также важно заметить, что младенческая смертность (как было видно из круговой диаграммы, все еще является одной из главных причин смертности, при том что она входит в топ-5 снижающихся причин. Это говорит о том, что младенческая смертность по-прежнему остается важной задачей медицины, но меры ее профилактики уже дают значительные плоды.

Радует и снижение смертности от недостатка питательных веществ. Это может говорить о борьбе с бедностью, улучшении продовольственной безопасности ироста доходов в Азии и Африке.

0
Original size 1386x690

Этот график так же, как и прошлый, подтверждает тренд роста хронических заболевания и спада инфекционных. Более того, разрыв между этими показателями значительно вырос за последние 20 лет. Это может говорить как о глобальном старении населения (о чем мы уже упоминали), так и об улучшении медицины и сокращении бедности.

При этом мы сталкивается с ростом болезней образа жизни Рост ХОБЛ, диабета и сердечно-сосудистых заболеваний также связан с урбанизацией, малоподвижным образом жизни, ростом количества людей с ожирением, загрязнением воздух и снижением физического труда.

Original size 564x326

Далее было интересно рассмотреть страны со схожими причинами смертности. Нецелесообразно было рассматривать только ведущие причины, так как, исходя и прошлых графиков, можно предположить, что в большинстве стран ими окажутся сердечно-сосудистые заболевания и новообразования. Поэтому было важно написать код так, чтобы программа не учитывала причины, схожие для всех (или большинства стран). Также нужно было убрать из ранжирования страны, выбивающиеся из общей картины. Для этого было использовано правило 95 перцентиля.

0
Original size 982x609

Информативным оказалось распределение стран по кластерам по принципу схожести причин смертности.

Ось X показывает уровень развития и тип причин смертности. Слева: хронические болезни. Справа: инфекции, травмы, материнская и детская смертность. Ось Y — количество смертей от внешних причин и, соответственно, социальную нестабильность.

Левая часть (x < 0) представлена развитыми и развивающимися странами (Европа, Северная Америка, Латинская Америка, Южная Корея, Япония, Сингапур). В этих странах низкая смертность от инфекций, а основные причины смерти — хронические болезни, возрастные (сердечно-сосудистые, онкология). Большинство стран Европы скопилось очень плотно, что означает очень похожую структуру смертности.

Правая часть (x > 0) показывает страны с высокой смертностью от предотвратимых причин (Африка (особенно Центральная и Восточная), некоторые страны Азии и островные государств. Такое распределение указывает на высокую долю смерти от инфекционных болезней, высокую смертность от условий жизни (транспорт, бытовые травмы, материнская и детская смертность), слабую медицину).

Интересно, что Африка на данном графике — вытянутый кластер. Он распределён по диагонали, что говорит о больших различиях внутри региона: от относительно развитых (ЮАР, Ботсвана) до стран с экстремальным уровнем инфекций (Нигер, Мали, Чад).

Original size 2462x1130
Original size 1336x1210

Самым интересным оказался график корреляций между разными причинами смерти. Весьма закономерно из графика выбивается причина «конфликты и терроризм», у которой не прослеживаются корреляции ни с одной другой причиной.

Логична корреляции диабета и сердечно-сосудистых заболеваний (корреляция ≈ 0.80), так как диабет повышает риск сердечно-сосудистых заболеваний из-за поражения сосудов и метаболических нарушений. Также легко можно обосновать схожие показатели материнской и младенческой смертности (корреляция ≈ 0.80).

Алкогольная зависимость же находится в сильной корреляции с переохлаждением и тепловым ударом (≈ 0.95). На втором месте — огонь, высокая температура и горящие вещества (≈ 0.74), на третьем — межличностное насилие (≈ 0.71). Интересно, что корреляция с циррозом печени в данном анализе составляет всего ≈ 0.6.

Original size 2400x500
Original size 567x299

Таким образом, этот набор данных позволяет проследить интересные взаимосвязи и корреляции. На примере информации о причинах смерти можно увидеть, как развивается медицина, насколько эффективно общество справляется с хроническими и инфекционными заболеваниями, а также как экономические и социальные факторы влияют на здоровье населения. Анализ таких данных помогает не только выявлять тенденции, но и делать выводы о состоянии общества в целом.

Используемые нейросети: ChatGPT Perplexity

Нейросети использовались для расшифровок ошибок кода и анализа полученных данных.

Почему люди умирают?
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more