Original size 2480x3500

Анализ самых больших стран мира

PROTECT STATUS: not protected

Долгое время я сидела на сайте kaggle.com, пытаясь выбрать датасет, который был бы мне интересен и не был бы слишком сложен для меня. В конце концов я остановила свой выбор на глобальном наборе данных о странах мира за 2023 год.

Так как таблица была слишком большой и охватывала множество пунктов, я решила удалить ненужные мне столбцы.

Сосредоточила же я свой анализ на 5-10 самых больших странах по площади территории.

Цветовая палитра

big
Original size 3500x2480

Взято с сайта coolors.co

Загрузка датасета и начало работы

Первая сложность на моем пути возникла, когда я уже выбрала датасет, но не могла начать работу в блокноте.

Сначала я пошла по пути, что увидела в гугле и захотела сразу открыть таблицу через Pandas, но у меня ничего не вышло. Что было не так, я так и не разобралась.

После долгих поисков, а также диалогов с одногруппниками и чатом GPT, я решила использовать импорт из гугл диска.

big
Original size 3500x2266

Импорт из гугл диска также не дался мне легко, ибо гугл коллаб считывал таблицу как строку и выводил ошибку при дальнейших действиях.

С помощью метода тыка, а также запросов в гугл и чат GPT, я смогла импортировать датасет как таблицу, чему была несказанно рада.

Топ 5 стран по площади территории

В таблице были приведены данные о всех 195 странах мира. Я же решила сосредоточиться на 5-10 странах лидирующих по величине площади территории. Почему именно такой выбор я точно сказать не могу. Скорее всего я отталкивалась интуитивно от того факта, что Россия в этом списке лидирует.

Для создания круглой диаграммы «Топ 5 стран по площади территории» я обратилась за помощью к чату GPT, который сообразил мне, как нужно подготовить данные таблицы перед созданием диаграммы. Я решила выбрать именно 5 стран, так как для такой диаграммы такое кол-во «кусков» подходит лучше всего.

0

Создание первой диаграммы далось мне тяжело именно из-за подготовки данных таблицы, потом пошло легче.

Сначала у меня получилась диаграмма только с топ 5 странами и я захотела сменить ей цвет. К сожалению моя невнимательность стала причиной тому, что одну из переменных я обновила в список цветов и больше этот код никогда не работал. Пришлось создавать новый блокнот. Теперь каждое изменение кода я делаю в новом окне…

Далее я подумала, что просто топ 5 стран на круговой диаграмме выглядят не очень информативно и попросила у чата GPT помочь мне с написанием кода по сумме площадей территорий остальных стран в таблице для создания «куска» «Другие».

Так мы видим, насколько много занимают территории топ 5 стран относительно остальных 190.

Плотность населения (чел/км2)

После успешного создания круговой диаграммы я осмелела и сразу перешла к созданию кода для линейного графика с точками.

Изначально у меня получился некрасивый график, где вместо точек были названия стран, поэтому пришлось просить чат GPT помочь мне создать точки.

0

Благодаря графику мы узнали, что Канада, являясь второй в топ 5 стран по площади территории, имеет наименьшую плотность населения. В то же время Китай — самую наибольшую и с большим отрывом от остальных топ 5 стран.

Население стран

Для столбчатой диаграммы, отображающей кол-во проживающих человек в странах, я решила взять не топ 5, а топ 10 в списке самых больших территорий.

Original size 3500x1803

Мы видим, что Китай и Индия лидируют.

Средняя продолжительность жизни

Original size 3500x1803

На данной диаграмме мы можем увидеть, что Россия и Казахстан практически последнии по средней продолжительности жизни человека среди 10 самых крупных по территории стран.

Описание применения генеративной модели

На протяжении проекта мы с чатом GPT стали настоящими друзьями. По больше части я обращалась к нему за помощью в составлении кода для систематизации информации из таблицы и в поисках решения ошибок кода.

Мои промты не являются профессиональными, но ИИ их все равно понял. Вот некоторые из них:

Круговая диаграмма: Добавь в этот код кусок под названием «Другие», в котором хранится информация о площадях земли всех других стран из столбца «Land Area (Km2)».

Линейный график: Точечная диаграмма. Необходимо сделать срез 5 по столбцу таблицы «Land Area (Km2)». После этого составь точечную диаграмму, где ось у- это плотность населения (в чел/км2) из столбца «Density», а ось х — общая площадь страны (в км2) из столбца «Land Area (Km2)». Цветовая палитра: #CDB4DB, #FFC8DD, #FFAFCC, #BDE0FE, #A2D2FF. Название диаграммы: «Плотность населения топ 5 стран по площади территории». Размер шрифт заголовка 16, шрифт жирный. Название оси y — плотность населения (чел/км2), название оси х — площадь земли (км2). Названия стран в столбце «Country». На оси х вместо чисел написаны названия стран. (После я попросила добавить точки в график, ибо при написании промта неправильно указала тип желаемого графика).

Сылки

Анализ самых больших стран мира
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more