Original size 1140x1600

Анализ базы данных не раскрытых особо тяжких преступлений

PROTECT STATUS: not protected

Анализ базы данных не раскрытых особо тяжких преступлений

Вводная часть

Для своего исследования я выбрал данные о количестве нераскрытых особо тяжких преступлений, зафиксированных в различных регионах и субъектах Российской Федерации. Источником информации выступает открытый портал crimestat.ru, предоставляющий данные в формате XML.

Анализ подобной статистики имеет прикладную ценность: он позволяет выявить региональные особенности в раскрываемости тяжких преступлений и может быть использован для повышения эффективности работы правоохранительных органов и органов государственной власти.

В процессе анализа я использую визуализацию данных — в частности, строю круговые и линейные диаграммы, чтобы представить информацию более наглядно и облегчить её восприятие.

1. Топ-15 регионов по количеству нераскрытых особо тяжких преступлений (2020)

1. Загрузим XML-файл

big
Original size 1406x258

2. Преобразуем XML в таблицу

big
Original size 1440x551

3. Отфильтруем данные за 2020 год

big
Original size 1445x197

4. Построим столбчатую диаграмму

Original size 1443x387

Для визуализации был применён инструмент matplotlib.pyplot, с помощью которого я построил столбчатую диаграмму. Она отобразила топ-15 регионов с наибольшим числом нераскрытых особо тяжких преступлений. Региональные значения были отсортированы по убыванию, чтобы акцентировать внимание на наиболее проблемных субъектах Российской Федерации.

Original size 1185x790

2. Доля нераскрытых особо тяжких преступлений по регионам (2020)

1. Преобразуем XML в таблицу

Original size 1444x552

2. Отфильтруем по 2020 году и объединим

Original size 1435x171

3. Создадим круговую диаграмму по топ-10 регионам + «Прочие»

Original size 1435x356

Для построения самой круговой диаграммы я использовал библиотеку matplotlib.pyplot, указав формат отображения долей (autopct='%1.1f%%'), начальный угол (startangle=140) и обеспечив равномерное распределение сегментов (plt.axis ('equal')). В результате получилась визуализация, которая показывает вклад каждого региона (в том числе группы «Прочие») в общее количество нераскрытых особо тяжких преступлений за выбранный год.

Original size 1095x820

3. Динамика нераскрытых особо тяжких преступлений по регионам

1. Преобразуем XML в таблицу

Original size 1442x579

2. Выберем регионы для анализа

Original size 1419x176

3. Построим линейную диаграмму

Original size 1437x424

Для визуализации я применил библиотеку matplotlib.pyplot, построив линейную диаграмму, где каждая линия отражает изменение количества нераскрытых особо тяжких преступлений в конкретном регионе по годам. Использование точек (marker='o') на линиях делает акценты на конкретных значениях, а наличие сетки и легенды упрощает восприятие графика. Такой подход позволяет наглядно оценить, где наблюдается рост, спад или стабильность показателей во времени.

Original size 652x470

4. Сравнение количества нераскрытых особо тяжких преступлений в регионах (2014 vs 2020)

1. Преобразуем XML в таблицу

Original size 1433x602

2. Отбор данных за 2014 и 2020 годы

Original size 1442x317

3. Построим сравнительную столбчатую диаграмму

Original size 1432x336

Для анализа я отобрал данные за 2014 и 2020 годы, поскольку сравнение этих двух периодов позволяет выявить изменения в раскрываемости особо тяжких преступлений на временном интервале. Региональные значения были отсортированы по убыванию данных за 2020 год, и в финальную диаграмму были включены 15 регионов с наибольшими значениями.

Для построения визуализации использовалась библиотека matplotlib.pyplot. Итоговая сравнительная столбчатая диаграмма позволила наглядно представить, как изменилась ситуация по каждому региону между 2014 и 2020 годами, выявив как случаи роста, так и снижения количества нераскрытых особо тяжких преступлений.

Original size 1383x790

5. Сравнение количества нераскрытых особо тяжких преступлений (2014 vs 2020)

1. Преобразуем XML в таблицу

Original size 1434x690

2. Подготовим данные для scatter plot (2014 vs 2020)

Original size 1437x241

3. Построим диаграмму рассеяния

Original size 1439x572

Для построения диаграммы я отобрал только данные за 2014 и 2020 годы, так как целью было сравнение двух временных точек. Сгруппировав данные по регионам и по годам, я получил таблицу, в которой для каждого региона указано количество нераскрытых преступлений в эти два года. Из таблицы были исключены регионы, по которым отсутствуют данные за один из годов, чтобы избежать искажений.

С помощью библиотеки matplotlib.pyplot я построил диаграмму рассеяния, где по оси X отложено значение за 2014 год, а по оси Y — за 2020 год. Добавление диагонали y = x позволило визуально оценить изменения: точки выше диагонали обозначают увеличение количества нераскрытых преступлений, ниже — снижение, на диагонали — отсутствие изменений. Для крупных значений были добавлены подписи с названиями регионов, чтобы выделить ключевые случаи. Это позволяет быстро определить, где ситуация с раскрываемостью преступлений улучшилась, а где — ухудшилась.

Original size 989x790
Анализ базы данных не раскрытых особо тяжких преступлений
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more