Pandas: вибір та групування даних

Це завершений онлайн-курс з оцінюваним обсягом роботи 8 годин, який включає 43 з 43 завдань з 01/09/2025 по 01/10/2025. Теми включають наступне:

  • Знайомство з даними
  • Групування даних
  • Кластери з багатошаровими індексами
  • Об'єднання даних

Цей проєкт пов’язаний зі створенням таблиць та графіків для аналізу даних викидів парникових газів у Бразилії.
База даних, доступна на вебсайті SEEG (Система оцінки викидів та видалення парникових газів), маніпулюється за допомогою методів вибору, фільтрації та групування з Pandas.

1) Знайомство з даними

1.1) Читання даних

pic

Дані імпортовано з Google Drive.

pic

pic

pic

pic

1.2) Налаштування бази даних

pic

pic

Перевірка даних видалення для виявлення, чи всі вони є видаленням парникових газів.

pic

pic

pic

pic

pic

Щоб перевірити, чи всі значення є від'ємними, використовується функція max( ), щоб перевірити, чи є значення більше за 0.

pic

Визначення, чи є значення типу Bunker, що відповідає викиду, здійсненому будь-яким штатом.

pic

pic

pic

Оскільки в стовпці Emission / Removal / Bunker більше не залишилося корисних значень для аналізу, він повністю видаляється з бази даних.

2) Групування даних

2.1) Зміна формату Data Frame

pic

pic

Метод melt( ) трансформує Data Frame з широкого формату в довгий формат.

pic

2.2) Аналіз газів

pic

Щоб проаналізувати загальну кількість викидів за типами газів, дані групуються за допомогою функції groupby( ).

pic

Щоб перевірити, які дані були згруповані в кожну групу, використовується атрибут groups.

pic

Для вибору конкретних груп використовується метод getgroup( )._

pic

pic

pic

pic

pic

pic

3) Мульти-індексні кластери

3.1) Викиди газів за секторами

pic

pic

Щоб дізнатися, який сектор викидає найбільшу кількість CO2, здійснюється вибір конкретного газу CO2 за допомогою методу перехресного вибору xs( ).

pic
Видобуток максимального значення та індексу максимального значення за допомогою методів max( ) та idxmax( ).

pic

Щоб уникнути ручної перевірки для кожного типу газу, можна використовувати метод groupby( ) разом із idxmax( ).

pic

pic

Можна створити таблицю з підсумками, що містить інформацію про максимальні значення викидів для кожного типу газу, зазначаючи сектор з найбільшими викидами кожного газу.

pic

Щоб змінити порядок рівнів індексу та знайти інформацію про найбільше викидання газу для кожного сектора, використовується метод swaplevel( ).

pic

3.2) Викиди газів за роками

pic

pic

pic

pic

pic

pic

pic

4) Об’єднання даних

4.1) Населення штатів

pic

Щоб знайти викиди на душу населення для кожного штату, імпортується нова база даних з інформацією про населення кожного штату в Бразилії (джерело даних: IBGE).

pic

Оскільки інформація стосується міст, виконується агрегація на основі стовпця штат.

pic

Оскільки інформація про населення не була агрегована в наведеному списку, потрібно обробити цей стовпець, щоб повернути відповідні дані.

pic

pic

pic

pic

pic

pic

4.2) Об’єднання даних

pic

pic

З обробленою інформацією, дані про викиди об’єднуються з даними про населення за допомогою методу merge().

pic

Перевіряється, чи є ознаки збільшення викидів з ростом чисельності населення.

pic

Використовуючи бібліотеку Plotly для створення більш складних графіків.

pic

Інформація про кожен штат відображена в точках на графіку.

pic

Для обчислення викидів на душу населення створюється новий стовпець, що містить значення викидів, поділені на чисельність населення кожного штату.

pic

Пропущене завершення попередньої команди.

pic
pic

pic

[Ось Сертифікат про завершення.]

Перекладено з: Pandas: selecting and grouping data

Leave a Reply

Your email address will not be published. Required fields are marked *