Це завершений онлайн-курс з оцінюваним обсягом роботи 8 годин, який включає 43 з 43 завдань з 01/09/2025 по 01/10/2025. Теми включають наступне:
- Знайомство з даними
- Групування даних
- Кластери з багатошаровими індексами
- Об'єднання даних
Цей проєкт пов’язаний зі створенням таблиць та графіків для аналізу даних викидів парникових газів у Бразилії.
База даних, доступна на вебсайті SEEG (Система оцінки викидів та видалення парникових газів), маніпулюється за допомогою методів вибору, фільтрації та групування з Pandas.
1) Знайомство з даними
1.1) Читання даних
Дані імпортовано з Google Drive.
1.2) Налаштування бази даних
Перевірка даних видалення для виявлення, чи всі вони є видаленням парникових газів.
Щоб перевірити, чи всі значення є від'ємними, використовується функція max( ), щоб перевірити, чи є значення більше за 0.
Визначення, чи є значення типу Bunker, що відповідає викиду, здійсненому будь-яким штатом.
Оскільки в стовпці Emission / Removal / Bunker більше не залишилося корисних значень для аналізу, він повністю видаляється з бази даних.
2) Групування даних
2.1) Зміна формату Data Frame
Метод melt( ) трансформує Data Frame з широкого формату в довгий формат.
2.2) Аналіз газів
Щоб проаналізувати загальну кількість викидів за типами газів, дані групуються за допомогою функції groupby( ).
Щоб перевірити, які дані були згруповані в кожну групу, використовується атрибут groups.
Для вибору конкретних груп використовується метод getgroup( )._
3) Мульти-індексні кластери
3.1) Викиди газів за секторами
Щоб дізнатися, який сектор викидає найбільшу кількість CO2, здійснюється вибір конкретного газу CO2 за допомогою методу перехресного вибору xs( ).
Видобуток максимального значення та індексу максимального значення за допомогою методів max( ) та idxmax( ).
Щоб уникнути ручної перевірки для кожного типу газу, можна використовувати метод groupby( ) разом із idxmax( ).
Можна створити таблицю з підсумками, що містить інформацію про максимальні значення викидів для кожного типу газу, зазначаючи сектор з найбільшими викидами кожного газу.
Щоб змінити порядок рівнів індексу та знайти інформацію про найбільше викидання газу для кожного сектора, використовується метод swaplevel( ).
3.2) Викиди газів за роками
4) Об’єднання даних
4.1) Населення штатів
Щоб знайти викиди на душу населення для кожного штату, імпортується нова база даних з інформацією про населення кожного штату в Бразилії (джерело даних: IBGE).
Оскільки інформація стосується міст, виконується агрегація на основі стовпця штат.
Оскільки інформація про населення не була агрегована в наведеному списку, потрібно обробити цей стовпець, щоб повернути відповідні дані.
4.2) Об’єднання даних
З обробленою інформацією, дані про викиди об’єднуються з даними про населення за допомогою методу merge().
Перевіряється, чи є ознаки збільшення викидів з ростом чисельності населення.
Використовуючи бібліотеку Plotly для створення більш складних графіків.
Інформація про кожен штат відображена в точках на графіку.
Для обчислення викидів на душу населення створюється новий стовпець, що містить значення викидів, поділені на чисельність населення кожного штату.
Пропущене завершення попередньої команди.
[Ось Сертифікат про завершення.]
Перекладено з: Pandas: selecting and grouping data