Розкриття правди: Дослідницький аналіз даних про депресію серед студентів

Депресія серед студентів є серйозною проблемою психічного здоров'я, яка впливає на осіб у навчальних закладах, особливо у старших школах та коледжах. Вона може бути наслідком академічного тиску, соціальних проблем, фінансового стресу та переходу до дорослого життя. Депресія серед студентів може призвести до погіршення академічної успішності, соціальної ізоляції та навіть більш серйозних проблем з психічним здоров'ям, якщо її не вирішити.

Попередній аналіз даних (EDA) — це процес аналізу та узагальнення набору даних з метою виявлення його основних характеристик, часто за допомогою статистичних інструментів та візуалізацій. Це допомагає зрозуміти структуру даних, виявляти закономірності, виявляти викиди або аномалії та формулювати гіпотези, які можуть сприяти подальшому аналізу. Є кілька кроків для проведення процесу EDA.

  1. Завантаження набору даних

Ми можемо завантажити набір даних за допомогою бібліотеки pandas в Python. Декілька рядків набору даних можна переглянути за допомогою методу head в Python.

pic

Виведення показує

pic

  1. Зрозумійте дані
  • Завантажте дані: Імпортуйте набір даних за допомогою таких бібліотек, як Pandas в Python.
  • Перегляньте дані: Використовуйте функції, як head(), tail() та info(), щоб отримати швидкий огляд набору даних.

pic

Виведення показує

pic

pic

pic

  1. Одновимірний аналіз
  • Гістограма: Побудуйте гістограми для неперервних змінних, щоб побачити їх розподіл.
  • Стовпчикові діаграми: Використовуйте стовпчикові діаграми для категоріальних змінних, щоб візуалізувати їх частоту.

pic

pic

pic

pic

  1. Двовимірний аналіз
  • Ящик з вусами (Box Plot): Використовуйте ящики з вусами для дослідження взаємозв'язків між двома неперервними змінними.
  • Кореляційна матриця: Обчисліть та візуалізуйте кореляції між числовими змінними за допомогою теплової карти.

pic

Виведення показує

pic

  1. Виявлення викидів
  • Використовуйте ящики з вусами або Z-бали для виявлення та розуміння викидів у даних.

pic

Виведення показує

pic

  1. Обробка відсутніх значень

Видалити рядки: Якщо відсутні значення мінімальні та випадкові, можна видалити рядки, які їх містять.

Видалити стовпці: Якщо цілий стовпець має багато відсутніх значень, краще видалити цей стовпець.

Заповнення середнім/медіаною/модою: Замінити відсутні значення на середнє, медіану чи моду стовпця.

Заповнення вперед/назад: Використовувати попередні або наступні значення для заповнення відсутніх значень.

Інтерполяція: Оцінити відсутні значення шляхом інтерполяції між доступними значеннями.

pic

Виведення показує

pic

  1. Інженерія ознак
  • Трансформації: Застосовувати логарифмічні трансформації, масштабування або кодування за потребою.
  • Нові ознаки: Створювати нові ознаки, які можуть бути корисні для моделі.

pic

Виведення показує

pic

8.
Візуалізація даних

  • Парні діаграми (Pair Plots): Використовуйте парні діаграми для візуалізації парних взаємозв'язків у наборі даних.
  • Діаграми розподілу (Distribution Plots): Використовуйте діаграми розподілу для перевірки нормальності даних.

pic

Виведення показує

pic

Загалом, EDA (Exploratory Data Analysis) надає всебічний початковий огляд набору даних, що забезпечує основу для подальших аналізів або моделей, заснованих на чистих та добре зрозумілих даних. Це закладає фундамент для прийняття обґрунтованих рішень та досягнення більш точних і надійних результатів.

Перекладено з: Unveiling the Truth: Exploratory Data Analysis on Student Depression Analysis

Leave a Reply

Your email address will not be published. Required fields are marked *