У цій статті ми розглянемо питання базової візуалізації даних за допомогою Matplotlib (бібліотека низького рівня) та Seaborn (бібліотека високого рівня).
Насправді PowerBI, Tableu або ClickView є більш підходящими інструментами для візуалізації, оскільки вони безпосередньо підключені до бази даних. Однак при виконанні робіт з аналізу даних ми, в основному, використовуємо ці бібліотеки Python для кращого тлумачення наших подальших кроків.
У цьому контексті спочатку розглянемо Matplotlib.
Matplotlib відомий як пращур інструментів для візуалізації даних у Python (бібліотека низького рівня).
Загалом:
Категоріальні змінні => повинні бути візуалізовані за допомогою стовпчикових або кругових діаграм.
Числові змінні => повинні бути візуалізовані за допомогою гістограм або боксплотів.
# EXAMPLE-A: Візуалізація категоріальних змінних (текст, рядки тощо)
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
#pip install --upgrade matplotlib
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 500)
df = sns.load_dataset("titanic")
df.head()
# ми обрали "sex" як одну з категоріальних змінних.
df["sex"].value_counts().plot(kind='bar')
plt.show()
Приклад: Стовпчикова діаграма
# EXAMPLE-B: Візуалізація числових змінних
plt.hist(df["age"])# За певними інтервалами, hist() дає інформацію про розподіл числової змінної
plt.show()
plt.boxplot(df["fare"])# корисно для перегляду розподілу та виявлення викидів
plt.show()
Гістограма (Вік)
Боксплот (Тариф)
A) Основи MATPLOTLIB
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 500)
- Графік
import numpy as np
x = np.array([1, 8])
y = np.array([0, 150])
plt.plot(x,y)
plt.plot(x,y, 'o')
plt.show()
- Маркер
y = np.array([13, 28, 11, 100, 12, 76, 65, 34])
plt.plot(y, marker= 'o')
# plt.plot(y, marker= '*')
# маркери = ['o', '*', '.', ',', 'x', 'X', '+', 'P', 's', 'D', 'd', 'p', 'H', 'h']
plt.show()
- Лінія
y = np.array([13, 28, 11, 100, 12, 76, 65, 34])
plt.plot(y, linestyle= "dashed", color="r") # пунктир, крапки з тире
plt.show()
# Багато ліній
x = np.array([23, 47, 61, 89, 110])
y = np.array([13, 28, 11, 100,55])
plt.plot(x)
plt.plot(y)
plt.show()
- Мітки
x = np.array([80, 85, 90, 95, 100, 105, 110, 115, 120, 125])
y = np.array([240, 250, 260, 270, 280, 290, 300, 310, 320, 330])
plt.plot(x, y)
plt.title("Заголовок")
plt.xlabel("ось x")
plt.ylabel("ось y")
plt.grid()
plt.show()
5.
ПІДГРУЗКА ПІДГРУЗКИ
# subplot_1
x = np.array([80, 85, 90, 95, 100, 105, 110, 115, 120, 125])
y = np.array([240, 250, 260, 270, 280, 290, 300, 310, 320, 330])
plt.subplot(2,2,1)
plt.title("plt_1")
plt.plot(x , y)
# subplot_2
x2= np.array([23, 47, 61, 89, 110])
y2= np.array([13, 28, 11, 100, 117])
plt.subplot(2,2,2)
plt.title("plt_2")
plt.plot(x2 , y2)
# subplot_3
x3 = np.array([80, 85, 90, 95, 100, 105, 110, 115, 120, 125])
y3 = np.array([240, 250, 260, 270, 280, 290, 300, 310, 320, 330])
plt.subplot(2,2,3)
plt.title("plt_3")
plt.plot(x3 , y3)
B) Основи SEABORN
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
df = sns.load_dataset("tips")
df.head()
df["sex"].value_counts()
sns.countplot(x= df["sex"], data=df)
plt.show()
sns.boxplot(x = df["total_bill"])
plt.show()
df["total_bill"].hist()
plt.show()
Дякуємо за читання 🙂
Перекладено з: BASIC DATA VISUALIZATION