Основи візуалізації даних

У цій статті ми розглянемо питання базової візуалізації даних за допомогою Matplotlib (бібліотека низького рівня) та Seaborn (бібліотека високого рівня).

Насправді PowerBI, Tableu або ClickView є більш підходящими інструментами для візуалізації, оскільки вони безпосередньо підключені до бази даних. Однак при виконанні робіт з аналізу даних ми, в основному, використовуємо ці бібліотеки Python для кращого тлумачення наших подальших кроків.

У цьому контексті спочатку розглянемо Matplotlib.

Matplotlib відомий як пращур інструментів для візуалізації даних у Python (бібліотека низького рівня).

Загалом:

Категоріальні змінні => повинні бути візуалізовані за допомогою стовпчикових або кругових діаграм.

Числові змінні => повинні бути візуалізовані за допомогою гістограм або боксплотів.

# EXAMPLE-A: Візуалізація категоріальних змінних (текст, рядки тощо)  
import pandas as pd  
import seaborn as sns  
import matplotlib.pyplot as plt   
#pip install --upgrade matplotlib   

pd.set_option('display.max_columns', None)  
pd.set_option('display.width', 500)  

df = sns.load_dataset("titanic")  
df.head()  

# ми обрали "sex" як одну з категоріальних змінних.  
df["sex"].value_counts().plot(kind='bar')  
plt.show()

pic

pic

Приклад: Стовпчикова діаграма

# EXAMPLE-B: Візуалізація числових змінних  
plt.hist(df["age"])# За певними інтервалами, hist() дає інформацію про розподіл числової змінної  
plt.show()  

plt.boxplot(df["fare"])# корисно для перегляду розподілу та виявлення викидів  
plt.show()

pic

Гістограма (Вік)

pic

Боксплот (Тариф)

A) Основи MATPLOTLIB

import pandas as pd  
import seaborn as sns  
import numpy as np  
import matplotlib.pyplot as plt  

pd.set_option('display.max_columns', None)  
pd.set_option('display.width', 500)
  1. Графік
import numpy as np  
x = np.array([1, 8])  
y = np.array([0, 150])  

plt.plot(x,y)  
plt.plot(x,y, 'o')  

plt.show()

pic

  1. Маркер
y = np.array([13, 28, 11, 100, 12, 76, 65, 34])  

plt.plot(y, marker= 'o')  
# plt.plot(y, marker= '*')  
# маркери = ['o', '*', '.', ',', 'x', 'X', '+', 'P', 's', 'D', 'd', 'p', 'H', 'h']  

plt.show()

pic

  1. Лінія
y = np.array([13, 28, 11, 100, 12, 76, 65, 34])  
plt.plot(y, linestyle= "dashed", color="r") # пунктир, крапки з тире  
plt.show()

pic

# Багато ліній  
x = np.array([23, 47, 61, 89, 110])  
y = np.array([13, 28, 11, 100,55])  

plt.plot(x)  
plt.plot(y)  
plt.show()

pic

  1. Мітки
x = np.array([80, 85, 90, 95, 100, 105, 110, 115, 120, 125])  
y = np.array([240, 250, 260, 270, 280, 290, 300, 310, 320, 330])  

plt.plot(x, y)  

plt.title("Заголовок")  

plt.xlabel("ось x")  
plt.ylabel("ось y")  
plt.grid()  

plt.show()

pic

5.
ПІДГРУЗКА ПІДГРУЗКИ

# subplot_1  
x = np.array([80, 85, 90, 95, 100, 105, 110, 115, 120, 125])  
y = np.array([240, 250, 260, 270, 280, 290, 300, 310, 320, 330])  

plt.subplot(2,2,1)  
plt.title("plt_1")  
plt.plot(x , y)  

# subplot_2  
x2= np.array([23, 47, 61, 89, 110])  
y2= np.array([13, 28, 11, 100, 117])  

plt.subplot(2,2,2)  
plt.title("plt_2")  
plt.plot(x2 , y2)  

# subplot_3  
x3 = np.array([80, 85, 90, 95, 100, 105, 110, 115, 120, 125])  
y3 = np.array([240, 250, 260, 270, 280, 290, 300, 310, 320, 330])  

plt.subplot(2,2,3)  
plt.title("plt_3")  
plt.plot(x3 , y3)

pic

B) Основи SEABORN

import pandas as pd  
import seaborn as sns  
import matplotlib.pyplot as plt  

df = sns.load_dataset("tips")  
df.head()

pic

df["sex"].value_counts()  
sns.countplot(x= df["sex"], data=df)  

plt.show()

pic

sns.boxplot(x = df["total_bill"])  
plt.show()  

df["total_bill"].hist()  
plt.show()

pic

pic

Дякуємо за читання 🙂

Перекладено з: BASIC DATA VISUALIZATION

Leave a Reply

Your email address will not be published. Required fields are marked *