Статистика має два основних типи:
Описова: Організація та узагальнення даних
Інферентна: Виведення висновків чи інтерпретацій на основі експерименту
Популяція: Уся група або набір всіх можливих елементів або осіб, яких ви хочете досліджувати. Приклад: Усі студенти в школі
Вибірка: Підмножина популяції, обрана для аналізу. Приклад: 50 студентів, обраних зі школи
джерело: https://www.geeksforgeeks.org/population-and-sample-statistics/
Міра центральної тенденції:
Статистичні значення, які описують центр або типовий показник набора даних.
- Середнє (Mean): Сума всіх значень, поділена на кількість значень.
Формула: Середнє = Сума значень / Кількість значень - Медіана (Median): Середнє значення після впорядкування даних.
Якщо розмір набору даних парний, то це середнє значення двох середніх елементів. - Мода (Mode): Найчастіше зустрічається значення (або значення) в наборі даних.
Міра розсіювання:
Описує розподіл або змінність даних навколо центрального значення.
- Дисперсія (Variance): Середнє квадратне відхилення від середнього значення.
- Стандартне відхилення (SD): Квадратний корінь з дисперсії, що представляє розсіювання в тих самих одиницях вимірювання, що й дані.
- Міжквартильний діапазон (IQR): Різниця між третім квартилем (Q3) та першим квартилем (Q1). IQR = Q3 − Q1
- Діапазон (Range): Різниця між максимальним і мінімальним значеннями.
Чому дисперсія вибірки ділиться на n-1?
Дисперсія вибірки ділиться на n−1 замість n для корекції біасу при оцінці дисперсії популяції. Ця корекція, званa виправленням Бесселя (Bessel’s correction), враховує той факт, що використання середнього значення вибірки замість справжнього середнього значення популяції призводить до заниження змінності.
Ділення на n−1 забезпечує неупереджене оцінювання дисперсії вибірки як оцінки дисперсії популяції.
Квартилі
Розподіляє набір даних на чотири рівні частини після сортування даних:
Q1 (Перший квартиль): 25% даних нижче цього значення
Q2 (Другий квартиль / Медіана): 50% даних нижче цього значення
Q3 (Третій квартиль): 75% даних нижче цього значення
Коваріація
Міра сили та напрямку лінійного зв'язку між двома змінними. Розмах від -1 до +1, де значення вказує на позитивний або негативний зв'язок, а 0 означає відсутність зв'язку.
Кореляція
Міра того, як дві змінні змінюються разом.
Позитивна: Змінні збільшуються разом.
Негативна: Одна збільшується, поки інша зменшується.
Перекладено з: Statistics for basics Machine Learning