Зображення статистики
У статті "Статистика: Частина 1" ми розглянули важливість статистики для спрощення та інтерпретації даних, де описова та інферентна статистика є важливими інструментами в різних галузях.
[
Статистика: Частина 1 — Вступ
Статистика — це гілка математики, яка допомагає нам працювати з даними. Вона включає збір, аналіз, інтерпретацію…
medium.com
](/@saurabhzodex/statistics-for-data-science-a3924b047e6d?source=post_page-----62b29dcb5428--------------------------------)
У цій частині ми розглянемо деякі основні терміни, що використовуються в статистиці.
- Популяція та вибірка
- Огляд розподільчих значень (квартилі, декалі, процентилі)
- 5-числове резюме
- Ковариація та кореляція
- Розуміння кореляції та причинно-наслідкових зв'язків
Розуміння популяції та вибірки в статистиці
Ми часто працюємо з популяціями та вибірками в статистиці для аналізу даних та прийняття обґрунтованих висновків. Давайте детально розглянемо ці концепції.
Популяція
Популяція — це вся група осіб, об'єктів або точок даних, яку ви хочете досліджувати. Це повний набір даних, який може бути великим або малим, залежно від обсягу дослідження.
Приклади:
- Усі студенти в школі.
- Усі жителі країни.
- Кожен користувач смартфона у світі.
Популяції позначаються N (загальна кількість елементів у популяції).
Вибірка
Вибірка — це менша, репрезентативна частина популяції, вибрана для аналізу. Вона використовується, коли дослідження всієї популяції є непрактичним або неможливим. Вибірка дозволяє дослідникам зробити висновки про популяцію, використовуючи статистичні методи.
Приклади:
- Група з 100 студентів, вибрана з популяції школи.
- 500 підлітків, вибраних з міста для опитування щодо використання смартфонів.
Вибірки позначаються n (загальна кількість елементів у вибірці).
Популяція vs Вибірка
Визначення: Популяція — це весь набір осіб або елементів, що вивчаються. Вибірка — це підмножина популяції, вибрана для дослідження.
Розмір: Популяція включає всіх членів групи (позначається N). Вибірка менша і зручніша для управління (позначається n).
Збір даних: Для популяції збір даних є трудомістким, дорогим і часто непрактичним. Для вибірки це здійсненно та економічно ефективно.
Збір даних: Популяція vs Вибірка
Використання популяції:
Популяції використовуються, коли дослідження вимагає даних від кожного члена групи, або коли популяція невелика, доступна та співпрацює.
Приклад:
Власник пекарні збирає дані про вподобання клієнтів щодо хліба протягом місяця. Оскільки кількість клієнтів пекарні є керованою, він може зібрати дані з усієї популяції клієнтів.
Використання вибірки:
Вибірки використовуються, коли популяція велика, географічно розкидана або важко зв'язатися з усіма її членами. Вибірки дозволяють отримати уявлення через статистичний аналіз без потреби збирати дані від кожного.
Приклад:
Для вивчення звичок використання смартфонів серед підлітків у місті, вибирається вибірка з 500 підлітків з різних шкіл. Ця вибірка дозволяє дослідникам робити прогнози щодо всієї підліткової популяції в місті.
Коли слід використовувати вибірки?
- Коли вивчення великої популяції є непрактичним.
- Коли є обмеження за часом, вартістю чи людськими ресурсами.
- Коли важливо мінімізувати упередження в зборі даних.
Формули для популяції та вибірки
Параметри популяції
Формули середнього та стандартного відхилення для популяції
Статистика вибірки
Формули середнього та стандартного відхилення для вибірки
Різниця між використанням n для популяції і n−1 для вибірки полягає в забезпеченні точності та справедливості ваших результатів.
Ось просте пояснення:
- Популяція (використовуємо n):
Коли у вас є дані для всієї популяції, ви знаєте все, що треба знати. Ви обчислюєте середнє або змінність (як, наприклад, дисперсію) на основі всіх точок даних, тому додаткові коригування не потрібні. - Вибірка (використовуємо n−1):
Коли ви працюєте з вибіркою (меншою групою), це лише частина популяції. Вибірка може не повністю відповідати популяції. Щоб це врахувати, ми використовуємо n−1 замість n в деяких обчисленнях, таких як дисперсія.
Це називається виправленням Бесселя (Bessel’s correction), і воно робить результати менш упередженими та наближеними до тих, що були б, якби ви мали всю популяцію.
Подумайте про це так: n−1 дає вашим обчисленням трохи "гнучкості", щоб компенсувати той факт, що ви дивитесь лише на частину всього зображення.
Огляд розподільчих значень
Розподільчі значення ділять набір даних на рівні частини, щоб зрозуміти його розподіл та варіативність. Найпоширеніші розподільчі значення:
- Квартилі (4 частини)
- Декалі (10 частин)
- Процентилі (100 частин)
1. Квартилі
Квартилі ділять набір даних на чотири рівні частини:
- Q1 (Нижній квартиль): Діляє найнижчі 25% даних від решти.
- Q2 (Медіана): Діляє набір даних на дві рівні половини.
- Q3 (Верхній квартиль): Окремо відокремлює верхні 25% від решти.
Формули:
- Q1=((N+1)/4)-й елемент
- Q2=((N+1)/2)-й елемент
- Q3=(3(N+1)/4)-й елемент
Приклад: Для ваг 25,17,32,11,40,35,13,5,46
- Упорядкуємо дані: 5,11,13,17,25,32,35,40,46
- Обчислюємо:
Нижній квартиль, Q1=[(N+1)/4]-й елемент
Q1=[(9+1)/4]-й елемент
Q1 = 2.5-й елемент
Згідно з формулою для квартилів;
Q1 = 2-й елемент + 0.5(3-й елемент — 2-й елемент)
Q1 = 11 + 0.5(13–11) = 12
Q1 = 12
Верхній квартиль, Q3=[3(N+1)/4]-й елемент
Q3=[3(9+1)/4]-й елемент
Q3 = 7.5-й елемент
Q3 = 7-й елемент + 0.5(8-й елемент — 7-й елемент)
Q3 = 35 + 0.5(40–35) = 37.5
Q3 = 37.5
Інтерквартильний діапазон
Інтерквартильний діапазон (IQR) — це відстань між першим квартилем і третім квартилем. Він також відомий як середній розподіл. Це допомагає обчислити варіативність для даних, розподілених на квартилі. Формула для обчислення інтерквартильного діапазону:
Інтерквартильний діапазон (IQR) = Q3 — Q1
Де,
Q3 — третій/верхній квартиль, і
Q1 — перший/нижній квартиль.
Квартильне відхилення
Квартильне відхилення визначається як половина відстані між першим квартилем і третім квартилем. Воно також відоме як півінтерквартильний діапазон. Формула для квартильного відхилення:
Квартильне відхилення = (Q3 — Q1)/2
2. Декалі
Декалі ділять набір даних на 10 рівних частин, значення яких позначаються як D1, D2,…, D9. Кожен декаль вказує на 10% даних.
Формули:
- D1=((N+1)/10)-й елемент
- D5=(5(N+1)/10)-й елемент
- D10=(9(N+1)/10)-й елемент
Приклад: Для ваг 25,17,32,11,40,35,13,5,46
- Упорядкуємо дані: 5,11,13,17,25,32,35,40,46
- Обчислюємо: Спробуйте обчислити самостійно за допомогою наведеного прикладу.
- D1=5
- D5=25
3. Процентилі
Процентилі ділять набір даних на 100 рівних частин. Процентилі позначаються як P1, P2,…, P99.
Формула:
- Px=(x(N+1)/100)-й елемент
Приклад: Для ваг 25,17,32,11,40,35,13,5,46
- Упорядкуємо дані: 5,11,13,17,25,32,35,40,46
- Обчислюємо: Спробуйте обчислити самостійно за допомогою наведеного прикладу.
- P20=11
- P90=40
5-числове резюме
5-числове резюме дає швидкий огляд розподілу набору даних, вказуючи ключові точки:
- Мінімальне значення: Найменше число в наборі даних.
- Квартиль 1 (Q1): Медіана нижньої половини набору даних (нижче загальної медіани).
3.
Медіана (Median): Середнє значення набору даних, коли він упорядкований за зростанням. - Квартиль 3 (Q3): Медіана верхньої половини набору даних (вище загальної медіани).
- Максимальне значення: Найбільше число в наборі даних.
Кроки для обчислення 5-числового резюме
- Упорядкувати дані: Розташувати числа за зростанням.
- Визначити ключові значення:
- Мінімум: Перше значення в упорядкованому списку.
- Максимум: Останнє значення в упорядкованому списку.
- Медіана: Якщо кількість точок даних (n) непарне, медіаною є середнє значення. Якщо n парне, медіана — це середнє значення двох середніх чисел.
Медіана=Значення на ((n+1)/2)-й позиції.
- Квартиль 1 (Q1): Медіана нижньої половини набору даних.
Q1=Значення на ((n+1)/4)-й позиції.
- Квартиль 3 (Q3): Медіана верхньої половини набору даних.
Q3=Значення на (3(n+1)/4)-й позиції.
Ковариація та Кореляція
Ковариація
Ковариація — це статистичний показник, який вказує на напрямок лінійного зв'язку між двома змінними. Вона оцінює, наскільки дві змінні змінюються разом порівняно з їх середніми значеннями.
Типи ковариації:
- Позитивна ковариація: Обидві змінні збільшуються або зменшуються разом.
- Негативна ковариація: Коли одна змінна збільшується, інша зменшується.
- Нульова ковариація: Відсутність лінійного зв'язку; змінні рухаються незалежно.
Формула ковариації
Для популяції:
Для вибірки:
Тут, x’ і y’ = середнє значення даного набору вибірки n = загальна кількість вибірки xi і yi = окремі значення вибірки
Кореляція
Кореляція стандартизує ковариацію, щоб надати силу та напрямок лінійного зв'язку між двома змінними в діапазоні від −1 до +1.
Типи кореляції:
- Позитивна кореляція: Змінні збільшуються разом (близько до +1).
- Негативна кореляція: Коли одна змінна збільшується, інша зменшується (близько до -1).
- Нульова кореляція: Відсутність лінійного зв'язку.
Коефіцієнт кореляції
Коефіцієнт кореляції Пірсона — це найбільш використовуваний показник кореляції. Він виражає лінійний зв'язок між двома змінними у числових термінах. Коефіцієнт кореляції Пірсона, позначений як “r” або Corr (x, y), виглядає так:
Тут, x’ і y’ = середнє значення даного набору вибірки n = загальна кількість вибірки xi, і yi = окремі значення вибірки.
Інтерпретація коефіцієнтів кореляції
Ідеальний: 0.80 до 1.00
Сильний: 0.50 до 0.79
Середній: 0.30 до 0.49
Слабкий: 0.00 до 0.29
Значення більше 0.7 вважається сильною кореляцією між змінними.
Різні коефіцієнти кореляції
Різні типи коефіцієнтів кореляції, які використовуються для вимірювання зв'язку між двома змінними:
1. Коефіцієнт кореляції Пірсона (r)
Коефіцієнт кореляції Пірсона вимірює лінійний зв'язок між двома безперервними змінними. Він оцінює, наскільки одна змінна змінюється у відповідь на зміни іншої змінної. Він може варіюватися від -1 до 1, де:
- +1 вказує на ідеальний позитивний лінійний зв'язок.
- -1 вказує на ідеальний негативний лінійний зв'язок.
- 0 означає відсутність лінійної кореляції.
Він припускає, що дані нормально розподілені і що зв'язок між змінними лінійний.
Основні властивості:
- Чутливий до викидів.
- Не може виявити нелінійні зв'язки.
2. Коефіцієнт кореляції Спірмена (ρ або Спірменів ρ)
Коефіцієнт кореляції Спірмена вимірює силу та напрямок монотонного зв'язку між двома рангованими змінними.
Це непараметричний аналог кореляції Пірсона і використовується, коли зв'язок не обов'язково лінійний.
Основні властивості:
- Може обробляти як безперервні, так і порядкові змінні.
- Може використовуватися, коли припущення нормальності не виконуються.
- Більш стійкий до викидів порівняно з Пірсоном.
3. Коефіцієнт Кендалла Тао (τ)
Коефіцієнт Кендалла Тао — це непараметричний статистичний показник, який використовується для вимірювання асоціації між двома рангованими змінними. Він оцінює подібність впорядкувань даних при ранжуванні кожної з кількох величин.
Основні властивості:
- Орієнтується на порядкові взаємозв'язки (тобто ранги).
- Значення варіюються від -1 (ідеальна негативна кореляція) до +1 (ідеальна позитивна кореляція), де 0 означає відсутність кореляції.
- Більш підходить для малих наборів даних та даних з однаковими значеннями.
4. Коефіцієнт Фі (φ)
Коефіцієнт Фі вимірює асоціацію між двома бінарними змінними (також відомими як дихотомічні змінні). Це, по суті, кореляція Пірсона для бінарних даних і зазвичай використовується в таблицях контингентності 2x2.
Основні властивості:
- Варіюється від -1 до +1, де 0 вказує на відсутність асоціації.
- Використовується в аналізі категоріальних даних.
5. Cramér's V
Cramér's V є розширенням коефіцієнта Фі для більших таблиць контингентності. Він вимірює силу асоціації між двома номінальними змінними. Заснований на статистиці хі-квадрат і коригує для розміру таблиці.
Основні властивості:
- Варіюється від 0 до 1, де 0 вказує на відсутність асоціації, а 1 — на ідеальну асоціацію.
- Використовується для таблиць, більших ніж 2x2.
- Значення, близькі до 1, вказують на сильну асоціацію, але не означають причинно-наслідковий зв'язок.
Підсумок можливих випадків використання:
- Пірсон: Лінійні зв'язки між безперервними змінними.
- Спірмен: Непараметричні дані або коли дані мають монотонний зв'язок.
- Кендалл: Рангові дані, особливо для малих вибірок або при наявності рівних значень.
- Фі: Бінарні категоріальні дані (таблиці контингентності 2x2).
- Cramér's V: Номінальні дані у більших таблицях контингентності.
Розуміння кореляції проти причинності
Кореляція вказує на зв'язок, де дві змінні змінюються одночасно. Наприклад, одна може збільшуватись, поки інша зменшується, або навпаки. Причинність означає, що одна змінна безпосередньо впливає на іншу — наприклад, змінна збільшується через те, що інша зменшується.
У статистиці кореляція виражає ступінь, до якого дві змінні змінюються разом, але не означає, що одна змінна викликає зміну іншої. Для підтвердження того, чи змінні просто корельовані або чи існує причинно-наслідковий зв'язок, потрібні додаткові тести та аналізи.
Чому це важливо в аналізі продуктів
У аналізі продуктів розуміння різниці між кореляцією та причинністю є важливим. Помилкове ототожнення кореляції з причинністю може призвести до марних витрат і неефективних стратегій, в той час як правильне розрізнення між ними може допомогти приймати розумніші рішення та створювати продукти, які краще задовольняють потреби користувачів.
Наприклад, кореляційні зв'язки допомагають виявляти закономірності у поведінці користувачів. Припустимо, що дані показують, що користувачі, які активують більше сповіщень в вашому додатку, зазвичай проводять більше часу, використовуючи його. Це спостереження свідчить про кореляцію, але без подальших тестів залишається неясним, чи саме сповіщення спричиняють збільшення використання або ж більш активні користувачі природно активують більше сповіщень.
Визначаючи причинність, команди продукту можуть бути впевнені, що зусилля спрямовані на ініціативи з реальним впливом, уникнувши помилкових інвестицій у функції чи кампанії.
Ключові висновки
- Кореляція описує зв'язок, коли дві змінні рухаються разом, але не підтверджує, що одна викликає іншу.
- Причинність визначає прямий причинно-наслідковий зв'язок між змінними.
- Неправильне трактування кореляції як причинності може призвести до поганих рішень.
4.
Техніки, такі як тестування гіпотез та контрольовані експерименти (наприклад, A/B тестування), можуть допомогти підтвердити причинні зв'язки.
Різниця між кореляцією та причинністю
Кореляція та причинність можуть існувати разом, але кореляція сама по собі не вказує на причинність. Ось роз'яснення:
- Кореляція: Зв'язок, коли змінні A та B рухаються разом. Наприклад, продажі морозива та опіки сонцем збільшуються одночасно.
- Причинність: Прямий зв'язок, коли A викликає B. Наприклад, вплив сонячного світла викликає опіки.
Приклад: Морозиво та опіки сонцем
Продажі морозива та опіки сонцем часто зростають разом у сонячну погоду. Хоча вони корельовані, одна не викликає іншу. Натомість сонячна погода викликає обидва явища. Ця різниця підкреслює небезпеку припущення причинності без належного дослідження.
Чому ми плутаємо кореляцію з причинністю
Наші мозки налаштовані на пошук пояснень для взаємопов'язаних подій. Коли дві змінні здаються тісно пов'язаними, ми схильні припускати причинно-наслідковий зв'язок. Однак такі припущення часто є анекдотичними і не враховують важливі можливості:
- Зворотна причинність: B викликає A, а не A викликає B.
- Загальний фактор: І A, і B залежать від третього фактора, C.
- Умовна причинність: A викликає B, але тільки за певних умов (наприклад, наявність D).
- Ланцюгова реакція: A викликає E, яке потім викликає B.
Важливість розрізнення кореляції та причинності
Неможливість розрізнити кореляцію та причинність може призвести до неправильних рішень. Навпаки, розуміння причинності дозволяє застосовувати стратегії, засновані на даних, які ефективно оптимізують ресурси.
Приклад помилки: Морозиво та опіки сонцем
Уявіть, що місцева влада спостерігає кореляцію між продажами морозива та опіками сонцем. Вони помилково роблять висновок, що морозиво викликає опіки сонцем і забороняють продаж морозива. Ця дія неправильно спрямовує ресурси, оскільки справжньою причиною є сонячна погода, а не морозиво.
Приклад аналізу продукту: Спільноти та утримання користувачів
Уявіть ситуацію, коли музичний стрімінговий додаток вводить нову функцію: спільноти користувачів. Після запуску дані показують, що користувачі, які приєднуються до спільнот, мають вищі показники утримання, ніж ті, хто цього не робить. Це спостереження вказує на кореляцію, але чи дійсно участь у спільнотах викликає кращі показники утримання?
Тестування причинності
Щоб дослідити це, команда проводить експеримент:
- Розділяє користувачів на дві випадкові групи (кохорти): одна з користувачами, які приєдналися до спільнот, і одна без.
- Аналізує показники утримання протягом кількох тижнів.
Дані показують, що 95% користувачів спільнот залишаються активними на другий тиждень, порівняно з 55% у користувачів без спільнот. На сьомий тиждень 85% користувачів спільнот залишаються активними, в той час як 25% у користувачів без спільнот. Хоча є спокуса припустити причинність, потрібно провести додатковий аналіз, щоб виключити інші фактори.
Приклад висновків
Вища утриманість та участь у спільнотах можуть бути обумовлені третім фактором, таким як рівень залученості користувачів. Лише статистичні методи, як A/B тестування, можуть підтвердити, чи дійсно участь у спільнотах викликає вищі показники утримання.
Дякую за те, що знайшли час для прочитання та взаємодії з цією статтею. Підтримайте мене, підписавшись та клацнувши (так, ви можете клацнути до 50 разів!), якщо вам сподобався контент.
Сподіваюся, ви знайшли це корисним і пізнавальним. Я продовжуватиму публікувати статті на різні теми в області науки про дані, включаючи статистику, аналіз даних, обробку даних, машинне навчання, глибоке навчання, GenAI та багато іншого. Якщо хочете слідкувати за цими захоплюючими темами, не забудьте підписатися на мене для отримання ще більше корисного контенту.
Не соромтеся підключатися до мене в соціальних мережах: LinkedIn | Instagram
Також ознайомтесь з моїм репозиторієм на GitHub для додаткових ресурсів та проектів: GitHub
З нетерпінням чекаю можливості поділитися ще більше з вами!
Перекладено з: Statistics: Part 2 — Basics Terminologies