11 найважливіших розподілів у науці про дані

pic

Давайте розглянемо 11 основних розподілів, які разом складають близько 95% застосувань статистичного моделювання в науці про дані.

Статистичні моделі будуються на припущенні щодо того, як генерується набір даних. На основі цього припущення використовують метод максимального правдоподібності (MLE) для визначення найкращих параметрів. Однак ефективність моделі залежить від двох критичних факторів: розуміння процесу генерації даних і вибір відповідного розподілу для моделювання. Вибір цього розподілу залежить від ґрунтовного розуміння різних розподілів.

Отже, важливо вміти розпізнавати розподіли, які підходять для різних типів даних.

1. Нормальний розподіл (неперервний)

Нормальний розподіл, часто званий гауссовим, є основою статистичного моделювання завдяки його поширеному виникненню в природних явищах. Він характеризується симетричною кривою у формі дзвону, де середнє, медіана та мода збігаються. Форма кривої визначається двома параметрами: середнім (µ) та стандартним відхиленням (σ), які визначають центр і розкид розподілу відповідно. У науці про дані цей розподіл широко застосовується в різних галузях для моделювання таких явищ, як похибки вимірювань, біологічні характеристики, наприклад, зріст чи вага, а також у статистичних гіпотезах завдяки центральній граничній теоремі.

2. Розподіл Бернуллі (дискретний)

Розподіл Бернуллі моделює результат бінарної події, де є лише два можливі варіанти: успіх (кодований як 1) або невдача (кодована як 0). Він характеризується єдиним параметром, p, який представляє ймовірність успіху в одному випробуванні. Типові приклади включають моделювання результату одного підкидання монети (орел чи решка), успіх чи невдачу медичного лікування або настання певної події.

3. Біноміальний розподіл (дискретний)

Біноміальний розподіл виникає, коли проводиться послідовність незалежних випробувань Бернуллі, кожне з яких має однакову ймовірність успіху, p. Він моделює кількість успіхів, k, серед фіксованої кількості випробувань, n. Його функція маси ймовірностей обчислює ймовірність отримати точно k успіхів з n випробувань. Цей розподіл часто застосовується в таких ситуаціях, як кількість дефектних одиниць у партії продукції, кількість орлів у кількох підкиданнях монети або кількість успішних продажів серед фіксованої кількості спроб.

4. Розподіл Пуассона (дискретний)

Розподіл Пуассона застосовується для моделювання кількості подій, що відбуваються протягом фіксованого проміжку часу чи простору, за умови сталого середнього рівня їх виникнення. Він характеризується єдиним параметром, λ, який представляє середню швидкість подій за одиницю часу. Прикладом його застосування є моделювання кількості клієнтів, що приходять на обслуговування, кількості отриманих електронних листів за годину або кількості подій радіоактивного розпаду за певний час.

5. Експоненціальний розподіл (неперервний)

Експоненціальний розподіл моделює час між наступними подіями в процесі Пуассона, коли події відбуваються незалежно один від одного за сталим середнім темпом. Він характеризується параметром λ, який є швидкісним параметром або середньою кількістю подій за одиницю часу. Цей розподіл часто використовують для моделювання термінів служби певних продуктів, часу очікування в системах черг або часу між прибуттями автомобілів на обслуговування.

6. Гамма-розподіл (неперервний)

Гамма-розподіл — це універсальний розподіл, який є загальним для кількох інших розподілів, зокрема експоненціального та хі-квадратного. Його часто використовують для моделювання часу очікування для певної кількості подій у процесі Пуассона, де кількість подій може варіюватися.
Розподіл параметризується двома параметрами: формою (α) та швидкістю (β), що дозволяє йому мати різні форми в залежності від значень цих параметрів. Застосування включають моделювання часу до відмови в надійності, часу очікування в системах черг або розподіл доходів.

7. Бета-розподіл (неперервний)

Бета-розподіл в основному використовується для моделювання випадкових змінних, які набувають значень в межах фіксованого інтервалу, зазвичай [0,1]. Він характеризується двома параметрами форми, α та β, які визначають форму розподілу. На відміну від біноміального розподілу, де ймовірність успіху є фіксованим параметром, у бета-розподілі ймовірність сама по собі є випадковою змінною. Це робить його особливо корисним у баєсівській статистиці для моделювання апріорних і апостеріорних розподілів невідомих параметрів, а також в застосуваннях, що включають пропорції або ставки.

8. Рівномірний розподіл (неперервний/дискретний)

Рівномірний розподіл описує ситуацію, коли всі результати в межах заданого діапазону однаково ймовірні. Він характеризується двома параметрами, a та b, які визначають нижню та верхню межі інтервалу відповідно. Цей розподіл може бути як неперервним, так і дискретним, в залежності від того, чи є результати неперервними чи дискретними в межах заданого інтервалу. Прикладом можуть бути моделювання результату підкидання справедливої кості, вибір випадкового числа з заданого діапазону або призначення рівних ймовірностей результатам у певних процесах прийняття рішень.

9. t-розподіл Стьюдента (неперервний)

t-розподіл Стьюдента, або просто t-розподіл, схожий на нормальний розподіл, але характеризується важчими хвостами, що робить його більш стійким до викидів та відхилень від нормальності. Він параметризується ступенями свободи, які контролюють форму розподілу. Цей розподіл широко використовується в гіпотезах тестування та оцінці довірчих інтервалів, особливо коли розмір вибірки малий, а стандартне відхилення популяції невідоме. Його також застосовують у методах зменшення розмірності, таких як t-SNE, для моделювання парних подібностей між точками даних у просторі з низькою розмірністю.

10. Логарифмічно-нормальний розподіл (неперервний)

Логарифмічно-нормальний розподіл виникає, коли натуральний логарифм випадкової змінної слідує нормальному розподілу. Його часто використовують для моделювання даних з позитивним відхиленням, коли логарифмічна трансформація призводить до симетричного розподілу. Цей розподіл знаходить застосування в різних галузях, таких як фінанси (моделювання цін акцій), біологія (моделювання розподілу розмірів біологічних організмів) і надійність (моделювання терміну служби певних компонентів).

11. Розподіл Вейбулла (неперервний)

Розподіл Вейбулла часто застосовується для моделювання часу до настання події, особливо в надійності та аналізі виживаності. Він характеризується двома параметрами: формою (k) та масштабом (λ), які визначають форму та масштаб розподілу відповідно. Розподіл Вейбулла може мати різні форми, зокрема експоненціальну (коли k = 1) та розтягнуту експоненціальну (коли k < 1). Прикладом його застосування є моделювання часу до відмови механічних компонентів, часу до настання наступного землетрусу або часу до настання певної медичної події у пацієнта.

Посилання

  • Зміст цього блогу належить нам, чекаємо на вас у наших наступних публікаціях 👋

Перекладено з: 11 Most Important Distrubations in Data Science

Leave a Reply

Your email address will not be published. Required fields are marked *