Зображення згенеровано за допомогою DALL.E
У галузі статистики та машинного навчання розуміння зв'язку між даними, моделями та їхніми базовими розподілами є ключовим. Оцінка максимальної ймовірності (Maximum Likelihood Estimation, MLE) — це фундаментальне поняття, яке грає центральну роль у цьому процесі. Це поняття, хоча й базується на теорії ймовірностей, має широке застосування в різних сферах, таких як наука про дані, обробка природної мови, комп'ютерне зору та економетрика.
Оцінка максимальної ймовірності (MLE) надає потужну основу для оцінки параметрів ймовірнісної моделі шляхом знаходження значень, які максимізують ймовірність спостереження даних. Це основа багатьох алгоритмів машинного навчання, яка пропонує системний та зрозумілий підхід до оцінки параметрів.
Ця стаття занурюється в концепції MLE, досліджуючи їх математичні основи, практичне значення та внутрішній зв'язок між ними. Зрозумівши ці інструменти, ви отримаєте глибше розуміння статистичної механіки налаштування моделей та компромісів, властивих апроксимації складних ймовірнісних розподілів.
Оцінка максимальної ймовірності.
Оцінка максимальної ймовірності (MLE) — це метод, який використовується для оцінки параметрів ймовірнісної моделі машинного навчання. Він визначає параметри, які роблять спостережувані дані найімовірнішими за заданою моделлю на основі ймовірнісного розподілу основного набору даних.
Простими словами:
- Функція ймовірності: Ця функція вимірює, наскільки імовірним є значення параметра, який оцінюється, враховуючи ймовірнісний розподіл основних даних. Цю ймовірність можна сформулювати лише за допомогою Теореми Байєса і не повністю на основі природи самих параметрів.
- Максимальна ймовірність: Потрібно знайти значення параметрів, які максимізують цю ймовірність. Це робиться шляхом знаходження критичних точок функції через приведення її похідної до 0. Критична точка — це місце, де нахил функції дорівнює 0.
Коли потрібна MLE?
A. Ви будуєте ймовірнісну модель.
- Якщо ваша модель прогнозує ймовірності (наприклад, логістична регресія, наївний баєсівський класифікатор Гауса або скриті моделі Маркова), то MLE часто використовується для оцінки параметрів.
- Наприклад, у логістичній регресії ви використовуєте MLE для оцінки ваг, максимізуючи ймовірність спостережуваних бінарних результатів.
B. Завдання вимагає оцінки параметрів моделі.
- Кожного разу, коли потрібно оцінити параметри, такі як середнє, дисперсія, коефіцієнти чи ймовірності переходів з даних, можна застосувати MLE.
- Приклад: налаштування моделі суміші Гауссів для кластеризації даних.
C. Ваша задача пов'язана з ймовірнісними розподілами.
- Якщо ваші дані підходять під відомий розподіл (нормальний, Бернуллі, Пуассон і т.д.), використовуйте MLE для оцінки параметрів.
- Приклад: моделювання часу прибуття в чергу за допомогою розподілу Пуассона.
D. Користувацька функція втрат.
- Якщо вбудовані бібліотеки не надають потрібну функціональність, можливо, вам доведеться написати логіку MLE вручну для визначення власної функції втрат.
- Приклад: кастомні нейронні мережі, які потребують специфічних ймовірнісних розподілів для вихідних даних.
Як це працює?
A. Визначення функції ймовірності.
Припустимо, у нас є набір даних D = {x₁, x₂, …, xₙ}, що складається з n незалежних ідентично розподілених спостережень, взятих з ймовірнісного розподілу з невідомим параметром θ (наприклад, середнє, дисперсія).
Функція ймовірності визначається як:
L(θ|D) = P(x₁|θ) * P(x₂|θ) * ... * P(xₙ|θ)
Ця формула говорить, що ймовірність L(θ|D) — це добуток ймовірностей спостереження кожної точки даних xi з урахуванням параметра θ.
B. Додавання натурального логарифму до функції.
Для спрощення обчислень ми використовуємо натуральний логарифм функції ймовірності, яку називаємо лог-ліikelihood.
```
log L(θ|D) = log(P(x₁|θ)) + log(P(x₂|θ)) + ... + log(P(xₙ|θ))
Функція ймовірності часто є добутком ймовірностей, що може ускладнювати її диференціювання. Однак вона зберігає місце максимуму (оскільки логарифмічна функція є монотонною). Логарифм добутку перетворюється на суму логарифмів:
C. Максимізація функції лог-ліikelihood.
Оскільки ми максимізуємо ймовірність функції, ми шукаємо пік цієї функції. На цьому піку функція перестає збільшуватися і починає зменшуватися, тобто математично нахил функції в цій точці дорівнює 0. Нахил функції дається її похідною, тому ми прирівнюємо похідну функції до 0.
Приклад застосування — Прогнозування цін на житло.
Задача:
Агент з нерухомості збирає історичні дані про ціни на будинки в районі. Припускається, що ціни підкоряються нормальному розподілу, але середнє значення (μ) та дисперсія (σ2) є невідомими. Агент використовує MLE для оцінки цих параметрів.
Рішення:
1. Збір набору даних: Припустимо, агент має наступні ціни на будинки (в тисячах доларів): [250, 300, 275, 325, 290]. Припустимо, що ці дані підкоряються нормальному розподілу, і ми повинні оцінити середнє значення (μ) та дисперсію (σ2) для цього набору даних.
2. Функція ймовірності: PDF для нормального розподілу дається формулою:
3. Формулювання функції ймовірності: Для вищезгаданого нормального розподілу функція ймовірності буде сформульована наступним чином:
4. Обчислення лог-ліikelihood: Ми беремо натуральний логарифм для вищезгаданого рівняння:
5. Максимізація і обчислення для середнього: Ми диференціюємо вищезгадане рівняння щодо μ, щоб обчислити значення середнього.
6. Максимізація і обчислення для дисперсії: Ми диференціюємо вищезгадане рівняння щодо σ2, щоб обчислити значення дисперсії.
7. Підстановка значень для знаходження середнього (μ): Ми використовуємо вищезгадане рівняння для середнього і підставляємо значення для обчислення реального середнього для цього набору даних.
Оцінене середнє значення ціни будинку складає $288,000.
8. Підстановка значень для знаходження дисперсії (σ2): Ми використовуємо вищезгадане рівняння для дисперсії і підставляємо значення для обчислення реальної дисперсії для цього набору даних.
Таким чином, використовуючи MLE, агент оцінює, що ціни на будинки в районі підкоряються нормальному розподілу з середнім значенням $288,000 та стандартним відхиленням $25,000. Цю інформацію можна використовувати для прогнозування майбутніх цін на будинки.
Висновок
Підсумовуючи, оцінка максимальної ймовірності (MLE) є наріжним каменем статистичного моделювання та машинного навчання, пропонуючи надійну методологію для оцінки параметрів. Максимізуючи ймовірність спостережуваних даних, MLE дозволяє отримувати точні та інтерпретовані результати, що є важливими для побудови ефективних ймовірнісних моделей. Її універсальність охоплює різноманітні галузі, від регресійного аналізу та кластеризації до більш складних моделей, таких як моделі суміші Гауссів і кастомні нейронні мережі.
Інтеграція інструментів, таких як функція лог-ліikelihood, ще більше спрощує обчислювальні складнощі, забезпечуючи практичність MLE в реальних сценаріях.
Як показано на прикладі прогнозування цін на житло, MLE не лише оцінює параметри, такі як середнє значення та дисперсія, але й надає практичні висновки, які можуть допомогти в ухваленні рішень. Цей підхід підкреслює баланс між математичною строгостю та результатами, орієнтованими на застосування. В кінцевому підсумку, міцне розуміння MLE дає фахівцям можливість поєднувати теоретичне розуміння та практичну реалізацію, сприяючи інноваціям і точності в галузях, орієнтованих на дані.
Дякую за прочитане!
Якщо хочете, додайте мене в Linkedin.
Перекладено з: Maximum Likelihood Estimation: Here’s what you need to know.