Фото Ronny Coste на Unsplash
Поки машини обробляють числа, щоб оптимізувати свої вибори, ми, люди, діємо за здивовано схожими на них схемами в нашому повсякденному житті, часто навіть не усвідомлюючи, що вирішуємо складні ймовірнісні задачі під час ранкової кави.
З цією статтею сумнівні рішення вашого життя нарешті отримають математичну основу, яку вони заслужили.
Математика прийняття рішень
Р reinforcement learning — це тип машинного навчання, де "агент" навчається приймати оптимальні рішення, взаємодіючи з середовищем. На кожному кроці агент має вибір між дослідженням невідомих варіантів або використанням відомих винагород — дилема, відома як trade-off між дослідженням і використанням (exploration-exploitation trade-off).
Джерело
Це також відоме як проблема багаторукого бандита. Уявіть собі казино з кількома ігровими автоматами, але тільки замість казино — це ваше життя, а ігрові автомати — це всі можливі життєві вибори. Забавний факт: обидва сценарії, ймовірно, призведуть до того, що ви будете сумніватися у своїх рішеннях о 3-й ранку.
В будь-якому випадку, кожен "важіль" означає вибір з невідомим розподілом винагород. Технічно, ви намагаєтесь максимізувати кумулятивну винагороду з часом. Людськими словами, ви намагаєтесь зрозуміти, чи замовити страву, яку ви точно любите (експлуатація), чи спробувати щось нове з меню (дослідження).
Стратегія ε-жадності: Баланс між комфортом і пригодою
Стратегія ε-жадності пропонує простий підхід до прийняття рішень.
Припустимо, ε = 0.2. Це означає:
- З ймовірністю 1-ε ви будете дотримуватись того, що вже знаєте, 80% часу
- З ймовірністю ε ви будете пробувати 20% часу щось абсолютно нове
- І при цьому ви будете постійно сумніватися, чи зробили ви правильний вибір на 100% часу
Це не лише теорія — це досить гарна модель для успішної людської поведінки. Подумайте про ваших найуспішніших друзів. Вони, ймовірно, мають стабільний розпорядок (експлуатація), але регулярно вводять нові досвіди у своєму житті (дослідження).
Верхня межа довіри (UCB): Алгоритм оптиміста
Алгоритм UCB — це як той друг, який завжди каже: "А що, якщо це виявиться неймовірно????"
Ця формула фактично є кількісним вираженням FOMO. Чим менше ви спробували чогось, тим більше алгоритм вважає, що ви пропускаєте наступну велику річ.
Урок із цього полягає в тому, що ми повинні бути систематично оптимістичними щодо незвіданих варіантів, але цей оптимізм має зменшуватися з отриманням доказів. Чим менше ми знаємо про варіант, тим більше ми повинні бути готові спробувати його. Однак, зібравши більше даних, ми повинні більше покладатися на наш досвід і висновки, які ми з нього зробили.
Підбір за методом Томпсона: Бо життя — це розподіл розчарувань
Підбір за методом Томпсона, ще одна стратегія reinforcement learning, має ймовірнісний підхід. Це більше схоже на те, як ми повинні думати про життєві вибори — не в термінах фіксованих значень, а як ймовірнісні розподіли можливих результатів.
Це як мати математичну модель, що нагадує вам, що:
- у вашій поточній роботі ви маєте 75% ймовірності легкого незадоволення
- а ось для вашої роботи мрії ви маєте рівні шанси на шалений успіх або на життя у батьківському підвалі
Ця модель також пояснює, чому зміни кар'єри здаються ризикованішими з віком — наш розподіл відомих результатів стає вужчим і певнішим, роблячи ширші розподіли нових шляхів усе більш лякаючими.
Практичні застосування в вашому житті
Спадання коефіцієнта навчання
У reinforcement learning ми часто зменшуємо коефіцієнт навчання з часом. Подібно, великі життєві експлорації (зміна кар'єри, переїзди) мають більше сенсу для більшості людей на початку життя, коли наш "коефіцієнт навчання" високий.
З часом ми зазвичай схиляємося до експлуатації (exploitation), хоча нам ніколи не варто дозволяти нашому коефіцієнту навчання знижуватися до нуля.
Контекстуальні бандити
Сучасне reinforcement learning використовує "контекстуальних бандитів", де найкраща дія залежить від поточного стану. Це навчає нас, що баланс між дослідженням (exploration) і експлуатацією (exploitation) не є фіксованим — він повинен варіюватися залежно від нашої особистої реальності.
Інакше кажучи, ваша найкраща дія залежить від вашого контексту. Наприклад:
- Контекст: Один, працює, без зобов'язань
— Вихід алгоритму: "Звісно, переїжджай на Балі!" - Контекст: Троє дітей, іпотека та два коти
— Вихід алгоритму: "Може, просто спробуй нову кав'ярню?"
Пакетне навчання
Замість того, щоб оцінювати кожен досвід негайно, пакетне навчання пропонує збирати набори досвідів перед тим, як вносити значні зміни в нашу стратегію. Саме тому ваш кризовий період у чверть життя — це насправді ефективний алгоритмічний дизайн. Ви не переживаєте кризу, ви просто оптимізуєте розмір пакету.
Функція шкоди (або чому вам слід почуватися краще через ваші погані рішення)
У reinforcement learning ми вимірюємо шкоду як різницю між оптимальними та реальними винагородами. Гарна новина: математично шкода неминуча.
Це дає цінну перспективу щодо втрачених можливостей у житті. Деяка шкода не просто нормальна — це необхідний компонент будь-якого процесу навчання. Метою не є усунення шкоди, а забезпечення ефективного навчання з неї.
Життя як задача оптимізації
Життя — це одна велика задача оптимізації, і, на щастя, ви — найскладніший агент reinforcement learning у світі. Чи то вибір кар'єрного шляху, чи рішення щодо вечері, ми всі намагаємося збалансувати дослідження (exploration) та експлуатацію (exploitation) в умовах невизначеності.
Тож наступного разу, коли хтось поставить під сумнів ваші життєві вибори, просто скажіть, що ви впроваджуєте динамічно налаштовану стратегію ε-жадності (ε-greedy) з контекстно-залежним підбором за методом Томпсона (context-aware Thompson sampling). Вони або будуть вражені, або поступово відступлять — у будь-якому разі, до того часу ваш алгоритм вже навчиться чогось нового.
Ми всі просто намагаємося максимізувати наші винагороди, мінімізуючи шкоду. Ідеальна оптимізація не є метою, баланс — ось що важливо.
Перекладено з: Life as a Reinforcement Learning Problem: A Slightly Too Mathematical Guide to Decision Making