Регуляризація — це техніка, що використовується в машинному навчанні для зменшення перенавчання (overfitting) і покращення узагальнення моделей. В лінійній регресії це включає додавання штрафного терміну до функції втрат моделі для контролю величини коефіцієнтів. Така penalізація заважає моделі вивчати надмірно складні патерни, які можуть існувати лише в навчальних даних, забезпечуючи кращу продуктивність на невідомих даних.
Навіщо потрібна регуляризація?
- Перенавчання (Overfitting): Моделі лінійної регресії можуть перенавчатися, коли кількість ознак велика або коли ознаки сильно корельовані. Це відбувається, коли модель намагається точно підлаштуватися під навчальні дані, захоплюючи шум разом з основним патерном.
- Погано обумовлена проблема: Якщо ознаки корельовані, стандартна лінійна регресія стикається з нестабільними оцінками коефіцієнтів. Регуляризація допомагає стабілізувати ці оцінки.
Функція втрат в регуляризації:
Для моделі лінійної регресії оригінальна функція втрат виглядає так:
Регуляризація змінює це рівняння, додаючи штрафний термін. Загальний вигляд стає:
де:
- lambda: параметр регуляризації, що контролює силу штрафу.
- Штрафний термін: залежить від типу регуляризації.
Типи регуляризації:
- Регуляризація L1 або Lasso регресія
- Регуляризація L2 або Ridge регресія
- Регуляризація Elastic Net
Регуляризація L1 або Lasso регресія
Ефект:
- Вибір ознак: заохочує стиснення, зменшуючи деякі коефіцієнти до нуля шляхом додавання штрафу до функції втрат.
Використання:
- Корисно, коли є нерелевантні ознаки.
- Автоматично вибирає підмножину ознак.
Регуляризація L2 або Ridge регресія
Ефект:
- Зменшує коефіцієнти, додаючи штраф, пропорційний квадрату коефіцієнтів.
- Знижує значення коефіцієнтів, наближаючи їх до нуля.
Використання:
- Корисно, коли всі ознаки сприяють цільовій змінній.
- Осувається від мультиколінеарності, зменшуючи варіацію великих коефіцієнтів.
Регуляризація Elastic Net:
Ефект:
- Поєднує L1 та L2 регуляризацію, збалансувавши стиснення (lasso) і гладкість (Ridge).
Використання:
- Ефективно, коли є мультиколінеарність або нерелевантні ознаки.
- Дозволяє гнучко балансувати ефекти Ridge і Lasso через гіперпараметр.
Налаштування параметра регуляризації:
Lambda визначає силу регуляризації.
- Високе значення Lambda: Сильніша регуляризація, що призводить до менших коефіцієнтів і простіших моделей.
- Низьке значення Lambda: Слабша регуляризація, що дозволяє моделі більше підлаштовуватися під навчальні дані.
- Оптимальне значення Lambda: Знаходиться за допомогою таких технік, як крос-валідація.
Переваги регуляризації
- Запобігає перенавчанню: Обмежуючи розмір коефіцієнтів, регуляризація покращує узагальнення.
- Полегшує модель: Заохочує менші коефіцієнти і інколи стиснення (за допомогою L1).
- Вирішує мультиколінеарність: Стабілізує оцінки коефіцієнтів, коли ознаки корельовані.
Недоліки регуляризації:
- Втрата інтерпретованості: Коефіцієнти можуть ставати складними для інтерпретації при сильній регуляризації.
2.
Ухилення моделі: Надмірна регуляризація може призвести до недонавчання, коли модель не здатна вловити основні патерни.
Висновок
Регуляризація є важливою технікою для покращення стійкості та прогностичної здатності моделей лінійної регресії. Правильний вибір методу регуляризації та налаштування гіперпараметрів дозволяють створювати моделі, які краще узагальнюють і ефективно працюють з високорозмірними або складними наборами даних.
Перекладено з: Regularization in Linear Regression