Інженерія ознак — це основа машинного навчання. Перетворення сирих даних у формат, який зрозуміють моделі, є критично важливим для створення ефективних і надійних систем. У цьому блозі ми розглянемо ключові аспекти інженерії ознак, зокрема роботу з відсутніми значеннями, обробку незбалансованих наборів даних та застосування технік кодування для перетворення даних.
Відсутні значення
Відсутні значення виникають, коли певна інформація не зберігається в наборі даних. Ефективна обробка таких значень є важливою для того, щоб продуктивність моделі не була знижена. Механізми відсутніх даних можна поділити на три типи:
1. Відсутні зовсім випадково (MCAR)
У випадку MCAR немає систематичної причини, чому дані відсутні. Відсутні значення … Читати далі