Вступ

У величезному світі даних не всі точки однакові. Деякі вирізняються, привертаючи увагу завдяки тому, що суттєво відрізняються від решти. Ці аномалії, або викиди, є природною частиною аналізу даних і можуть значно впливати на отримані висновки з наборів даних. Але що саме таке викиди, і чому вони так важливі?

Уявіть собі таку ситуацію: ви аналізуєте дані про продажі роздрібної компанії, і більшість місячних показників продажів коливаються між 10 000 і 15 000 доларів. Однак один місяць показує приголомшливі 50 000 доларів — викид, який потребує уваги. Чи це результат успішної маркетингової кампанії, чи просто помилка введення даних? Викиди розповідають історію, але розуміння і ефективне оброблення цих аномалій є важливим для точного інтерпретування даних.

Ця стаття є вашим остаточним посібником по викидах. Ми почнемо з основ, розглянемо, що таке викиди і чому вони виникають, а потім заглибимося в основні концепції, пов'язані з ними. Від розуміння типів до освоєння технік виявлення і обробки, цей всеосяжний посібник надасть вам знання, необхідні для використання потужності викидів у вашій роботі з даними.

Що дізнаються читачі:

Чітке розуміння того, що таке викиди і їх значення в аналізі даних.
Детальне вивчення різних типів викидів з реальними прикладами.
Всеосяжний посібник по найбільш ефективних техніках для виявлення викидів.
Практичні поради щодо обробки викидів, щоб покращити якість даних.
Стратегії прийняття рішень для вибору найкращих методів виявлення та обробки для різних наборів даних.

A. Що таке викиди?

Викиди — це точки даних, які суттєво відрізняються від загального патерну набору даних. Вони не "вписуються" в решту даних і здаються незвичними або несподіваними.

Це схоже на студентів, які отримали від 50 до 70 балів на тесті, і одного, який отримав 100 з 100. Цей один студент "виділяється" з групи, так само як викид в наборі даних.

Ці аномалії (викиди) можуть виникати через помилки вимірювання, природну варіативність або унікальні умови в даних. Наприклад:

a. Помилки вимірювання: Невірно введене значення, наприклад, 10 000 замість 100 000.

b. Природна варіативність: Незвичайні події, як раптові зміни погоди, що впливають на врожайність.

c. Унікальні умови: Одноденний стрибок цін на акції через несподівану новину.

🔰 Причини виникнення викидів

Викиди можуть виникати через кілька причин:

(i). Помилки введення даних: Ортографічні помилки або неправильно вказані значення. Наприклад, помилки при введенні даних, як написання 1000 замість 100.

(ii). Проблеми вибірки: Включення даних з групи, яка не є репрезентативною для популяції.

(iii). Системні зміни: Різка зміна трендів або поведінки.

(iv). Випадкові події: Рідкісні випадки, як природні катастрофи (циклони, цунамі, землетруси).

(v). Шахрайство чи маніпуляції: Навмисне спотворення даних.

Розуміння цих причин допомагає спеціалістам з даних визначити, чи потрібно залишити викид, виправити його чи видалити з набору даних.

B. Основи викидів

Типи викидів

🔰 Типи викидів

Викиди можна класифікувати на основі контексту і їх виникнення:

(i) Одновимірні викиди:

Ці викиди виявляються при аналізі однієї змінної (характеристики/стовпця). Наприклад, один дуже високий або низький показник в наборі даних про зарплати.

(ii) Багатовимірні викиди:

Ці викиди виникають при розгляді кількох змінних (характеристик/стовпців) одночасно.

Наприклад, у наборі даних з висотою та вагою, дуже висока, але незвично легка особа може бути багатовимірним викидом.

(iii) Глобальні або точкові викиди (одновимірні):

Це одиничні точки даних, які суттєво відрізняються від решти. Наприклад, у наборі даних оцінок на тестах, де більшість оцінок коливаються між 40 і 90, оцінка 5 є глобальним викидом.

(iv) Контекстуальні викиди (умовні):

Це точки даних, які є незвичними в певному контексті, але можуть виглядати нормальними в іншому. Наприклад, температура 30°C може бути типовою для літа, але викидом під час зими.

(v) Колективні викиди:

Група точок, які відрізняються разом. Наприклад, скупчення незвичайно високого мережевого трафіку під час малонавантажених годин може свідчити про кібератаку.

(vi) Локальні викиди:

Локальний викид — це точка даних, яка значно відрізняється від своїх сусідніх точок, але може не бути незвичною порівняно з усім набором даних. По суті, це аномалія в межах конкретної області або підмножини даних, а не в усьому наборі даних.

🔰 Чому розуміння типів викидів корисне для спеціалістів з даних?

Розуміння типів викидів допомагає спеціалістам з даних визначити найкращий спосіб їх обробки, забезпечуючи чистоту даних, кращу продуктивність моделей і більш значущі висновки. Ось чому це важливо:

Адаптація підхід: Різні типи викидів (наприклад, глобальні, локальні, одновимірні, багатовимірні) вимагають різних стратегій обробки. Наприклад, глобальні викиди можуть бути видалені, в той час як локальні можуть вказувати на цікаві аномалії для дослідження.
Покращення якості даних: Виявлення типу викиду допомагає вирішити, чи є це помилкою, рідкісною подією чи природною варіацією, забезпечуючи кращу очистку даних та надійніші результати.
Покращення продуктивності моделей: Визнання того, чи є викид законним значенням або помилкою, допомагає уникнути спотворень у моделях машинного навчання, підвищуючи точність і узагальненість.
Інсайти та прийняття рішень: Деякі викиди надають цінну інформацію, наприклад, про шахрайство або несподівані події. Знання типу допомагає пріоритетно досліджувати ті викиди, які можна використати для практичних висновків.
Правильне лікування: Різні типи викидів (наприклад, через помилки вимірювань або рідкісні події) можуть вимагати різного підходу, такого як обмеження, трансформація чи видалення.

C. Виявлення викидів

🔰 Огляд технік

(i) Z-Оцінка (нормальний розподіл):

Виявляє точки даних як викиди, що мають Z-оцінку, яка перевищує певний поріг.

(ii) IQR (міжквартильний розмах):

Виявляє викиди на основі розподілу середніх 50% даних.

(iii) DBSCAN:

Алгоритм кластеризації, який виявляє щільні області і позначає рідкісні як викиди.

(iv) Isolation Forest:

Виявляє аномалії шляхом ізоляції точок даних.

(v) Локальний фактор викиду (LOF):

Вимірює щільність точки відносно її сусідів.

(vi) ARIMA/SARIMA:

Виявляє аномалії в даних часового ряду.

🔰 Детальний опис кожної техніки

1.

Z-Оцінка

Техніка Z-Оцінки

📌 Визначення:

Z-Оцінка — це статистичний метод, який вимірює, на скільки відхиляється точка даних від середнього значення набору даних, виражене через стандартне відхилення.

Це допомагає виявити викиди, обчислюючи, скільки стандартних відхилень точка даних віддалена від середнього значення.

Точка даних вважається викидом, якщо її Z-Оцінка значно висока або низька.

Зазвичай поріг для викидів встановлюється так, що Z-Оцінка більше 3 або менше -3 вважається викидом, що вказує на точку, яка віддалена на 3 стандартних відхилення від середнього значення.

📌 Припущення:

➙ Дані повинні слідувати нормальному розподілу.

➙ У наборі даних повинна бути мінімальна асиметрія.

➙ Варіативність даних (стандартне відхилення) має бути сталою по всьому набору даних.

➙ Z-Оцінка ефективна для наборів даних, де залежність між змінними лінійна і відповідає нормальності.

📌 Як це працює:

Крок 1: Обчислення середнього значення та стандартного відхилення

Спочатку обчисліть середнє значення та стандартне відхилення для всього набору даних. Середнє дає середнє значення, а стандартне відхилення вимірює, наскільки розкидані дані від середнього значення.

Крок 2: Обчислення Z-Оцінок

Для кожної точки даних обчисліть її Z-Оцінку. Ця Z-Оцінка показує, на скільки стандартних відхилень точка даних віддалена від середнього. Z-Оцінка 0 означає, що точка знаходиться точно на середньому значенні.

Крок 3: Встановлення порогу

Виберіть поріг (зазвичай 3 або -3) для Z-Оцінки. Це буде межа для визначення викидів. Точки даних, що знаходяться на більше ніж 3 стандартних відхилення від середнього, вважаються викидами.

Крок 4: Виявлення викидів

Порівняйте Z-Оцінки кожної точки даних з порогом. Будь-яка точка з Z-Оцінкою більше 3 або меншою за -3 буде позначена як викид.

Крок 5: Прийняття рішення

Після виявлення викидів вирішіть, чи потрібно їх видаляти, змінювати або досліджувати далі, залежно від їхнього характеру і контексту.

Цей процес допомагає систематично виявляти викиди в нормально розподілених даних за допомогою техніки Z-Оцінки, що сприяє покращенню якості даних і точності моделей.

📌 Потрібні дані (вимоги до даних):

Метод Z-Оцінки вимагає:

Числові дані: Дані повинні бути безперервними та числовими, оскільки потрібно обчислювати середнє значення та стандартне відхилення.
Нормальність: Метод передбачає, що дані слідують нормальному розподілу, тому найкраще його застосовувати для наборів даних, де це припущення є справедливим (або може бути апроксимованим).
Без серйозної асиметрії: Наявність сильної асиметрії (тобто сильно ненормальних даних) може вплинути на обчислення і призвести до ненадійного виявлення викидів.

📌 Коли метод працює найкраще:

Метод Z-Оцінки працює найкраще в таких умовах:

Нормально розподілені дані: Z-Оцінка є найбільш ефективною, коли дані наближаються до нормального розподілу (перевернуті дзвони). Вона добре працює, коли розподіл є симетричним навколо середнього значення.
Малі та середні набори даних: Зазвичай використовується, коли набір даних не є занадто великим, і стандартне відхилення репрезентує дані.
Однорідні дані: Підходить для наборів даних, що не містять кластерів або кількох груп з різними розподілами.

📌 Переваги:

Простота та інтуїтивність: Z-Оцінка легко зрозуміла та застосовується, що робить її популярним вибором для виявлення викидів.
Кількісні результати: Вона надає чітку числову оцінку, яку можна порівнювати між наборами даних.
Широко використовується: Цей метод добре відомий у статистиці та часто використовується в таких сферах, як фінанси та біологія.
Ефективна для нормально розподілених даних: Вона дуже ефективна, коли дані слідують нормальному розподілу, оскільки безпосередньо використовує середнє значення та стандартне відхилення, що є основними для нормальних розподілів.

📌 Обмеження:

Припускає нормальність: Найбільше обмеження полягає в тому, що метод Z-Оцінки припускає нормальний розподіл даних.
It may not perform well on skewed or non-normal data.
Чутливість до масштабу даних: Якщо дані містять значні варіації, Z-Оцінка може давати оманливі результати. Наприклад, у сильно розкиданих даних Z-Оцінка може не виявити викиди.
Ігнорує багатовимірні викиди: Z-Оцінка є одновимірним методом, тому вона не враховує взаємозв'язки між змінними, що робить її менш підходящою для виявлення викидів у багатовимірних наборах даних.
Обмеження для числових даних: Метод не може бути застосований до категоріальних чи нечислових типів даних.

📌 Варіанти використання:

Метод Z-Оцінки корисний у різних застосуваннях:

Виявлення викидів у фінансах: З його допомогою можна виявити крайні значення, як, наприклад, аномально високі або низькі повернення на акції.
Контроль якості: У виробництві Z-Оцінка може допомогти виявити дефекти або аномалії в процесах виробництва.
Медичні дані: Виявлення крайніх значень у медичних вимірюваннях (наприклад, артеріального тиску або рівня холестерину).
Виявлення аномалій у дослідженнях: У наукових дослідженнях виявлення суб'єктів або результатів, що значно відрізняються від очікуваних значень.
Аналіз поведінки споживачів: Виявлення споживачів, чия витратна поведінка значно відрізняється від норми.

📌 Підсумок:

Z-Оцінка — потужний інструмент для виявлення викидів, особливо для нормально розподілених числових наборів даних. Обчислюючи, на скільки стандартних відхилень точка даних віддалена від середнього, вона надає кількісну міру для виявлення аномалій. Проте її залежність від нормальності і припущень про розподіл даних може обмежити її застосування в певних випадках, особливо з асиметричними або великими наборами даних.

2. IQR

Техніка IQR (міжквартильний діапазон (діаграма коробки))

📌 Визначення:

Міжквартильний діапазон (IQR) — це статистичний показник, що допомагає виявляти викиди, зосереджуючись на середніх 50% даних.

Він обчислює діапазон між першим квартилем (Q1) та третім квартилем (Q3) набору даних.

Точки даних, що знаходяться поза визначеним діапазоном (зазвичай 1,5 рази більше IQR), вважаються потенційними викидами.

📌 Припущення:

➙ Основне припущення методу виявлення викидів за IQR полягає в тому, що викиди — це точки даних, які значно відрізняються від "середніх 50%" розподілу даних, визначених першим і третім квартилем. Метод не припускає певної форми розподілу, що робить його стійким до асиметричних даних і хорошим вибором, коли нормальність не можна гарантувати.

➙ Метод IQR не припускає конкретного розподілу даних. Це непараметричний метод, тому він добре працює як з нормальними, так і з ненормальними даними.

➙ Хоча метод може обробляти асиметричні дані, він припускає, що набір даних не містить великої кількості екстремальних викидів.

➙ Якщо дані сильно асиметричні, метод IQR може все одно позначити деякі допустимі екстремальні значення як викиди.

📌 Як це працює:

Крок 1: Обчислення Q1 і Q3

Визначте 25-й процентиль (Q1) і 75-й процентиль (Q3) вашого набору даних. Ці процентилі визначають середні 50% даних.

Крок 2: Обчислення IQR

Відніміть Q1 від Q3, щоб отримати IQR. Це вимірює розподіл середніх 50% даних.

Крок 3: Встановлення меж

Обчисліть нижню межу як Q1 – 1,5 * IQR і верхню межу як Q3 + 1,5 * IQR. Ці межі визначатимуть, чи є точки даних викидами.

Крок 4: Виявлення викидів

Порівняйте кожну точку даних з обчисленими межами. Точки, які перевищують верхню або нижню межу, вважаються викидами.
Будь-яка точка за межами цього діапазону буде позначена як викид.

Крок 5: Вжити заходів

Визначте, чи потрібно видалити, дослідити чи відкоригувати викиди в залежності від їхнього контексту та значення.

Цей процес є простим і широко використовуваним для виявлення викидів у наборах даних, особливо коли дані не слідують нормальному розподілу або містять асиметричні значення.

📌 Потреби (вимоги до даних):

Метод IQR вимагає:

Числові дані: Дані повинні бути числовими, оскільки метод IQR обчислює процентилі та діапазони.
Кількісні дані: Набір даних повинен містити кількісні показники, які дозволяють коректно обчислювати процентилі.
Відсутність сильної мультимодальності: IQR припускає, що дані не є надто мультимодальними (не мають численних піків чи розподілів), оскільки це може заважати обчисленню Q1 та Q3.

📌 Коли це працює найкраще:

Метод IQR працює найкраще в таких умовах:

Не нормальні дані: Він ідеально підходить для наборів даних, що не підпорядковуються нормальному розподілу, оскільки не припускає конкретного розподілу.
Асиметричні або скривлені дані: IQR добре працює, коли дані є асиметричними, оскільки він менш чутливий до екстремальних значень у порівнянні з методами, як Z-Оцінка.
Стійкість до викидів: Ефективний для наборів даних, у яких можуть бути викиди, але їх не надто багато.

📌 Переваги:

Простий та зручний у використанні: IQR легко обчислювати та розуміти, що робить його доступним як для початківців, так і для досвідчених користувачів.
Без припущень про розподіл даних: Він не вимагає, щоб дані підкорялися певному розподілу (наприклад, нормальному), що надає йому гнучкість для різних типів наборів даних.
Добре працює з асиметричними даними: Підходить для роботи з асиметричними наборами даних, які можуть не слідувати нормальному розподілу.

📌 Обмеження:

Чутливий до малих розмірів вибірки: У дуже малих наборах даних метод IQR може бути ненадійним, оскільки квартилі можуть бути нечітко визначені.
Не підходить для багатовимірних даних: IQR є одновимірним методом, тому він не враховує взаємозв'язки між кількома змінними в наборі даних.
Можливі помилкові спрацьовування: Якщо дані містять справжні екстремальні значення, метод IQR може помилково класифікувати їх як викиди.

📌 Варіанти використання:

Виявлення викидів у фінансах: Використовується для виявлення фінансових транзакцій або цін на акції, які суттєво відрізняються від типових патернів.
Контроль якості: У виробництві IQR допомагає виявити дефектні продукти або аномалії в виробничих процесах.
Медичні дослідження: Допомагає у виявленні аномальних значень у медичних вимірюваннях, таких як рівень холестерину або артеріальний тиск.
Аналіз поведінки споживачів: В роздрібній торгівлі допомагає знаходити споживачів з поведінкою, що сильно відрізняється від середніх витратних патернів.
Наукові дані: Може виявляти аномалії у наукових експериментах або дослідженнях, де викиди можуть вказувати на помилки або значні результати.

📌 Підсумок:

Метод IQR є ефективною та простою технікою для виявлення викидів, особливо у ненормально розподілених даних. Вимірюючи діапазон між першим і третім квартилем, він визначає точки даних, які виходять за межі конкретного діапазону. Він особливо корисний для виявлення аномалій в асиметричних даних або коли не можна припустити нормальність. Однак він може не підходити для малих наборів даних або даних з кількома піками. Простота і гнучкість методу IQR робить його широко застосовуваним у різних сферах, таких як фінанси, виробництво, охорона здоров'я та наукові дослідження.

3.

DBSCAN

Техніка DBSCAN (Density Based Spatial Clustering Of Applications With Noise)

📌 Визначення:

DBSCAN — це алгоритм кластеризації, заснований на щільності, що групує точки даних на основі їхньої близькості одна до одної.

Він визначає кластери як області високої щільності, розділені областями низької щільності.

Ключова особливість DBSCAN полягає в тому, що він може виявляти викиди як шум, що робить його особливо корисним для наборів даних з неправильними формами або змінною щільністю.

📌 Припущення:

➙ Кластеризація на основі щільності: DBSCAN припускає, що кластери є областями високої щільності, оточеними областями низької щільності.

➙ Очікується шум: DBSCAN не вимагає, щоб усі точки належали до кластеру; деякі точки можуть вважатися шумом або викидами.

➙ Не параметричний: На відміну від алгоритмів, таких як K-means, DBSCAN не вимагає заздалегідь вказувати кількість кластерів.

📌 Як це працює:

Алгоритм DBSCAN працює на основі двох основних параметрів: epsilon (ε) та minPts.

Крок 1: Визначення основних точок

Основна точка — це точка, яка має хоча б minPts точок (включаючи себе) в радіусі ε. Ці точки є початковими точками кластеру.
Для кожної точки визначте, чи має вона хоча б minPts в радіусі ε. Якщо так, то це основна точка.

Крок 2: Знаходження сусідніх точок

Для кожної основної точки DBSCAN шукає точки в межах області, визначеної радіусом ε. Якщо сусідня точка має хоча б minPts точок у своєму оточенні, тобто вона також є основною точкою, то вона стає частиною того самого кластеру, продовжуючи його розширювати.

Крок 3: Розширення кластерів

Процес знаходження сусідніх точок триває рекурсивно, розширюючи кластер, поки не можна додати нові точки.

Крок 4: Визначення граничних точок

Гранична точка — це точка, яка знаходиться в межах області (ε) основної точки, але не має достатньо точок, щоб бути визнаною основною точкою.

Крок 5: Маркування шуму

Точки, які не є ні основними точками, ні граничними точками, вважаються шумом або викидами і не входять до жодного кластеру.

📌 Потреби (вимоги до даних):

Просторово розподілені дані: DBSCAN працює найкраще з даними, які можна візуалізувати в просторі, де можна обчислювати відстань між точками (наприклад, 2D, 3D і т.д.).
Вибір Epsilon та minPts: Успішність DBSCAN залежить від правильного вибору параметрів ε (радіус області) та minPts (мінімальна кількість точок для основної точки). Ці значення повинні бути налаштовані для кожного конкретного набору даних.

📌 Коли це працює найкраще:

Не сферичні кластери: DBSCAN працює добре, коли кластери мають неправильну форму, на відміну від K-means, який припускає сферичні кластери.
Змінна щільність: DBSCAN ефективний, коли набір даних має кластери з різною щільністю, оскільки він може адаптуватися до щільності точок.
Дані з шумом: DBSCAN спроектований для обробки шуму, що робить його корисним для наборів даних, що містять викиди.

📌 Переваги:

Не потрібно визначати кількість кластерів: На відміну від K-means, DBSCAN не вимагає визначати кількість кластерів заздалегідь.
Обробка викидів: DBSCAN автоматично позначає викиди як шум і не включає їх у жоден кластер.
Працює з довільними формами: Він здатний виявляти кластери довільних форм, що є значною перевагою порівняно з алгоритмами, які припускають сферичні кластери.

📌 Обмеження:

Чутливість до параметрів: Продуктивність DBSCAN значною мірою залежить від вибору параметрів ε та minPts.
Неправильний вибір параметрів може призвести до поганих результатів кластеризації.
Чутливість до змінної щільності: DBSCAN може мати проблеми, якщо дані містять кластери з істотно різною щільністю, оскільки одне значення ε може не підходити для всіх кластерів.
Продуктивність при великих наборах даних: DBSCAN може стати обчислювально дорогим для дуже великих наборів даних, особливо коли залучено обчислення відстаней.

📌 Використання:

Геопросторові дані: У таких додатках, як географічний аналіз даних, DBSCAN корисний для виявлення цікавих регіонів, таких як густонаселені райони, ігноруючи викиди, такі як рідко розташовані місця.
Виявлення аномалій: DBSCAN використовується для виявлення аномалій у наборах даних, вважаючи ізольовані точки даних викидами.
Сегментація зображень: DBSCAN можна використовувати в комп'ютерному зорі для сегментації зображень на основі щільності значень пікселів, групуючи схожі пікселі разом і позначаючи інші як шум.
Сегментація клієнтів: У маркетингу та аналізі клієнтів DBSCAN допомагає виявляти групи схожих клієнтів, навіть якщо вони не утворюють традиційні, добре визначені кластери.

📌 Підсумок:

DBSCAN — потужний алгоритм кластеризації на основі щільності, який може виявляти кластери довільної форми та ідентифікувати шуми (викиди). На відміну від K-means, він не вимагає попереднього визначення кількості кластерів і є стійким до присутності шуму в даних. Однак його ефективність сильно залежить від вибору параметрів ε (радіус) і minPts (мінімальна кількість точок), які потрібно ретельно налаштовувати. Він відмінно працює у сценаріях з різною щільністю кластерів та неправильними формами, що робить його особливо корисним для застосувань у геопросторовому аналізі, виявленні аномалій, сегментації зображень і сегментації клієнтів.

4. Isolation Forest

Техніка Isolation Forest

📌 Визначення:

Isolation Forest — це алгоритм без нагляду, спеціально розроблений для виявлення аномалій або викидів.

Він ізолює викиди в наборі даних, а не профілює нормальні точки даних.

Створюючи кілька рішучих дерев, алгоритм ізолює аномалії за допомогою меншої кількості розподілів, ніж для нормальних точок даних.

Ключова ідея полягає в тому, що аномалії менш поширені і потребують менше розподілів для ізоляції.

📌 Припущення:

➙ Ключове припущення, яке лежить в основі техніки виявлення аномалій за допомогою Isolation Forest, полягає в тому, що аномалії, або викиди, легше ізолюються від решти точок даних, оскільки вони рідкісні і відрізняються, що означає, що їх можна відокремити за допомогою меншої кількості випадкових розподілів, порівняно з нормальними точками даних; по суті, викиди легко ізолюються алгоритмом завдяки своїм характерним особливостям.

➙ Без припущень щодо розподілу: На відміну від деяких інших методів виявлення викидів, Isolation Forest не припускає конкретного розподілу для даних.

➙ Аномалії рідкісні: Алгоритм припускає, що викиди рідкісні і мають чітко виражені характеристики порівняно з більшістю даних.

➙ Незалежність характеристик: Isolation Forest припускає, що характеристики є незалежними одна від одної, і аномалії можна ізолювати за допомогою простих рішучих дерев.

➙ Масштабованість: Метод ефективний для великих наборів даних, оскільки він використовує випадкові дерева для ізоляції точок, що потребує менше обчислювальних ресурсів порівняно з іншими алгоритмами, такими як DBSCAN або K-means.

📌 Як це працює:

Алгоритм Isolation Forest працює, створюючи набір рішучих дерев для розподілу точок у наборі даних. Ось як працює процедура:

Крок 1: Створення кількох рішучих дерев

Алгоритм створює ліс випадкових дерев.
Кожне дерево будується шляхом випадкового вибору ознаки та потім випадкового вибору значення для поділу даних на дві частини.
Процес ізоляції триває, поки кожна точка не буде ізольована в листовому вузлі дерева.

Крок 2: Вимірювання довжини шляху

Ключовим показником для виявлення аномалій є довжина шляху, яка визначається як кількість ребер, які проходяться від кореневого вузла до певної точки даних.
Аномалії ізолюються меншою кількістю розподілів (коротшими довжинами шляху), оскільки вони відрізняються від більшості даних.

Крок 3: Оцінка аномалії

Кожній точці даних присвоюється оцінка аномалії на основі середньої довжини шляху через всі дерева. Коротші довжини шляху вказують на те, що точка є аномалією, тоді як довші довжини шляху свідчать про те, що точка є нормальною.

Крок 4: Виявлення викидів

Точки даних з оцінкою аномалії, яка перевищує певний поріг, позначаються як викиди. Поріг можна налаштувати залежно від рівня чутливості, необхідного для виявлення аномалій.

📌 Потреби (вимоги до даних):

Числові дані: Isolation Forest працює найкраще з безперервними, числовими даними. Він використовує випадкові розподіли на основі числових значень для ізоляції точок.
Незалежні ознаки: Алгоритм припускає, що ознаки є незалежними одна від одної, що добре працює, коли набір даних має незалежні атрибути.
Рідкісні набори даних: Оскільки Isolation Forest призначений для виявлення викидів, він може бути ефективним для виявлення рідкісних подій або спостережень у рідкісних наборах даних.

📌 Коли він працює найкраще:

Високорозмірні дані: Isolation Forest особливо добре підходить для наборів даних з великою кількістю ознак, оскільки він ефективно працює з високорозмірними даними порівняно з іншими методами, такими як методи, що базуються на відстані.
Великі набори даних: Цей метод масштабований і добре працює з великими наборами даних, оскільки для кожної точки даних потрібно виконати обмежену кількість випадкових розподілів.
Рідкісні викиди: Він ефективний, коли викиди рідкісні та істотно відрізняються від нормальних даних.

📌 Переваги:

Ефективний та масштабований: Він швидкий і може працювати з великими наборами даних завдяки використанню випадкових дерев та поділу. Він не потребує обчислень відстаней, що робить його набагато швидшим за методи, що базуються на відстані, такі як DBSCAN.
Без припущень про розподіл даних: На відміну від інших методів, Isolation Forest не припускає певного розподілу для даних (наприклад, нормальність), що робить його більш універсальним.
Добре працює з високорозмірними даними: Він добре працює навіть з наборами даних з великою кількістю ознак, на відміну від деяких інших алгоритмів, які стають менш ефективними з збільшенням розмірності.
Ефективно працює з великими наборами даних: Завдяки своїй структурі дерев, він добре масштабується для великих наборів даних без суттєвого погіршення продуктивності.

📌 Обмеження:

Чутливість до порогу: Продуктивність Isolation Forest залежить від вибору порогу для визначення викидів. Якщо поріг встановлений неправильно, це може призвести до пропуску викидів або хибного визначення нормальних точок як викидів.
Не ефективний для всіх типів викидів: Він найкраще працює для глобальних / точкових аномалій (окремих викидів), але може мати проблеми з виявленням колективних викидів (груп точок, які поводяться інакше, ніж решта набору даних).
Потрібне налаштування параметрів: Алгоритм потребує вибору кількості дерев (розміру лісу) та розміру підвибірки.
Якщо ці параметри не налаштовані правильно, алгоритм може працювати не оптимально.

📌 Використання:

Виявлення аномалій у кібербезпеці: Isolation Forest широко використовується для виявлення незвичайної активності, такої як шахрайські транзакції або зловмисна мережна поведінка.
Виявлення шахрайства з кредитними картками: Він може виявити шахрайські транзакції, які відрізняються від типових патернів витрат, ізолюючи їх як аномалії.
Виявлення аномалій у медицині: У сфері охорони здоров'я його можна використовувати для позначення незвичних медичних вимірювань або аномальних станів здоров'я, що суттєво відрізняються від норми.
Моніторинг промислового обладнання: У виробництві він може виявити несправності або поломки машин, визначаючи незвичайні показники датчиків від обладнання.
Виявлення шахрайства в електронній комерції: Його можна використовувати для виявлення підозрілих або шахрайських дій клієнтів, ізолюючи нетипові патерни покупок.

📌 Резюме:

Isolation Forest — це ефективний і масштабований алгоритм для виявлення викидів у наборах даних. Він працює шляхом ізоляції аномалій за допомогою рішень дерев, де викиди швидко відокремлюються меншою кількістю розподілів порівняно з нормальними точками даних. На відміну від інших методів, він не залежить від вимірювань відстані чи припущень про розподіл даних, що робить його універсальним і ефективним для високорозмірних та великих наборів даних. Хоча він добре працює для глобальних / точкових аномалій, він може не бути таким ефективним для виявлення колективних викидів. Він широко використовується в кібербезпеці, виявленні шахрайства та виявленні аномалій у медицині завдяки своїй здатності обробляти рідкісні та високорозмірні дані.

5. Local Outlier Factor (LOF)

Алгоритм LOF (Local Outlier Factor)

📌 Визначення:

Local Outlier Factor (LOF) — це алгоритм для виявлення викидів, який порівнює локальну щільність точок даних з їхніми сусідами.

Точка даних вважається викидом, якщо її щільність значно менша, ніж у її сусідів.

Алгоритм LOF оцінює ступінь ізоляції кожної точки, і ті, чия щільність значно нижча, позначаються як викиди.

📌 Припущення:

➙ Локальний підхід: LOF припускає, що локальні викиди — це точки, які мають значно нижчу щільність порівняно з їхніми сусідами, тобто вони знаходяться в менш щільних регіонах набору даних порівняно з нормальними точками даних.

➙ Локальне порівняння: На відміну від методів виявлення глобальних викидів, LOF зосереджується на порівнянні щільності точки з її безпосереднім оточенням, що дозволяє йому виявляти викиди навіть у густих кластерах.

➙ Метод на основі відстані: Алгоритм використовує метрики відстані (наприклад, евклідову відстань), щоб визначити, як далеко кожна точка даних знаходиться від своїх сусідів, що робить його чутливим до форми та структури даних.

➙ Змінна щільність: LOF припускає, що набір даних може мати змінну щільність у різних регіонах. Аномалії в областях з високою щільністю виявляються шляхом порівняння їхньої локальної щільності з щільністю сусідів, а в низькощільних областях локальна щільність може бути однорідною.

📌 Як це працює:

LOF працює, обчислюючи локальну оцінку щільності для кожної точки даних на основі її взаємозв'язків з сусідами. Ось як працює алгоритм LOF для виявлення викидів:

Крок 1: Обчислення k-відстані для кожної точки

Алгоритм починається з визначення параметра, який називається k, що вказує на кількість найближчих сусідів, які слід враховувати для кожної точки.
Для кожної точки даних обчислюється відстань до її k-ї найближчої точки.
Це відоме як k-відстань.

Крок 2: Обчислення відстані досягнення

Відстань досягнення для точки визначається як максимальна між k-відстанню для точки та відстанню між точкою і одним з її сусідів.
Ідея полягає в тому, що відстань досягнення повинна бути великою для викидів, оскільки вони знаходяться далеко від своїх сусідів.

Крок 3: Обчислення локальної щільності досягнення (LRD)

Локальна щільність досягнення (LRD) обчислюється як зворотна величина середньої відстані досягнення для k найближчих сусідів точки.
Точки з нижчими значеннями LRD вважаються такими, що знаходяться в областях з нижчою щільністю і більше ймовірно є викидами.

Крок 4: Обчислення LOF-оцінки

LOF-оцінка для кожної точки обчислюється шляхом порівняння її LRD з LRD її сусідів. Висока LOF-оцінка вказує на те, що точка має значно нижчу щільність порівняно з її сусідами, що свідчить про те, що це викид.
Формула для LOF — це середнє значення відношення LRD точки до LRD її сусідів.

Крок 5: Виявлення викидів

Точки даних з LOF-оцінкою, що значно перевищує 1, вважаються викидами. Зазвичай точки з LOF-оцінкою вище 1,5 або 2,0 позначаються як викиди, залежно від набору даних.

📌 Потреби (Вимоги до даних):

Числові дані: LOF зазвичай працює з безперервними, числовими даними, оскільки він покладається на обчислення відстаней.
Вибір k (Розмір сусідства): Значення k потрібно вибирати уважно, оскільки воно визначає, скільки сусідів має бути враховано при обчисленні щільності. Маленьке значення k може зробити алгоритм чутливим до локального шуму, тоді як велике значення k може зменшити різницю між нормальними та аномальними точками.
Метрики відстані: LOF залежить від використання метрики відстані (наприклад, евклідової відстані). Вибір метрики відстані може вплинути на ефективність LOF, особливо при роботі з високорозмірними даними.

📌 Коли він працює найкраще:

Високорозмірні дані: LOF ефективно працює з наборами даних, що мають велику кількість ознак, оскільки він працює в локальному контексті для виявлення викидів у густих регіонах.
Дані з змінною щільністю: LOF особливо корисний, коли дані мають різну щільність у різних регіонах. Він може виявляти викиди в областях, де щільність точок нижча порівняно з оточуючими регіонами.
Нелінійні структури: LOF може виявляти викиди в даних з складними, нелінійними структурами або кластерами, де інші методи, такі як K-means, можуть не впоратися.

📌 Переваги:

Виявлення локальних викидів: На відміну від інших методів виявлення викидів, LOF чутливий до локальної щільності даних, що робить його корисним для наборів даних з різною щільністю.
Масштабованість: LOF може обробляти великі набори даних з високою розмірністю і є більш масштабованим порівняно з методами на основі щільності, такими як DBSCAN.
Не вимагає припущень про розподіл даних: LOF не вимагає, щоб дані слідували певному розподілу (наприклад, нормальному), що робить його гнучким і придатним для багатьох типів наборів даних.
Універсальність: LOF можна застосовувати до наборів даних з кластерами різної форми та щільності, що робить його ефективним для складних структур даних.

📌 Обмеження:

Чутливість до k: Вибір параметра k значно впливає на ефективність алгоритму LOF. Занадто маленьке значення k може призвести до надмірної чутливості, а занадто велике значення може погіршити виявлення викидів.
Обчислювальна складність: Для великих наборів даних LOF може бути обчислювально дорогим, оскільки потрібно обчислювати відстані між усіма парами точок і сортувати їх. Це може призвести до високого використання пам'яті та повільної роботи.
Не підходить для глобальних викидів: LOF головним чином призначений для виявлення локальних викидів.
Він може погано працювати для виявлення глобальних викидів (тих, що відрізняються від решти набору даних в цілому, але не від своїх безпосередніх сусідів).

📌 Варіанти використання:

Виявлення шахрайства у фінансах: LOF можна використовувати для виявлення незвичайних транзакцій або шахрайської поведінки шляхом виявлення патернів, що відрізняються від звичного поведінки клієнтів або підприємств.
Виявлення вторгнень у кібербезпеці: Використовується для виявлення аномального мережевого трафіку або незвичних активностей, які можуть свідчити про порушення безпеки.
Виявлення аномалій у медицині: LOF можна застосовувати до медичних наборів даних для виявлення аномальних показників, які можуть вказувати на проблеми зі здоров'ям або рідкісні захворювання.
Моніторинг даних сенсорів: У промислових застосунках LOF може виявляти викиди в даних сенсорів, сигналізуючи про несправності або поломки обладнання.
Виявлення аномалій в зображеннях: LOF може допомогти виявити незвичайні або пошкоджені пікселі в наборах даних зображень, що можуть вказувати на дефекти обладнання або помилки в зборі даних.

📌 Підсумок:

Local Outlier Factor (LOF) — потужний алгоритм для виявлення локальних викидів на основі щільності точок у їхніх сусідствах. Він працює шляхом порівняння щільності точки з щільністю її сусідів, позначаючи точки з значно нижчою щільністю як викиди. LOF ідеально підходить для наборів даних з різною щільністю і складними структурами, і є більш ефективним, ніж глобальні методи, такі як Z-score, для виявлення викидів у таких наборах даних. Однак LOF вимагає уважного вибору параметра k і може мати обчислювальні проблеми при роботі з великими наборами даних. Він широко використовується в таких сферах, як виявлення шахрайства, кібербезпека та виявлення аномалій у медицині.

6. ARIMA/SARIMA (Аномалії часових рядів):

ARIMA (Автокореляційна інтегрована ковзна середня) та SARIMA (Сезонна автокореляційна інтегрована ковзна середня)

📌 Визначення:

ARIMA (AutoRegressive Integrated Moving Average) — популярна модель прогнозування часових рядів, яка поєднує три компоненти:

AR (Автокореляція): Модель, яка прогнозує поточне значення серії на основі її попередніх значень.
I (Інтегроване): Цей компонент використовується для того, щоб зробити часовий ряд стаціонарним шляхом різниці (віднімання попереднього спостереження від поточного).
MA (Ковзна середня): Цей компонент використовує залежність між спостереженням і залишковою помилкою від моделі ковзної середньої, застосованої до відкладених спостережень.

ARIMA ефективна, коли часова серія стаціонарна або може бути зроблена стаціонарною. Однак багато реальних часових рядів мають сезонність, яку ARIMA не може врахувати. Тут на допомогу приходить SARIMA (Сезонна ARIMA).

SARIMA (Seasonal AutoRegressive Integrated Moving Average) — це розширення ARIMA, яке явно враховує сезонність у даних часового ряду. SARIMA додає сезонні елементи в модель ARIMA, що дозволяє їй моделювати не тільки тренди та шуми в даних, але й періодичні коливання (сезонні патерни).

ARIMA фокусується на не сезонних компонентах, тоді як SARIMA додає сезонні автокореляційні, різницеві та ковзні середні компоненти, що допомагає моделювати сезонність. Відповідно, SARIMA можна розглядати як ARIMA з додатковим сезонним шаром.

ARIMA: Підходить для стаціонарних часових рядів без вираженої сезонної складової.
SARIMA: Підходить для часових рядів із сезонною компонентою.

📌 Як ARIMA та SARIMA можуть використовуватися для виявлення викидів?

ARIMA та SARIMA можна використовувати для виявлення викидів у часових рядах шляхом моделювання очікуваних значень і виявлення точок, що суттєво відрізняються від цих очікувань.

Для ARIMA спочатку налаштовується модель на дані часового ряду, потім генеруються прогнозовані значення. Викиди можна виявити, коли фактичні дані значно відрізняються від прогнозованих значень (зазвичай за допомогою попередньо визначеного порогу). Ці великі відхилення свідчать про те, що точка є викидом.
Це добре працює для не сезонних даних.

SARIMA працює подібно, але враховує сезонні патерни. Після налаштування моделі ви порівнюєте спостережувані значення з прогнозованими сезонними та не сезонними компонентами. Якщо точка даних значно відрізняється від прогнозу, вона позначається як викид, що робить SARIMA особливо корисною для часових рядів із повторюваними сезонними тенденціями.

У обох випадках викиди — це ті точки, які значно відрізняються від діапазону прогнозованих значень, що вказує на незвичайні або неочікувані події в наборі даних.

D. Обробка викидів

Що таке обробка викидів?

Тепер, коли ми розглянули різні методи виявлення викидів, наступним важливим кроком є обробка цих викидів.

Обробка викидів — це процес обробки виявлених викидів таким чином, щоб вони не впливали негативно на модель або аналіз.

Простіше кажучи, виявлення викидів допомагає ідентифікувати ненормальні точки даних, а обробка викидів зосереджена на визначенні відповідних дій з цими точками.

Обробка полягає в тому, щоб або видалити, відрегулювати, або замінити викиди, щоб вони не спотворювали загальний розподіл даних або ефективність моделі.

Огляд методів обробки викидів

Після того як викиди були виявлені, є кілька способів їх обробки.

Найпоширеніші методи обробки викидів включають обрізання, обмеження та обробку викидів як порожні значення.

Кожна техніка має своє призначення і використовується залежно від бізнес-контексту та характеристик даних.

Давайте детальніше розглянемо ці техніки, щоб зрозуміти, коли і як використовувати кожну.

1. Обрізання: (Видалення викидів)

Обрізання (видалення) викидів за межами 3 стандартних відхилень

Обрізання включає повне видалення виявлених викидів з набору даних. Це один з найпростіших методів обробки викидів. Коли ви обрізаєте викиди, ви відкидаєте точки даних, які знаходяться далеко за межами нормального діапазону. Метою є збереження лише найбільш релевантних даних для аналізу. Наприклад, якщо набір даних віку клієнтів містить значення 150 (що явно є викидом), то обрізання полягає в тому, щоб видалити цю точку даних.

Процес обрізання може ґрунтуватися на конкретних порогах, таких як використання техніки Z-скорів або IQR для визначення межі викидів. Після того, як ви виявили викиди, просто видаліть їх з набору даних перед подальшим аналізом. Обрізання особливо корисне, коли викиди є помилками або екстремальними аномаліями, що не відповідають справжньому розподілу набору даних.

📌 Приклад обрізання:

Розглянемо набір даних, що представляє собою місячні дані про продажі для роздрібного магазину.

Якщо місячні продажі показують значення 1,000,000 одиниць за один місяць, коли звичайний діапазон продажів знаходиться між 10,000 і 50,000 одиницями, це значення можна вважати викидом.

Застосувавши обрізання, ви видалите це екстремальне значення з набору даних і зосередитеся на решті значень продажів, що потрапляють у очікуваний діапазон.

2. Обмеження: (Обмеження значень викидів)

Обмеження (заміна на верхню або нижню межу)

Обмеження, також відоме як Вінзоризація, — це техніка обробки викидів, яка обмежує їх екстремальні значення до попередньо визначеного порогу. Замість того, щоб повністю видаляти викиди, обмеження коригує значення викидів, роблячи їх менш екстремальними, наближаючи їх до решти даних.

На практиці це означає встановлення максимального і мінімального порогу, і будь-яке значення, що перевищує ці межі, буде встановлено на найближчий поріг. Наприклад, якщо ви встановите верхній поріг на 100, а нижній на 10, то всі значення, більші за 100, будуть обмежені до 100, а всі значення, менші за 10, будуть обмежені до 10.
Ця техніка корисна, коли ви хочете зберегти всі точки даних, але обмежити вплив екстремальних значень.

📌 Приклад обмеження:

Припустимо, у вас є набір даних про зарплати співробітників, і зарплата одного співробітника становить 5 000 000 доларів, тоді як інші варіюються від 50 000 до 150 000 доларів.

Замість того, щоб видаляти цей викид, ви можете обмежити значення до 150 000 доларів, що наближає викид до нормального діапазону даних.

Тобто, припустимо, що максимальна зарплата в наборі даних становить 50 000 доларів, тому ви обмежуєте / замінюєте значення викиду 150 000 доларів на максимальне значення 50 000 доларів.

Цей метод запобігає тому, щоб викид спотворював будь-який аналіз або модель, при цьому не втрачаючи цінну інформацію з решти даних.

3. Обробка викидів як порожні значення

Іноді не є доцільним просто видаляти або коригувати викиди. У таких випадках обробка викидів як порожніх значень є ще одним варіантом. Це означає заміну значень викидів на порожнє (відсутнє) значення, щоб вони не впливали на будь-які обчислення або етапи моделювання.

Обробка викидів як порожніх значень корисна, коли викиди занадто екстремальні, щоб їх коректно налаштувати, або коли немає розумного способу їх змінити. Після заміни викидів на порожні значення можна вибрати імпутацію відсутніх значень або залишити їх без змін, залежно від ситуації. Цей підхід дозволяє моделі обробляти викиди таким чином, щоб мінімізувати їхній вплив, не порушуючи цілісність даних.

📌 Приклад обробки викидів як порожніх значень:

Уявіть набір даних про трафік вебсайту, де більшість значень трафіку варіюються від 1 000 до 10 000 відвідувань на день.

Однак в один день трафік різко збільшується до 100 000 відвідувань.

Замість того, щоб обрізати або обмежувати це значення, ви могли б замінити його на порожнє значення, а потім імпутувати це порожнє значення будь-яким методом, таким як середнє, медіана або будь-яким алгоритмом.

Таким чином, сплеск більше не впливає на жоден аналіз, але ви все одно зберігаєте решту валідних точок даних.

Як вирішити, яку обробку використовувати?

Вибір відповідної обробки викидів залежить від кількох факторів. Контекст бізнесу та дані самі по собі відіграють важливу роль у визначенні того, чи є обрізання, обмеження або обробка викидів як порожніх значень найкращим підходом.

Якщо викиди є просто помилками введення даних, обрізання або обмеження може бути доцільним. Однак, якщо викиди є частиною природної варіації в даних (наприклад, екстремальні показники продажів під час акції), обробка їх як порожніх значень може бути кращим варіантом для запобігання упередженості.

Крім того, природа моделі також впливає на рішення. Деякі моделі машинного навчання (наприклад, моделі на основі дерев) є більш стійкими до викидів, тому обробка викидів може бути не такою важливою. З іншого боку, моделі, як-от лінійна регресія, можуть бути дуже чутливими до викидів, що вимагає ретельної обробки.

Висновок

Викиди — це важливий, але складний аспект аналізу даних, який має потенціал як для збагачення, так і для спотворення нашого розуміння наборів даних. У цій статті ми глибоко занурилися у світ викидів, починаючи з їх визначення, причин та типів. Ми дослідили, як виявлення викидів — це не просто статистична вправа, а критичний крок у виявленні прихованих патернів і забезпеченні цілісності аналізу. Важливість виявлення та обробки викидів не можна переоцінити, оскільки вони часто виявляють аномалії, такі як шахрайство, неефективність процесів або незвичні поведінки, які, якщо їх залишити без уваги, можуть призвести до спотворених висновків та скомпрометованих моделей.

Виявлення викидів — це лише половина боротьби. Розуміння правильних інструментів і технік для їх ідентифікації, будь то через статистичні методи, як Z-скори та IQR, або більш складні техніки, як Isolation Forest і DBSCAN, дає можливість практикам даних приймати обґрунтовані рішення.
Кожна техніка має свої припущення та оптимальні умови використання, що робить вибір методу, який відповідає характеристикам набору даних, надзвичайно важливим. Цей фундамент природно переходить до не менш важливого процесу обробки викидів, де рішення щодо обрізання, обмеження чи обробки викидів як порожніх значень мають відповідати контексту даних та бізнес-цілям.

Зрештою, ефективна обробка викидів — це не універсальне рішення. Це мистецтво, яке поєднує математичну строгості з знаннями в конкретній галузі. Вибір методів виявлення та обробки завжди має враховувати природу набору даних, основну проблему та чутливість моделей до таких точок даних. Оволодіваючи концепціями та техніками, обговореними в цій статті, практики можуть покращити надійність і стабільність своїх аналізів. Викиди, коли вони обробляються майстерно, можуть перетворитися з порушуючих аномалій на безцінні джерела інформації, що сприяють кращим рішенням і результатам у широкому спектрі застосувань.

⭐ ПРИМІТКА ВІД АВТОРА :-

По-перше, вітаю вас! Ви дісталися сюди і продемонстрували відданість до того, щоб прочитати таку всеосяжну статтю, і я впевнений, що тепер ви маєте достатньо знань про викиди.

Це дуже довга стаття, і я розумію це. Причина, чому вона така детальна і велика, полягає в тому, що під час мого дослідження я зрозумів, що існують різні техніки виявлення викидів, і кожна техніка має свої припущення і працює найкраще в деяких сценаріях.

Отже, для того, щоб отримати найкращі результати з даних, професіонал у галузі даних повинен бути обізнаний з усією такою інформацією, яку техніку слід використовувати залежно від даних, які вони мають, який метод обробки викидів застосувати. Через все це стаття вийшла дуже детальною та довгою.

Але я дуже впевнений, що інформація, яку я надав тут, дійсно дуже корисна, оскільки я охопив усі основи та зібрав їх в одну статтю.

Це забрало у мене дуже багато часу, насправді, мені знадобилося кілька тижнів, щоб представити це, тому що:

Я спочатку мусив дослідити тему, тому я переглянув багато різних джерел.
Перевірив інформацію, а потім особисто зрозумів і навчився всьому цьому.
Нарешті, створив комплексну структуру, щоб представити це читачам в статті, та ще раз паралельно перевірив інформацію, яку я надаю.

Сподіваюся, що вам сподобалися мої зусилля і що інформація була корисною для вас.

Автор: Шубхам Паріхар , аналітик і науковець з даних.

Підписуйтесь на мене на LinkedIn для отримання більше таких інсайтів 💡 в галузі наук про дані.

Перекладено з: The Ultimate ⭐ Complete Guide to Outliers : Detection and Treatment