Нью-Йоркська поліція: що каже статистика?

pic

Фото AP/Джулі Джейкобсон

NYC Open Data

Маючи майже 4 000 наборів даних, наданих 95 міськими агентствами, що охоплюють різноманітні теми, такі як громадський транспорт, дозволи на зйомки, зареєстровані таксі, ринки фермерів та багато іншого, один із найбільших джерел загальнодоступних і надійних відкритих даних, доступних в Інтернеті, — це NYC Open Data. Хоча це особливо актуально для мене, як жителя Нью-Йорка, я також згадую цитату історика Льюїса Мамфорда 1979 року:

“Нью-Йорк — це ідеальна модель міста, а не модель ідеального міста”.

Отже, дані, доступні на NYC Open Data, можна вважати типовими для будь-якого великого американського міста (якщо не для будь-якого міста), а також вони дають безпосередній погляд на те, що відбувається в самому Нью-Йорку. Нещодавно я вирішив дослідити набори даних про арешти NYPD на NYC Open Data і провести дослідницьке вивчення того, що я знайшов.

Набори даних про арешти NYPD

На сайті доступні два різні набори даних про арешти: 2024 Year-to-Date (YTD) і Історичний набір. Набір YTD фактично зупиняється наприкінці вересня 2024 року, тому цей набір є фактично даними за неповний рік. Я отримав доступ до набору YTD, коли він був майже актуальним, у середині жовтня 2024 року, і лише після завершення більшості мого аналізу на основі цього обмеженого набору я вирішив проаналізувати Історичний набір, який містить всі арешти з 2006 по кінець 2023 року. (Станом на 8 січня 2024 року набір YTD ще не оновлений.)

Цей Історичний набір значно більший за набір YTD, досягаючи приблизно 5,7 мільйона рядків і близько 1,5 ГБ, порівняно з 35 МБ і близько 200 000 рядками даних YTD. Великі набори даних на NYC Open Data не можна завантажити так, як звичайний файл меншого розміру, оскільки їхній розмір занадто обмежений, тому для доступу до них потрібно використовувати API (Application Protocol Interface). Після цього доступ до даних зазвичай можна отримати досить швидко. У моєму випадку я використовував Python-скрипт для цього.

pic

via Pexels

Підготовка SQL бази даних

Великий розмір Історичного файлу означав, що я спочатку повинен був виконати деяку підготовку даних і початковий аналіз за допомогою SQL бази даних. Однак, хоча дані на Open Data NYC в основному досить надійні, я стикався з помилками майже одразу при перенесенні цього великого набору в мою базу даних SQLite для початкового аналізу. Дозвольте пояснити.

Для тих, хто не знайомий з мовами баз даних, такими як SQL, коли база даних створюється, необхідно вибрати стовпець «первинного ключа», щоб база даних могла працювати ефективно. Часто це ідентифікаційний номер, наприклад, для баз даних співробітників чи клієнтів. Хоча у співробітників та клієнтів можуть бути однакові імена або адреси, різні ID номери відокремлюють кожного співробітника чи клієнта. Інші ідентифікатори, такі як електронні адреси або номери соціального страхування, часто вибираються натомість, залежно від характеру даних. Таким чином, той, хто отримує доступ до цієї бази даних, швидко переконується, що він отримує інформацію про правильну особу. База даних може виконувати операції таким чином, адже робота з даними в цьому випадку значно простіша. У будь-якому випадку цей «первинний ключ» є абсолютно важливим для створення будь-якої великої бази даних, особливо тих, що використовують SQL. Багато великих наборів даних вже мають створений первинний ключ, і для бази даних про арешти це arrest_key, приклад якого: 279779846, для першого арешту січня 2024 року.
(Арешт за володіння небезпечними зброями білим чоловіком у Джексон-Хайтс, Квінс, віком 45–64 роки.)

Під час перенесення файлу CSV з даними про арешти в таблицю бази даних SQLite, я неодноразово стикався з таємничими помилками, які перешкоджали завершенню переносу. Зрештою я знайшов джерело проблеми. У наборі було приблизно 20 000 дубльованих arrest_key. Точні дублікати — це справжнє лихо для баз даних і наборів даних. Таблиці з дубльованими первинними ключами не можна правильно вставити в базу даних, і це є ознакою того, що подія, яка відбулася один раз, була зарахована як така, що сталася двічі. Я очікував, що в даних з такого авторитетного джерела не буде дублікованих записів і не врахував цього під час очищення даних перед створенням таблиці, хоча насправді це є хорошою практикою. Незалежно від причин цих дублікатів, я не міг залишити їх, і перевіряти їх поодинці, щоб з’ясувати, чи не є деякі з дубльованих ключів насправді унікальними арештами, а потім якось виправляти це, було б непрактично для таких цілей, оскільки 20 000 — це всього лише близько 0,3% від шести мільйонів. Тому я видалив ці дубльовані рядки, і процес вставки таблиці було завершено.

pic

via Pexels. SQL не на зображенні.

(До речі, охоронцям цього набору даних можна пробачити кілька помилок в підготовці, а відсоток помилки є майже непомітним, якщо врахувати шість мільйонів рядків даних за 18 років. Безумовно, більшість цих даних, а також решта даних на NYC Open Data, є такими ж надійними та точними, як і будь-які інші безкоштовні відкриті дані.)

Після підготовки бази даних я зміг ще більше маніпулювати базою даних за допомогою SQL і передати її в оптимізованому вигляді до Tableau для візуального аналізу.

Результати

Демографія

Тепер перейдемо до результатів. Спочатку я вирішив провести очевидний аналіз і детально ознайомитися з демографічними даними щодо арештів. Звісно, можна багато говорити про те, що призводить до расових диспропорцій в арештах, але гідне вивчення цього питання виходить за межі даного аналізу, і це вже досить досліджена тема. Дійсно, NYPD публікував свої аналізи своїх даних про арешти протягом багатьох років, наприклад, цей звіт 2021 року, який може надати зацікавленим сторонам більш конкретні, хоча й дещо упереджені, погляди на демографію арештів у Нью-Йорку. Якщо я коли-небудь матиму що сказати з приводу того, що змушує людей будь-якої раси скоювати злочини, я обов'язково це зроблю. Метою мого аналізу є побачити, що можна виявити на основі даних, що, можливо, не є так широко відомим.

Однак те, що я знайшов найбільш цікавим демографічно, — це велика кількість арештів під категоріями "Невідомо" та "Інше". Хоча Нью-Йорк, без сумніву, є одним із найбільш різноманітних районів Америки та світу, наявність цих двох неясних категорій насправді свідчить багато чого про неясність самої раси. Я також був трохи здивований значною кількістю арештів серед "Корінних американців/корінних алєутів". Проте деякі дослідження підтвердили, що чисельність корінного населення становить приблизно 181 000 осіб, або два відсотки від загальної кількості, що робить їх наявність в числі арештів менш несподіваною.
“Білий іспанець” (White Hispanic), термін, до якого я можу бути віднесений дуже умовно, став ще однією категорією, яку я не очікував побачити в цих даних, але з високими показниками арештів.

pic

Перегляд демографічної інформації для набору даних про арешти NYPD за 2006–2023 роки.

Арешти за районом

Хоча результати могли бути очікуваними для будь-кого, хто знайомий з загальною кримінальною ситуацією Нью-Йорка, я також вирішив створити карту арештів по районах, щоб побачити, чи можна виявити якісь цікаві тенденції. Однак, хоча справді спостерігається незначне відносне збільшення злочинності в деяких районах, таких як 103-й і 110-й у Квінсі (див. трохи темніший відтінок для цих та деяких інших районів на карті YTD, що показана другою), загалом цифри арештів залишаються сталими з часом по всіх районах, і карти майже ідентичні. Карти все ж є корисними індикаторами, які райони зазнають найбільше та найменше арештів. Таймс-сквер, Пенсільванія-станція та загальна атмосфера “пароварки” в Мідтауні Манхеттена складають темно-синій колір для 14-го округу, який є лідером, з середнім показником близько 33 арештів на день, згідно з даними YTD. Трохи світліший колір темно-синього для 75-го та 73-го округів у Брукліні представляє Браунсвілл і Східний Нью-Йорк, які відомі як одні з найбільш небезпечних районів Брукліна, а також для 40-го та 44-го округів у Південному Бронксі. Центральний парк з 22-м округом та Стейтен-Айленд з 123-м округом демонструють найнижчі показники.

pic

Перегляд карти районів для набору даних про арешти NYPD за історичними даними.

pic

Перегляд карти районів для набору даних про арешти NYPD за даними YTD.

Арешти та календар

Одним із найбільш цікавих і ще неочікуваних результатів, які я знайшов, були дні тижня, коли відбуваються арешти. В дитинстві я часто чув “міф”, що поліціянти здійснюють менше арештів наприкінці місяця, оскільки вони більше мотивовані виконувати квоти арештів, аніж робити це з інших причин. Логіка така, що коли квота заповнена, вони набагато менш схильні до зайвих зусиль і рідше роблять арешти за незначні правопорушення. Звісно, це здавалося мені трохи неправдоподібним і, ймовірно, здасться таким іншим. Це явно "антиполіційна" думка. Однак дані абсолютно підтверджують цей міф. Дехто може припустити, що дані можуть бути спотвореними через різну кількість днів у місяцях, де лютий має або 28, або 29 днів, а чотири інші місяці мають 30 ("Тридцять днів має вересень, квітень, червень і листопад..."), і 31 день у решті семи місяців. (Насправді, швидкий підрахунок показує, що, враховуючи високосні роки, середня кількість днів у місяці становить 30,5, що має сенс.) Але історичні дані показують, що це розбіжність навіть більш виражена, при цьому зниження кількості арештів починається на 20-му числі місяця, а потім, за винятком невеликого стрибка між 25-м і 27-м числом, різко падає аж до кінця місяця. Таким чином, цей міф було доведено правдою, принаймні попередньо. Якщо середня кількість арештів у Нью-Йорку за перші 20 днів становить майже 200 000, то середня кількість за останні десять днів — близько 160 000.

pic

pic

Можливо, навіть цікаво дізнатися, чи є дні тижня з більшою кількістю арештів, і дані тут також вражають. Я навіть перевірив це, використовуючи деяку майстерність у Excel, тому що не зовсім довіряв тому, що бачив. Але це було підтверджено.
Здебільшого можна було б припустити, що найбільш криміногенні ночі тижня — це вихідні, але дані малюють зовсім іншу картину. Як у даних YTD, так і в історичних даних, пік арештів припадає на середу та четвер, з поступовим зниженням до п’ятниці та суботи, при цьому неділя є "найлегшим" днем. Спочатку це здається дивним, але можна припустити, що напруга зазвичай досягає найвищого рівня, включаючи напругу між поліцією та цивільними, саме в середині робочого тижня. Коли настає вихідний, ситуація заспокоюється, і це частково підтверджується тим, що неділя залишається найменш напруженим днем. Однак деякі можуть бути здивовані, що понеділок майже такий самий "кримінально легкий", як і неділя.

pic

Історичні дані також показують дивну чергування, яке на перший погляд непомітне, але потім не можна не помітити, у самих місяцях протягом обох періодів, де січень, березень, травень, серпень і жовтень — це найбільш криміногенні місяці, а грудень — найменш криміногенний. Я не знаю, як трактувати цей результат і навіть не можу здогадатися, що могло б бути джерелом цієї закономірності. Ще раз, середній громадянин, ймовірно, подумав би, що найкриміногенніші місяці — це, можливо, не свята грудня, то хоча б літні місяці. Однак літні місяці також є серед найменш криміногенних. Які б не були причини, дані чітко показують це.

pic

Найбільш і найменш поширені правопорушення, за якими робляться арешти

Я думав, що висновки, пов'язані з датами, будуть найбільш сенсаційними результатами з цього аналізу, але я знайшов кілька інших цікавих аномалій, яких не очікував, і які розкривають досить корисні факти. Ми можемо побачити, наприклад, що найпоширенішою причиною арештів історично є "Небезпечні наркотики", що складає майже вдвічі більше за "Напади 3-го ступеня та суміжні правопорушення".

pic

Однак, порівняно з агрегованими даними за 2006–2023 роки, можна зауважити, що дані YTD малюють зовсім іншу картину: найпоширенішим правопорушенням у 2024 році замість наркотиків є напад, а правопорушення, пов'язані з наркотиками, опустилися на 4-е місце. Тепер, побачивши це, ми повинні задатися питанням, що це означає. Але завдяки магії фільтру в Tableau, змінюючи діапазон років у наборі історичних даних, ми можемо чітко побачити, що зміна цього співвідношення відбулася приблизно у 2014 році. Швидкий пошук у Google за запитом "drug laws nyc 2014" привів до двох релевантних статей: "New York Senate Passes Bill on Medical Marijuana", датованої 20 червня 2014 року, та "Governor Cuomo Signs Legislation to Combat Heroin, Opioid and Prescription Drug Abuse Epidemic", датованої 23 червня 2014 року. Досить сказати, що, ймовірно, є кілька інших причин цієї зміни, яких я не врахував, і, можливо, вдосконалене законодавство щодо опіоїдів, а також легалізація медичної марихуани (а потім і рекреаційної марихуани) майже не вплинули на злочинність. Але, хоча, як і в усіх цих даних, кількість арештів не завжди дорівнює кількості злочинів, виглядає, що в світі наркотичних злочинів Нью-Йорка за останнє десятиліття відбулася поразка цього феномену.
Ми можемо лише сподіватися, що цей тренд продовжиться.

pic

pic

pic

Крім того, я не знав, що "Ворожіння", яке займає 12 арештів у історичному наборі, і хоча б один арешт у 2024 році, є злочином у Нью-Йорку, адже стаціонарні ворожки тут не є рідкістю. Інші цікаві згадки внизу списку: "Аборт", із десятьма арештами, без жодного в 2024 році, "Порушення релігійного служіння" — 54 арешти за цим правопорушенням за останні 19 років, і звісно, "Викрадення". (Згідно з моїм дослідженням, F.C.A. P.I.N.O.S. означає "Закон про сімейний суд, Особа, що потребує нагляду".)

pic

Висновок

Як і з будь-яким хорошим великим набором даних, є безліч інших способів подальшого аналізу цього набору, і можливо, що згодом з'явиться другий випуск цієї статті. Дані про арешти дають широке уявлення про світ статистики злочинності, і чим більше ми всі будемо базувати наші погляди на злочинності на фактах такими, якими вони є, тим краще ми будемо готові почати розуміти злочинність, як з точки зору державної політики, так і повсякденного життя.

Перекладено з: The NYPD: What Does the Data Say?

Leave a Reply

Your email address will not be published. Required fields are marked *