Відомий щорічний фестиваль, що поєднує музику, кіно та інтерактивні медіа, привертає глобальну аудиторію. Клієнт вимагав спеціалізовану команду підтримки, готову вирішувати будь-які питання, що виникають під час заходу. TrackIt задовольнив цю потребу, надаючи послуги з інженерії надійності сайту (SRE).
Основним завданням для TrackIt було забезпечення високої продуктивності в умовах стресу, оперативне вирішення проблем для забезпечення безперервної надійності протягом усього заходу.
Залучення тривало три тижні: один тиждень до події, сам тиждень події та один тиждень після неї. Ключовим було негайне вирішення проблем, що вимагало часу на реагування до п'яти хвилин для всіх питань. Дві команди працювали змінами, щоб забезпечити безперервну підтримку для системи потокового відео, яка використовувалася під час заходу.
Клієнт уже налаштував архітектуру, але шукав відгуки та рекомендації для покращення. Робочі станції для артистів, що працюють на інстансах Amazon EC2 з ОС Windows і програмами для редагування відео, були попередньо налаштовані, і відповідальність TrackIt полягала в забезпеченні їх безперебійної роботи. Система завантаження медіа була налаштована через SFTP (Secure File Transfer Protocol) до інстансу EC2, підключеного до файлової системи Amazon FSx для OpenZFS, обраної клієнтом.
Забезпечення надійності сервісів
TrackIt впровадив низку заходів для забезпечення надійності інфраструктури під час заходу. Було створено добре організований графік чергувань, в якому дві команди працювали змінами, щоб забезпечити підтримку 24/7.
Було впроваджено систему оповіщення PagerDuty для забезпечення своєчасних реакцій, з системою створення квитків і політикою ескалації, що дозволяло командам вирішувати проблеми протягом жорсткого п'ятихвилинного інтервалу. Потокове відео постійно моніторилося для виявлення і усунення потенційних збоїв в режимі реального часу. Регулярно проводились огляди та сесії зворотного зв'язку для вдосконалення існуючої архітектури, підвищуючи її міцність і надійність.
Особлива увага була приділена робочим станціям для артистів, щоб забезпечити стабільну роботу інстансів EC2 з ОС Windows і програмами для редагування відео. Для системи завантаження медіа підтримувався ефективний налаштування SFTP до інстансу EC2 з безперебійним підключенням до файлової системи FSx.
Результат
Проактивний і оперативний підхід, який застосував TrackIt, забезпечив успішну та безперервну роботу фестивалю. Хороша координація роботи двох команд підтримки дозволила ефективно вирішувати всі проблеми протягом п'яти хвилин.
Потокове відео і робочі станції для артистів працювали безперебійно протягом всього заходу, дозволяючи артистам зосередитися на творчій роботі без технічних перешкод.
Крім того, TrackIt впровадив огляд архітектури за допомогою Well-Architected Framework Review (WAFR), щоб допомогти оптимізувати інфраструктуру клієнта на AWS. Огляд дозволив зміцнити безпеку і додатково оптимізувати витрати.
Залучення TrackIt дозволило ефективно керувати ситуацією під високим тиском, без переривань заходу. Клієнт висловив задоволення підтримкою та покращеннями, відзначивши цінність, яку принесла експертиза та відданість TrackIt.
Метрики
- SLA на реагування на інциденти в п'ять хвилин був постійно дотриманий протягом заходу.
- Час безвідмовної роботи системи зріс на 15%, забезпечивши безперебійне функціонування сервісу потокового відео.
- Витрати на інфраструктуру були оптимізовані на 10% завдяки рекомендаціям, отриманим у результаті огляду Well-Architected Framework (WAFR).
Перекладено з: Ensuring Infrastructure Reliability Under Pressure: TrackIt at a Major Global Festival