Практики

4 метрики, которые мы отслеживаем для обеспечения бесперебойной работы многокомпонентной системы

Приложение продажи авиабилетов для компании Уральские авиалинии — один из наиболее сложных наших проектов с точки зрения инфраструктуры: над сервисом работают несколько отдельных команд, которые принадлежат разным компаниям. Мы занимаемся мобильным приложением и взаимодействуем с внутренней командой разработки Уральских, а также с другими их подрядчиками.

В системе, которая ежедневно обслуживает тысячи пользователей неизбежно возникают ошибки. Чтобы быстро разбираться, что происходит с системой, не исследуя каждый отдельный случай, мы выделили несколько метрик, которые позволяют с первого взгляда оценить ситуацию в целом.

Предположим, одна и та же ошибка происходит 91 раз. В старой системе логирования, когда наша служба поддержки получала автоматически сгенерированное письмо, этот факт был триггером для начала исследования проблемы и поиска путей решения.

В новой системе мы построили график зависимости числа ошибок от количества пользователей, и можем сразу увидеть, что ошибка происходит 91 раз у 15 пользователей. Если число пользователей и число ошибок пошли вверх, это сигнализировало бы об общей проблеме. Но если число ошибок растет, а число устройств остается небольшим, значит проблема может быть в самих пользователях и их поведении в системе.

image1.png

Если ошибка выглядит легитимно, затрагивает достаточное количество пользователей и воспроизводится, будет выпущен фикс. Чтобы быстро узнать, исправилась ли ситуация после запуска фикса, мы маркируем ее уникальным тегом и выводим график, отслеживающий случаи появления конкретной ошибки после запуска исправлений. Таким образом мы можем убедиться, что решение сработало и ошибка не воспроизводится.

Отдельный график показывает новые уникальные ошибки. Он позволяет быстро узнавать о возникновении новых проблем, особенно после запуска обновлений.

Таким образом, три графика позволяют быстро оценить ситуацию при возникновении ошибок и понять, какое вмешательство требуется со стороны службы технической поддержки.

Ещё

Рассказываем о наших событиях
и делимся полезным

Как повышать качество разработки. Часть 1. DORA метрики, Control Chart и инциденты

Практики

Как повышать качество разработки. Часть 2. Автоматизация глобальных изменений UX/UI дизайн-систем

Мнения

4 метрики, которые мы отслеживаем для обеспечения бесперебойной работы многокомпонентной системы