Практики

4 метрики, которые мы отслеживаем для обеспечения бесперебойной работы многокомпонентной системы

4 метрики, которые мы отслеживаем для обеспечения бесперебойной работы многокомпонентной системы
Приложение продажи авиабилетов для компании Уральские авиалинии — один из наиболее сложных наших проектов с точки зрения инфраструктуры: над сервисом работают несколько отдельных команд, которые принадлежат разным компаниям. Мы занимаемся мобильным приложением и взаимодействуем с внутренней командой разработки Уральских, а также с другими их подрядчиками.

В системе, которая ежедневно обслуживает тысячи пользователей неизбежно возникают ошибки. Чтобы быстро разбираться, что происходит с системой, не исследуя каждый отдельный случай, мы выделили несколько метрик, которые позволяют с первого взгляда оценить ситуацию в целом.

Предположим, одна и та же ошибка происходит 91 раз. В старой системе логирования, когда наша служба поддержки получала автоматически сгенерированное письмо, этот факт был триггером для начала исследования проблемы и поиска путей решения.

В новой системе мы построили график зависимости числа ошибок от количества пользователей, и можем сразу увидеть, что ошибка происходит 91 раз у 15 пользователей. Если число пользователей и число ошибок пошли вверх, это сигнализировало бы об общей проблеме. Но если число ошибок растет, а число устройств остается небольшим, значит проблема может быть в самих пользователях и их поведении в системе.

image1.pngimage1.png

Если ошибка выглядит легитимно, затрагивает достаточное количество пользователей и воспроизводится, будет выпущен фикс. Чтобы быстро узнать, исправилась ли ситуация после запуска фикса, мы маркируем ее уникальным тегом и выводим график, отслеживающий случаи появления конкретной ошибки после запуска исправлений. Таким образом мы можем убедиться, что решение сработало и ошибка не воспроизводится.

Отдельный график показывает новые уникальные ошибки. Он позволяет быстро узнавать о возникновении новых проблем, особенно после запуска обновлений.

Таким образом, три графика позволяют быстро оценить ситуацию при возникновении ошибок и понять, какое вмешательство требуется со стороны службы технической поддержки.

Аксмор

Расскажите нам о вашей задаче — подумаем, как можно ее решить

1

Первый разговор — чтобы понять, сможем ли мы вам помочь.

2

Вместе с нашим СТО и архитектором обсудим вашу задачу.
Ответим на ваши вопросы.

3

Оценим проект.
Вы получите коммерческое предложение, включающее технические рекомендации и оценку рисков.

Имя*
Email*
Телефон
Кратко о проекте

Защищено Yandex Smartcaptcha: Уведомление об условиях обработки данных

Контакты

Напишите нам на почту sales@axmor.ru
или позвоните +7 (383) 363-10-24

Офис

630055, г. Новосибирск,
ул. Инженерная, 4а, левое крыло, 5 этаж