UPTIME DAY 4
12 АПРЕЛЯ, МОСКВА

Весенняя конференция 2019 года была посвящена обзору организации резервирования веб-проектов со сложной распределённой архитектурой — способам переключения с боевого окружения на резервное, а также разбору различных сценариев отката и переключения на резервную площадку в случае неудачного деплоя.

Докладчики рассказали о реальных кейсах, отражающих сложности и подводные камни организации резервирования в различных инфраструктурах, у которых, тем не менее, есть общая особенность — высокие нагрузки.
Что такое uptime day
Конференция сообщества специалистов, которые занимаются оперативным реагированием на проблемы с веб-проектами, организуют мониторинг своих проектов и отказоустойчивую архитектуру.
Программа Uptime day 4
Welcome-coffee и вступительное слово организаторов
10:30 - 11:00
Олег Ефимов, Александр Дымов
Badoo, software engineer, site reliability engineer

«Nginx + Keepalived: как надёжно отдавать 200k фоток в секунду»:

С чего всё начиналось: расскажем, как был устроен CDN в Badoo с использованием хардварного решения от F5 Networks.
Чем это продолжилось: покажем, как решение можно повторить на открытых и стандартных компонентах, сэкономив при этом $1mln.
Ну, и поговорим об особенностях конфигурации Nginx, Keepalived и IPVS.


Видео доклада.
11:00 – 11:40
Артём Карамышев
Mail.Ru Cloud Solutions, руководитель команды системного администрирования
«Как реализуется отказоустойчивая веб-архитектура в Mail.Ru Cloud Solutions»:

За последний год мы запустили 6 новых продуктов. Поэтому особенно важно, чтобы web-архитектура API сервисов MCS изначально была готова к быстрому росту пользовательской нагрузки.
Я расскажу, как мы применяем микросервисную архитектуру: такой подход позволяет легко наращивать мощности платформы, сохраняя высокую отказоустойчивость. А также раскрою особенности реализации последовательного и безопасного обновления кодовой базы продуктивной среды
.

Видео доклада.

12:00 - 12:40
Александр Демидов
«Битрикс24», директор направления облачных сервисов
«Быстро поднятое не считается упавшим»:

Чем более сложен веб-проект, тем больше у него потенциальных «точек отказа». Наша задача — обеспечить быструю и надёжную работу сервиса для клиентов, заранее «подстелив соломку».
Как резервировать разные сервисы, от серверов приложений и баз данных до очередей и объектных хранилищ? Как быстро и прозрачно переключаться в failover? Достаточно ли двух дата-центров для полного резервирования? Как убедиться, что резерв готов к работе в случае аварий? Отвечу на эти вопросы, опираясь на наш практический опыт.


Видео доклада.
13:00 — 13:40
Обед
Мы традиционно составим список хороших едален поблизости и предупредим их заранее, чтобы были готовы к наплыву клиентов в Uptime day 4.

Как только наши коллеги-дегустаторы вновь наедятся выберут оптимальные варианты, мы отправим вам перечень заведений с адресами.

14:00 – 14:50
Сергей Спорышев
ITSumma, начальник отдела высоконагруженных проектов
«Резервирование в K8s»:

Резервирование и Kubernetes — тема не то чтобы не исследованная, но пока практических кейсов в этом ключе не так много, как хотелось бы. Что ж, постараемся исправить эту ситуацию:
1) Зачем вообще резервировать k8s?
2) Основные способы резервирования кластера: параллельный деплой, Federation.
3) Особенности резервирования stateless-приложений.
4) Особенности резервирования statefull-приложений.
5) Процесс переключения на резервную площадку: все (?) возможные нюансы
.

Видео доклада.
15:00 – 15:40
Евгений Богомазов, Дмитрий Шемонаев
Qrator, сетевой R&D, руководитель службы эксплуатации
«Построение и эксплуатация отказоустойчивой
anycast-сети»:

BGP anycast — это не самое первое, о чем вы подумаете при балансировке нагрузки или резервировании. Но бывают случаи, когда это лучший вариант:
1) Какие есть варианты балансировки и в каких случаях стоит выбирать BGP anycast.
2) Проектирование и построение BGP anycast сети. О чем стоит подумать заранее, чтобы не было мучительно больно потом.
3) Эксплуатация BGP anycast. NOC как еще одно слово из трех букв
.

Видео доклада.
16:00 – 16:40
Егор Андреев
AdminDivision, основатель
«Failover: нас губит перфекционизм и лень»:

Любое резервирование — это усложнение системы. Любое усложнение — это плохо. И стоит честно признаться, какое время простоя действительно допустимо. Не занижать и не льстить себе.
А что дальше?
- Выбрать самую простую схему резервирования.
- Если что-то можно не резервировать или быстро поднять из бэкапа — так и поступать, не усложнять.
- Писать регламенты.
- Не лениться периодически тестить переключение. Иначе работать не будет.


Видео доклада.
17:00 — 17:40
Афтепати!
18:00 – ...
12 апреля 2019 / коворкинг Deworkacy
Красный октябрь, Берсеневская набережная, 6 ст 3
Made on
Tilda