13 октябРЯ 2017 / москва

UPTIME DAY

Вторая конференция Uptime day пройдёт в московском коворкинге Deworkacy. Главной темой дня станут фатальные происшествия в ИТ-инфраструктуре.
Спикеры из Badoo, Carprice, ITSumma, «Битрикс24», «Хабрахабра», «Делимобиля» и других компаний расскажут о своём опыте преодоления ИТ-катастроф, причинах их возникновения, работе команды по устранению и предотвращению, сделанных выводах, потерянных нервных клетках и последствиях для бизнеса.
Регистрация
Конференция бесплатная. Заполните заявку на участие:
Нажимая на кнопку «Отправить», вы даете согласие на отправку и обработку своих персональных данных.
Что такое uptime day
Конференция сообщества специалистов, которые занимаются оперативным реагированием на проблемы с веб-проектами, организуют мониторинг своих проектов и отказоустойчивую архитектуру.
Программа Uptime day
Регистрация начинается в 10:00.
Евгений Потапов
Менеджмент инцидентов и исследование жизненного цикла аварии
Обратной стороной технического прогресса в 20 веке стало большое количество техногенных катастроф. Эксплуатация высоконагруженных проектов — это такой же технологический процесс, какие ежедневно происходят в авиации, в медицине и крупной промышленности. В этих сферах многие десятилетия есть практика расследования крупных инцидентов и детального разбора причин произошедших аварий для того, чтобы избежать их в будущем. Однако в нашей сфере пой сей день отсутствуют единые практики, которые позволят не допустить повторения уже пройденных ошибок. Каждая компания подходит к этому вопросу на свой лад, зачастую не зная, что наступает на те же грабли, о которые сотни раз спотыкались их коллеги.
Круглосуточно поддерживая 350 клиентов, мы сталкиваемся в среднем с десятью серьезными авариями в день, при этом около половины из них происходит из-за человеческого фактора. Для нас важно обучить специалистов с обеих сторон тому, как можно избежать повторения подобных ситуаций в будущем.
В своем докладе я суммирую опыт, накопленный нами за девять лет работы, опыт наших коллег, и поделюсь им с участниками конференции.
В частности, на примере реальных аварий я покажу те методики и технологии, которые применяет ITSumma для решения уже возникших инцидентов и, что важнее, предотвращения их в будущем.
1. Фиксация того, как взаимодействуют между собой участники команды во время устранения аварии.
2. Создание и анализ пост-мортемов аварий.
3. Разработка рекомендаций и регламентов для нас и для клиентов.
4. Разработка программного обеспечения для менеджмента инцидентов.
5. Внедрение результатов анализа в ежедневные процедуры разработки и поддержки.
11:00 – 11:40
Александр Демидов
директор направления облачных сервисов Битрикс24
Зачем наступать на одни и те же грабли, если вокруг полно новых?
Закон Мерфи гласит: «Если какая-нибудь неприятность может произойти — она обязательно произойдёт». В докладе я расскажу, какие крупные (и не очень) неприятности случались в процессе работы облачного сервиса «Битрикс24», как мы проводим анализ инцидентов, что делаем для того, чтобы не повторять уже случившиеся ошибки, и как стараемся подготовиться к тем проблемам, которые еще не случились, но которые обязательно рано или поздно произойдут.
11:40 – 12:20
Григорий Земсков
Эксперт по информационной безопасности, руководитель Revisium
Анализ и устранение проблем безопасности на взломанных ресурсах
В последние пару лет наблюдается значительный рост числа взломов серверов и заражений сайтов. Это связано со снижением стоимости взлома, доступности хакерских инструментов, и, конечно, огромным числом способов монетизации подконтрольных ресурсов. Сайты и серверы могут атаковать прицельно, но большая часть взламывается в результате автоматизированных нецелевых атак. Независимо от вида атак на скомпрометированный ресурс загружается вредоносный код, который может создать массу проблем администратору — от высокого потребления ресурсов сервера до полного уничтожения данных. Поиск причин, оперативное и грамотное устранение последствий взлома определяют то, насколько быстро ресурсы вернутся в рабочий режим и произойдет ли повторный взлом/заражение в будущем.
Под защитой Revisium находятся более 11 000 веб-ресурсов. Ежедневно мы восстанавливаем, лечим и защищаем сайты, противодействуем хакерам и вымогателям. За семь лет работы у нас накопилась большая база знаний по безопасности сайтов и опыт работы с зараженными ресурсами, частью которого я поделюсь на конференции.
Я рассмотрю в практическом ключе методы поиска и удаления вредоносного кода на скомпрометированных сайтах и серверах, ошибки, которые допускают владельцы сайтов и администраторы ресурсов при работе с зараженными сайтами и предложу готовый чеклист для проведения аудита скомпрометированного сервера.
1. Типовые сценарии взлома сайтов/серверов через уязвимости и без них.
2. Ошибки «лечения» зараженных ресурсов.
3. Ручной и автоматизированный поиск «закладок» и «вредоносов» на сайтах и серверах.
4. Чеклист проверки сервера после взлома.
5. Правильный мониторинг безопасности сайтов.
12:20 — 13:00
Сергей Спорышев и Владимир Антипов
Руководитель отдела разработки высоконагруженных проектов ITSumma и директор билетного направления фестиваля «НАШЕСТВИЕ»
Главное приключение года: PHP VS 200K человек. Кто сильнее?
1. Предпосылки отказа от использования сторонних сервисов для продажи билетов и решения создания своей собственной системы.
2. Организация архитектуры, предполагающей продажу билетов как в онлайне, так и в офлайне.
3. Процессинг билетов и продажа билетов на территории фестиваля, или как мы вовремя отказались от кольца мастеров и построили 4 отдельных приложения, при этом сократив погрешность в бухгалтерских отчетах до нуля.
4. Проблемы микросервисной архитектуры, применяемой в реальной жизни.
13:00 — 13:40
Обед
13:40 – 14:40
Павел Брагин
Директор по бизнес-процессам Делимобиль
Сервис для реальных людей — как не делать ошибок
14:40 – 15:20
Илья Пятин
Что нам стоит склад построить?
Однажды нам потребовалось сменить место дислокации для тысячи автомобилей. Как мы это делали и при чём тут IT-специалисты.
15:20 – 16:00
Илья Аблеев
Руководитель отдела мониторинга Badoo
Постмортемы в Badoo
Нередко даже самые мелкие инциденты или изменения на продакшене приводят к негативным последствиям. Как сделать так, чтобы проблема больше не повторялась? Как оценить ущерб? Как рассказать об этом остальным?
Многие наверняка слышали про постмортем — процесс, благодаря которому IT-команда (будь то разработка или эксплуатация) может провести анализ произошедшего инцидента, сделать выводы и рассказать об этом всей компании.
В докладе я расскажу, как мы пишем постмортем у себя в компании: с момента поднятия вопроса «а постмортем будет?» до момента его публикации, как мы оцениваем последствия и как он помогает нам в будущем.
16:00 — 16:40
Вадим Рыбалко и Тимур Хасанов
Старший сисадмин Хабрахабра и руководитель отдела администрирования enterprise-проектов ITSumma
Основано на реальных событиях: четыре истории из жизни Хабра
1. DDoS в обход Куратора.
2. Проблемы с каналами на хабрасторэйдже.
3. Особенности администрирования MongoDB.
4. Что случилось, когда не продлили домен.
16:40 — 17:20
Олег Алексеев
Упал — не главное. Главное — вовремя поднялся
С момента запуска МоегоСклада прошло уже почти 10 лет. За это время инфраструктура росла вместе с количеством клиентов и объёмом предоставляемых услуг. Началось всё с уведомлений обычной электронной почтой. Довольно быстро пришли к использованию одной онлайн-службы мониторинга веб-ресурсов. Теперь мы используем 4 службы мониторинга. Все из них хороши в своей области, а в целом позволяют нам решать задачу в целом. На каждом этапе развития сервиса мы использовали тот набор компонентов и средств, который был достаточным и необходимым для поддержания доступности на довольно высоком уровне.
17:20 — 18:00
13 октября 2017 / коворкинг Deworkacy
Красный октябрь, Берсеневская набережная, 6 ст 3
Стать участником Uptime day
Конференция бесплатная. Для регистрации заполните форму:
Нажимая на кнопку «Отправить», вы даете согласие на отправку и обработку своих персональных данных.