Site Reliability Engineering - это подход к организации IT Operations. Команды SRE используют программное обеспечение как инструмент для управления системами, решения проблем и автоматизации операционных задач.SRE берет на себя задачи, которые исторически выполнялись операторами и системными администраторами, часто вручную, и вместо этого передает их операционным группам, которые используют программное обеспечение и автоматизацию для решения проблем и управления системами.SRE - это практики создания масштабируемых и высоконадежных программных систем. SRE помогает управлять большими системами с помощью подхода "инфраструктура как код (IaC)", который является масштабируемым, самодокументируемым и воспроизводимым, позволяющим управлять тысячами компьютеров силами нескольких специалистов.
Курс подойдет для:
- Разработчиков, которые хотят получить дополнительные компетенции для работы в production окружениях- Системных инженеров, в задачи которых входит обеспечение надежности и доступности- Инфраструктурных и платформенных инженеров, которые начали предоставлять свои сервисы другим командам- Техническим директорам, руководителям и тимлидам, которые хотят разобраться и внедрить SRE практики и инструменты
На курсе вы узнаете, как:
- Что такое SRE и SRE-практики- Как внедрить SRE практики в своей организации- Как управлять надежностью, доступностью и эффективностью сервисов- Управлять изменениями- Осуществлять мониторинг и улучшать наблюдаемость системы- Реагировать на инциденты и проблемы с производительностью
Практические задания будем выполнять на базе следующего технологического стека: - Linux, Yandex Cloud, Kubernetes, Ansible, Terraform, Prometheus, Python.
По окончании курса вы будете:
- Ориентироваться в SRE-практиках и инструментах- Уметь разъяснить SRE-принципы коллегам- Понимать как выстраивать SRE-процессы в контексте взаимодействия с другими отделами компании- Сможете применять полученные знания в своей ежедневной работе, улучшая жизнь себе, коллегам, проекту и компании