课程目标

当今的组织在更复杂的技术环境中处理更多的变化,导致更高的中断和事故风险。运维团队必须提高服务可靠性和 系统弹性。随着自动化和可观察性成为更高效、更快速部署的关键因素,SRE 职位已成为增长最快的职位之一。 本次演讲主要介绍了 SRE 体系结构,核心概念、原理、思维方式和方法论,并通过结合 SRE 在哔哩哔哩的实践案例, 为参与者提供了具体的落地实践方法和执行流程,使其掌握提高业务稳定性的核心方法。

适用人群

在工作中对 SRE 站点可靠性工程感兴趣,缺少经验的同学。比如:
1)对 SRE 站点可靠性工程感兴趣,缺少相关实践少同学
2)想要了解行业前沿的业务连续性运营、可靠性保障技术的同学
3)对业务连续性运营关注比较多,缺少理论支撑的同学
4)对 SRE 站点可靠性工程的工作如何开展,渴望寻找业务共鸣的同学
5)有心想要完善 SRE 知识体系,找不到方法的人

课程概述

课程大纲:

1.SRE体系

1.1 什么是SRE

1.2 SRE和DevOps的区别

1.3 SRE原则和日常

2.服务质量目标和错误预算

   2.1 服务质量目标SLO

   2.2 错误预算

   2.3 哔哩哔哩相关实践

3. 消减琐事

   3.1 琐事的定义

   3.2 琐事的根源和消减方法

   3.3 哔哩哔哩的实践:流程引擎&作业引擎

4.监控和服务质量指标

   4.1 服务质量指标

   4.2 监控

   4.3 可观测性

   4.4 哔哩哔哩的实践:监控中心

5.元信息管理

   5.1 元信息管理定义

   5.2 必要性&收益

   5.3 落地场景:CMDB、服务树、标签系统

6.应急响应

   6.1 On-Call

   6.2 事件&故障的定义

   6.3 故障的全生命周期

   6.4 哔哩哔哩的实践:事件运营中心

6.未来展望


课程评价

课程讲师

SACC
  • 课程数
    60
  • 学生数
    17785
中国系统架构师大会每年都将邀请百余位行业专家,就热点技术话题进行分享,为数据库人群、大数据从业人员、广大互联网人士及行业相关人士提供最具价值的交流平台。

最近学习用户 132人报名试学

  • mouse

  • yangdingyu

  • sunsky