课程目标
当今的组织在更复杂的技术环境中处理更多的变化,导致更高的中断和事故风险。运维团队必须提高服务可靠性和 系统弹性。随着自动化和可观察性成为更高效、更快速部署的关键因素,SRE 职位已成为增长最快的职位之一。 本次演讲主要介绍了 SRE 体系结构,核心概念、原理、思维方式和方法论,并通过结合 SRE 在哔哩哔哩的实践案例, 为参与者提供了具体的落地实践方法和执行流程,使其掌握提高业务稳定性的核心方法。
适用人群
在工作中对 SRE 站点可靠性工程感兴趣,缺少经验的同学。比如:
1)对 SRE 站点可靠性工程感兴趣,缺少相关实践少同学
2)想要了解行业前沿的业务连续性运营、可靠性保障技术的同学
3)对业务连续性运营关注比较多,缺少理论支撑的同学
4)对 SRE 站点可靠性工程的工作如何开展,渴望寻找业务共鸣的同学
5)有心想要完善 SRE 知识体系,找不到方法的人
课程概述
课程大纲:
1.SRE体系
1.1 什么是SRE
1.2 SRE和DevOps的区别
1.3 SRE原则和日常
2.服务质量目标和错误预算
2.1 服务质量目标SLO
2.2 错误预算
2.3 哔哩哔哩相关实践
3. 消减琐事
3.1 琐事的定义
3.2 琐事的根源和消减方法
3.3 哔哩哔哩的实践:流程引擎&作业引擎
4.监控和服务质量指标
4.1 服务质量指标
4.2 监控
4.3 可观测性
4.4 哔哩哔哩的实践:监控中心
5.元信息管理
5.1 元信息管理定义
5.2 必要性&收益
5.3 落地场景:CMDB、服务树、标签系统
6.应急响应
6.1 On-Call
6.2 事件&故障的定义
6.3 故障的全生命周期
6.4 哔哩哔哩的实践:事件运营中心
6.未来展望
课程目录
课程讲师
最近学习用户 132人报名试学
-
mouse
-
yangdingyu
-
sunsky
课程评价