课程目标
随着互联网不断发展,各行业的业务呈现多样化,特别是系统进行了微服务/容器化改造后,系统架构越发复杂。为了支撑不断增长的用户和业务,对 IT 系统的稳定性要求也越来越高。高峰流量场景下的技术保障,是对系统稳定性的最高要求。每个行业的系统都是为业务服务的,当业务的流量激增,系统的稳定性就成了达成业务目标的关键点。那理解业务的目标并拆解成技术目标,找出系统问题点及应对方法去补齐目标和现状之间的差距,就成了技术部门要做的事情。系统稳定性保障具体应该怎么做?有哪些人要参与?运维在这中间起了什么作用?他们的痛难点如何解决?我们依据过往的经验总结出了 2 个技术保障概念及 1 套通用的解决方案流程,以顺丰为例,用实践结果验证我们的思考成果。
适用人群
在工作中对系统稳定性技术保障有一定关注,缺少经验的同学。比如:
1).对系统稳定性技术保障关注比较多,但是实践少的同学
2)想要了解行业前沿的系统稳定性技术的同学
3).对系统稳定性技术保障关注比较多,但是理论支撑少的同学
4).对系统稳定性保障工作如何开展,渴望寻找业务共鸣的同学
5)有心想要完善自身系统稳定性知识体系,找不到方法的人
课程概述
2).内容大纲:
1.系统稳定性技术保障的思考
1.1系统稳定性保障的最高要求——高峰流量场景下的保障
1.1.1各个行业的高峰流量场景
1.1.2不同行业的高峰流量事故案例举例
1.1.3流量高峰场景运维保障的痛点
1.2解决痛点的2个方向——两个技术保障概念
1.2.1零信任:持续验证,永不信任
1.2.2一五一十:问题一分钟发现五分钟定位十分钟解决
1.3如何做到零信任和一五一十
1.3.1零信任的实现思路
1.3.2一五一十的实现思路
1.3.3具体实现流程:运维作战手册
(1)事前备战的8大模块(重点讲运维关心的内容)
系统优化必做事项
限流、降级、熔断、容灾等预案梳理
最有效的验证手段:线上全链路压测演练
(2)事中执行的4大模块
(3)事后复盘的4大模块
(4)《作战手册》领取下载
1.3.4实现手段:开源工具推荐(Takin)
2.顺丰科技系统稳定性保障的落地实践
2.1高峰压测能力演进及行业对比
2.2在线压测遇到的挑战
2.3在线压测自研解决方案
2.4接入成熟平台的解决方案(Takin)
2.5两套方案的优劣势对比
2.6在线压测核心设计(数据安全隔离)
2.6.1应用隔离传递
2.6.2数据库隔离
2.6.3影子库、影子表
2.6.4MyCat隔离
2.6.5MQ隔离
2.6.6Redis隔离
2.6.7定时任务隔离
2.6.8Hbase隔离
2.6.9ES隔离
2.6.10JStorm隔离
2.6.11Flink隔离
2.7压测实施流程
2.7.1压测实施关键工作
2.7.2压测实施角色配合
2.8压测带来的价值
2.8.1对公司、企业带来的价值
2.8.2对于运维的价值
2.9未来规划
2.9.1与Takin结合的规划方向
2.9.2Takin开源信息推荐
课程目录
课程讲师
最近学习用户 133人报名试学
-
qiyisoft
-
tmqsoft
-
sunsky
课程评价